Desarrollo del Trabajo
- Para las tareas de entrenamiento y reconocimiento se usará la base de datos
compilada durante varios dictados del curso. Cada palabra (dígito) de la base de
datos es un archivo WAV, obtenido grabando, con una tasa de muestreo de
11025 Hz, a 25 locutores repitiendo 3 veces cada dígito. Las señales han sido procesadas
para reducción de ruido. Los archivos han sido nombrados con la siguiente codificación.

- Base de Datos de Dígitos del 0 al 9 (digitos_11025Hz.rar)
- Se deberá completar la base de datos hasta alcanzar los 50 locutores, con tres
instancias de cada dígito por locutor.
- Se implementarán algoritmos para la normalización temporal (Dynamic Time Warping)
de los dígitos de entrenamiento y se generarán patrones para cada uno de los
dígitos del 0 al 9 usando como vectores característicos los coeficientes cepstral
de los dígitos correspondientes, divididos en frames de 20-30 mseg de duración.
- Se implementará un algoritmo reconocimiento basado en comparación de patrones,
utilizando la distancia de Mahalanobis como medida de similitud entre
el dígito a reconocer y cada uno de los patrones.
- Se evaluará el porcentaje de reconocimiento usando datos que no hayan sido
usados en la etapa de entrenamiento.
- Se implementará un algoritmo de reconocimiento basado en HMM. Se utilizará
para ello el Hidden Markov Model (HMM) Toolbox for Matlab escrito
por Kevin Murphy (1998) (ver
http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html por detalles). Puede descargar
el Toolbox desde aquí .
- Se evaluará el porcentaje de reconocimiento usando datos que no hayan sido
usados en la etapa de entrenamiento.
- Se computará la matriz de confusión y se mostrará como una imagen.
- Se comparará la performance de reconocimiento de las dos técnicas implementadas.
Juan Carlos Gómez, Noviembre de 2023.