Trabajo Práctico Nro. 3

Reconocimiento de Vocales

Objetivos
Entre los objetivos del Trabajo Práctico pueden mencionarse:
- Familiarizarse con las técnicas de reconocimiento basadas en comparación de patrones, a través de la implementación en Matlab de una aplicación sencilla para el reconocimiento de los sonidos asociados a las vocales /a/, /e/, /i/, /o/, /u/ .
- Familiarizarse con los algoritmos de clustering K-means, a través de su implementación en Matlab.
- Familiarizarse con las técnicas de extracción de característica en el dominio cepstral.

Problemas propuestos
- Se deberá generar una base de datos de entrenamiento con los sonidos /a/, /e/, /i/, /o/, /u/ , con varias instancias de cada sonido, emitida por diferentes locutores. Se generarán archivos de sonido con una duración aproximada de 20 cuadros con 160 muestras por cuadro y frecuencia de muestreo de 8 KHz. Los archivos se deberán procesar de manera de eliminar el ruido de fondo, usando, por ejemplo, el software Audacity. Una base de datos con estas características, compuesta por 8 emisiones de cada vocal puede descargarse desde aquí.
- Se generarán los vectores característicos (coeficientes cepstral) asociados a cada cuadro de cada archivo, mediante el comando rceps de Matlab. Se deberá eliminar el primer coeficiente cepstral (el correspondiente a cuefrencia nula), y se considerará una longitud igual a 15.
- Se generarán patrones de referencia asociados a cada una de las vocales calculando el centroide de los vectores característicos correspondientes a los datos de entrenamiento.
- Se evaluará el porcentaje de reconocimiento usando datos que no hayan sido usados en la etapa de entrenamiento. Se utilizarán la distancia Euclidea y la distancia de Mahalanobis, y se compararán los resultados obtenidos.
- Se computará la matriz de confusión, y se presentará una gráfica de la misma.
- Se generarán patrones de referencia asociados a cada una de las vocales utilizando el algoritmo de clustering de K-means (asumiendo que se desconoce a que vocal corresponde cada vector de entrenamiento). Se deberá evaluar el error de clasificación promedio.
- Se generarán vectores característicos compuestos por las frecuencias de los dos primeros formantes, correspondientes a cada cuadro de cada emisión. Se graficarán los vectores característicos en el plano F1, F2, correspondientes a las cinco vocales. El objetivo es ver si con estos vectores característicos las cinco clases son separables.
Juan Carlos Gómez, Octubre de 2011