Problemas propuestos
- Se deberá generar una base de datos de entrenamiento con los sonidos
/a/, /e/, /i/, /o/, /u/ , con varias instancias de cada sonido, emitida
por diferentes locutores. Se generarán archivos de sonido con una duración
aproximada de 20 cuadros con 160 muestras por cuadro y frecuencia de muestreo de
8 KHz. Los archivos se deberán procesar de manera de eliminar el ruido de fondo,
usando, por ejemplo, el software Audacity. Una base de datos con estas características, compuesta
por 8 emisiones de cada vocal puede descargarse desde aquí.
- Se generarán los vectores característicos (coeficientes cepstral) asociados
a cada cuadro de cada archivo, mediante el comando rceps de Matlab. Se deberá
eliminar el primer coeficiente cepstral (el correspondiente a cuefrencia nula), y
se considerará una longitud igual a 15.
- Se generarán patrones de referencia asociados a cada una de las vocales
calculando el centroide de los vectores característicos correspondientes a los
datos de entrenamiento.
- Se evaluará el porcentaje de reconocimiento usando datos que no hayan sido
usados en la etapa de entrenamiento. Se utilizarán la distancia Euclidea y la
distancia de Mahalanobis, y se compararán los resultados obtenidos.
- Se computará la matriz de confusión, y se presentará una gráfica de
la misma.
- Se generarán patrones de referencia asociados a cada una de las vocales
utilizando el algoritmo de clustering de K-means (asumiendo que se desconoce a
que vocal corresponde cada vector de entrenamiento). Se deberá evaluar el error
de clasificación promedio.
- Se generarán vectores característicos compuestos por las frecuencias de los
dos primeros formantes, correspondientes a cada cuadro de cada emisión. Se
graficarán los vectores característicos en el plano F1, F2, correspondientes a
las cinco vocales. El objetivo es ver si con estos vectores característicos las
cinco clases son separables.
Juan Carlos Gómez, Octubre de 2011