11.07.2015 Views

Reconocimiento automático de emociones utilizando ... - sepln

Reconocimiento automático de emociones utilizando ... - sepln

Reconocimiento automático de emociones utilizando ... - sepln

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Procesamiento <strong>de</strong>l Lenguaje Natural, núm. 35 (2005), pp. 13-20 recibido 21-04-2005; aceptado 01-06-2005<strong>Reconocimiento</strong> automático <strong>de</strong> <strong>emociones</strong> <strong>utilizando</strong> parámetrosprosódicosIker LuengoUPV/EHUAlda. Urquijo s/nikerl@bips.bi.ehu.esEva NavasUPV/EHUAlda. Urquijo s/neva@bips.bi.ehu.esInmaculada HernáezUPV/EHUAlda. Urquijo s/ninma@bips.bi.ehu.esJon SánchezUPV/EHUAlda. Urquijo s/nion@bips.bi.ehu.esResumen: Este artículo presenta los experimentos realizados para i<strong>de</strong>ntificar automáticamentela emoción en una base <strong>de</strong> datos <strong>de</strong> habla emocional en euskara. Se han construido tresclasificadores diferentes: uno <strong>utilizando</strong> características espectrales y GMM, otro con parámetrosprosódicos y SVM y el último con características prosódicas y SVM. Se extrajeron 86características prosódicas y posteriormente se aplicó un algoritmo para seleccionar losparámetros más relevantes. El mejor resultado se obtuvo con el primero <strong>de</strong> los clasificadores,que alcanzó una precisión <strong>de</strong>l 98.4% cuando se utilizan 512 componentes gaussianas. Elclasificador construido con los 6 parámetros prosódicos más relevantes alcanza una precisión<strong>de</strong>l 92.3% a pesar <strong>de</strong> su simplicidad, <strong>de</strong>mostrando que la información prosódica es <strong>de</strong> granimportancia para i<strong>de</strong>ntificar <strong>emociones</strong>.Palabras clave: Habla emocional, reconocimiento <strong>de</strong> <strong>emociones</strong>Abstract: This paper presents the experiments ma<strong>de</strong> to automatically i<strong>de</strong>ntify emotion in anemotional speech database for Basque. Three different classifiers have been built: one usingspectral features and GMM, other with prosodic features and SVM and the last one withprosodic features and GMM. 86 prosodic features were calculated and then an algorithm toselect the most relevant ones was applied. The first classifier gives the best result with a 98.4%accuracy when using 512 mixtures, but the classifier built with the best 6 prosodic featuresachieves an accuracy of 92.3% in spite of its simplicity, showing that prosodic information isvery useful to i<strong>de</strong>ntify emotions.Keywords: Emotional speech, emotion recognition1 IntroducciónCon el progreso <strong>de</strong> las nuevas tecnologías y laintroducción <strong>de</strong> sistemas interactivos, se haincrementado enormemente la <strong>de</strong>manda <strong>de</strong>interfaces amigables para comunicarse con lasmáquinas. Dado que la voz es el medio <strong>de</strong>comunicación más natural para los humanos, esnecesario proporcionar a estas interfaces lacapacidad <strong>de</strong> generar y reconocer el habla. Yase han <strong>de</strong>sarrollado diferentes sistemas <strong>de</strong> estetipo, <strong>de</strong>s<strong>de</strong> avatares y mo<strong>de</strong>rnos juguetesinteractivos a sistemas automáticos <strong>de</strong> servicioal cliente, y existe una gran labor <strong>de</strong>investigación vinculada a este campo (Hozjan yKačič, 2003)(Petrushin, 2000)(Seppänen,Väyrynen y Toivanen, 2003).Actualmente, uno <strong>de</strong> los mayores objetivosen este tipo <strong>de</strong> interfaces es la naturalidad en lacomunicación hombre máquina. Para ello senecesitan sistemas <strong>de</strong> síntesis <strong>de</strong> habla <strong>de</strong> grancalidad y gramáticas <strong>de</strong> reconocimiento másflexibles. Pero, dado que los humanos ten<strong>de</strong>mosa expresar nuestro estado emocional a través <strong>de</strong>la voz, este tipo <strong>de</strong> interfaces naturales necesitatambién tener la capacidad <strong>de</strong> generar hablaemocional y <strong>de</strong> reconocer el estado emocional<strong>de</strong>l hablante.El objetivo <strong>de</strong> este trabajo es realizar unaprimera aproximación hacia un sistemaautomático <strong>de</strong> reconocimiento <strong>de</strong> <strong>emociones</strong> eneuskara. Más concretamente, el objetivo esISSN: 1135-5948© 2005 Sociedad Española para el Procesamiento <strong>de</strong>l Lenguaje Natural


<strong>Reconocimiento</strong> automático <strong>de</strong> <strong>emociones</strong> <strong>utilizando</strong> parámetros prosódicosse ha utilizado únicamente la primera parte <strong>de</strong>la base <strong>de</strong> datos que tiene textos comunes, yaque es la que contiene estilo neutro.El corpus correspondiente a esta parte <strong>de</strong> labase <strong>de</strong> datos contiene números, palabrasaisladas y frases <strong>de</strong> distinta duración. La Tabla1 muestra un resumen <strong>de</strong> este contenido. Entotal se dispone <strong>de</strong> 97 grabaciones para cadaemoción con una duración global <strong>de</strong> unos sieteminutos por emoción.V/UVEnergíaPitchVADCálculologaritmoCálculovelocidad yaceleraciónEstadísticas86característicasTipo <strong>de</strong> elemento CantidadNúmeros aislados 21Palabras aisladas 21Frases enunciativas cortas 10Frases interrogativas cortas 5Frases enunciativas medias 22Frases interrogativas medias 8Frases largas 10Total <strong>de</strong> elementos por emoción 97Tabla 1: Cantidad y tipo <strong>de</strong> los elementos <strong>de</strong> labase <strong>de</strong> datos por emoción3 Extracción <strong>de</strong> los parámetrosprosódicosEs conocido que existe una relación entre lainformación prosódica y la expresión <strong>de</strong><strong>emociones</strong> en el habla y que rasgos como laintensidad, la curva <strong>de</strong> frecuencia fundamental,la velocidad <strong>de</strong> locución son característicasimportantes en la discriminación <strong>de</strong> <strong>emociones</strong>en la voz (Iriondo et al., 2000)(Lay Nwe, WeiFoo y De Silva, 2003) (Montero et al.,1999)(Mozziconacci, 2000).Para este primer experimento sólo se hanutilizado características relacionadas con elpitch y la energía. En la Figura 2 se muestra elproceso <strong>de</strong> extracción <strong>de</strong> estas características.Las curvas <strong>de</strong> entonación y energía se extraen<strong>de</strong> las grabaciones, tanto en escala lineal comologarítmica. Se calculan las curvas <strong>de</strong> primera ysegunda <strong>de</strong>rivada, ya que la velocidad <strong>de</strong>cambio <strong>de</strong>l pitch y la energía pue<strong>de</strong>proporcionar nueva información que sea útilpara el reconocimiento. Finalmente se calculandistintos parámetros estadísticos a partir <strong>de</strong>todas estas curvas, <strong>utilizando</strong> la información <strong>de</strong>actividad vocal (VAD) y la <strong>de</strong> sonoridad(U/UV), ambas obtenidas asimismo a partir <strong>de</strong>las grabaciones.Figura 2: Diagrama <strong>de</strong> extracción <strong>de</strong> lascaracterísticas prosódicas3.1 Obtención <strong>de</strong> la curva <strong>de</strong>entonaciónUtilizando la señal <strong>de</strong>l laringógrafo, se obtuvouna curva <strong>de</strong> entonación con una gran precisiónpara cada una <strong>de</strong> las frases. Los valores <strong>de</strong> pitchse calcularon como la inversa <strong>de</strong>l tiempo quetranscurre entre dos instantes consecutivos <strong>de</strong>cierre <strong>de</strong> la glotis. Las curvas <strong>de</strong> entonación seestimaron con una frecuencia <strong>de</strong> muestreo <strong>de</strong>1 kHz, es <strong>de</strong>cir, se obtuvo una muestra <strong>de</strong> pitchcada milisegundo.La información <strong>de</strong> sonoridad (V/UV) seextrajo <strong>de</strong>tectando los segmentos en los queexistía información <strong>de</strong> cierre <strong>de</strong> la glotis y losque carecían <strong>de</strong> esta información.3.2 Obtención <strong>de</strong> la curva <strong>de</strong> energíaLas grabaciones se analizaron con ventanas <strong>de</strong>25 ms, cada 10 ms y se calculó el valor medio<strong>de</strong> la potencia <strong>de</strong> cada trama enventanada. Esteproceso proporciona una muestra <strong>de</strong> potenciacada 10 ms. Todas las curvas se normalizaron alvalor medio <strong>de</strong>l estilo neutro.3.3 Estimación <strong>de</strong> la actividad vocalPara po<strong>de</strong>r rechazar las tramas en las cuales nohay información vocal, es necesario realizar un<strong>de</strong>tector <strong>de</strong> la actividad vocal (Vocal ActivityDetector, VAD). De este modo, el nivel <strong>de</strong>ruido presente en las tramas <strong>de</strong> silencio nocorromperá las características calculadas. Seimplementó un VAD basado en el cálculo <strong>de</strong> la<strong>de</strong>sviación espectral a largo plazo (Long TermSpectral Deviation, LTSD) entre las tramasvocales y las <strong>de</strong> ruido. El sistema implementadoestá basado en el presentado por Ramírez et al.(2004), en el que se utiliza un umbral <strong>de</strong><strong>de</strong>cisión adaptativo para conseguir la mayoreficiencia para cada nivel <strong>de</strong> ruido.15


I. Luengo, E. Navas, I. Hernáez, J. Sánchez3.4 Estimación <strong>de</strong>l Jitter y el ShimmerEl Jitter y el Shimmer están relacionados conlas microvariaciones <strong>de</strong> pitch y <strong>de</strong> las curvas <strong>de</strong>potencia respectivamente. Por lo tanto pue<strong>de</strong>nser estimadas a partir <strong>de</strong> la velocidad <strong>de</strong> cambio<strong>de</strong> la pendiente <strong>de</strong> estas curvas. En este trabajo,el Jitter y el Shimmer se han estimado como elnúmero <strong>de</strong> cruces por cero <strong>de</strong> las curvas<strong>de</strong>rivadas. El resultado se normalizó al número<strong>de</strong> tramas utilizadas para el cálculo (tramassonoras para el Jitter y tramas con actividadvocal para el Shimmer), para tener en cuenta laduración <strong>de</strong> la frase.3.5 Cálculo <strong>de</strong> las característicasprosódicasComo no existe un conocimiento a priori <strong>de</strong> lascaracterísticas que van a proporcionar un mejorresultado en el reconocimiento <strong>de</strong> <strong>emociones</strong>,se consi<strong>de</strong>ró más a<strong>de</strong>cuado calcular un grannúmero <strong>de</strong> parámetros diferentes y <strong>de</strong>scartarposteriormente aquéllos que resultaranredundantes.Una vez se han obtenido las curvas <strong>de</strong> pitchy energía, así como sus primeras y segundas<strong>de</strong>rivadas, se calcularon distintos parámetrosestadísticos para cada una <strong>de</strong> ellas:• Valor medio• Varianza• Valor máximo• Valor mínimo• Rango• Sesgo• KurtosisEl cálculo <strong>de</strong> las características relacionadascon el pitch se realizó teniendo en cuentaúnicamente las tramas en las que existía valor<strong>de</strong> pitch y <strong>de</strong>scartando las tramas sordas. Demanera similar, las características relacionadascon la energía se calcularon <strong>utilizando</strong> sólo lastramas para las cuales el VAD <strong>de</strong>tectó actividadvocal.Para cada frase se obtuvieron 12 curvas(pitch, energía, sus versiones logarítmicas y laprimera y segunda <strong>de</strong>rivada <strong>de</strong> cada una <strong>de</strong>ellas) y para cada curva se calcularon los sieteparámetros estadísticos mencionados. De estemodo se obtuvieron 84 características para cadafrase. Añadiendo el Jitter y el Shimmer seobtienen los 86 parámetros prosódicos por frasefinalmente utilizados en los experimentos.4 Experimentos y resultadosSe han realizado tres experimentos <strong>de</strong>clasificación diferentes: el primero <strong>de</strong> ellos, conun sistema GMM tradicional y característicasespectrales; el segundo, con SVM ycaracterísticas prosódicas y el último con unsistema GMM y características prosódicas.La precisión <strong>de</strong> cada sistema se calculó conuna prueba Jack-knife. Primeramente, las frases<strong>de</strong> cada emoción se aleatorizaron y <strong>de</strong>spués sedividieron en cinco grupos. Esta aleatorizaciónasegura que los bloques estén equilibrados, yaque la base <strong>de</strong> datos contiene diferentes tipos <strong>de</strong>elementos (<strong>de</strong>s<strong>de</strong> palabras aisladas a frases <strong>de</strong>larga duración). Se entrenaron cinco sistemasdiferentes y se realizaron cinco tests siguiendoun método <strong>de</strong> validación cruzada (crossvalidation).Cuando se completaron los cincotests, se calculó la matriz general <strong>de</strong> confusióny la tasa <strong>de</strong> precisión global. Esta precisión seestimó como la razón <strong>de</strong>l número <strong>de</strong> frasescorrectamente clasificadas al número total <strong>de</strong>frases presentes en los tests.4.1 GMM con característicasespectralesLas grabaciones <strong>de</strong> la base <strong>de</strong> datos seconvirtieron en coeficientes Mel-Cepstrum(MFCC), con primeras y segundas <strong>de</strong>rivadas,<strong>utilizando</strong> tramas <strong>de</strong> 25 ms cada 10 ms, ventanaHamming y un factor <strong>de</strong> preénfasis <strong>de</strong> 0.97.Para entrenar y probar los GMM se utilizó elsoftware HTKv3 (Young et al., 2000). Elentrenamiento <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> unacomponente se realizó con tres ciclos <strong>de</strong>entrenamiento <strong>de</strong> Baum-Welch. Los mo<strong>de</strong>los <strong>de</strong>varias componentes se entrenaron a partir <strong>de</strong>lconjunto <strong>de</strong> dos componentes gaussianas, en unproceso iterativo en el cual el número <strong>de</strong>componentes gaussianas se incrementa en dos yse aplican dos iteraciones <strong>de</strong> reestimación <strong>de</strong>Baum-Welch hasta que se alcanza el número<strong>de</strong>seado <strong>de</strong> componentes gaussianas.La Figura 3 muestra la precisión obtenida eneste experimento para cada número <strong>de</strong>componentes gaussianas. Como era <strong>de</strong> esperar,la precisión <strong>de</strong>l sistema se incrementa alaumentar el número <strong>de</strong> componentesgaussianas, hasta que se alcanza el nivel <strong>de</strong>saturación. La Tabla 2 muestra la matriz <strong>de</strong>confusión para el caso <strong>de</strong> 512 componentesgaussianas.16


<strong>Reconocimiento</strong> automático <strong>de</strong> <strong>emociones</strong> <strong>utilizando</strong> parámetros prosódicosSALIDAPrecisión100%95%90%85%80%75%70%65%79,4%69,1%90,0%84,5%95,4%96,3%97,2%97,8%98,2%98,4%1 2 4 8 16 32 64 128 256 512Número <strong>de</strong> componentes gaussianasFigura 3: Precisión en el reconocimiento conparámetros MFCC y GMM, para un númerodiferente <strong>de</strong> componentes gaussianasENTRADAIra Mied Sor Asc Aleg Tris NeuIra 97 - - - - - 1Mied - 96 - - - - -Sor - 1 97 - - - -Asc - - - 93 - - -Aleg - - - - 93 - -Tris - - - 1 - 97 1Neu - - - 3 4 - 95Prec(%) 100 99.0 100 95.9 95.9 100 97.9realizado tres selecciones <strong>de</strong> parámetrosconsecutivas, se elimina el parámetro menosútil, es <strong>de</strong>cir, aquél que tras ser eliminadoreduce en menor medida la precisión <strong>de</strong>lclasificador.Los resultados <strong>de</strong> este experimento semuestran en la Figura 4. Aunque los resultadosque se obtienen <strong>utilizando</strong> un menor número <strong>de</strong>parámetros son ligeramente peores que cuandose utilizan los 86, el coste computacionalnecesario para la extracción <strong>de</strong> los parámetros yel entrenamiento <strong>de</strong> un sistema <strong>de</strong> talcomplejidad pue<strong>de</strong> no merecer la pena.Utilizando únicamente 6 parámetros, se obtieneuna precisión <strong>de</strong>l 92.32%, sólo un 1.18% menosque usando los 86 parámetros.Precisión95%90%85%88,2%90,3%91,0%92,3%91,1%91,7%91,7%91,6%Tabla 2: Matriz <strong>de</strong> confusión con MFCC yGMM <strong>de</strong> 512 componentes gaussianas80%83,6%2 3 4 5 6 7 8 9 10Número <strong>de</strong> parámetros4.2 SVM con características prosódicasPara el entrenamiento y las pruebas <strong>de</strong> los SVMse utilizó la librería <strong>de</strong> funciones LibSVM(Chang y Lin, 2005). Para la clasificaciónmulticlase se utilizó un kernel gaussiano y unaaproximación uno contra uno.En un primer experimento, se utilizaron las86 características prosódicas calculadas y sealcanzó una precisión total <strong>de</strong>l 93.50%. Detodos modos es <strong>de</strong> esperar que muchas <strong>de</strong> estascaracterísticas prosódicas sean redundantes,sobre todo si se consi<strong>de</strong>ra que en su cálculo sehan utilizado dos versiones diferentes <strong>de</strong> lasmismas curvas, una en escala lineal y otra enescala logarítmica. Por ello se implementó unsistema <strong>de</strong> selección <strong>de</strong> características.Para la selección <strong>de</strong> las características seutilizó un método wrapper a<strong>de</strong>lante 3-atrás 1.Durante este proceso, en cada paso seselecciona el parámetro que maximiza laprecisión <strong>de</strong>l sistema. Esta precisión se obtieneentrenando un clasificador completamentenuevo con un Jack-knife test. Una vez se hanFigura 4: Precisión <strong>de</strong>l reconocimiento conparámetros prosódicos y SVM, para distintonúmero <strong>de</strong> parámetrosLa Tabla 3 presenta la matriz <strong>de</strong> confusiónpara el caso en el que se utilizan únicamente losseis mejores parámetros, que son:• Valor medio <strong>de</strong>l pitch en escala lineal• Valor medio <strong>de</strong> la energía en escalalineal• Varianza <strong>de</strong>l pitch en escala lineal• Sesgo <strong>de</strong>l pitch en escala logarítmica• Rango <strong>de</strong>l pitch en escala logarítmica• Rango <strong>de</strong> la energía en escalalogarítmica17


I. Luengo, E. Navas, I. Hernáez, J. SánchezSALIDAENTRADAIra Mied Sor Asc Aleg Tris NeuIra 92 - - 1 2 - -Mied - 94 9 - - - -Sor - 3 88 - - - -Asc - - - 80 - 4 3Aleg 2 - - - 88 - 1Tris 2 - - 10 - 93 1Neu 1 - - 6 7 - 92Prec(%) 94.9 96.9 90.7 82.5 90.7 95.9 94.9SALIDAENTRADAIra Mied Sor Asc Aleg Tris NeuIra 89 2 4 - 4 - -Mied - 90 8 - - - -Sor 1 5 83 - - - -Asc 2 - - 73 14 1Aleg 4 - - - 82 - 8Tris - - - 14 - 83 1Neu 1 - - 10 11 - 87Prec(%) 91.8 92.8 87.4 75.3 84.5 85.6 89.7Tabla 3: Matriz <strong>de</strong> confusión con SVM y los 6mejores parámetros prosódicos4.3 GMM con característicasprosódicasEn este experimento se utilizó también elsoftware HTKv3 para el entrenamiento y test <strong>de</strong>los GMM. Debido al uso <strong>de</strong> un test Jack-knife ya que se obtuvo un único vector <strong>de</strong>características para cada frase, sólo se disponía<strong>de</strong> unos 80 vectores para el entrenamiento <strong>de</strong>lmo<strong>de</strong>lo. Por ello, dada la falta <strong>de</strong> material <strong>de</strong>entrenamiento, se utilizaron mo<strong>de</strong>los <strong>de</strong> unasola componente gaussiana. Estos mo<strong>de</strong>losfueron creados con tres iteraciones <strong>de</strong>entrenamiento Baum-Welch.Se realizaron dos experimentos, uno con los86 parámetros calculados y otro sólo con los 6parámetros que dieron mejor resultado en elclasificador SVM. Mientras el sistema con 86parámetros obtuvo una precisión <strong>de</strong>l 84.79%, el<strong>de</strong> 6 características mejoraba este resultado conuna precisión <strong>de</strong>l 86.71%. Este aumento <strong>de</strong> laprecisión cuando se utilizan menos parámetrospue<strong>de</strong> ser <strong>de</strong>bido a que los mo<strong>de</strong>los con muchosparámetros están <strong>de</strong>masiado adaptados a losdatos <strong>de</strong> entrenamiento y no son capaces <strong>de</strong>generalizar correctamente. La Tabla 4 y laTabla 5 muestran las matrices <strong>de</strong> confusión enestos dos casos.SALIDAENTRADAIra Mied Sor Asc Aleg Tris NeuIra 88 3 4 1 4 - -Mied 1 89 13 - - 1 -Sor 1 5 78 - - - -Asc 3 - - 76 1 7 2Aleg 4 - - 3 68 - 8Tris - - - 7 - 89 1Neu - - - 10 24 - 86Prec(%) 90.7 91.8 82.1 78.4 70.1 91.8 88.7Tabla 4: Matriz <strong>de</strong> confusión con GMM y los86 parámetros prosódicosTabla 5: Matriz <strong>de</strong> confusión con GMM y los 6mejores parámetros prosódicos5 ConclusionesLos resultados <strong>de</strong> los trabajos <strong>de</strong>reconocimiento <strong>de</strong> <strong>emociones</strong> son difíciles <strong>de</strong>comparar, porque se utilizan bases <strong>de</strong> datosmuy distintas. Algunos trabajos utilizan vozactuada, mientras otros recogen <strong>emociones</strong>verda<strong>de</strong>ras; unos utilizan bases <strong>de</strong> datosmultilocutor y otros no; el conjunto <strong>de</strong><strong>emociones</strong> básicas consi<strong>de</strong>radas no es el mismoen todos los casos…Posiblemente el trabajo <strong>de</strong> Hozjan y Kačič,(2003) es el más próximo al presentado en esteartículo, ya que se utilizó voz actuada y unúnico locutor, con el mismo conjunto <strong>de</strong><strong>emociones</strong> básicas. En su artículo Hozjan yKačič <strong>de</strong>scriben el uso <strong>de</strong> la base <strong>de</strong> datosmultilingüe INTERFACE (Tchong et al., 2000)para entrenar y probar un clasificador <strong>de</strong><strong>emociones</strong> <strong>de</strong>pendiente <strong>de</strong>l locutor basado en144 parámetros estadísticos calculados a partir<strong>de</strong> diferentes características prosódicas.Obtenían una precisión <strong>de</strong> entre el 60% y el90% <strong>de</strong>pendiendo <strong>de</strong>l idioma consi<strong>de</strong>rado,<strong>utilizando</strong> re<strong>de</strong>s neuronales. Se han realizadootros trabajos <strong>de</strong> reconocimiento <strong>de</strong> <strong>emociones</strong>entre los cuales cabe <strong>de</strong>stacar los siguientes.Petrushin (2000) alcanza una precisión <strong>de</strong>l63.5% en entornos multilocutor consi<strong>de</strong>randocuatro <strong>emociones</strong> y estilo neutro en una base <strong>de</strong>datos <strong>de</strong> habla actuada. Utiliza estadísticos <strong>de</strong>parámetros relacionados con la entonación, laenergía y los formantes <strong>de</strong> los sonidos <strong>de</strong> cadafrase. Seppänen, Väyrynen y Toivanen (2003)obtienen una precisión <strong>de</strong>l 80.7% con sólo tres<strong>emociones</strong> y estilo neutro, calculandoestadísticos <strong>de</strong> entonación y energía y<strong>utilizando</strong> la técnica kNN (k Nearest Neighbor).Finalmente, Nogueiras et al. (2001) alcanzan unresultado <strong>de</strong>l 82.5% <strong>de</strong> precisión en un entornomultilocutor, consi<strong>de</strong>rando las mismas<strong>emociones</strong> que se han tenido en cuenta en18


<strong>Reconocimiento</strong> automático <strong>de</strong> <strong>emociones</strong> <strong>utilizando</strong> parámetros prosódicosnuestro trabajo. Para ello utilizaron HMM y laevolución temporal <strong>de</strong> parámetros prosódicos.En cuanto a la capacidad <strong>de</strong> los parámetrosprosódicos <strong>de</strong> diferenciar las <strong>emociones</strong>, apartir <strong>de</strong> los resultados obtenidos en este trabajoes claro que los clasificadores tradicionalesbasados en GMM y características espectralesalcanzan mejores resultados que los construidoscon parámetros prosódicos. De todos modos, es<strong>de</strong> remarcar que un clasificador sencillo basadoen SVM con tan solo 6 parámetros prosódicosalcanza una precisión <strong>de</strong>l 92.32%, únicamenteun 6% menos que un sistema GMM-MFCC <strong>de</strong>512 componentes gaussianas. Este incremento<strong>de</strong>l error pue<strong>de</strong> ser compensado con lareducción <strong>de</strong>l tiempo <strong>de</strong> entrenamiento y prueba<strong>de</strong>l sistema. A<strong>de</strong>más, consi<strong>de</strong>rando que ambossistemas utilizan parámetros <strong>de</strong> distinto tipo, es<strong>de</strong> esperar que la fusión <strong>de</strong> ambos proporcionemejores resultados, especialmente, si se trabajaen entornos más complejos, tipo multilocutor,multisesión u otros.Otro aspecto <strong>de</strong>stacable es la incapacidad <strong>de</strong>los evaluadores para i<strong>de</strong>ntificar el asco, frente alos resultados obtenidos por los sistemasautomáticos. El asco es una emoción pocofrecuente, para la que los humanos estamospoco entrenados en comparación con otras<strong>emociones</strong> más habituales. En otras palabras,para realizar la prueba <strong>de</strong> evaluación losevaluadores no fueron entrenados previamente,como lo ha sido el sistema automático.Dado que en este trabajo se ha utilizado vozactuada, las <strong>emociones</strong> pue<strong>de</strong>n estarsobreactuadas, y los resultados <strong>de</strong> clasificaciónen condiciones reales pue<strong>de</strong>n ser peores. Aunasí, es un buen punto <strong>de</strong> partida para analizarcómo la información prosódica pue<strong>de</strong> colaboraren las tareas <strong>de</strong> reconocimiento <strong>de</strong> <strong>emociones</strong>.Estos resultados son muy esperanzadores.Como los parámetros prosódicos a largo plazoparecen estar muy poco correlados con lascaracterísticas espectrales a corto plazo(Campbell, Reynolds y Dunn, 2003), es <strong>de</strong>esperar que el uso combinado <strong>de</strong> los dos tipos<strong>de</strong> parámetros reduzca todavía más el error <strong>de</strong>clasificación.Los trabajos futuros incluyen consi<strong>de</strong>rarotros parámetros, como la duración <strong>de</strong> lossonidos para estimar la velocidad <strong>de</strong> locución.También se realizará fusión <strong>de</strong> expertos, paraque la información espectral que cambia con eltiempo y los parámetros prosódicos a largoplazo trabajen juntos para reducir el error <strong>de</strong>lsistema.6 Agra<strong>de</strong>cimientosEste trabajo ha sido parcialmente financiado porel Ministerio <strong>de</strong> Ciencia y Tecnología(TIC2003-08382-C05-03) y la Universidad <strong>de</strong>lPaís Vasco (UPV-0147.345-E-14895/2002).BibliografíaBoula <strong>de</strong> Mareüil, P., Célérier, P. y J., Toen.2002. Generation of Emotions by aMorphing Technique in English, French andSpanish. En Proceedings of Speech Prosody.páginas 187-190.Burkhardt, F. y W. F. Sendlmeier. 2000.Verification of Acoustical Correlates ofEmotional Speech using Formant-Synthesis.En Proceedings of ISCA Workshop onSpeech and Emotion, páginas 151-156.Campbell, J., Reynolds, D. y R. Dunn. 2003.Fusing High and Low Level Features forSpeaker Recognition, Proceedings ofEurospeech’03, páginas 2665-2668.Cowie, R. y R. Cornelius. 2003. Describing theEmotional States that are Expressed inSpeech. Speech Communication 40(1,2): 2-32.Chang, Ch. y Ch. Lin. 2005. LIBSVM: aLibrary for Support Vector Machines,software disponible enhttp://www.csie.ntu.edu.tw/~cjlin/libsvmHozjan, V. y Z. Kačič. 2003. ImprovedEmotion Recognition with Large Set ofStatistical Features. En Proceedings ofEurospeech’03, páginas 133-136, Ginebra.Iida, A., Campbell, N., Higuchi, F. y M.Yasumura. 2003. A Corpus-based SpeechSynthesis System with Emotion. SpeechCommunication 40(1,2): 161-187.Iriondo, I., Guaus, R., Rodríguez, A., Lázaro,P., Montoya, N., Blanco, J., Bernardos, D.,Oliver, J., Tena, D. y L. Longhi. 2000.Validation of an Acoustical Mo<strong>de</strong>lling ofEmotional Expression in Spanish usingSpeech Synthesis Techniques. EnProceedings of ISCA Workshop on Speechand Emotion, páginas 161-166.Lay Nwe, T., Wei Foo, S. y L. De Silva. 2003.Speech Emotion Recognition Using Hid<strong>de</strong>nMarkov Mo<strong>de</strong>ls. Speech Communication41(4): 603-623.19


Montero, J.M., Gutierrez-Arriola, J.,Palazuelos, S., Enríquez, E., Aguilera, S. yJ.M. Pardo. 1999. Emocional SpeechSíntesis: from Speech Database to TTS. EnProceedings of ICPhS’99, páginas 957-960.Mozziconacci, S. 2000. The Expression ofemotion Consi<strong>de</strong>red in the Framework of anIntonation Mo<strong>de</strong>l. En Proceedings of ISCAWorkshop on Speech and Emotion, páginas45-52.Navas, E., Hernáez, I., Castelruiz, A. y I.Luengo. 2000. Obtaining and Evaluating anEmotional Database for Prosody Mo<strong>de</strong>llingin Standard Basque. Lecture Notes onArtificial Intelligence 3206: 393-400.Nogueiras, N., Moreno, A., Bonafonte, A. y J.Mariño. 2001. Speech Emotion RecognitionUsing Hid<strong>de</strong>n Markov Mo<strong>de</strong>ls, EnProceedings of Eurospeech’01, páginas2679-2682.Petrushin, V.A. 2000. Emotion Recognition inSpeech Signal: Experimental Study,Development and Application. EnProceedings of ICSLP’00, páginas 222-225,Denver.Ramirez, J., Segura, J., Benitez, C., <strong>de</strong> la Torre,A. y A. Rubio. 2004. Efficient VoiceActivity Detection Algorithms Using LongTerm Speech Information. SpeechCommunication 42: 271-287.Seppänen, T., Väyrynen, E y J. Toivanen. 2003.Prosody Based Classification of Emotions inSpoken Finnish. En Proceedings ofEurospeech’03, páginas 717-720, Ginebra.Scherrer, K.R.. 2003. Vocal Communication ofEmotion: A Review of Research Paradigms.Speech Communication 40: 227-256.Tchong, C., Toen, J., Kacic, Z., Moreno, A. yA. Nogueiras. 2000. Emotional speechsynthesis database recordings. InformeTécnico. IST–1999–No 10036–D2,INTERFACE Project.Young, S., O<strong>de</strong>ll, J., Ollason, D., Valchev, V. yP. Woodlans. 2000. The HTK book,Cambridge University, Cambridge.I. Luengo, E. Navas, I. Hernáez, J. Sánchez20

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!