on de emociones en voz espont - ATVS - Universidad Autónoma de ...
on de emociones en voz espont - ATVS - Universidad Autónoma de ...
on de emociones en voz espont - ATVS - Universidad Autónoma de ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Universidad</strong> <strong>Autónoma</strong> <strong>de</strong> Madrid<br />
Escuela Politécnica Superior<br />
Proyecto fin <strong>de</strong> carrera<br />
DETECCIÓN DE EMOCIONES EN VOZ<br />
ESPONTÁNEA<br />
Ing<strong>en</strong>iería Superior <strong>en</strong> Telecomunicación<br />
Carlos Ortego Resa<br />
Julio 2009
2<br />
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA
DETECCIÓN DE EMOCIONES EN VOZ<br />
ESPONTÁNEA<br />
AUTOR: Carlos Ortego Resa<br />
TUTOR: Ignacio López Mor<strong>en</strong>o<br />
Grupo <strong>ATVS</strong><br />
Dpto. <strong>de</strong> Ing<strong>en</strong>iería Informática<br />
Escuela Politécnica Superior<br />
<strong>Universidad</strong> <strong>Autónoma</strong> <strong>de</strong> Madrid<br />
Julio 2009<br />
1
2<br />
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA
Resum<strong>en</strong><br />
Resum<strong>en</strong><br />
En este proyecto <strong>de</strong> fin <strong>de</strong> carrera se pres<strong>en</strong>tan nuevos métodos a<strong>de</strong>más <strong>de</strong>l estado <strong>de</strong>l<br />
arte <strong>de</strong> las técnicas exist<strong>en</strong>tes para el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoción <strong>en</strong> el habla. Se<br />
emplean técnicas discriminativas como SVM (Support Vector Machines) y estadísticas como<br />
GMM (Gaussian Mixture Mo<strong>de</strong>ls). A partir <strong>de</strong> estas técnicas se implem<strong>en</strong>tan dos tipos <strong>de</strong><br />
sistemas: fr<strong>on</strong>t-<strong>en</strong>d y back-<strong>en</strong>d. Los primeros usan la señal <strong>de</strong> <strong>voz</strong> como <strong>en</strong>trada y produc<strong>en</strong> a<br />
la salida unas puntuaci<strong>on</strong>es. Los segundos utilizan como <strong>en</strong>trada las puntuaci<strong>on</strong>es <strong>de</strong> salida <strong>de</strong>l<br />
sistema fr<strong>on</strong>t-<strong>en</strong>d para obt<strong>en</strong>er a la salida otras puntuaci<strong>on</strong>es.<br />
Se realizará a<strong>de</strong>más un exam<strong>en</strong> completo <strong>de</strong> estos sistemas, <strong>de</strong>s<strong>de</strong> el c<strong>on</strong>junto <strong>de</strong> datos <strong>de</strong><br />
<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test, influ<strong>en</strong>cia <strong>de</strong> distintas variables <strong>en</strong> los mo<strong>de</strong>los <strong>en</strong>tr<strong>en</strong>ados, fusión <strong>de</strong><br />
sistemas, normalización <strong>de</strong> puntuaci<strong>on</strong>es, etc.<br />
En la parte experim<strong>en</strong>tal <strong>de</strong>l proyecto se llevan a cabo experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes y<br />
<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor c<strong>on</strong> el fin <strong>de</strong> valorar la variabilidad <strong>de</strong> locutor sobre los sistemas.<br />
En la memoria se <strong>de</strong>scribe el funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> un sistema automático <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to<br />
<strong>de</strong> patr<strong>on</strong>es así como los modos <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to. También se explican los principios básicos<br />
<strong>de</strong> las emoci<strong>on</strong>es y cómo afectan éstas al habla. A<strong>de</strong>más, se hace un repaso <strong>de</strong> las disciplinas<br />
más empleadas <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es.<br />
Por último se realiza un análisis <strong>de</strong>l trabajo extray<strong>en</strong>do c<strong>on</strong>clusi<strong>on</strong>es y prop<strong>on</strong>i<strong>en</strong>do futuras<br />
líneas <strong>de</strong> investigación.<br />
Los resultados obt<strong>en</strong>idos <strong>en</strong> este proyecto <strong>de</strong> fin <strong>de</strong> carrera han sido aceptados y a la espera<br />
<strong>de</strong> ser publicados <strong>en</strong> 2 c<strong>on</strong>gresos internaci<strong>on</strong>ales <strong>en</strong> los artículos:<br />
• Lopez-Mor<strong>en</strong>o, I., Ortego-Resa C., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />
emoti<strong>on</strong> recogniti<strong>on</strong> using prosodic supervectors”, 2009.<br />
• Ortego-Resa C., Lopez-Mor<strong>en</strong>o, I., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Anchor mo<strong>de</strong>l<br />
fusi<strong>on</strong> for emoti<strong>on</strong> recogniti<strong>on</strong> in speech”, 2009.<br />
Palabras Clave<br />
Rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla, pitch, T-norm, Máquinas <strong>de</strong> Vectores<br />
Soporte, Mo<strong>de</strong>los <strong>de</strong> Mezcla <strong>de</strong> Gaussianas, base <strong>de</strong> datos SUSAS, parametrización prosódica,<br />
Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls.<br />
3
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Abstract<br />
In this master’s thesis we pres<strong>en</strong>t new methods besi<strong>de</strong>s the state of the art of the existing<br />
techniques for automatic emoti<strong>on</strong> recogniti<strong>on</strong> in speech. Discriminative techniques such as SVM<br />
(Support Vector Machines) and statistic <strong>on</strong>es such as GMM (Gaussian Mixture Mo<strong>de</strong>ls) are<br />
employed. With these techniques two kind of systems are <strong>de</strong>veloped: fr<strong>on</strong>t-<strong>en</strong>d and back-<strong>en</strong>d.<br />
The first <strong>on</strong>e uses voice signal as input signal and a set of scores are obtained as output<br />
signal. The sec<strong>on</strong>d <strong>on</strong>e uses the output scores from fr<strong>on</strong>t-<strong>en</strong>d system as input signal and makes<br />
another set of scores as output.<br />
We report a study of these systems regarding training and testing set selecti<strong>on</strong>, system<br />
behavior acording to some variables, fusi<strong>on</strong> techniques, scores normalizati<strong>on</strong>s, etc.<br />
Al<strong>on</strong>g the experim<strong>en</strong>tal secti<strong>on</strong> of the master’s thesis several speaker in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt and<br />
<strong>de</strong>p<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts are showing with the purpose of evaluating the speaker variability<br />
about systems.<br />
The report <strong>de</strong>scribes the operati<strong>on</strong> of an automatic patterns recogniti<strong>on</strong> system. It also<br />
explains the basic principles of emoti<strong>on</strong>s and how they affect speech. In additi<strong>on</strong>, an overview<br />
of the disciplines used in emoti<strong>on</strong> recogniti<strong>on</strong> is ma<strong>de</strong>.<br />
Finally, an analysis of work and c<strong>on</strong>clusi<strong>on</strong>s are drawn, and future researchs are proposed.<br />
Results from this master’s thesis have be<strong>en</strong> accepted in internati<strong>on</strong>al c<strong>on</strong>gresses and now it<br />
is waiting for being published:<br />
• Lopez-Mor<strong>en</strong>o, I., Ortego-Resa C., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />
emoti<strong>on</strong> recogniti<strong>on</strong> using prosodic supervectors”, 2009.<br />
• Ortego-Resa C., Lopez-Mor<strong>en</strong>o, I., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Anchor mo<strong>de</strong>l<br />
fusi<strong>on</strong> for emoti<strong>on</strong> recogniti<strong>on</strong> in speech”, 2009.<br />
Key words<br />
Automatic emoti<strong>on</strong> recogniti<strong>on</strong> in speech, pitch, T-norm, Support Vector Machines, Gaussian<br />
Mixture Mo<strong>de</strong>ls, SUSAS database, prosodic parametrizati<strong>on</strong>, Anchor Mo<strong>de</strong>ls Fusi<strong>on</strong>.<br />
4
Agra<strong>de</strong>cimi<strong>en</strong>tos<br />
Primero dar las gracias a toda la g<strong>en</strong>te que me ha servido <strong>de</strong> ayuda durante estos últimos<br />
años. En especial a mis padres pues ellos s<strong>on</strong> mi mo<strong>de</strong>lo a seguir. A mis tios y primos por lo<br />
bi<strong>en</strong> que se han portado c<strong>on</strong>migo. Y a mis abuelos por el apoyo inc<strong>on</strong>dici<strong>on</strong>al hacia su nieto.<br />
También me gustaría agra<strong>de</strong>cer a mi tutor Ignacio López Mor<strong>en</strong>o por su apoyo y <strong>de</strong>dicación<br />
<strong>en</strong> mi proyecto al igual que al resto <strong>de</strong>l grupo <strong>ATVS</strong>. A<strong>de</strong>más, agra<strong>de</strong>cer a Joaquín G<strong>on</strong>zález<br />
Rodríguez por darme la oportunidad <strong>de</strong> formar parte <strong>de</strong>l grupo <strong>ATVS</strong>.<br />
No quiero olvidarme <strong>de</strong> todos los bu<strong>en</strong>os compañeros que he hecho durante estos 5 años <strong>en</strong><br />
la EPS: Ángel, Jesús, Jorge, Soci, David, Pablo, Javi,...<br />
Por último, agra<strong>de</strong>cer a mis amigos <strong>de</strong> toda la vida por lo mucho que me ayudais y me<br />
haceis reir.<br />
Carlos Ortego Resa<br />
Julio <strong>de</strong> 2009<br />
5
6<br />
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA
Indice G<strong>en</strong>eral<br />
Indice <strong>de</strong> Figuras 8<br />
Indice <strong>de</strong> Tablas 10<br />
1. Introducción 13<br />
1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />
1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />
1.3. Organización <strong>de</strong> la Memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
2. Sistema automático <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es 17<br />
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
2.2. Estructura G<strong>en</strong>eral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
2.3. Modos <strong>de</strong> Operación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
2.3.1. I<strong>de</strong>ntificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
2.3.2. Verificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
2.4. Evaluación <strong>de</strong> los Sistemas Automáticos <strong>de</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to . . . . . . . . . . . . 20<br />
2.5. Normalización <strong>de</strong> Puntuaci<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />
3. Estado <strong>de</strong>l arte <strong>en</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es 23<br />
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
3.2. Aplicaci<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
3.3. Naturaleza <strong>de</strong> las Emoci<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
3.4. Emoci<strong>on</strong>es <strong>en</strong> el Habla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />
3.4.1. Pitch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
3.4.2. Duración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
3.4.3. Calidad <strong>de</strong> Voz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
3.4.4. Pulso Glotal y Tracto Vocal . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
3.5. Clasificación <strong>de</strong> las Emoci<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
3.6. Implicaci<strong>on</strong>es Jurídicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />
3.7. Técnicas <strong>de</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . 31<br />
3.7.1. GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
3.7.2. SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />
3.7.3. SVMs basados <strong>en</strong> supervectores GMMs . . . . . . . . . . . . . . . . . . . 38<br />
3.7.4. Anchor Mo<strong>de</strong>ls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />
3.7.5. Otras: LDA, HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />
4. Diseño y Desarrollo 43<br />
4.1. Medios disp<strong>on</strong>ibles (BBDD, software, máquinas...) . . . . . . . . . . . . . . . . . 44<br />
4.1.1. Bases <strong>de</strong> Datos Utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />
4.1.2. Software y Máquinas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
4.2. Diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />
4.2.1. Parametrización <strong>de</strong>l audio . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />
4.2.2. Subsistemas fr<strong>on</strong>t-<strong>en</strong>d (SVM c<strong>on</strong> estadísticos y GMM-SVM) . . . . . . . 52<br />
4.2.3. Sistema back-<strong>en</strong>d (Fusi<strong>on</strong> Anchor Mo<strong>de</strong>ls) . . . . . . . . . . . . . . . . . . 56<br />
7
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
5. Pruebas y Resultados 59<br />
5.1. Pruebas y Resultados in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor . . . . . . . . . . . . . . . . . . . 60<br />
5.1.1. Experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos: Evaluación <strong>de</strong> cada Base <strong>de</strong> Datos<br />
fr<strong>en</strong>te a mo<strong>de</strong>los <strong>de</strong> la misma Base <strong>de</strong> Datos . . . . . . . . . . . . . . . . . 60<br />
5.1.2. Experim<strong>en</strong>tos Inter-Base <strong>de</strong> datos: Evaluación <strong>de</strong> cada Base <strong>de</strong> Datos<br />
fr<strong>en</strong>te a mo<strong>de</strong>los <strong>de</strong> todas las Bases <strong>de</strong> Datos . . . . . . . . . . . . . . . . 84<br />
5.2. Pruebas y Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor . . . . . . . . . . . . . . . . . . . . 87<br />
6. C<strong>on</strong>clusi<strong>on</strong>es y Trabajo futuro 101<br />
6.1. C<strong>on</strong>clusi<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102<br />
6.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104<br />
Glosario <strong>de</strong> acrónimos 109<br />
A. Anexo: publicaci<strong>on</strong>es 111<br />
B. Presupuesto 125<br />
C. Pliego <strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es 127<br />
8 INDICE GENERAL
Indice <strong>de</strong> Figuras<br />
1. Esquema <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to. . . . . . . . . . . . 18<br />
2. Sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>en</strong> modo <strong>de</strong> i<strong>de</strong>ntificación. Figura adaptada<br />
<strong>de</strong> [1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
3. Sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>en</strong> modo <strong>de</strong> verificación. Figura adaptada<br />
<strong>de</strong> [1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
4. D<strong>en</strong>sida<strong>de</strong>s y distribuci<strong>on</strong>es <strong>de</strong> probabilidad <strong>de</strong> int<strong>en</strong>tos target y n<strong>on</strong>-target. . . . 20<br />
5. Curvas ROC y DET. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />
6. Ejemplo <strong>de</strong> distribución <strong>de</strong> probabilidad <strong>de</strong> pitch para un locutor masculino. . . 26<br />
7. Distribución F0 hombre/mujer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
8. GMM bidim<strong>en</strong>si<strong>on</strong>al <strong>de</strong> 4 Gaussianas. . . . . . . . . . . . . . . . . . . . . . . . . 32<br />
9. C<strong>on</strong>cepto <strong>de</strong> un SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />
10. a) Muestras clasificadas incorrectam<strong>en</strong>te c<strong>on</strong> un valor h i asociado. b) Muestras<br />
clasificadas correctam<strong>en</strong>te pero c<strong>on</strong> un error h i . . . . . . . . . . . . . . . . . . . . 36<br />
11. Mapeo <strong>de</strong> los vectores ⃗x 2-dim<strong>en</strong>si<strong>on</strong>ales a b(⃗x) 3-dim<strong>en</strong>si<strong>on</strong>ales. . . . . . . . . . 37<br />
12. C<strong>on</strong>strucción <strong>de</strong> un supervector GMM a partir <strong>de</strong> una locución <strong>de</strong> <strong>voz</strong>. . . . . . . 38<br />
13. Ejemplo <strong>de</strong> c<strong>on</strong>strucción <strong>de</strong> un supervector GMM a partir <strong>de</strong> 3 mezclas gaussianas<br />
bidim<strong>en</strong>si<strong>on</strong>ales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />
14. Sx ⃗ agrupa las puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong>l vector ⃗x fr<strong>en</strong>te a cada mo<strong>de</strong>lo m i . . . 39<br />
15. Diagrama <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong>l AMF. El vector <strong>de</strong> parámetros final <strong>de</strong> la locución<br />
⃗x es la c<strong>on</strong>cat<strong>en</strong>ación <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong> ⃗x fr<strong>en</strong>te a cada<br />
mo<strong>de</strong>lo <strong>de</strong> emoción m i para cada uno <strong>de</strong> los N sist sistemas. . . . . . . . . . . . . 41<br />
16. Ejemplo <strong>de</strong> una locución <strong>de</strong> la base <strong>de</strong> datos SUSAS Simulated. . . . . . . . . . . 49<br />
17. a) Locución <strong>de</strong> Ah3R1 <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (120sg) <strong>de</strong>l locutor 23 y emoción neutroexaltado.<br />
b) Locución número 4 <strong>de</strong> test <strong>de</strong> Ah3R1 <strong>de</strong>l locutor 23 y emoción neutro. 50<br />
18. a) V<strong>en</strong>tanas temporales más utilizadas para el <strong>en</strong>v<strong>en</strong>tanado <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>.<br />
b) Env<strong>en</strong>tanado y vectores <strong>de</strong> <strong>en</strong>ergía ⃗e y pitch ⃗p <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>. . . . . . . . 52<br />
19. Diagrama <strong>de</strong> bloques <strong>de</strong> la extracción <strong>de</strong> parámetros prosódicos <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>. 52<br />
20. Diagrama <strong>de</strong> bloques <strong>de</strong>l clasificador SVM utilizando estadísticos globales. . . . . 53<br />
21. Esquema <strong>de</strong> distribución <strong>de</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>en</strong> un clasificador SVM<br />
para vectores <strong>de</strong> <strong>en</strong>trada l(⃗u ptrain ). . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />
22. Diagrama <strong>de</strong> bloques <strong>de</strong>l clasificador GMM-SVM. . . . . . . . . . . . . . . . . . . 55<br />
23. Esquema <strong>de</strong> distribución <strong>de</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>en</strong> un clasificador SVM<br />
para supervectores <strong>de</strong> <strong>en</strong>trada SV (⃗u ptrain ). . . . . . . . . . . . . . . . . . . . . . . 56<br />
24. Uso <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> dos sistemas fr<strong>on</strong>t-<strong>en</strong>d para c<strong>on</strong>formar el sistema<br />
back-<strong>en</strong>d para la base <strong>de</strong> datos SUSAS Simulated. . . . . . . . . . . . . . . . . . . 57<br />
25. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para el sistema ’SUSAS Simulated<br />
- SVM c<strong>on</strong> estadísticos’. . . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />
26. Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />
costes <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
27. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated -<br />
GMM-SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />
28. Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - GMM-SVM’ para varios números<br />
<strong>de</strong> Gaussianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64<br />
9
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
29. Curvas DET para varios valores <strong>de</strong> coste <strong>en</strong> ’SUSAS Simulated - GMM-SVM’. . 65<br />
30. Curvas DET <strong>de</strong> ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />
suma’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66<br />
31. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated - AMF’. 66<br />
32. Curvas DET <strong>de</strong> ’SUSAS Simulated - AMF’ para varios valores <strong>de</strong> coste. . . . . . 67<br />
33. Curvas DET <strong>de</strong> la ’SUSAS Simulated - fusión suma y AMF’. . . . . . . . . . . . 68<br />
34. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - SVM<br />
c<strong>on</strong> estadísticos’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />
35. Curvas DET <strong>de</strong>l sistema ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />
costes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70<br />
36. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - GMM-<br />
SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />
37. Curvas DET <strong>de</strong>l sistema ’SUSAS Actual - GMM-SVM’ para difer<strong>en</strong>tes costes. . . 72<br />
38. Curvas DET para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />
suma’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />
39. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - AMF’. 73<br />
40. Curvas DET para ’SUSAS Actual - AMF’ para varios valores <strong>de</strong> coste. . . . . . . 74<br />
41. Curvas DET para ’SUSAS Actual - fusión suma y AMF’. . . . . . . . . . . . . . 75<br />
42. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’.<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76<br />
43. Curvas DET <strong>de</strong>l sistema ’Ah3R1 - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes costes. . 77<br />
44. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - GMM-SVM’. . 79<br />
45. Curvas DET para varios costes para ’Ah3R1 - GMM-SVM’. . . . . . . . . . . . . 80<br />
46. Curvas DET para ’Ah3R1 - GMM-SVM’ según la normalización <strong>de</strong> los vectores<br />
<strong>de</strong> parámetros prosódicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />
47. Curvas DET <strong>de</strong> ’Ah3R1 - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión suma’. . . 81<br />
48. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - AMF’. . . . . . 82<br />
49. Curvas DET <strong>de</strong>l sistema ’Ah3R1 - AMF’ según la variable coste. . . . . . . . . . 83<br />
50. Curvas DET para ’Ah3R1 - fusión suma y AMF’. . . . . . . . . . . . . . . . . . . 83<br />
51. Esquema <strong>de</strong> evaluación <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> las 3 bases <strong>de</strong> datos. . . . . . . . . . . 85<br />
52. Uso <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d y <strong>de</strong> la fusión suma para<br />
c<strong>on</strong>formar el nuevo sistema back-<strong>en</strong>d <strong>de</strong> AMF. . . . . . . . . . . . . . . . . . . . 86<br />
53. Esquema <strong>de</strong> la evaluación <strong>de</strong> las pruebas <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS<br />
Simulated - SVM c<strong>on</strong> estadísticos’. . . . . . . . . . . . . . . . . . . . . . . . . . . 88<br />
54. Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />
costes <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />
55. Curvas DET para ’SUSAS Simulated - GMM-SVM’ variando el coste. . . . . . . 89<br />
56. Curva DET <strong>de</strong> ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />
suma’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90<br />
57. Esquema <strong>de</strong> las pruebas <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated - AMF’. 91<br />
58. Curvas DET para ’SUSAS Simulated - AMF’ y varios costes. . . . . . . . . . . . 91<br />
59. Curvas DET para ’SUSAS Simulated - fusión suma y AMF’. . . . . . . . . . . . 92<br />
60. Curva DET para la fusión suma por emoción. . . . . . . . . . . . . . . . . . . . . 93<br />
61. Curvas DET por emoción para ’SUSAS Simulated - AMF’. . . . . . . . . . . . . 94<br />
62. Curvas DET para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />
suma’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97<br />
63. Curvas DET para ’SUSAS Actual - AMF’ y varios costes. . . . . . . . . . . . . . 97<br />
64. Curvas DET para ’SUSAS Actual - fusión suma y AMF’. . . . . . . . . . . . . . 98<br />
65. Curvas DET por emoción para ’SUSAS Actual - fusión suma’. . . . . . . . . . . 98<br />
66. Curvas DET por emoción para ’SUSAS Actual - AMF’. . . . . . . . . . . . . . . 99<br />
10 INDICE DE FIGURAS
Indice <strong>de</strong> Tablas<br />
1. Emoci<strong>on</strong>es y características <strong>de</strong>l habla. . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
2. Recopilación <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong> habla emoci<strong>on</strong>al. Tabla adaptada <strong>de</strong> [2]. Abreviaturas<br />
<strong>de</strong> emoci<strong>on</strong>es: Dn: Diversión, Aa: Antipatía, Eo: Enfado, Ma: Molestia,<br />
An: Aprobación, An: At<strong>en</strong>ción, Ad: Ansiedad, Ao: Aburrimi<strong>en</strong>to, In: Insatisfación,<br />
Dom: Dominio, Dn: Depresión, Dt: Disgusto, Fd: Frustración, Mo: Miedo,<br />
Fd: Felicidad, Ie: Indifer<strong>en</strong>cia, Iy: Ir<strong>on</strong>ía, Ag: Alegría, Nl: Neutra, Pc: Pánico, Pn:<br />
Prohibición, Se: Sorpresa, Tz: Tristeza, Ss: Estrés, Tz: Timi<strong>de</strong>z, Sk: Shock, Co:<br />
Cansancio, Tl: Tarea c<strong>on</strong> carga <strong>de</strong> estrés, Pn: Preocupación. Abreviaturas para<br />
otras señales: PS: Presión sanguínea, ES: Examinación <strong>de</strong> sangrue, EEG: Electro<strong>en</strong>cefalograma,<br />
G: Respuesta cutánea galvánica, H: Tasa latido corazón, IR:<br />
Cámara infrarroja, LG: Laringógrafo, M: Miograma <strong>de</strong> la cara, R: Respiración,<br />
V: Vi<strong>de</strong>o. Otras abreviaturas: C/F: Cali<strong>en</strong>te/Frio, Ld eff.: efecto Lombard, A-<br />
stress, P-stress, C-stress: stress Real, Físico y Cognitivo, respectivam<strong>en</strong>te, Sim.:<br />
Simulado, Prov.:Provocado, N/A: No disp<strong>on</strong>ible. . . . . . . . . . . . . . . . . . . 48<br />
3. Coefici<strong>en</strong>tes estadísticos calculados por cada trama prosódica. . . . . . . . . . . 53<br />
4. Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />
Simulated. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />
5. Resultados ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong><br />
la variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
6. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’.<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
7. Resultados para ’SUSAS Simulated - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l número <strong>de</strong><br />
gaussianas M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64<br />
8. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Simulated - GMM-SVM’. . . . . 65<br />
9. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - GMM-SVM’. . 65<br />
10. Resultados para varios costes para ’SUSAS Simulated - AMF’. . . . . . . . . . . 67<br />
11. EER ( %) por emoción para ’SUSAS Simulated - fusión suma y AMF’. . . . . . . 68<br />
12. Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />
Actual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />
13. Resultados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste. . 70<br />
14. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’.<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />
15. Resultados <strong>de</strong>l sistema ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste. . . 72<br />
16. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - GMM-SVM’. . . . 72<br />
17. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste ’SUSAS Actual - AMF’. . . . . . . . . . . . . . 74<br />
18. EER ( %) por emoción para ’SUSAS Actual - fusión suma y AMF’. . . . . . . . . 75<br />
19. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong>l coste para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’. 77<br />
20. Resultados para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong><br />
parámetros prosódicos normalizados. . . . . . . . . . . . . . . . . . . . . . . . . . 78<br />
21. C<strong>on</strong>figuración y resultados optimizados para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’. . . 78<br />
22. Resultados para ’Ah3R1 - GMM-SVM’ variando el número <strong>de</strong> gaussinas. . . . . 78<br />
23. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’Ah3R1 - GMM-SVM’. . . . . . . . . . . 79<br />
11
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
24. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos normalizados<br />
para ’Ah3R1 - GMM-SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />
25. C<strong>on</strong>figuración y resultados optimizados para ’Ah3R1 - GMM-SVM’. . . . . . . . 81<br />
26. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’Ah3R1 - AMF’. . . . . . . . . . . . . . . 82<br />
27. EER ( %) por emoción para ’Ah3R1 - fusión suma y AMF’. . . . . . . . . . . . . 83<br />
28. EER medio ( %) para las 3 bases <strong>de</strong> datos para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong><br />
locutor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84<br />
29. EERs ( %) <strong>de</strong> los sistemas fr<strong>on</strong>t-<strong>en</strong>d y back-<strong>en</strong>d para experim<strong>en</strong>tos inter-Base <strong>de</strong><br />
Datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86<br />
30. EERs ( %) para los dos tipos <strong>de</strong> sistemas AMF. . . . . . . . . . . . . . . . . . . . 87<br />
31. Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />
Simulated. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87<br />
32. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong>l coste para ’SUSAS Simulated - SVM c<strong>on</strong><br />
estadísticos’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />
33. Resultados para ’SUSAS Simulated - GMM-SVM’ para varios costes. . . . . . . . 90<br />
34. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos<br />
y GMM-SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90<br />
35. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Simulated - AMF’. . . . . . . . . 92<br />
36. EER ( %) por emoción para ’SUSAS Simulated - fusión suma y AMF’. . . . . . . 93<br />
37. Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />
Actual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94<br />
38. EER global <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos normalizados<br />
para ’SUSAS Actual - GMM-SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />
39. EER global para ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l número <strong>de</strong> gaussinas.<br />
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />
40. EER global para ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste. . . . . . . 95<br />
41. EER global para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ según los vectores<br />
prosódicos normalizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />
42. EER global <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’. 96<br />
43. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos<br />
y GMM-SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />
44. Resultados para varios costes para ’SUSAS Actual - AMF’. . . . . . . . . . . . . 97<br />
45. EER ( %) por emoción para ’SUSAS Actual - fusión suma y AMF’. . . . . . . . . 98<br />
46. EER medio ( %) para las 3 bases <strong>de</strong> datos para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor. 99<br />
12 INDICE DE TABLAS
13<br />
1<br />
Introducción
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
1.1. Motivación<br />
El rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es a partir <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> es una disciplina que está ganando<br />
interés <strong>en</strong> la interacción hombre-máquina. Ti<strong>en</strong>e como objetivo i<strong>de</strong>ntificar automáticam<strong>en</strong>te<br />
el estado emoci<strong>on</strong>al o físico <strong>de</strong>l ser humano a través <strong>de</strong> su <strong>voz</strong>. A los estados emoci<strong>on</strong>ales y<br />
físicos <strong>de</strong>l locutor se les c<strong>on</strong>oce como aspectos emoci<strong>on</strong>ales <strong>de</strong> la <strong>voz</strong> y forman parte <strong>de</strong> los<br />
llamados aspectos paralingüísticos <strong>de</strong>l habla. Aunque el estado emoci<strong>on</strong>al no altera el c<strong>on</strong>t<strong>en</strong>ido<br />
lingüístico, éste es un factor importante <strong>en</strong> la comunicación humana, ya que proporci<strong>on</strong>a más<br />
información que la meram<strong>en</strong>te semántica acerca <strong>de</strong>l interlocutor.<br />
C<strong>on</strong> el progreso <strong>de</strong> las nuevas tecnologías y la introducción <strong>de</strong> sistemas interactivos, se<br />
ha increm<strong>en</strong>tado <strong>en</strong>ormem<strong>en</strong>te la <strong>de</strong>manda <strong>de</strong> interfaces amigables para comunicarse c<strong>on</strong> las<br />
máquinas. Existe un amplio rango <strong>de</strong> aplicaci<strong>on</strong>es <strong>en</strong> las tecnologías <strong>de</strong>l habla tales como, call<br />
c<strong>en</strong>ters, sistemas intelig<strong>en</strong>tes <strong>de</strong> automóvil o <strong>en</strong> la industria <strong>de</strong>l <strong>en</strong>tret<strong>en</strong>imi<strong>en</strong>to. Por ejemplo,<br />
el proyecto SmartKom <strong>de</strong>sarrolla un sistema <strong>de</strong> reserva <strong>de</strong> <strong>en</strong>tradas que emplea un rec<strong>on</strong>ocedor<br />
automático <strong>de</strong>l habla si<strong>en</strong>do capaz <strong>de</strong> rec<strong>on</strong>ocer el nivel <strong>de</strong> <strong>en</strong>fado o frustración <strong>de</strong> un usuario<br />
cambiando su respuesta corresp<strong>on</strong>di<strong>en</strong>tem<strong>en</strong>te. El rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong><br />
el habla pue<strong>de</strong> ser empleado por terapeutas como una herrami<strong>en</strong>ta <strong>de</strong> diagnóstico <strong>en</strong> medicina.<br />
En psicología, los métodos <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>al pue<strong>de</strong>n hacer fr<strong>en</strong>te c<strong>on</strong> la<br />
<strong>en</strong>orme cantidad <strong>de</strong> datos <strong>en</strong> tiempo real, obt<strong>en</strong>i<strong>en</strong>do <strong>de</strong> forma sistemática las características<br />
<strong>de</strong>l habla que transmit<strong>en</strong> emoción.<br />
El estudio <strong>de</strong> las características emoci<strong>on</strong>ales <strong>de</strong>l habla no ti<strong>en</strong>e como único objetivo<br />
el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es. Otro <strong>de</strong> estos objetivos es la síntesis <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>al<br />
<strong>en</strong>focada principalm<strong>en</strong>te para la comunicación <strong>de</strong> discapacitados. También, tareas como el<br />
rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong>l habla emoci<strong>on</strong>al o el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> locutor a partir <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>ada<br />
s<strong>on</strong> otras <strong>de</strong> las disciplinas hacia las que está <strong>en</strong>focada el estudio <strong>de</strong> las emoci<strong>on</strong>es <strong>en</strong> el habla.<br />
Por lo g<strong>en</strong>eral, las emoci<strong>on</strong>es no s<strong>on</strong> g<strong>en</strong>uinas o protípicas, sino que se aparec<strong>en</strong> como<br />
combinación <strong>de</strong> varias. Ésto hace <strong>de</strong> su clasificación una tarea ardua y dada a la subjetividad.<br />
Sin embargo, la mayoría <strong>de</strong> los investigadores han tratado c<strong>on</strong> emoci<strong>on</strong>es prototípicas o<br />
completas pues es la única manera <strong>de</strong> po<strong>de</strong>r discriminar <strong>en</strong>tre unas emoci<strong>on</strong>es y otras.<br />
En este proyecto se profundiza <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla.<br />
Esta tarea c<strong>on</strong>siste <strong>en</strong> un problema <strong>de</strong> clasificación multiclase, d<strong>on</strong><strong>de</strong> una locución <strong>de</strong> habla<br />
dada es clasificada <strong>en</strong>tre un c<strong>on</strong>junto <strong>de</strong> n emoci<strong>on</strong>es. Sin embargo, también resulta <strong>de</strong> interés<br />
<strong>de</strong>tectar una emoción <strong>de</strong>terminada <strong>en</strong> un segm<strong>en</strong>to <strong>de</strong> habla, lo cual justifica el uso <strong>de</strong> un<br />
<strong>en</strong>foque <strong>de</strong> verificación o <strong>de</strong>tección.<br />
1.2. Objetivos<br />
El objetivo <strong>de</strong>l pres<strong>en</strong>te proyecto es evaluar el funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> un c<strong>on</strong>junto técnicas<br />
exist<strong>en</strong>tes para el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es así como <strong>de</strong> nuevas técnicas pres<strong>en</strong>tadas<br />
<strong>en</strong> el mismo. Dichas técnicas se evaluarán tanto para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes como<br />
<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor. En c<strong>on</strong>creto, los sistemas están basados <strong>en</strong> Mo<strong>de</strong>los <strong>de</strong> Mezcla <strong>de</strong><br />
Gaussianas y Máquinas <strong>de</strong> Vectores Soporte. El proyecto estudia la forma <strong>de</strong> optimizar los<br />
resultados.<br />
Para el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los y para la evaluación <strong>de</strong> los sistemas, se hace uso <strong>de</strong><br />
la bases <strong>de</strong> datos SUSAS Simulated, SUSAS Actual y Ahumada III. El uso <strong>de</strong> varias bases<br />
<strong>de</strong> datos para la evaluación <strong>de</strong> nuestros sistemas va a sup<strong>on</strong>er una mayor variabilidad <strong>de</strong><br />
14<br />
CAPÍTULO 1. INTRODUCCIÓN
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
emoci<strong>on</strong>es y locutores haci<strong>en</strong>do que los resultados obt<strong>en</strong>idos sean más realísticos.<br />
1.3. Organización <strong>de</strong> la Memoria<br />
La memoria c<strong>on</strong>sta <strong>de</strong> los sigui<strong>en</strong>tes capítulos:<br />
1. Introducción: motivación y objetivos <strong>de</strong>l proyecto.<br />
2. Sistemas automáticos <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es: repasa la estructura y los difer<strong>en</strong>tes<br />
tipos <strong>de</strong> sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es.<br />
3. Estado <strong>de</strong>l arte <strong>en</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es: realiza un repaso <strong>de</strong> las principales<br />
técnicas utilizadas para esta disciplina.<br />
4. Diseño y Desarrollo: <strong>de</strong>scribe las bases <strong>de</strong> datos y sistemas empleados para realizar<br />
los experim<strong>en</strong>tos.<br />
5. Pruebas y Resultados: <strong>de</strong>scribe las pruebas y optimiza los resultados.<br />
6. C<strong>on</strong>clusi<strong>on</strong>es y trabajo futuro: Evalúa los resultados obt<strong>en</strong>idos y prop<strong>on</strong>e nuevas líneas <strong>de</strong><br />
investigación y mejora.<br />
CAPÍTULO 1. INTRODUCCIÓN 15
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
16<br />
CAPÍTULO 1. INTRODUCCIÓN
2<br />
Sistema automático <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es<br />
Un patrón es una colección <strong>de</strong> <strong>de</strong>scriptores c<strong>on</strong> los cuales repres<strong>en</strong>tamos los rasgos <strong>de</strong> una<br />
clase. Así, un sistema automático <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es es una técnica que mediante<br />
el análisis <strong>de</strong> las características <strong>de</strong> cierto elem<strong>en</strong>to, asigna una etiqueta, que repres<strong>en</strong>ta a una<br />
clase, a un patrón c<strong>on</strong>creto.<br />
Un tipo <strong>de</strong> sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> patr<strong>on</strong>es es la biometría o rec<strong>on</strong>ocimi<strong>en</strong>to<br />
biométrico. Éste, se basa <strong>en</strong> los rasgos físicos intrínsecos o c<strong>on</strong>ductuales para el<br />
rec<strong>on</strong>ocimi<strong>en</strong>to único <strong>de</strong> humanos. Estas características o comportami<strong>en</strong>tos humanos forman<br />
parte <strong>de</strong> lo que c<strong>on</strong>ocemos como rasgos biométricos.<br />
Otro tipo <strong>de</strong> sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es automático, aunque no propiam<strong>en</strong>te<br />
pert<strong>en</strong>eci<strong>en</strong>te al rec<strong>on</strong>ocimi<strong>en</strong>to biométricos, es el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es.<br />
Este tipo <strong>de</strong> sistema se basa <strong>en</strong> el análisis <strong>de</strong> las características particulares <strong>de</strong> las emoci<strong>on</strong>es<br />
para clasificar unas fr<strong>en</strong>te a otras. La percepción <strong>de</strong>l estado anímico humano pue<strong>de</strong> prov<strong>en</strong>ir<br />
<strong>de</strong> varios canales, si<strong>en</strong>do los dos principales las expresi<strong>on</strong>es faciales obt<strong>en</strong>idas a partir <strong>de</strong>l canal<br />
visual y las expresi<strong>on</strong>es léxico-f<strong>on</strong>éticas prov<strong>en</strong>i<strong>en</strong>tes <strong>de</strong>l habla.<br />
17
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
2.1. Introducción<br />
2.2. Estructura G<strong>en</strong>eral<br />
La estructura que sigue un sistema automático <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es es g<strong>en</strong>eralm<strong>en</strong>te<br />
la misma y es la que aparece <strong>en</strong> la Figura 1. A partir <strong>de</strong> ahora nos c<strong>en</strong>tramos <strong>en</strong> los<br />
sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático que utilizan la información emoci<strong>on</strong>al <strong>de</strong> la <strong>voz</strong> como<br />
base para la creación <strong>de</strong> los patr<strong>on</strong>es para dicho rec<strong>on</strong>ocimi<strong>en</strong>to.<br />
Des<strong>de</strong> que la señal <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>ada se exp<strong>on</strong>e al sistema hasta que el sistema la rec<strong>on</strong>oce,<br />
verifica o rechaza exist<strong>en</strong> una serie <strong>de</strong> etapas intermedias que se pasan a <strong>de</strong>scribir.<br />
Por norma g<strong>en</strong>eral el usuario sólo ti<strong>en</strong>e acceso al s<strong>en</strong>sor, mediante el cual se extraerá la<br />
señal <strong>de</strong> <strong>voz</strong>. Dicha fr<strong>on</strong>tera vi<strong>en</strong>e <strong>de</strong>terminada por la línea disc<strong>on</strong>tinua <strong>de</strong> la Figura 1. Los<br />
módulos que aparec<strong>en</strong> c<strong>on</strong> líneas c<strong>on</strong>tinuas s<strong>on</strong> aquellos que c<strong>on</strong>forman el sistema base <strong>de</strong><br />
rec<strong>on</strong>ocimi<strong>en</strong>to automático, mi<strong>en</strong>tras que los módulos c<strong>on</strong> líneas disc<strong>on</strong>tinuas s<strong>on</strong> opci<strong>on</strong>ales y<br />
se suel<strong>en</strong> usar como complem<strong>en</strong>to <strong>de</strong> los primeros.<br />
Figura 1: Esquema <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to.<br />
La primera tarea c<strong>on</strong>siste <strong>en</strong> la captura por parte <strong>de</strong> un micróf<strong>on</strong>o <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>, que<br />
transforma la señal acústica <strong>en</strong> señal eléctrica.<br />
El sigui<strong>en</strong>te paso es la parametrización <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> o extracción <strong>de</strong> sus características<br />
que c<strong>on</strong>siste <strong>en</strong> su codificación para que el sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to sea capaz <strong>de</strong> medirla y<br />
evaluarla cuantitativam<strong>en</strong>te. La parametrización pue<strong>de</strong> v<strong>en</strong>ir precedida <strong>de</strong> un preprocesado <strong>de</strong><br />
la señal. Esta etapa opci<strong>on</strong>al esta formada por todos aquellas transformaci<strong>on</strong>es que sufre la<br />
señal y que facilitan su posterior parametrización o que la hace más efici<strong>en</strong>te. Un ejemplo <strong>de</strong><br />
preprocesado es la eliminación <strong>de</strong> ruido <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> aplicando diversos tipos <strong>de</strong> filtros.<br />
Las etapas anteriores s<strong>on</strong> comunes tanto para el proceso <strong>de</strong> registro como para el <strong>de</strong><br />
rec<strong>on</strong>ocimi<strong>en</strong>to o test. En la etapa <strong>de</strong> registro, el usuario ofrece su <strong>voz</strong> al sistema. Ésta es<br />
18 CAPÍTULO 2. SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE PATRONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
parametrizada y mo<strong>de</strong>lada mediante la fase <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to para obt<strong>en</strong>er como resultado<br />
las difer<strong>en</strong>tes clases (emoci<strong>on</strong>es) <strong>en</strong> que va a po<strong>de</strong>r ser clasificado una muestra <strong>de</strong> test. Estos<br />
mo<strong>de</strong>los se almac<strong>en</strong>an <strong>en</strong> una base <strong>de</strong> datos para la posterior etapa <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to.<br />
En la etapa <strong>de</strong> i<strong>de</strong>ntificación se utiliza un comparador para obt<strong>en</strong>er la similitud <strong>de</strong> nuestro<br />
rasgo parametrizado c<strong>on</strong> respecto a las emoci<strong>on</strong>es mo<strong>de</strong>ladas <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. Como salida<br />
a dicha etapa t<strong>en</strong>emos una puntuación (score <strong>en</strong> inglés).<br />
La etapa <strong>de</strong> <strong>de</strong>cisión <strong>de</strong>p<strong>en</strong><strong>de</strong>rá <strong>de</strong>l modo <strong>de</strong> operación <strong>de</strong>l sistema. Si se trabaja <strong>en</strong> modo<br />
<strong>de</strong> verificación nos hará falta prefijar un umbral que nuestra puntuación ha <strong>de</strong> sobrepasar para<br />
c<strong>on</strong>si<strong>de</strong>rar que la emoción <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> <strong>de</strong> test pert<strong>en</strong>ece a la emoción objetivo.<br />
2.3. Modos <strong>de</strong> Operación<br />
Des<strong>de</strong> el punto <strong>de</strong> vista <strong>de</strong> los modos <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> los sistemas automáticos <strong>de</strong><br />
rec<strong>on</strong>ocimi<strong>en</strong>to, se pue<strong>de</strong> difer<strong>en</strong>ciar dos perspectivas <strong>de</strong> trabajo.<br />
• Sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>en</strong> modo i<strong>de</strong>ntificación<br />
• Sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>en</strong> modo verificación<br />
2.3.1. I<strong>de</strong>ntificación<br />
El modo <strong>de</strong> i<strong>de</strong>ntificación es el que usan los sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático<br />
<strong>de</strong> locutor e idioma. El objetivo <strong>en</strong> este tipo <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to es el <strong>de</strong> clasificar una<br />
realización <strong>de</strong>terminada <strong>de</strong> un rasgo biométrico como pert<strong>en</strong>eci<strong>en</strong>te a uno <strong>de</strong> las N posibles<br />
clases. Para ello se lleva a cabo una comparación “uno a varios” [Figura 2]. El sistema<br />
<strong>de</strong>cidirá si el rasgo <strong>de</strong> test pert<strong>en</strong>ece a alguna <strong>de</strong> las clases mo<strong>de</strong>ladas <strong>en</strong> la etapa <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
o a ninguna. D<strong>en</strong>tro <strong>de</strong> estos sistemas <strong>de</strong>bemos <strong>de</strong> difer<strong>en</strong>ciar <strong>en</strong>tre dos posibles casos.<br />
• I<strong>de</strong>ntificación <strong>en</strong> c<strong>on</strong>junto cerrado: <strong>en</strong> este caso, el resultado <strong>de</strong>l proceso es una<br />
asignación a una <strong>de</strong> las clases mo<strong>de</strong>ladas por el sistema. Exist<strong>en</strong>, por lo tanto, N posibles<br />
<strong>de</strong>cisi<strong>on</strong>es <strong>de</strong> salida posibles.<br />
• I<strong>de</strong>ntificación <strong>en</strong> c<strong>on</strong>junto abierto: aquí <strong>de</strong>bemos <strong>de</strong> c<strong>on</strong>si<strong>de</strong>rar una posibilidad<br />
adici<strong>on</strong>al a las N <strong>de</strong>l caso anterior: que el rasgo que pret<strong>en</strong><strong>de</strong> ser i<strong>de</strong>ntificado no pert<strong>en</strong>ezca al<br />
grupo <strong>de</strong> clases que c<strong>on</strong>ti<strong>en</strong>e la base <strong>de</strong> datos, c<strong>on</strong> lo que el sistema <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong>be <strong>de</strong><br />
c<strong>on</strong>templar la posibilidad <strong>de</strong> no clasificar la realización <strong>de</strong> <strong>en</strong>trada como pert<strong>en</strong>eci<strong>en</strong>te a las N<br />
posibles.<br />
Figura 2: Sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>en</strong> modo <strong>de</strong> i<strong>de</strong>ntificación. Figura adaptada <strong>de</strong><br />
[1].<br />
CAPÍTULO 2. SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE PATRONES 19
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
2.3.2. Verificación<br />
Los sistemas <strong>de</strong> verificación, por el c<strong>on</strong>trario llevan a cabo comparaci<strong>on</strong>es “uno a uno” y<br />
por ello sup<strong>on</strong><strong>en</strong> un m<strong>en</strong>or coste computaci<strong>on</strong>al que el sistema <strong>de</strong> i<strong>de</strong>ntificación. [Ver Figura 3].<br />
Este tipo <strong>de</strong> sistemas necesitan dos <strong>en</strong>tradas: una realización <strong>de</strong>l rasgo <strong>de</strong> test y una solicitud<br />
<strong>de</strong> i<strong>de</strong>ntidad a verificar. El sistema busca <strong>en</strong> la base <strong>de</strong> datos el mo<strong>de</strong>lo <strong>de</strong> dicha i<strong>de</strong>ntidad para<br />
<strong>en</strong>fr<strong>en</strong>tarlo a la realización <strong>de</strong> test facilitada.<br />
Figura 3: Sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>en</strong> modo <strong>de</strong> verificación. Figura adaptada <strong>de</strong><br />
[1].<br />
De este modo las dos únicas salidas o <strong>de</strong>cisi<strong>on</strong>es posibles <strong>de</strong>l sistema s<strong>on</strong> la aceptación o<br />
rechazo <strong>de</strong>l rasgo <strong>de</strong> test como aquel que pret<strong>en</strong><strong>de</strong> ser. La <strong>de</strong>cisión <strong>de</strong> aceptación o rechazo<br />
<strong>de</strong>p<strong>en</strong><strong>de</strong>rá <strong>de</strong> si la puntuación obt<strong>en</strong>ida <strong>en</strong> la i<strong>de</strong>ntificación supera o no un <strong>de</strong>terminado umbral<br />
<strong>de</strong> <strong>de</strong>cisión.<br />
Los sistemas <strong>de</strong> verificación pue<strong>de</strong>n ser vistos como un caso particular <strong>de</strong> i<strong>de</strong>ntificación <strong>en</strong><br />
c<strong>on</strong>junto abierto, <strong>en</strong> el que N=1.<br />
2.4. Evaluación <strong>de</strong> los Sistemas Automáticos <strong>de</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to<br />
Una <strong>de</strong> las tareas más importantes a la hora <strong>de</strong> diseñar un sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to<br />
automático es obt<strong>en</strong>er una medida fiable y precisa <strong>de</strong> su r<strong>en</strong>dimi<strong>en</strong>to. Gracias a ello vamos a<br />
po<strong>de</strong>r <strong>de</strong>terminar si nuestro sistema cumple unas especificaci<strong>on</strong>es mínimas <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to,<br />
evaluar posibles mejoras o compararlo c<strong>on</strong> otros sistemas.<br />
Figura 4: D<strong>en</strong>sida<strong>de</strong>s y distribuci<strong>on</strong>es <strong>de</strong> probabilidad <strong>de</strong> int<strong>en</strong>tos target y n<strong>on</strong>-target.<br />
En primer lugar hay que t<strong>en</strong>er claro que s<strong>on</strong> pruebas target y pruebas n<strong>on</strong>-target. Se<br />
20 CAPÍTULO 2. SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE PATRONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
<strong>de</strong>nomina int<strong>en</strong>to target cuando se comparara una muestra <strong>de</strong> una clase c<strong>on</strong> el patrón <strong>de</strong><br />
la misma clase, si la muestra y el patrón s<strong>on</strong> <strong>de</strong> clases distintas, al int<strong>en</strong>to se le <strong>de</strong>nomina<br />
n<strong>on</strong>-target. Cuanto mayor sea el número <strong>de</strong> int<strong>en</strong>tos <strong>de</strong> tanto pruebas target como n<strong>on</strong>-target,<br />
más fiable será la medida <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong>l sistema. Las puntuaci<strong>on</strong>es obt<strong>en</strong>idas <strong>en</strong> pruebas<br />
target serán puntuaci<strong>on</strong>es <strong>de</strong> usuarios válidos mi<strong>en</strong>tras que las obt<strong>en</strong>idas <strong>en</strong> pruebas n<strong>on</strong>-target<br />
serán puntuaci<strong>on</strong>es <strong>de</strong> usuarios impostores. El comportami<strong>en</strong>to <strong>de</strong>l sistema <strong>de</strong>p<strong>en</strong><strong>de</strong>rá <strong>de</strong>l valor<br />
<strong>de</strong> umbral a partir <strong>de</strong>l cual aceptaré la muestra <strong>de</strong> prueba como pert<strong>en</strong>eci<strong>en</strong>te a la clase <strong>de</strong><br />
refer<strong>en</strong>cia.<br />
Po<strong>de</strong>mos t<strong>en</strong>er dos tipos <strong>de</strong> errores, bi<strong>en</strong> que una muestra auténtica sea rechazada, lo<br />
que llamaremos tasa <strong>de</strong> Falso Rechazo (FR), o que una muestra falsa sea aceptada, lo que<br />
llamaremos tasa <strong>de</strong> Falsa Aceptación (FA).<br />
El umbral es un valor que influye directam<strong>en</strong>te <strong>en</strong> la tasa <strong>de</strong> falsa aceptación y falso rechazo.<br />
Según se pue<strong>de</strong> ver <strong>en</strong> la Figura 4, un valor alto <strong>de</strong> umbral hace que pocas pruebas n<strong>on</strong>-target<br />
sean aceptadas y por lo tanto la FA <strong>de</strong>sc<strong>en</strong><strong>de</strong>rá, a costa <strong>de</strong> increm<strong>en</strong>tar la FR. Por el c<strong>on</strong>trario,<br />
un valor pequeño <strong>de</strong> umbral hace que aum<strong>en</strong>te la FA mant<strong>en</strong>i<strong>en</strong>do bajo la FR. Como vemos,<br />
existe un compromiso <strong>en</strong>tre FR y FA que se <strong>de</strong>be evaluar acor<strong>de</strong> a la aplicación a la que vaya<br />
dirigido nuestro sistema. Así, por ejemplo, <strong>en</strong> un c<strong>on</strong>trol <strong>de</strong> acceso <strong>de</strong> alta seguridad sería<br />
a<strong>de</strong>cuado trabajar c<strong>on</strong> un elevado valor <strong>de</strong> umbral impidi<strong>en</strong>do <strong>de</strong> este modo una tasa alta <strong>de</strong> FA.<br />
Se c<strong>on</strong>si<strong>de</strong>ra el valor <strong>de</strong> error igual, EER (Equal Error Rate), a aquel punto d<strong>on</strong><strong>de</strong> las curvas<br />
<strong>de</strong> falsa aceptación y falso rechazo se cruzan. Esta tasa se suele usar para comparar sistemas.<br />
Figura 5: Curvas ROC y DET.<br />
Otro forma <strong>de</strong> repres<strong>en</strong>tar gráficam<strong>en</strong>te el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong>l sistema es mediante las curvas <strong>de</strong><br />
la Figura 5. En ellas se <strong>en</strong>fr<strong>en</strong>ta la probabilidad <strong>de</strong> FA y FR <strong>en</strong> una gráfica. Así, po<strong>de</strong>mos ver<br />
que valores <strong>de</strong> probabilidad <strong>de</strong> FA y FR t<strong>en</strong>emos para cada umbral escogido. A esta curva se le<br />
llama curva ROC (Receiver Operating Curve). Otra alternativa s<strong>on</strong> las curvas DET (Detecti<strong>on</strong><br />
Error Tra<strong>de</strong>off), cuya única difer<strong>en</strong>cia c<strong>on</strong> las curvas ROC es un cambio <strong>de</strong> escala <strong>en</strong> los ejes<br />
[3]. Serán las curvas DET las que se usarán <strong>en</strong> la sección <strong>de</strong> experim<strong>en</strong>tos para mostrar los<br />
resultados <strong>de</strong> forma gráfica.<br />
Junto a cada una <strong>de</strong> estas curvas se incluirá una tabla c<strong>on</strong> tres valores importantes a la<br />
hora <strong>de</strong> evaluar un sistema. Estos valores serán: el DCF mínimo (Detecti<strong>on</strong> Cost Functi<strong>on</strong>),<br />
EER global (<strong>en</strong> %) y EER medio (<strong>en</strong> %).<br />
CAPÍTULO 2. SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE PATRONES 21
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
El EER medio se calcula como el valor medio <strong>de</strong> los EERs por mo<strong>de</strong>lo. Así, EER medio<br />
diferirá <strong>de</strong>l EER global cuando los mo<strong>de</strong>los no t<strong>en</strong>gan todos el mismo número <strong>de</strong> int<strong>en</strong>tos o<br />
puntuaci<strong>on</strong>es.<br />
La función <strong>de</strong> coste es otra forma habitual <strong>de</strong> medir el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> los sistemas. Se<br />
<strong>de</strong>fine como:<br />
C DET (i) = C Miss· P Miss|T arget · P T arget + C F alseAlarm · P F alseAlarm|N<strong>on</strong>T arget · (1 − P T arget )<br />
D<strong>on</strong><strong>de</strong> C Miss es el coste asociado a un falso rechazo, C F alseAlarm es el coste asociado a una<br />
falsa aceptación, P T arget es la probabilidad <strong>de</strong> que un fichero dado pert<strong>en</strong>ezca a la emoción<br />
<strong>en</strong> cuestión (establecida a priori), P Miss|T arget es el porc<strong>en</strong>taje <strong>de</strong> falsos rechazos (dado por el<br />
sistema) y P F alseAlarm|N<strong>on</strong>T arget es la probabilidad <strong>de</strong> una falsa aceptación (dada por el sistema).<br />
Los valores fijados para la evaluación <strong>de</strong> locutor NIST SRE 2006 s<strong>on</strong>: C miss =1,<br />
C F alseAlarm =10 y P T arget =0.01. Estos valores s<strong>on</strong> los que vamos a utilizar para nuestro trabajo<br />
pues se ajustan también a nuestra tarea <strong>de</strong> evaluación <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es.<br />
Una falsa aceptación se p<strong>en</strong>aliza 10 veces más que un falso rechazo. La probabilidad <strong>de</strong> que<br />
el locutor experim<strong>en</strong>ta una cierta emoción es <strong>de</strong> 0.01 pues lo habitual es <strong>en</strong>c<strong>on</strong>trarnos <strong>en</strong> un<br />
estado <strong>de</strong> excitación normal.<br />
De esta forma, c<strong>on</strong> el porc<strong>en</strong>taje <strong>de</strong> falsa aceptación y falso rechazo, P Miss|T arget y<br />
P F alseAlarm|N<strong>on</strong>T arget , obt<strong>en</strong>ido <strong>de</strong> nuestro sistema podremos evaluar la función <strong>de</strong> coste, obt<strong>en</strong>i<strong>en</strong>do<br />
lo que se c<strong>on</strong>oce como DCF. El DCF mínimo será el mínimo valor <strong>de</strong> la DCF.<br />
2.5. Normalización <strong>de</strong> Puntuaci<strong>on</strong>es<br />
Los sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> patr<strong>on</strong>es produc<strong>en</strong> como salida una serie <strong>de</strong><br />
puntuaci<strong>on</strong>es que evalúan la similitud <strong>en</strong>tre las muestras <strong>de</strong> test y las clases o mo<strong>de</strong>los.<br />
Mediante las normalizaci<strong>on</strong>es lo que se pret<strong>en</strong><strong>de</strong> es proyectar las puntuaci<strong>on</strong>es tanto <strong>de</strong><br />
pruebas target como n<strong>on</strong>-target sobre un espacio acotado <strong>de</strong> media cero y varianza unidad, <strong>de</strong><br />
tal modo que las puntuaci<strong>on</strong>es que<strong>de</strong>n acotadas.<br />
C<strong>on</strong> dicha proyección o escalado <strong>de</strong> las puntuaci<strong>on</strong>es, lo que se pret<strong>en</strong><strong>de</strong> es buscar un umbral<br />
global para la tarea <strong>de</strong> <strong>de</strong>cisión ya que pue<strong>de</strong> ocurrir que durante la fase <strong>de</strong> aut<strong>en</strong>ticación,<br />
las puntuaci<strong>on</strong>es <strong>de</strong> un <strong>de</strong>terminado usuario, tanto las <strong>de</strong>l propio usuarios como las <strong>de</strong> los<br />
impostores, estén <strong>en</strong> un rango <strong>de</strong> valores distinto al <strong>de</strong> otros usuarios. Este efecto se c<strong>on</strong>oce<br />
como <strong>de</strong>salineami<strong>en</strong>to. La normalización <strong>de</strong> puntuaci<strong>on</strong>es s<strong>on</strong> el c<strong>on</strong>junto <strong>de</strong> técnicas y<br />
algoritmos que permit<strong>en</strong> aum<strong>en</strong>tar el r<strong>en</strong>dimi<strong>en</strong>to y robustez <strong>de</strong>l sistemas comp<strong>en</strong>sando este<br />
<strong>de</strong>salineami<strong>en</strong>to.<br />
La normalización <strong>de</strong> puntuaci<strong>on</strong>es es también importante para la posterior fusión <strong>de</strong><br />
sistemas pues sitúa las puntuaci<strong>on</strong>es <strong>de</strong> sistemas individuales <strong>en</strong> rangos homólogos.<br />
Las técnicas más corri<strong>en</strong>tes <strong>de</strong> normalización <strong>de</strong> puntuaci<strong>on</strong>es s<strong>on</strong> la T-norm y la Z-norm.<br />
La T-norm (Test Normalizati<strong>on</strong>) [4] es una normalización <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> la muestra <strong>de</strong> test,<br />
mi<strong>en</strong>tras que la Z-norm (Zero Normalizati<strong>on</strong>) [4] es <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l mo<strong>de</strong>lo o usuario.<br />
22 CAPÍTULO 2. SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE PATRONES
3<br />
Estado <strong>de</strong>l arte <strong>en</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es<br />
El rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es es sin duda una tarea multidisciplinar que<br />
involucra difer<strong>en</strong>tes campos <strong>de</strong> investigación tales como psicología, lingüística, análisis <strong>de</strong> <strong>voz</strong>,<br />
análisis <strong>de</strong> imág<strong>en</strong>es y apr<strong>en</strong>dizaje automático. El progreso <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong><br />
emoci<strong>on</strong>es está c<strong>on</strong>dici<strong>on</strong>ado al progreso <strong>en</strong> cada uno <strong>de</strong> los campos.<br />
Por ello, un sistema rec<strong>on</strong>ocedor <strong>de</strong>bería <strong>de</strong> realizar un análisis multimodal <strong>en</strong> el cual<br />
interviniese información proce<strong>de</strong>nte <strong>de</strong> difer<strong>en</strong>tes s<strong>en</strong>sores. Hay muchas señales humanas a<br />
partir <strong>de</strong> las cuales se pue<strong>de</strong> sacar información sobre el estado emoci<strong>on</strong>al <strong>de</strong> la pers<strong>on</strong>a, como<br />
por ejemplo, la <strong>voz</strong>, la imag<strong>en</strong> facial, gestos y posturas, ritmo <strong>de</strong> respiración y latido <strong>de</strong>l corazón,<br />
etc. Las tareas más estudiadas actualm<strong>en</strong>te s<strong>on</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla y <strong>en</strong><br />
imág<strong>en</strong>es faciales. Si bi<strong>en</strong> este proyecto sólo analizará el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla.<br />
23
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
3.1. Introducción<br />
En la comunicación humana se pue<strong>de</strong> distinguir dos canales difer<strong>en</strong>ciados. Uno <strong>de</strong> ellos<br />
se <strong>en</strong>carga <strong>de</strong> transmitir el m<strong>en</strong>saje <strong>de</strong> forma explícita, es <strong>de</strong>cir, el c<strong>on</strong>t<strong>en</strong>ido meram<strong>en</strong>te<br />
semántico. El otro tipo <strong>de</strong> canal no explícito hace <strong>en</strong>riquecer la comunicación humano-humano<br />
y es el que transmite información implícita como edad, sexo, estado emoci<strong>on</strong>al <strong>de</strong>l usuario,<br />
etc. Es <strong>en</strong> éste <strong>en</strong> el que se c<strong>en</strong>tra el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es. La importancia<br />
<strong>de</strong> estudiar el rec<strong>on</strong>ocimi<strong>en</strong>to emoci<strong>on</strong>al y añadirlo a una interfaz automática es gran<strong>de</strong> ya<br />
que es la base <strong>de</strong> las relaci<strong>on</strong>es humanas, y se fundam<strong>en</strong>ta <strong>en</strong> la interpretación <strong>de</strong> las señales<br />
transmitidas <strong>de</strong> forma inc<strong>on</strong>sci<strong>en</strong>te y que no siempre s<strong>on</strong> verbales.<br />
El paradigma <strong>de</strong> la comunicación hombre-máquina sugiere que las interfaces futuras se<br />
<strong>de</strong>b<strong>en</strong> c<strong>en</strong>trar <strong>en</strong> el humano y ser capaces <strong>de</strong> anticiparse, como por ejemplo, t<strong>en</strong>i<strong>en</strong>do la habilidad<br />
<strong>de</strong> <strong>de</strong>tectar cambios <strong>en</strong> el comportami<strong>en</strong>to <strong>de</strong>l usuario, especialm<strong>en</strong>te su comportami<strong>en</strong>to<br />
emoci<strong>on</strong>al.<br />
3.2. Aplicaci<strong>on</strong>es<br />
Los sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es están ori<strong>en</strong>tados hacia una amplia<br />
gama <strong>de</strong> aplicaci<strong>on</strong>es. Se podría difer<strong>en</strong>ciar <strong>en</strong>tre dos tipos <strong>de</strong> campos <strong>de</strong> aplicaci<strong>on</strong>es; aquellas<br />
que mejoran la calidad <strong>de</strong> vida, y las que sirv<strong>en</strong> para mejorar investigaci<strong>on</strong>es relaci<strong>on</strong>adas c<strong>on</strong><br />
la emoción [5].<br />
Entre las aplicaci<strong>on</strong>es cuya finalidad es mejorar la calidad <strong>de</strong> vida t<strong>en</strong>emos servicios al<br />
cli<strong>en</strong>te s<strong>en</strong>sibles a la emoción, call c<strong>en</strong>ters, sistemas <strong>de</strong> automóviles intelig<strong>en</strong>te capaces <strong>de</strong> <strong>de</strong>tectar<br />
fatiga <strong>en</strong> el c<strong>on</strong>ductor, aplicaci<strong>on</strong>es ori<strong>en</strong>tadas a la industria <strong>de</strong>l juego y <strong>en</strong>tret<strong>en</strong>imi<strong>en</strong>to<br />
o sistemas <strong>de</strong> síntesis <strong>de</strong> habla emoci<strong>on</strong>al para discapacitados. Estos sistemas cambiarán la<br />
manera <strong>en</strong> que interacci<strong>on</strong>amos c<strong>on</strong> las máquinas. Por ejemplo, un servicio <strong>de</strong> call c<strong>en</strong>ter<br />
automático c<strong>on</strong> <strong>de</strong>tector <strong>de</strong> emoción sería capaz <strong>de</strong> producir una respuesta apropiada o pasar<br />
el c<strong>on</strong>trol a un operador humano. La mayoría <strong>de</strong> los sintetizadores <strong>de</strong> habla actuales ofrec<strong>en</strong><br />
<strong>voz</strong> neutra que resulta m<strong>on</strong>ót<strong>on</strong>a y rutinaria. El proveer a estos sistemas <strong>de</strong> <strong>voz</strong> pers<strong>on</strong>alizada<br />
sería <strong>de</strong> gran ayuda para pers<strong>on</strong>as disminuidas.<br />
El otro grupo importante <strong>de</strong> aplicaci<strong>on</strong>es está ori<strong>en</strong>tado a la mejora <strong>de</strong> investigaci<strong>on</strong>es (por<br />
ejemplo, <strong>en</strong> psicología, psiquiatría, comportami<strong>en</strong>to humano o neurología), d<strong>on</strong><strong>de</strong> este tipo<br />
<strong>de</strong> sistemas pue<strong>de</strong> mejorar la calidad <strong>de</strong> la investigación obt<strong>en</strong>i<strong>en</strong>do mayor fiabilidad <strong>en</strong> las<br />
medidas y mayor velocidad <strong>en</strong> tareas manuales <strong>de</strong> procesado <strong>de</strong> datos sobre el comportami<strong>en</strong>to<br />
emoci<strong>on</strong>al. Las áreas <strong>de</strong> investigación <strong>en</strong> las que se pue<strong>de</strong> obt<strong>en</strong>er un b<strong>en</strong>eficio sustancial s<strong>on</strong><br />
investigaci<strong>on</strong>es <strong>en</strong> la c<strong>on</strong>ducta social (como el grado <strong>de</strong> interés <strong>de</strong> un sujeto <strong>en</strong> la comunicación<br />
[6]) y emoci<strong>on</strong>al, la relación madre-hijo, trastornos psiquiátricos y el estudio <strong>de</strong> expresi<strong>on</strong>es<br />
afectivas (por ejemplo, <strong>de</strong>cepción).<br />
3.3. Naturaleza <strong>de</strong> las Emoci<strong>on</strong>es<br />
En cada instante experim<strong>en</strong>tamos algún tipo <strong>de</strong> emoción o s<strong>en</strong>timi<strong>en</strong>to. Nuestro estado<br />
emoci<strong>on</strong>al varía a lo largo <strong>de</strong>l día <strong>en</strong> función <strong>de</strong> lo que nos ocurre y <strong>de</strong> los estímulos que<br />
percibimos. Otra cosa es que t<strong>en</strong>gamos siempre c<strong>on</strong>ci<strong>en</strong>cia <strong>de</strong> ello, es <strong>de</strong>cir, que sepamos y<br />
podamos expresar c<strong>on</strong> claridad que emoción experim<strong>en</strong>tamos <strong>en</strong> un mom<strong>en</strong>to dado.<br />
Las emoci<strong>on</strong>es s<strong>on</strong> experi<strong>en</strong>cias muy complejas y para expresarlas utilizamos una gran<br />
variedad <strong>de</strong> términos, a<strong>de</strong>más <strong>de</strong> gestos y actitu<strong>de</strong>s. Debido a su complejidad sería imposible<br />
24<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
hacer una <strong>de</strong>scripción y clasificación <strong>de</strong> todas las emoci<strong>on</strong>es que po<strong>de</strong>mos experim<strong>en</strong>tar. Sin<br />
embargo, el vocabulario usual para <strong>de</strong>scribir las emoci<strong>on</strong>es es reducido y ello permite que las<br />
pers<strong>on</strong>as <strong>de</strong> un mismo <strong>en</strong>torno cultural puedan compartirlas.<br />
La complejidad c<strong>on</strong> la que po<strong>de</strong>mos expresar nuestras emoci<strong>on</strong>es nos hace p<strong>en</strong>sar que<br />
la emoción es un proceso multifactorial o multidim<strong>en</strong>si<strong>on</strong>al. Uno siempre ti<strong>en</strong>e la impresión<br />
<strong>de</strong> que le faltan palabras para <strong>de</strong>scribir c<strong>on</strong> precisión sus emoci<strong>on</strong>es. La emoción no es un<br />
f<strong>en</strong>óm<strong>en</strong>o simple, sino que muchos factores c<strong>on</strong>tribuy<strong>en</strong> a ello. Se experim<strong>en</strong>tan a veces cuando<br />
algo inesperado suce<strong>de</strong> y los efectos emoci<strong>on</strong>ales empiezan a t<strong>en</strong>er c<strong>on</strong>trol <strong>en</strong> esos mom<strong>en</strong>tos.<br />
Emoción y estado emoci<strong>on</strong>al s<strong>on</strong> c<strong>on</strong>ceptos difer<strong>en</strong>tes: mi<strong>en</strong>tras que las emoci<strong>on</strong>es surg<strong>en</strong><br />
rep<strong>en</strong>tinam<strong>en</strong>te <strong>en</strong> respuesta a un <strong>de</strong>terminado estímulo y duran unos segundos o minutos,<br />
los estados <strong>de</strong> ánimo s<strong>on</strong> más ambiguos <strong>en</strong> su naturaleza, perdurando durante horas o días.<br />
Las emoci<strong>on</strong>es pue<strong>de</strong>n ser c<strong>on</strong>si<strong>de</strong>radas más claram<strong>en</strong>te como algo cambiante y los estados <strong>de</strong><br />
ánimo s<strong>on</strong> más estables. Aunque el principio <strong>de</strong> una emoción pue<strong>de</strong> ser fácilm<strong>en</strong>te distinguible<br />
<strong>de</strong> un estado <strong>de</strong> ánimo, es imposible <strong>de</strong>finir cuando una emoción se c<strong>on</strong>vierte <strong>en</strong> un estado <strong>de</strong><br />
ánimo; posiblem<strong>en</strong>te por esta razón, el c<strong>on</strong>cepto <strong>de</strong> emoción es usado como un término g<strong>en</strong>eral<br />
que incluye al <strong>de</strong>l estado <strong>de</strong> ánimo.<br />
Como término más g<strong>en</strong>eral al <strong>de</strong> estado <strong>de</strong> ánimo y emoción, está el rasgo a largo plazo <strong>de</strong><br />
pers<strong>on</strong>alidad, que pue<strong>de</strong> <strong>de</strong>finirse como el t<strong>on</strong>o emoci<strong>on</strong>al característico <strong>de</strong> una pers<strong>on</strong>a a lo<br />
largo <strong>de</strong>l tiempo.<br />
Muchos <strong>de</strong> los términos utilizados para <strong>de</strong>scribir emoci<strong>on</strong>es y sus efectos s<strong>on</strong> necesariam<strong>en</strong>te<br />
difusos y no están claram<strong>en</strong>te <strong>de</strong>finidos. Esto es atribuible a la dificultad <strong>en</strong> expresar <strong>en</strong> palabras<br />
los c<strong>on</strong>ceptos abstractos <strong>de</strong> los s<strong>en</strong>timi<strong>en</strong>tos, que no pue<strong>de</strong>n ser cuantificados. Por ello, para<br />
<strong>de</strong>scribir características <strong>de</strong> las emoci<strong>on</strong>es se utilizan un c<strong>on</strong>junto <strong>de</strong> palabras emotivas, si<strong>en</strong>do<br />
selecci<strong>on</strong>adas la mayoría <strong>de</strong> ellas por elección pers<strong>on</strong>al <strong>en</strong> vez <strong>de</strong> comunicar un significado<br />
estándar.<br />
3.4. Emoci<strong>on</strong>es <strong>en</strong> el Habla<br />
La <strong>voz</strong> es el principal modo <strong>de</strong> comunicación <strong>en</strong>tre humanos y por c<strong>on</strong>sigui<strong>en</strong>te a lo largo<br />
<strong>de</strong> las últimas décadas se ha estudiado las maneras <strong>en</strong> que funci<strong>on</strong>a el tracto vocal a la hora <strong>de</strong><br />
producir <strong>voz</strong>. Durante este tiempo se ha investigado la manera <strong>de</strong> diseñar sistemas capaces <strong>de</strong><br />
sintetizar y rec<strong>on</strong>ocer <strong>voz</strong> electrónicam<strong>en</strong>te.<br />
Uno <strong>de</strong> los mayores problemas c<strong>on</strong> los que se ha <strong>en</strong>c<strong>on</strong>trado la comunidad ci<strong>en</strong>tífica a la<br />
hora <strong>de</strong> estudiar los mecanismos <strong>de</strong>l habla es la variabilidad <strong>de</strong> ésta. Muchos estudios han<br />
<strong>de</strong>mostrado que por medio <strong>de</strong> la <strong>voz</strong> se es capaz <strong>de</strong> rec<strong>on</strong>ocer varios aspectos <strong>de</strong>l estado físico,<br />
tales como la edad, sexo, apari<strong>en</strong>cia y <strong>de</strong>l estado emoci<strong>on</strong>al [7], [8]. Todo este c<strong>on</strong>junto <strong>de</strong><br />
factores, difer<strong>en</strong>tes para cada locutor, c<strong>on</strong>tribuy<strong>en</strong> a la variabilidad <strong>de</strong>l habla. El problema<br />
por ejemplo <strong>en</strong> los sintetizadores <strong>de</strong> habla es que no ofrec<strong>en</strong> esta variabilidad <strong>en</strong> el habla y<br />
produc<strong>en</strong> por lo tanto un habla no natural. La variabilidad <strong>en</strong> el habla sup<strong>on</strong>e también un<br />
problema <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla haci<strong>en</strong>do así que un c<strong>on</strong>t<strong>en</strong>ido semántico como por<br />
ejemplo una palabra pueda ser expresada <strong>de</strong> un número incalculable <strong>de</strong> maneras <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do<br />
<strong>de</strong> las c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> cada locutor, sexo, edad, estado emoci<strong>on</strong>al, etc.<br />
Para implem<strong>en</strong>tar c<strong>on</strong> éxito los rec<strong>on</strong>ocedores <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla hay que t<strong>en</strong>er<br />
<strong>en</strong> cu<strong>en</strong>ta dos factores fundam<strong>en</strong>tales: el c<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> como pue<strong>de</strong>n distinguirse las<br />
características emoci<strong>on</strong>ales <strong>de</strong> la <strong>voz</strong> y como pue<strong>de</strong>n <strong>de</strong>scribirse dichas características usando<br />
los métodos <strong>de</strong> procesado <strong>de</strong> <strong>voz</strong> c<strong>on</strong>v<strong>en</strong>ci<strong>on</strong>ales.<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 25
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Si c<strong>on</strong>si<strong>de</strong>ramos el c<strong>on</strong>junto <strong>de</strong> características <strong>de</strong>l habla que puedan ser analizadas <strong>en</strong><br />
habla emoci<strong>on</strong>ada (bajo estrés), la frecu<strong>en</strong>cia fundam<strong>en</strong>tal o pitch es una <strong>de</strong> las que más se ha<br />
estudiado históricam<strong>en</strong>te. Uno <strong>de</strong> los primeros y más amplios trabajos sobre el análisis <strong>de</strong> las características<br />
<strong>de</strong>l habla fue Williams y Stev<strong>en</strong>s [9], al cual le fuer<strong>on</strong> sucedi<strong>en</strong>do más c<strong>on</strong> el tiempo.<br />
Los efectos <strong>de</strong> las emoci<strong>on</strong>es <strong>en</strong> el habla han sido estudiados por investigadores acústicos<br />
que han analizado la señal <strong>de</strong> <strong>voz</strong>, por lingüistas que han estudiado los efectos léxicos y<br />
prosódicos y por psicólogos. Gracias a estos esfuerzos se ha c<strong>on</strong>seguido i<strong>de</strong>ntificar muchos <strong>de</strong> los<br />
comp<strong>on</strong><strong>en</strong>tes <strong>de</strong>l habla que se utilizan para expresar emoci<strong>on</strong>es, <strong>de</strong>ntro <strong>de</strong> los cuales se c<strong>on</strong>si<strong>de</strong>ran<br />
los más importantes: pitch, duración, calidad <strong>de</strong> <strong>voz</strong> y forma <strong>de</strong>l pulso glotal y tracto vocal.<br />
3.4.1. Pitch<br />
El pitch o frecu<strong>en</strong>cia fundam<strong>en</strong>tal es la frecu<strong>en</strong>cia a la que vibran las cuerdas vocales,<br />
también llamada frecu<strong>en</strong>cia fundam<strong>en</strong>tal o F0. Es uno <strong>de</strong> los parámetros que caracterizan la<br />
<strong>voz</strong> <strong>de</strong> un locutor. Se c<strong>on</strong>si<strong>de</strong>ra que las características <strong>de</strong>l pitch s<strong>on</strong> unas <strong>de</strong> las principales<br />
portadoras <strong>de</strong> la información emoci<strong>on</strong>al.<br />
Las características <strong>de</strong> la frecu<strong>en</strong>cia fundam<strong>en</strong>tal incluy<strong>en</strong> c<strong>on</strong>torno, media, variabilidad y<br />
distribución.<br />
• El valor medio <strong>de</strong>l pitch <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong>l locutor y expresa el nivel <strong>de</strong> excitación <strong>de</strong>l locutor.<br />
Po<strong>de</strong>mos afirmar que una media elevada <strong>de</strong> F0 indica un mayor grado <strong>de</strong> excitación.<br />
• El rango <strong>de</strong>l pitch es la distancia <strong>en</strong>tre el valor máximo y mínimo <strong>de</strong> la frecu<strong>en</strong>cia<br />
fundam<strong>en</strong>tal. Refleja también el grado <strong>de</strong> exaltación <strong>de</strong>l locutor. Un rango más ext<strong>en</strong>so que el<br />
normal refleja una excitación emoci<strong>on</strong>al o psicológica.<br />
• Las fluctuaci<strong>on</strong>es <strong>en</strong> el pitch <strong>de</strong>scritas como la velocidad <strong>de</strong> la fluctuaci<strong>on</strong>es <strong>en</strong>tre valores<br />
altos y bajos y si s<strong>on</strong> abruptas o suaves s<strong>on</strong> producidas psicológicam<strong>en</strong>te. En g<strong>en</strong>eral, la curva<br />
<strong>de</strong> t<strong>on</strong>o es disc<strong>on</strong>tinua para las emoci<strong>on</strong>es c<strong>on</strong>si<strong>de</strong>radas como negativas (miedo, <strong>en</strong>fado) y es<br />
suave para las emoci<strong>on</strong>es positivas (por ejemplo la alegría).<br />
Figura 6: Ejemplo <strong>de</strong> distribución <strong>de</strong> probabilidad <strong>de</strong> pitch para un locutor masculino.<br />
26<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
• La distribución <strong>de</strong> pitch <strong>de</strong>scribe el rango <strong>de</strong> valores <strong>de</strong> pitch así como la probabilidad<br />
<strong>de</strong> que un cierto valor esté <strong>de</strong>ntro <strong>de</strong> un subc<strong>on</strong>junto <strong>de</strong> dicho rango. Dicha distribución es<br />
precisam<strong>en</strong>te lo que mo<strong>de</strong>laremos posteriorm<strong>en</strong>te <strong>en</strong> nuestro sistema GMM-SVM. La Figura<br />
6 corresp<strong>on</strong><strong>de</strong> c<strong>on</strong> un ejemplo <strong>de</strong> distribución <strong>de</strong> pitch <strong>de</strong> un locutor masculino. Una <strong>de</strong> las<br />
maneras más fácil <strong>de</strong> distinguir <strong>en</strong>tre <strong>voz</strong> masculina y fem<strong>en</strong>ina es a través <strong>de</strong> la distribución<br />
<strong>de</strong>l pitch. Así, el género fem<strong>en</strong>ino posee una frecu<strong>en</strong>cia fundam<strong>en</strong>tal media aproximadam<strong>en</strong>te<br />
el doble a la <strong>de</strong>l hombre y una <strong>de</strong>sviación también mucho mayor [Figura 7], es <strong>de</strong>cir, existe<br />
mayor diversidad <strong>de</strong> t<strong>on</strong>o <strong>de</strong> <strong>voz</strong> <strong>en</strong> mujeres que <strong>en</strong> hombres.<br />
Figura 7: Distribución F0 hombre/mujer.<br />
3.4.2. Duración<br />
La duración es la comp<strong>on</strong><strong>en</strong>te <strong>de</strong> la prosodia <strong>de</strong>scrita por la velocidad <strong>de</strong>l habla y la<br />
situación <strong>de</strong> los ac<strong>en</strong>tos, y cuyos efectos s<strong>on</strong> el ritmo y la velocidad. El ritmo <strong>en</strong> el habla <strong>de</strong>riva<br />
<strong>de</strong> la situación <strong>de</strong> los ac<strong>en</strong>tos y <strong>de</strong> la combinación <strong>de</strong> las duraci<strong>on</strong>es <strong>de</strong> las pausas y <strong>de</strong> los<br />
f<strong>on</strong>emas.<br />
Para ciertas c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> estrés, la duración <strong>de</strong> las palabras o <strong>de</strong> los f<strong>on</strong>emas, los cambios<br />
<strong>en</strong>tre vocales fr<strong>en</strong>te a c<strong>on</strong>s<strong>on</strong>antes o la pres<strong>en</strong>cia <strong>de</strong> c<strong>on</strong>s<strong>on</strong>antes juegan un papel importante<br />
<strong>en</strong> la habilidad <strong>de</strong> los oy<strong>en</strong>tes a la hora <strong>de</strong> recibir la información <strong>de</strong>l locutor [10].<br />
Las emoci<strong>on</strong>es pue<strong>de</strong>n distinguirse por una serie <strong>de</strong> parámetros que c<strong>on</strong>ciern<strong>en</strong> a la<br />
duración, como s<strong>on</strong>:<br />
• velocidad <strong>de</strong> locución: g<strong>en</strong>eralm<strong>en</strong>te un locutor <strong>en</strong> estado <strong>de</strong> excitación acortará la<br />
duración <strong>de</strong> las sílabas, c<strong>on</strong> lo que la velocidad <strong>de</strong> locución medida <strong>en</strong> sílabas por segundo o <strong>en</strong><br />
palabras por minuto se increm<strong>en</strong>tará.<br />
• número <strong>de</strong> pausas y su duración: un locutor exaltado t<strong>en</strong><strong>de</strong>rá a hablar rápidam<strong>en</strong>te<br />
c<strong>on</strong> m<strong>en</strong>os pausas y más cortas, mi<strong>en</strong>tras que un locutor <strong>de</strong>primido hablará más l<strong>en</strong>tam<strong>en</strong>te,<br />
introduci<strong>en</strong>do pausas más largas.<br />
3.4.3. Calidad <strong>de</strong> Voz<br />
La calidad <strong>de</strong> <strong>voz</strong> pue<strong>de</strong> marcar la difer<strong>en</strong>cia <strong>en</strong>tre unas emoci<strong>on</strong>es y otras. Exist<strong>en</strong><br />
numerosas variables f<strong>on</strong>éticas relaci<strong>on</strong>adas c<strong>on</strong> la calidad <strong>de</strong> <strong>voz</strong>: coci<strong>en</strong>te <strong>de</strong> abertura <strong>de</strong><br />
las cuerdas vocales, timbre e irregularida<strong>de</strong>s <strong>de</strong> la <strong>voz</strong>, ruido, distribución <strong>de</strong> la <strong>en</strong>ergía<br />
(int<strong>en</strong>sidad), laringerización, etc.<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 27
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
3.4.4. Pulso Glotal y Tracto Vocal<br />
Las características espectrales producidas como respuesta al tracto vocal y glotal también<br />
se v<strong>en</strong> modificadas durante la producción <strong>de</strong> habla bajo estrés.<br />
Características <strong>de</strong> la forma <strong>de</strong>l pulso glotal como la p<strong>en</strong>di<strong>en</strong>te, c<strong>en</strong>tro <strong>de</strong> masas o nivel<br />
medio espectral, también han sido analizadas como pot<strong>en</strong>ciales rasgos acústicos correlados c<strong>on</strong><br />
el habla emoci<strong>on</strong>al. También han sido investigadas la media, varianza y la localización y ancho<br />
<strong>de</strong> banda <strong>de</strong> los formantes para estudiar el efecto <strong>de</strong>l habla bajo c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> estrés [11].<br />
La Tabla 1 pres<strong>en</strong>ta un resum<strong>en</strong> <strong>de</strong> las relaci<strong>on</strong>es <strong>en</strong>tre las emoci<strong>on</strong>es y los parámetros <strong>de</strong>l<br />
discurso. Como se pue<strong>de</strong> observar <strong>en</strong> la tabla únicam<strong>en</strong>te aparec<strong>en</strong> cinco emoci<strong>on</strong>es. Como<br />
veremos <strong>en</strong> la sección 3.5, éstas corresp<strong>on</strong><strong>de</strong>n c<strong>on</strong> las emoci<strong>on</strong>es primarias o básicas. El resto<br />
<strong>de</strong> emoci<strong>on</strong>es modifican y combinan estas emoci<strong>on</strong>es básicas y s<strong>on</strong> las que llamamos emoci<strong>on</strong>es<br />
secundarias.<br />
Ira Felicidad Tristeza Miedo Disgusto<br />
Veloc. Ligeram<strong>en</strong>te Acelerada o Pausada Muy Mucho más<br />
Habla acelerada retardada<br />
acelerada acelerada<br />
Calidad Proce<strong>de</strong>nte Estri<strong>de</strong>nte Res<strong>on</strong>ante Irregular Retumbante<br />
<strong>voz</strong><br />
<strong>de</strong>l pecho<br />
Int<strong>en</strong>sidad Alta Alta Baja Normal Baja<br />
Pulso<br />
glotal<br />
P<strong>en</strong>di<strong>en</strong>te<br />
fuerte y alto<br />
P<strong>en</strong>di<strong>en</strong>te<br />
fuerte<br />
P<strong>en</strong>di<strong>en</strong>te<br />
suave y<br />
P<strong>en</strong>di<strong>en</strong>te<br />
muy fuerte y<br />
P<strong>en</strong>di<strong>en</strong>te<br />
fuerte<br />
ancho banda<br />
ancho banda gran ancho<br />
estrecho. banda<br />
Tabla 1: Emoci<strong>on</strong>es y características <strong>de</strong>l habla.<br />
Existe <strong>en</strong> g<strong>en</strong>eral una relación c<strong>on</strong>ocida <strong>en</strong>tre el habla y las emoci<strong>on</strong>es primarias. Las<br />
medidas <strong>de</strong>l habla que parec<strong>en</strong> ser bu<strong>en</strong>as indicadoras <strong>de</strong> estas emoci<strong>on</strong>es s<strong>on</strong> medidas acústicas<br />
c<strong>on</strong>tinuas, tales como las relaci<strong>on</strong>adas c<strong>on</strong> la variación <strong>de</strong>l discurso, el rango, la int<strong>en</strong>sidad y<br />
la duración <strong>de</strong>l mismo. Sin embargo esta relación suele no ser sufici<strong>en</strong>te. Una <strong>de</strong> las líneas <strong>de</strong><br />
investigación <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es es la mejora <strong>de</strong> nuestra capacidad<br />
para i<strong>de</strong>ntificar la correlación <strong>en</strong>tre las señales acústicas <strong>en</strong> el discurso y el amplio rango <strong>de</strong><br />
emoci<strong>on</strong>es producidas por el hablante. Los sistemas diseñados para llevar a cabo esta tarea, por<br />
lo g<strong>en</strong>eral, s<strong>on</strong> extremadam<strong>en</strong>te s<strong>en</strong>sibles a la variabilidad introducida por el hablante. Esta<br />
variabilidad se <strong>de</strong>be, especialm<strong>en</strong>te a variaci<strong>on</strong>es <strong>en</strong> la <strong>voz</strong> y <strong>en</strong> estilo causadas por ejemplo por<br />
difer<strong>en</strong>tes estados <strong>de</strong> ánimo <strong>de</strong>l hablante [12].<br />
3.5. Clasificación <strong>de</strong> las Emoci<strong>on</strong>es<br />
En la mayoría <strong>de</strong> los casos, las emoci<strong>on</strong>es no s<strong>on</strong> g<strong>en</strong>uinas o protípicas, sino que se dan<br />
como mezcla <strong>de</strong> varias. Ésto provoca que la clasificación <strong>de</strong> las emoci<strong>on</strong>es sea una tarea ardua<br />
y totalm<strong>en</strong>te expuesta a las subjetividad. Sin embargo, la mayoría <strong>de</strong> los investigadores han<br />
tratado siempre c<strong>on</strong> emoci<strong>on</strong>es prototípicas o completas pues es la única manera <strong>de</strong> po<strong>de</strong>r<br />
discriminar <strong>en</strong>tre unas emoci<strong>on</strong>es y otras.<br />
Basánd<strong>on</strong>os <strong>en</strong> el grado <strong>en</strong> que las emoci<strong>on</strong>es afectan al comportami<strong>en</strong>to <strong>de</strong>l sujeto po<strong>de</strong>mos<br />
clasificar las emoci<strong>on</strong>es como positivas o negativas. Cada emoción expresa una cantidad o<br />
28<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
magnitud <strong>en</strong> una escala positivo/negativo. Así, experim<strong>en</strong>tamos emoci<strong>on</strong>es positivas y negativas<br />
<strong>en</strong> grados variables y <strong>de</strong> int<strong>en</strong>sidad diversa. Po<strong>de</strong>mos experim<strong>en</strong>tar cambios <strong>de</strong> int<strong>en</strong>sidad<br />
emoci<strong>on</strong>al bruscos o graduales, bi<strong>en</strong> hacia lo positivo o bi<strong>en</strong> hacia lo negativo. Es <strong>de</strong>cir, toda<br />
emoción repres<strong>en</strong>ta una magnitud o medida a lo largo <strong>de</strong> un c<strong>on</strong>tinuo, que pue<strong>de</strong> tomar valores<br />
positivos o negativos.<br />
En el l<strong>en</strong>guaje cotidiano, expresamos nuestras emoci<strong>on</strong>es <strong>de</strong>ntro <strong>de</strong> una escala positiv<strong>on</strong>egativo<br />
y <strong>en</strong> magnitu<strong>de</strong>s variables, como ”me si<strong>en</strong>to bi<strong>en</strong>”, ”me si<strong>en</strong>to muy bi<strong>en</strong>”, ”me si<strong>en</strong>to<br />
extraordinariam<strong>en</strong>te bi<strong>en</strong>”(int<strong>en</strong>sida<strong>de</strong>s o grados <strong>de</strong>l polo positivo) o ”me si<strong>en</strong>to mal”, ”me<br />
si<strong>en</strong>to muy mal”, ”me si<strong>en</strong>to extraordinariam<strong>en</strong>te mal”(int<strong>en</strong>sida<strong>de</strong>s o grados <strong>de</strong>l polo negativo).<br />
Según sea la situación que provoca la emoción, escogemos unas palabras u otras como<br />
’amor’, ’amistad’, ’temor’, ’incertidumbre’, ’respeto’, etc., que, a<strong>de</strong>más, señala su signo (positivo<br />
o negativo). Y según sea la int<strong>en</strong>sidad <strong>de</strong> la emoción escogemos palabras como ’nada’, ’poco’, ’<br />
bastante’, ’muy’, etc. y así, comp<strong>on</strong>emos la <strong>de</strong>scripción <strong>de</strong> una emoción. Decimos, por ejemplo,<br />
”me si<strong>en</strong>to muy compr<strong>en</strong>dido”(positiva) o ”me si<strong>en</strong>to un poco <strong>de</strong>fraudado”(negativa).<br />
En c<strong>on</strong>secu<strong>en</strong>cia, po<strong>de</strong>mos rec<strong>on</strong>ocer <strong>en</strong> toda emoción dos comp<strong>on</strong><strong>en</strong>tes bi<strong>en</strong> difer<strong>en</strong>ciados.<br />
Por un lado, un comp<strong>on</strong><strong>en</strong>te cualitativo que se expresa mediante la palabra que utilizamos<br />
para <strong>de</strong>scribir la emoción (amor, amistad, temor, inseguridad, etc.) y que <strong>de</strong>termina su signo<br />
positivo o negativo. Por otro lado, toda emoción posee un comp<strong>on</strong><strong>en</strong>te cuantitativo que se<br />
expresa mediante palabras <strong>de</strong> magnitud (poco, bastante, mucho, gran, algo, etc.), tanto para<br />
las emoci<strong>on</strong>es positivas como negativas.<br />
Otro tipo <strong>de</strong> clasificación es la que difer<strong>en</strong>cia <strong>en</strong>tre emoci<strong>on</strong>es primarias y emoci<strong>on</strong>es<br />
secundarias. Las primeras s<strong>on</strong> las emoci<strong>on</strong>es fundam<strong>en</strong>tales mi<strong>en</strong>tras que las secundarias s<strong>on</strong><br />
todas las <strong>de</strong>más que modifican y combinan estas emoci<strong>on</strong>es básicas. Sin embargo, no hay<br />
c<strong>on</strong>s<strong>en</strong>so sobre cuáles c<strong>on</strong>stituy<strong>en</strong> las emoci<strong>on</strong>es básicas.<br />
• Emoci<strong>on</strong>es primarias<br />
- Enfado: El <strong>en</strong>fado ha sido ampliam<strong>en</strong>te estudiado <strong>en</strong> la literatura sobre emoci<strong>on</strong>es. Hay<br />
c<strong>on</strong>tradicci<strong>on</strong>es <strong>en</strong>tre los efectos recogidos <strong>en</strong> estos escritos, aunque esto pue<strong>de</strong> ser <strong>de</strong>bido a<br />
que el <strong>en</strong>fado pue<strong>de</strong> ser expresado <strong>de</strong> varias maneras. El <strong>en</strong>fado se <strong>de</strong>fine como “la impresión<br />
<strong>de</strong>sagradable y molesta que se produce <strong>en</strong> el ánimo”. El <strong>en</strong>fado se caracteriza por un t<strong>on</strong>o<br />
medio alto (229 Hz), un amplio rango <strong>de</strong> t<strong>on</strong>o y una velocidad <strong>de</strong> locución rápida (190 palabras<br />
por minuto), c<strong>on</strong> un 32 % <strong>de</strong> pausas.<br />
- Alegría: Se manifiesta <strong>en</strong> un increm<strong>en</strong>to <strong>en</strong> el t<strong>on</strong>o medio y <strong>en</strong> su rango, así como un<br />
increm<strong>en</strong>to <strong>en</strong> la velocidad <strong>de</strong> locución y <strong>en</strong> la int<strong>en</strong>sidad.<br />
- Tristeza: El habla triste exhibe un t<strong>on</strong>o medio más bajo que el normal, un estrecho rango<br />
y una velocidad <strong>de</strong> locución l<strong>en</strong>ta.<br />
- Miedo: Comparando el t<strong>on</strong>o medio c<strong>on</strong> los otras cuatros emoci<strong>on</strong>es primarias estudiadas,<br />
se observó el t<strong>on</strong>o medio más elevado (254Hz), el rango mayor, un gran número <strong>de</strong> cambios <strong>en</strong><br />
la curva <strong>de</strong>l t<strong>on</strong>o y una velocidad <strong>de</strong> locución rápida (202 palabras por minuto).<br />
- Disgusto/odio: Se caracteriza por un t<strong>on</strong>o medio bajo, un rango amplio y la velocidad <strong>de</strong><br />
locución más baja, c<strong>on</strong> gran<strong>de</strong>s pausas.<br />
• Emoci<strong>on</strong>es secundarias<br />
- P<strong>en</strong>a: es una forma extrema <strong>de</strong> tristeza, g<strong>en</strong>eralm<strong>en</strong>te causada por una aflicción. Se<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 29
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
caracteriza por un bajo t<strong>on</strong>o medio, el rango <strong>de</strong> t<strong>on</strong>o más estrecho, la p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> la curva <strong>de</strong><br />
t<strong>on</strong>o más baja, una velocidad <strong>de</strong> locución baja y un alto porc<strong>en</strong>taje <strong>de</strong> pausas.<br />
- Ternura: se expresa c<strong>on</strong> un alto nivel <strong>de</strong> t<strong>on</strong>o que no fluctúa excesivam<strong>en</strong>te.<br />
- Ir<strong>on</strong>ía: caracterizada por una velocidad <strong>de</strong> locución baja y una ac<strong>en</strong>tuación muy marcada.<br />
- Sorpresa: c<strong>on</strong> un t<strong>on</strong>o medio mayor que la <strong>voz</strong> normal, una velocidad igual a la normal y<br />
un rango amplio.<br />
Otras emoci<strong>on</strong>es secundarias: como el temor, la queja, el anhelo, el aburrimi<strong>en</strong>to, la<br />
satisfacción, la impaci<strong>en</strong>cia, el <strong>en</strong>sueño, la coquetería han sido también objeto <strong>de</strong> estudio.<br />
Autores como J. Davitz, Osgood, Suci y Tannembaum clasificar<strong>on</strong> las emoci<strong>on</strong>es utilizando<br />
para ello tres dim<strong>en</strong>si<strong>on</strong>es <strong>de</strong>l espacio semántico: pot<strong>en</strong>cia, val<strong>en</strong>cia y actividad [13].<br />
• Pot<strong>en</strong>cia o fuerza: corresp<strong>on</strong><strong>de</strong> a la at<strong>en</strong>ción – rechazo. Ayuda a distinguir <strong>en</strong>tre<br />
emoci<strong>on</strong>es iniciadas por el sujeto a aquellas que surg<strong>en</strong> <strong>de</strong>l ambi<strong>en</strong>te (<strong>de</strong>s<strong>de</strong> el <strong>de</strong>sprecio al<br />
temor o la sorpresa). También se le ha llamado fuerza o dominio.<br />
• Val<strong>en</strong>cia, agrado o valoración: se refiere al grado <strong>de</strong> positividad o negatividad <strong>de</strong> la<br />
emoción (<strong>de</strong>s<strong>de</strong> la alegría hasta el <strong>en</strong>fado).<br />
• Actividad: corresp<strong>on</strong><strong>de</strong> al grado <strong>de</strong> int<strong>en</strong>sidad <strong>en</strong> la emoción. También se la c<strong>on</strong>oce<br />
como int<strong>en</strong>sidad o dim<strong>en</strong>sión <strong>de</strong> int<strong>en</strong>sidad.<br />
En varios estudios se ha <strong>de</strong>scubierto que se c<strong>on</strong>fun<strong>de</strong>n más <strong>en</strong>tre sí las emoci<strong>on</strong>es c<strong>on</strong> un<br />
nivel similar <strong>de</strong> actividad (como por ejemplo la alegría y el <strong>en</strong>fado) que las que pres<strong>en</strong>tan<br />
similitud <strong>en</strong> términos <strong>de</strong> val<strong>en</strong>cia o <strong>de</strong> fuerza. También están relaci<strong>on</strong>ados el ritmo y la val<strong>en</strong>cia<br />
<strong>de</strong> forma que los s<strong>en</strong>timi<strong>en</strong>tos “positivos” s<strong>on</strong> expresados c<strong>on</strong> un ritmo más regular que los<br />
s<strong>en</strong>timi<strong>en</strong>tos “negativos”. Esto lleva a la c<strong>on</strong>clusión que la dim<strong>en</strong>sión <strong>de</strong> la actividad está más<br />
correlaci<strong>on</strong>ada c<strong>on</strong> las variables auditivas relativam<strong>en</strong>te más simples <strong>de</strong> la <strong>voz</strong>, como pue<strong>de</strong>n<br />
ser el t<strong>on</strong>o y la int<strong>en</strong>sidad, mi<strong>en</strong>tras que la val<strong>en</strong>cia y la fuerza s<strong>on</strong> probablem<strong>en</strong>te comunicados<br />
por mo<strong>de</strong>los más sutiles y complejos.<br />
Algunos investigadores han utilizado otra clasificación, dividi<strong>en</strong>do las emoci<strong>on</strong>es <strong>en</strong>:<br />
• Pasivas: Se caracterizan por una velocidad <strong>de</strong> locución l<strong>en</strong>ta, un volum<strong>en</strong> bajo, un t<strong>on</strong>o<br />
bajo y un timbre más res<strong>on</strong>ante.<br />
• Activas: Caracterizadas por una velocidad <strong>de</strong> locución rápida, alto volum<strong>en</strong>, alto t<strong>on</strong>o y<br />
un timbre ”<strong>en</strong>c<strong>en</strong>dido”.<br />
3.6. Implicaci<strong>on</strong>es Jurídicas<br />
Exist<strong>en</strong> varias áreas d<strong>on</strong><strong>de</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es pue<strong>de</strong> influir <strong>en</strong> una s<strong>en</strong>t<strong>en</strong>cia<br />
legal. En lineas g<strong>en</strong>erales, estas áreas incluy<strong>en</strong> valoración <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> los <strong>de</strong>más, emoci<strong>on</strong>es<br />
y memoria (credibilidad <strong>de</strong> testigos), emoci<strong>on</strong>es y cultura (efectos <strong>en</strong> investigaci<strong>on</strong>es for<strong>en</strong>ses),<br />
y c<strong>on</strong>ocimi<strong>en</strong>to legal y emoci<strong>on</strong>es [14].<br />
•Valoración <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> los <strong>de</strong>más<br />
30<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
La capacidad <strong>de</strong> <strong>de</strong>tectar emoci<strong>on</strong>es y el grado <strong>de</strong> las mismas a través <strong>de</strong> rasgos acústicos<br />
<strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> pue<strong>de</strong> ser <strong>de</strong> gran utilidad <strong>en</strong> el sistema jurídico. Por ejemplo, las fuerzas<br />
<strong>de</strong> la ley se pue<strong>de</strong>n b<strong>en</strong>eficiar c<strong>on</strong>oci<strong>en</strong>do que emoci<strong>on</strong>es experim<strong>en</strong>ta un sospechoso <strong>en</strong> un<br />
interrogatorio para así evaluar su credibilidad. O un jurado pue<strong>de</strong> dar credibilidad o no a un<br />
testigo bajo el c<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> cambios <strong>en</strong> su habla.<br />
•Emoci<strong>on</strong>es y memoria<br />
Erróneam<strong>en</strong>te, los tribunales <strong>de</strong>positan <strong>de</strong>masiada c<strong>on</strong>fianza <strong>en</strong> los testigos visuales o<br />
auditivos. Para calcular <strong>de</strong> forma más acertada la fiabilidad <strong>de</strong> los testim<strong>on</strong>ios <strong>de</strong> los testigos,<br />
éstos <strong>de</strong>berían <strong>de</strong>berían ser analizados computaci<strong>on</strong>al, como por ejemplo, incluir una valoración<br />
<strong>de</strong>l estado emoci<strong>on</strong>al <strong>de</strong>l testigo. Se necesita <strong>de</strong> un mejor <strong>en</strong>t<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> las emoci<strong>on</strong>es pues<br />
éstas juegan un papel crucial <strong>en</strong> la memoria. Los psicólogos cognitivos suel<strong>en</strong> distinguir <strong>en</strong>tre<br />
formación, codificado, asociación y rec<strong>on</strong>strucción <strong>de</strong> la memoria. Todos estos procesos pue<strong>de</strong>n<br />
ser afectados por la emoción. Se pi<strong>en</strong>sa que por ejemplo, los sucesos emoci<strong>on</strong>ales c<strong>on</strong>llevan<br />
alguna prefer<strong>en</strong>cia <strong>en</strong> su procesado y por lo tanto s<strong>on</strong> más estables y los recordamos c<strong>on</strong> mayor<br />
precisión.<br />
•Emoci<strong>on</strong>es y cultura<br />
Las difer<strong>en</strong>cias <strong>en</strong>tre las emoci<strong>on</strong>es <strong>en</strong>tre culturas pue<strong>de</strong> sup<strong>on</strong>er un serio problema <strong>en</strong><br />
las investigaci<strong>on</strong>es for<strong>en</strong>ses. Por ejemplo, se ha visto que las interpretaci<strong>on</strong>es <strong>de</strong> una l<strong>en</strong>gua<br />
foránea <strong>en</strong> interrogatorios policiales g<strong>en</strong>eran problemas, especialm<strong>en</strong>te si el intérprete no ha<br />
sido <strong>en</strong>tr<strong>en</strong>ado correctam<strong>en</strong>te o si el policía actúa como intérprete. Las traducci<strong>on</strong>es literales<br />
<strong>de</strong> l<strong>en</strong>guas extrajeras <strong>de</strong>berían ser <strong>en</strong>fatizadas para dar un <strong>en</strong>t<strong>en</strong>dimi<strong>en</strong>to global <strong>de</strong> lo que se<br />
quiere comunicar. Sin embargo, no pue<strong>de</strong> ser <strong>de</strong>l todo posible <strong>de</strong>bido a la ambigüedad <strong>en</strong>tre el<br />
gran número <strong>de</strong> traducci<strong>on</strong>es hay <strong>en</strong>tre idiomas y culturas.<br />
•Emoci<strong>on</strong>es y c<strong>on</strong>ocimi<strong>en</strong>to legal<br />
El sistema judicial rec<strong>on</strong>oce a las emoci<strong>on</strong>es como una parte íntegra <strong>de</strong>l mismo. El propio<br />
sistema está basado <strong>en</strong> normas morales, las cuales, se basan <strong>en</strong> valores emoci<strong>on</strong>ales. Por<br />
ejemplo, los crím<strong>en</strong>es se castigan, a<strong>de</strong>más <strong>de</strong> por su carácter intrínseco, por la actitud <strong>de</strong>l<br />
culpable sobre la víctima. Así, el castigo se gradúa por las emoci<strong>on</strong>es que el culpable pa<strong>de</strong>ce<br />
<strong>en</strong> los mom<strong>en</strong>tos que ro<strong>de</strong>an al ac<strong>on</strong>tecimi<strong>en</strong>to. Por lo tanto, las emoci<strong>on</strong>es se <strong>en</strong>trelazan<br />
intrínsecam<strong>en</strong>te c<strong>on</strong> la ley.<br />
3.7. Técnicas <strong>de</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es<br />
En esta sección se van a mostrar las técnicas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla<br />
más importantes que se estudian <strong>en</strong> la actualidad. La mayoría <strong>de</strong> las técnicas usadas ahora<br />
para el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es anteriorm<strong>en</strong>te vi<strong>en</strong><strong>en</strong> <strong>de</strong> ofrecer bu<strong>en</strong>os resultados <strong>en</strong><br />
tareas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> tanto locutor como <strong>de</strong> idioma.<br />
3.7.1. GMM<br />
La técnica <strong>de</strong> Mo<strong>de</strong>los <strong>de</strong> Mezcla <strong>de</strong> Gaussianas (GMM o Gaussian Mixture Mo<strong>de</strong>ls)<br />
aplicada al rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es [15] se basa <strong>en</strong> el principio <strong>de</strong> que las<br />
emoci<strong>on</strong>es ti<strong>en</strong><strong>en</strong> difer<strong>en</strong>tes s<strong>on</strong>idos y que la frecu<strong>en</strong>cia <strong>de</strong> aparición <strong>de</strong> los s<strong>on</strong>idos es difer<strong>en</strong>te<br />
<strong>de</strong> una emoción a otra. Los GMM mo<strong>de</strong>lan la distribución <strong>de</strong> probabilidad <strong>de</strong> los parámetros<br />
(⃗x) <strong>de</strong> un fragm<strong>en</strong>to <strong>de</strong> audio. Los parámetros que más se usan s<strong>on</strong> los MFCC (Mel Frequ<strong>en</strong>cy<br />
Cepstral Coeffici<strong>en</strong>ts) o SDC (Shifted Delta Cepstral) como parámetros acústicos y c<strong>on</strong>tornos<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 31
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
<strong>de</strong> <strong>en</strong>ergía y pitch para parámetros prosódicos.<br />
El mo<strong>de</strong>lado <strong>de</strong> la distribución <strong>de</strong> probabilidad <strong>de</strong> los parámetros se realiza a partir <strong>de</strong> un<br />
mo<strong>de</strong>lo <strong>de</strong> suma <strong>de</strong> M funci<strong>on</strong>es <strong>de</strong> <strong>de</strong>nsidad Gaussianas, p i (⃗x), cada una parametrizada por<br />
el vector <strong>de</strong> medias Dx1 , ⃗µ i , y una matriz <strong>de</strong> covarianzas DxD, σ i ;<br />
p(x|λ) =<br />
M∑<br />
w i p i (⃗x)<br />
i=1<br />
d<strong>on</strong><strong>de</strong> p i (⃗x) =<br />
1<br />
(2π) D/2 |σ i | 1/2<br />
x exp[− 1 2 (⃗x − µ i) T ∑ −1<br />
i<br />
(⃗x − ⃗µ i )].<br />
Los pesos <strong>de</strong> la mezcla, w i , satisfac<strong>en</strong> la limitación ∑ M<br />
i=1 w i = 1. El mo<strong>de</strong>lo se <strong>de</strong>fine como<br />
λ = {w i , ⃗µ i , σ i }, d<strong>on</strong><strong>de</strong> i = 1, ..., M.<br />
Normalm<strong>en</strong>te se suel<strong>en</strong> usar matrices <strong>de</strong> covarianza diag<strong>on</strong>ales por varias raz<strong>on</strong>es. Los<br />
GMMs c<strong>on</strong> M > 1 c<strong>on</strong> matrices <strong>de</strong> covarianza diag<strong>on</strong>ales mo<strong>de</strong>lan distribuci<strong>on</strong>es <strong>de</strong> vectores<br />
<strong>de</strong> características c<strong>on</strong> elem<strong>en</strong>tos correlados. También GMMs c<strong>on</strong> matrices diag<strong>on</strong>ales s<strong>on</strong><br />
computaci<strong>on</strong>alm<strong>en</strong>te más efici<strong>en</strong>tes que matrices <strong>de</strong> covarianza completas, las cuales requier<strong>en</strong><br />
<strong>de</strong> repetidas inversi<strong>on</strong>es <strong>de</strong> matrices DxD.<br />
Figura 8: GMM bidim<strong>en</strong>si<strong>on</strong>al <strong>de</strong> 4 Gaussianas.<br />
Dada una colección <strong>de</strong> vectores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, se estiman los parámetros <strong>de</strong> los mo<strong>de</strong>los<br />
usando el algoritmo iterativo <strong>de</strong> máxima-expectación (EM, Expectati<strong>on</strong>-Maximizati<strong>on</strong> <strong>en</strong><br />
inglés) [16] (EM, expectati<strong>on</strong>-maximizati<strong>on</strong> <strong>en</strong> inglés). Dicho algoritmo iterativam<strong>en</strong>te refina<br />
los parámetros <strong>de</strong>l GMM. Por ejemplo, para la iteración k y k + 1, p(X|λ k+1 ) > p(X|λ k ).<br />
Normalm<strong>en</strong>te c<strong>on</strong> 5 iteraci<strong>on</strong>es es sufici<strong>en</strong>te para la c<strong>on</strong>verg<strong>en</strong>cia <strong>de</strong> los parámetros.<br />
Para unos vectores <strong>de</strong> características <strong>de</strong>sc<strong>on</strong>ocidos ⃗ X = {⃗x 1 , ..., ⃗x T } (se asum<strong>en</strong> que s<strong>on</strong><br />
in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes), el mo<strong>de</strong>lo GMM asigna una puntuación relaci<strong>on</strong>ada c<strong>on</strong> su verosimilitud<br />
fr<strong>en</strong>te a un mo<strong>de</strong>lo λ que se calcula como:<br />
log p( X|λ) ⃗ T∑<br />
= log p(⃗x t |λ)<br />
t=1<br />
32<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Exist<strong>en</strong> dos hipótesis:<br />
H 0 : que el c<strong>on</strong>junto <strong>de</strong> vectores ⃗ X pert<strong>en</strong>ezca a la clase C.<br />
H 1 : que el c<strong>on</strong>junto <strong>de</strong> vectores ⃗ X no pert<strong>en</strong>ezca a la clase C.<br />
Así, basánd<strong>on</strong>os <strong>en</strong> el teorema <strong>de</strong> Bayes, la <strong>de</strong>cisión óptima se toma a partir <strong>de</strong>l coci<strong>en</strong>te <strong>de</strong><br />
las dos probabilida<strong>de</strong>s:<br />
p( ⃗ X|H 0 )<br />
p( ⃗ X|H 1 )<br />
D<strong>on</strong><strong>de</strong> p( ⃗ X|H 1 ) es la probabilidad <strong>de</strong> que la clase C no haya g<strong>en</strong>erado la muestra ⃗x, y sin<br />
embargo haya sido cualquier otra clase.<br />
Si dicho coci<strong>en</strong>te supera un umbral θ, <strong>en</strong>t<strong>on</strong>ces se acepta la hipótesis H 0 , sino se rechaza<br />
aceptando por lo tanto H 1 .<br />
Para estimar p(⃗x|H 1 ) se hace uso <strong>de</strong> los que se c<strong>on</strong>oce como mo<strong>de</strong>los UBM (Universal<br />
Background Mo<strong>de</strong>l). Un UBM es un mo<strong>de</strong>lo GMM estándar pero que ha sido <strong>en</strong>tr<strong>en</strong>ado a partir<br />
<strong>de</strong> observaci<strong>on</strong>es <strong>de</strong> todos las clases (o un c<strong>on</strong>junto repres<strong>en</strong>tativo <strong>de</strong> las mismas). Los UBM<br />
estiman la <strong>de</strong>nsidad <strong>de</strong> probabilidad <strong>de</strong> las observaci<strong>on</strong>es, sobre todas las clases exist<strong>en</strong>tes. Por<br />
tanto, la verosimilitud fr<strong>en</strong>te al UBM mi<strong>de</strong> la probabilidad <strong>de</strong> que la observación haya podido<br />
ser g<strong>en</strong>erada por una clase cualquiera.<br />
En el sistema GMM UBM, el mo<strong>de</strong>lo se calcula mediante la adaptación <strong>de</strong> los parámetros<br />
<strong>de</strong> UBM usando los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> cada clase y un tipo <strong>de</strong> adaptación Bayesiana<br />
llamada estimación <strong>de</strong> máximo a posteriori (MAP, maximum a posteriori).<br />
Los Mo<strong>de</strong>los <strong>de</strong> mezclas Gaussianas s<strong>on</strong> técnicas que originalm<strong>en</strong>te fuer<strong>on</strong> aplicadas al rec<strong>on</strong>ocimi<strong>en</strong>to<br />
automático <strong>de</strong> locutor e idioma. El que dichas técnicas se hayan ext<strong>en</strong>dido al<br />
rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es vi<strong>en</strong>e motivado por la similitud <strong>en</strong>tre el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoción<br />
e idioma y por los bu<strong>en</strong>os resultados que los GMMs lograr<strong>on</strong> <strong>en</strong> locutor e idioma. Así, se<br />
pue<strong>de</strong> <strong>en</strong>c<strong>on</strong>trar <strong>en</strong> la literatura gran cantidad <strong>de</strong> artículos que aplican el <strong>en</strong>foque estadístico<br />
(g<strong>en</strong>erativo) <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla [15] [17] [18].<br />
3.7.2. SVM<br />
Las Maquinas <strong>de</strong> Vectores Soporte (SVM o Support Vector Machines) s<strong>on</strong> un tipo <strong>de</strong><br />
clasificador <strong>de</strong> patr<strong>on</strong>es binarios cuyo objetivo es asignar cada patrón a una clase [19]. A<br />
difer<strong>en</strong>cia <strong>de</strong> los métodos tradici<strong>on</strong>ales (g<strong>en</strong>erativos) los cuales mo<strong>de</strong>lan la probabilidad <strong>de</strong> una<br />
clase, los SVM s<strong>on</strong> técnicas discriminativas, cuyo objetivo es mo<strong>de</strong>lar el plano <strong>de</strong> separación<br />
<strong>en</strong>tre una clase y el c<strong>on</strong>junto <strong>de</strong> clases impostoras.<br />
Planteami<strong>en</strong>to <strong>de</strong>l problema <strong>de</strong> optimización<br />
El problema c<strong>on</strong>siste <strong>en</strong> c<strong>on</strong>struir un hiperplano <strong>de</strong> separación que divida el espacio R n<br />
<strong>en</strong> dos regi<strong>on</strong>es. Sup<strong>on</strong>gamos que t<strong>en</strong>emos dicho hiperplano, las muestras que caigan <strong>en</strong> una<br />
región pert<strong>en</strong>ecerán a clase -1 y las que caigan <strong>en</strong> la otra a la clase 1. A este hiperplano se le<br />
c<strong>on</strong>oce como hiperplano <strong>de</strong> separación.<br />
Los vectores ⃗x que pert<strong>en</strong>ec<strong>en</strong> al hiperplano <strong>de</strong> separación cumplirán la ecuación: ⃗w ·⃗x+d=0,<br />
d<strong>on</strong><strong>de</strong>:<br />
⃗w es un vector normal al hiperplano <strong>de</strong> separación.<br />
d es una c<strong>on</strong>stante.<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 33
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
La distancia<br />
|d|<br />
||w||<br />
es la distancia perp<strong>en</strong>dicular <strong>de</strong>s<strong>de</strong> el hiperplano al orig<strong>en</strong>. Llamaremos<br />
d + y d − a las distancias <strong>en</strong>tre el hiperplano <strong>de</strong> separación y las muestras más cercanas a la<br />
clase +1 y -1 respectivam<strong>en</strong>te. C<strong>on</strong> todo ello, el marg<strong>en</strong> <strong>de</strong>l hiperplano será la distancia <strong>en</strong>tre<br />
las muestras más cercanas <strong>de</strong> las clases:<br />
m = d + + d −<br />
Para el caso <strong>de</strong> datos linealm<strong>en</strong>te separables, el objetivo es <strong>en</strong>c<strong>on</strong>trar el hiperplano <strong>de</strong><br />
separación que hace máximo este marg<strong>en</strong>.<br />
A la hora <strong>de</strong> formular formalm<strong>en</strong>te el problema sup<strong>on</strong>dremos que todos los datos <strong>de</strong><br />
<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to cumpl<strong>en</strong> una <strong>de</strong> las sigui<strong>en</strong>tes restricci<strong>on</strong>es:<br />
d<strong>on</strong><strong>de</strong>:<br />
⃗x i · ⃗w + d ≥+1 si y i = +1<br />
⃗x i · ⃗w + d ≤+1 si y i = −1<br />
y i = {1, −1} repres<strong>en</strong>ta la etiqueta <strong>de</strong> la clase a la que pert<strong>en</strong>ece cada vector.<br />
i = {1, ..., N}<br />
N es el número <strong>de</strong> vectores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />
Combinando estas dos restricci<strong>on</strong>es t<strong>en</strong>emos que:<br />
⃗y i (⃗x i · ⃗w+d)-1≥0 ∀i<br />
A los puntos más cercanos al hiperplano <strong>de</strong> separación se les c<strong>on</strong>oce como vectores soporte,<br />
y están c<strong>on</strong>t<strong>en</strong>idos <strong>en</strong> los dos planos:<br />
H1: ⃗x i · ⃗w+d=+1<br />
H2: ⃗x i · ⃗w+d=-1<br />
Ambos planos H1 y H2 s<strong>on</strong> pararelos <strong>en</strong>tre sí y a su vez paralelos al hiperplano <strong>de</strong><br />
separación. Por lo tanto su comp<strong>on</strong><strong>en</strong>te normal seguirá si<strong>en</strong>do ⃗w [ver Figura 9] y sus respectivas<br />
distancias al orig<strong>en</strong> serán:<br />
|1−b|<br />
||w||<br />
para H1<br />
|−1−b|<br />
||w||<br />
para H2<br />
Cumpli<strong>en</strong>do todas las restricci<strong>on</strong>es anteriores, las distancias d + y d − serán 1<br />
||w||<br />
por lo que<br />
el marg<strong>en</strong> m=d + +d − = 1<br />
||w|| + 1<br />
||w|| = 2<br />
||w||<br />
El objetivo <strong>de</strong> los SVM es <strong>en</strong>c<strong>on</strong>trar el hiperplano que maximice el marg<strong>en</strong> <strong>de</strong> separación.<br />
Por lo tanto el problema se reduce a minimizar || ⃗w|| sujeto a la restricción <strong>de</strong>:<br />
⃗y i (⃗x i · ⃗w + d) − 1 ≥0 ∀i.<br />
34<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 9: C<strong>on</strong>cepto <strong>de</strong> un SVM.<br />
Si los datos s<strong>on</strong> linealm<strong>en</strong>te separables, la resolución <strong>de</strong>l problema obti<strong>en</strong>e un mínimo<br />
global, sino, el problema no es resoluble. Exist<strong>en</strong> métodos computaci<strong>on</strong>alm<strong>en</strong>te efici<strong>en</strong>tes para<br />
resolver problemas cuadráticos c<strong>on</strong> múltiples restricci<strong>on</strong>es lineales. Uno <strong>de</strong> ellos es mediante la<br />
formulación <strong>de</strong> Lagrange.<br />
La formulación <strong>de</strong> Lagrange permite resolver un problema <strong>de</strong> optimización, como es nuestro<br />
caso, bajo una serie <strong>de</strong> restricci<strong>on</strong>es mediante la introducción <strong>de</strong> unas nuevas variables, los<br />
multiplicadores <strong>de</strong> Lagrange, α i . Pue<strong>de</strong> <strong>de</strong>mostrarse que es posible obt<strong>en</strong>er el hiperplano<br />
óptimo <strong>de</strong> separación, ⃗w, mediante una combinación lineal <strong>de</strong> los vectores soporte. El peso <strong>de</strong><br />
cada uno <strong>de</strong> estos vectores se obti<strong>en</strong>e mediante los multiplicadores <strong>de</strong> Lagrange.<br />
Como solución al problema se obti<strong>en</strong>e que el vector ⃗w se pue<strong>de</strong> escribir <strong>en</strong> función <strong>de</strong> los<br />
vectores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, ⃗x i como:<br />
⃗w =<br />
N∑<br />
α i y i ⃗x i<br />
i=1<br />
Cada vector <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to t<strong>en</strong>drá asociado un multiplicador <strong>de</strong> Lagrange, α i . Los<br />
vectores soporte t<strong>en</strong>drán un α i asociado ≥0, mi<strong>en</strong>tras que el resto <strong>de</strong> vectores que no ca<strong>en</strong><br />
<strong>en</strong> los hiperplanos H1 o H2 t<strong>en</strong>drán un α i =0 y por lo tanto no t<strong>en</strong>drán relevancia <strong>en</strong> el<br />
<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />
Clasificación <strong>de</strong>l SVM<br />
Una vez t<strong>en</strong>emos <strong>de</strong>finido el hiperplano <strong>de</strong> separación <strong>en</strong>tre las 2 clases, lo sigui<strong>en</strong>te es <strong>en</strong>c<strong>on</strong>trar<br />
una función que clasifique las muestras <strong>de</strong> test ¯x t <strong>en</strong> su clase corresp<strong>on</strong>di<strong>en</strong>te. La función<br />
f(⃗x t ) = ⃗w · ⃗x t +d => f(⃗x t ) =<br />
N∑<br />
α i y i ⃗x i ⃗x t + d<br />
i=1<br />
calcula la distancia <strong>de</strong>l vector <strong>de</strong> test ⃗x t al hiperplano <strong>de</strong> separación. Dicha función<br />
tomará valores positivos para las muestras pert<strong>en</strong>eci<strong>en</strong>tes a la clase +1 y negativos para las <strong>de</strong><br />
la clase -1.<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 35
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Se pue<strong>de</strong> dar el caso <strong>en</strong> que algún vector (⃗x i ,y i ) viole la restricción<br />
⃗y i (⃗x i · ⃗w+d)-1≥0 ∀i.<br />
Para afr<strong>on</strong>tar este problema lo que se <strong>de</strong>be hacer es relajar la restricción. Para ello se<br />
introduce unos márg<strong>en</strong>es <strong>de</strong> error h i . i = {1, ..., N} c<strong>on</strong> h i ≥ 0 ∀i. La restricción será ahora<br />
y i (⃗x i · ⃗w + d) ≥ 1 − h i c<strong>on</strong> i = {1, ..., N} c<strong>on</strong> h i ≥ 0 ∀i.<br />
Así, si 0 ≤ h i ≤ 1 la clasificación será correcta pero si a su vez h i > 0, la muestra estará correctam<strong>en</strong>te<br />
clasificada pero c<strong>on</strong> un error asociado. Por otro lado, si h i ≥ 1, la clasificación<br />
será incorrecta.[Ver Figura 10]<br />
Figura 10: a) Muestras clasificadas incorrectam<strong>en</strong>te c<strong>on</strong> un valor h i asociado. b) Muestras<br />
clasificadas correctam<strong>en</strong>te pero c<strong>on</strong> un error h i .<br />
Al añadir esta nueva variable pasaremos <strong>de</strong> uno a dos criterios a la hora <strong>de</strong> <strong>en</strong>c<strong>on</strong>trar el<br />
hiperplano <strong>de</strong> separación:<br />
• Maximizar el marg<strong>en</strong> <strong>en</strong>tre clases (criterio que ya t<strong>en</strong>íamos anteriorm<strong>en</strong>te).<br />
• Minimizar la función <strong>de</strong> pérdidas que será proporci<strong>on</strong>al a las muestras incorrectam<strong>en</strong>te<br />
clasificadas.<br />
La relevancia <strong>de</strong> un criterio fr<strong>en</strong>te al otro se c<strong>on</strong>trola a través <strong>de</strong> una variable, a la que<br />
llamaremos coste, C. La variable coste será usada para dar más relevancia a un criterio fr<strong>en</strong>te<br />
al otro. Así, cuanto mayor sea el coste mayor importancia daremos a minimizar la función<br />
<strong>de</strong> pérdidas. Mi<strong>en</strong>tras que un valor pequeño <strong>de</strong> coste premiará <strong>en</strong> maximizar el marg<strong>en</strong> <strong>en</strong>tre<br />
clases. La variable coste será ajustada <strong>en</strong> la sección <strong>de</strong> pruebas para obt<strong>en</strong>er los mejores<br />
resultados.<br />
Hasta ahora hemos visto el funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> las Máquinas <strong>de</strong> Vectores Soporte <strong>en</strong> el modo<br />
<strong>de</strong> Clasificación (SVC) y para datos linealm<strong>en</strong>te separables. Pero, ¿qué ocurre si los datos no<br />
cumpl<strong>en</strong> esta premisa?<br />
Separación no lineal <strong>de</strong> los datos<br />
Un dato que hay que t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta es que, como se pue<strong>de</strong> ver <strong>en</strong> la Figura 11, los datos<br />
que a priori no s<strong>on</strong> separables <strong>en</strong> un espacio n-dim<strong>en</strong>si<strong>on</strong>al, sí pue<strong>de</strong>n serlo <strong>en</strong> un espacio <strong>de</strong><br />
mayor dim<strong>en</strong>sión n ′ . Así por lo tanto, <strong>de</strong>finiremos una función b(⃗x) que mapea el espacio <strong>de</strong><br />
36<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
<strong>en</strong>trada n-dim<strong>en</strong>si<strong>on</strong>al (d<strong>on</strong><strong>de</strong> se sitúa ⃗x) <strong>en</strong> un espacio <strong>de</strong> dim<strong>en</strong>sión expandida n ′<br />
b(¯x): R n → R n′<br />
Figura 11: Mapeo <strong>de</strong> los vectores ⃗x 2-dim<strong>en</strong>si<strong>on</strong>ales a b(⃗x) 3-dim<strong>en</strong>si<strong>on</strong>ales.<br />
Este es el mom<strong>en</strong>to <strong>de</strong> introducir la función kernel. Esta función nos permite calcular el<br />
producto interno <strong>de</strong> dos vectores sin necesidad <strong>de</strong> c<strong>on</strong>ocer explícitam<strong>en</strong>te el vector mapeo <strong>en</strong><br />
el espacio transformado.<br />
K(⃗x i , ⃗x j )=b(⃗x i )·b(⃗x j )<br />
A la hora <strong>de</strong> elegir la función kernel, ésta <strong>de</strong>be <strong>de</strong> satisfacer el teorema <strong>de</strong> Mercer. El<br />
teorema <strong>de</strong> Mercer nos dice si un kernel K(·, ·) cumple las propieda<strong>de</strong>s <strong>de</strong>l producto escalar y<br />
por lo tanto útil para un SVM. No nos dice sin embargo como c<strong>on</strong>struir dicha función K(·, ·).<br />
La elección <strong>de</strong> una bu<strong>en</strong>a función kernel <strong>de</strong>be satisfacer dos premisas. Debe ser tal, que<br />
dadas dos locuci<strong>on</strong>es ⃗x i y ⃗x j , obt<strong>en</strong>ga un valor <strong>de</strong> similitud <strong>en</strong>tre ambas. También <strong>de</strong>be <strong>de</strong> ser<br />
computaci<strong>on</strong>alm<strong>en</strong>te efici<strong>en</strong>te ya que durante el proceso <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test se van a llevar<br />
a cabo muchos productos internos.<br />
Las Máquinas <strong>de</strong> Vectores Soporte es una herrami<strong>en</strong>ta novedosa que ha aparecido <strong>en</strong> la<br />
última década <strong>en</strong> la clasificación automática <strong>de</strong> patr<strong>on</strong>es. Ha llegado a ser muy popular <strong>de</strong>bido<br />
a su capacidad <strong>de</strong> solv<strong>en</strong>tar muchos <strong>de</strong> los problemas <strong>de</strong> los ANNs (Artificial Neural Networks)<br />
y <strong>de</strong> los HMMs (Hid<strong>de</strong>n Markov Mo<strong>de</strong>ls) gracias a su efectiva capacidad <strong>de</strong> discriminación. En<br />
c<strong>on</strong>traposición c<strong>on</strong> los ANNs, ti<strong>en</strong><strong>en</strong> la v<strong>en</strong>taja <strong>de</strong> tratar c<strong>on</strong> muestras <strong>de</strong> muy alta dim<strong>en</strong>sión.<br />
Estas características han hecho a los SVMs muy populares y existosos <strong>en</strong> muchos campos <strong>de</strong><br />
aplicación. No obstante, exist<strong>en</strong> algunas limitaci<strong>on</strong>es a la hora <strong>de</strong> usar los SVMs. Una <strong>de</strong> estas<br />
limitaci<strong>on</strong>es es que los SVMs están restringidos a trabajar c<strong>on</strong> vectores <strong>de</strong> <strong>en</strong>trada <strong>de</strong> l<strong>on</strong>gitud<br />
fija. Otra limitación es que los SVMs sólo clasifican, pero no dan una medida fiable <strong>de</strong> la<br />
probabilidad <strong>de</strong> la correcta o incorrecta clasificación.<br />
Los SVMs pres<strong>en</strong>tan muy bu<strong>en</strong> r<strong>en</strong>dimi<strong>en</strong>to <strong>en</strong> tareas <strong>de</strong> procesado vocal como rec<strong>on</strong>ocimi<strong>en</strong>to<br />
<strong>de</strong> idioma y locutor. Es por eso por lo que también se usan para rec<strong>on</strong>ocimi<strong>en</strong>to<br />
automático <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla y como muestra <strong>de</strong> ello se pue<strong>de</strong>n ver [20], [17], [21] y [22]<br />
d<strong>on</strong><strong>de</strong> se usan los rasgos acústicos y prosódicos <strong>de</strong>l habla para mo<strong>de</strong>lar los SVMs.<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 37
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
3.7.3. SVMs basados <strong>en</strong> supervectores GMMs<br />
Los SVMs basados <strong>en</strong> supervectores GMMs s<strong>on</strong> técnicas <strong>de</strong> clasificación <strong>de</strong> patr<strong>on</strong>es que<br />
aunan las v<strong>en</strong>tajas <strong>de</strong> los sistemas g<strong>en</strong>erativos, como s<strong>on</strong> los GMMs, c<strong>on</strong> las <strong>de</strong> los sistemas<br />
discriminativos como s<strong>on</strong> los SVMs [23].<br />
Un supervector GMM se c<strong>on</strong>struye apilando los vectores medios d-dim<strong>en</strong>si<strong>on</strong>ales <strong>de</strong> las M<br />
comp<strong>on</strong><strong>en</strong>tes gaussianas. El supervector GMM pue<strong>de</strong> ser c<strong>on</strong>si<strong>de</strong>rado como una función kernel<br />
SV (⃗x) que mapea los vectores <strong>de</strong> características ⃗x <strong>en</strong> un vector <strong>de</strong> mayor dim<strong>en</strong>sión L = M ∗ d.<br />
En este espacio L-dim<strong>en</strong>si<strong>on</strong>al <strong>de</strong>l supervector es d<strong>on</strong><strong>de</strong> se <strong>en</strong>tr<strong>en</strong>a un SVM para así c<strong>on</strong>seguir<br />
un mo<strong>de</strong>lo ⃗w e . Para este caso, la función <strong>de</strong> puntuación s ′ ( ⃗w e , SV (x ⃗ test )) se <strong>de</strong>fine como:<br />
s ′ ( ⃗w e , SV (x ⃗ test )) = ⃗w e ∗ SV (x ⃗ test ) T<br />
Sup<strong>on</strong>emos que t<strong>en</strong>emos un mo<strong>de</strong>lo <strong>de</strong> UBM el cual es adaptado (MAP) a partir <strong>de</strong> los<br />
vectores <strong>de</strong> parámetros <strong>de</strong> una locución. Dicha adaptación c<strong>on</strong>forma un mo<strong>de</strong>lo <strong>de</strong> mezclas<br />
gaussianas <strong>de</strong>finido como:<br />
λ = {w i , µ i , σ i }, d<strong>on</strong><strong>de</strong> i = 1, ..., M c<strong>on</strong> M el número <strong>de</strong> mezclas unimodales Gaussianas. A<br />
partir <strong>de</strong> este mo<strong>de</strong>lo, se forma el supervector GMM. Este proceso se muestra <strong>en</strong> la Figura 12<br />
Figura 12: C<strong>on</strong>strucción <strong>de</strong> un supervector GMM a partir <strong>de</strong> una locución <strong>de</strong> <strong>voz</strong>.<br />
Como ejemplo <strong>de</strong> c<strong>on</strong>strucción <strong>de</strong> un supervector GMM po<strong>de</strong>mos ver la Figura 13 d<strong>on</strong><strong>de</strong><br />
d = 2, M = 3 y L = M ∗ d = 6. En este caso, vectores <strong>de</strong> parámetros bidim<strong>en</strong>si<strong>on</strong>ales mo<strong>de</strong>lan<br />
3 comp<strong>on</strong><strong>en</strong>tes gaussianas. Como se pue<strong>de</strong> ver, los vectores medios bidim<strong>en</strong>si<strong>on</strong>ales <strong>de</strong> las<br />
3 comp<strong>on</strong><strong>en</strong>tes gaussianas c<strong>on</strong>forman el supervector SV = [ ⃗µ 1 ⃗µ 2 ⃗µ 3 ] = [µ 11 µ 12 µ 21 µ 22 µ 31 µ 32 ]<br />
Se ha visto que esta técnica <strong>de</strong> SVM basados <strong>en</strong> supervectores GMM ha dado excel<strong>en</strong>tes<br />
resultados <strong>en</strong> tareas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> locutor [24] e idioma usando el nivel acústico <strong>de</strong>l habla.<br />
A parte <strong>de</strong>l rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> locutor e idioma, también se ha ext<strong>en</strong>dido al rec<strong>on</strong>ocimi<strong>en</strong>to<br />
<strong>de</strong> emoci<strong>on</strong>es. Así, [23] prop<strong>on</strong>e un SVM basado <strong>en</strong> supervectores GMMs a partir <strong>de</strong> rasgos<br />
espectrales mi<strong>en</strong>tras que <strong>en</strong> [25] lo prop<strong>on</strong>emos a partir <strong>de</strong> rasgos prosódicos <strong>de</strong>l habla para el<br />
rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es.<br />
3.7.4. Anchor Mo<strong>de</strong>ls<br />
El espacio <strong>de</strong> proyección <strong>de</strong> los Anchor Mo<strong>de</strong>ls es una función que mapea cada locución<br />
<strong>de</strong> habla <strong>de</strong>s<strong>de</strong> el espacio <strong>de</strong> características original <strong>en</strong> un nuevo espacio anchor mo<strong>de</strong>l. Las<br />
dim<strong>en</strong>si<strong>on</strong>es <strong>de</strong> este nuevo espacio s<strong>on</strong> puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong> cada locución fr<strong>en</strong>te a<br />
mo<strong>de</strong>los previam<strong>en</strong>te <strong>en</strong>tr<strong>en</strong>ados ⃗m = {m 1 ...m N }. Estos mo<strong>de</strong>los han sido <strong>en</strong>tr<strong>en</strong>ado mediante<br />
técnicas <strong>de</strong> clasificación como GMMs, SVMs, etc. Este espacio <strong>de</strong> similitud permite obt<strong>en</strong>er<br />
el comportami<strong>en</strong>to <strong>de</strong> una locución ⃗x fr<strong>en</strong>te a los mo<strong>de</strong>los ⃗m obt<strong>en</strong>i<strong>en</strong>do así un vector <strong>de</strong><br />
puntuaci<strong>on</strong>es <strong>de</strong> similitud:<br />
⃗S x = [s x,m1 ...s x,mN ]<br />
38<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 13: Ejemplo <strong>de</strong> c<strong>on</strong>strucción <strong>de</strong> un supervector GMM a partir <strong>de</strong> 3 mezclas gaussianas<br />
bidim<strong>en</strong>si<strong>on</strong>ales.<br />
d<strong>on</strong><strong>de</strong> se apilan las puntuaci<strong>on</strong>es individuales <strong>de</strong>l vector ⃗x fr<strong>en</strong>te a cada uno <strong>de</strong> los mo<strong>de</strong>los<br />
m i [Figura 14].<br />
A partir <strong>de</strong> <strong>en</strong>t<strong>on</strong>ces, se pue<strong>de</strong> c<strong>on</strong>si<strong>de</strong>rar el vector S ⃗ x,m como el vector <strong>de</strong> parámetros <strong>de</strong><br />
la locución ⃗x y un nuevo mo<strong>de</strong>lo m ′ i pue<strong>de</strong> ser g<strong>en</strong>erado <strong>en</strong> el espacio <strong>de</strong>l anchor mo<strong>de</strong>l usando<br />
técnicas <strong>de</strong> apr<strong>en</strong>dizaje como GMMs, SVMs, n-gramas, etc.<br />
Figura 14: ⃗ S x agrupa las puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong>l vector ⃗x fr<strong>en</strong>te a cada mo<strong>de</strong>lo m i .<br />
El valor <strong>de</strong> N <strong>de</strong>fine la dim<strong>en</strong>sión <strong>de</strong>l espacio <strong>de</strong> los anchor mo<strong>de</strong>ls y la puntuación <strong>de</strong>l<br />
vector ⃗x fr<strong>en</strong>te a cada mo<strong>de</strong>lo ⃗m i <strong>de</strong>fine la distancia a cada uno <strong>de</strong> los ejes <strong>de</strong> este nuevo<br />
espacio dim<strong>en</strong>si<strong>on</strong>al. De la teoría <strong>de</strong> Vapnik-Cherv<strong>on</strong><strong>en</strong>kis [26] se <strong>de</strong>duce que cuanto mayor sea<br />
el valor <strong>de</strong> N, mayor dim<strong>en</strong>sión será el espacio <strong>de</strong> características <strong>de</strong>l anchor mo<strong>de</strong>l y por ello más<br />
fácil será <strong>en</strong>c<strong>on</strong>trar un comportami<strong>en</strong>to característico <strong>de</strong> la locución ⃗x. En el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong><br />
emoci<strong>on</strong>es N estará limitada por el número <strong>de</strong> emoci<strong>on</strong>es disp<strong>on</strong>ibles.<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 39
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls<br />
La función <strong>de</strong> similitud o puntuación s x,mi nos ofrece una medida <strong>de</strong> similitud <strong>en</strong>tre el<br />
vector ⃗x y el mo<strong>de</strong>lo ⃗m i . Cada técnica usada para c<strong>on</strong>struir los mo<strong>de</strong>los usa una función <strong>de</strong><br />
similitud difer<strong>en</strong>te. Así, por ejemplo, los SVMs usan la distancia algebraica mi<strong>en</strong>tras que los<br />
GMMs, como ya hemos visto, usan un criterio <strong>de</strong> similitud estadística p( X|H ⃗ 0 )<br />
p( X|H ⃗ . Mediante el<br />
1 )<br />
uso <strong>de</strong> varias funci<strong>on</strong>es <strong>de</strong> similitud s x,mi , la información obt<strong>en</strong>ida pue<strong>de</strong> ser complem<strong>en</strong>taria y<br />
c<strong>on</strong> ello se pue<strong>de</strong> obt<strong>en</strong>er una mejora <strong>de</strong> los resultados.<br />
La fusión <strong>de</strong> anchor mo<strong>de</strong>ls (<strong>en</strong> inglés AMF, Anchor Mo<strong>de</strong>l Fusi<strong>on</strong>) es una técnica<br />
novedosa i<strong>de</strong>ada por el <strong>ATVS</strong> [27], [28] que ha logrado dar muy bu<strong>en</strong>os resultados pues obti<strong>en</strong>e<br />
información complem<strong>en</strong>taria proce<strong>de</strong>nte <strong>de</strong> varios subsistemas. C<strong>on</strong>siste <strong>en</strong> usar varias técnicas<br />
<strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (y c<strong>on</strong> ello varias funci<strong>on</strong>es <strong>de</strong> similitud) como pue<strong>de</strong>n ser los SVMs, GMMs,<br />
etc. para g<strong>en</strong>erar los mo<strong>de</strong>los ⃗m i .<br />
En el caso <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es, el vector ⃗m incluy<strong>en</strong> los n mo<strong>de</strong>los <strong>de</strong> emoci<strong>on</strong>es<br />
pre-<strong>en</strong>tr<strong>en</strong>adas por cada uno <strong>de</strong> los sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es a fusi<strong>on</strong>ar. Así,<br />
el vector <strong>de</strong> parámetros g<strong>en</strong>erado a partir <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> la locución ⃗x fr<strong>en</strong>te a cada<br />
mo<strong>de</strong>lo <strong>de</strong> ⃗m por cada uno <strong>de</strong> los N sist sistemas es:<br />
⃗S m,x = [ ⃗ S 1 m,x, ..., ⃗ S N sist<br />
m,x ]<br />
La Figura 15 muestra una versión esquemática <strong>de</strong> AMF. Para este caso, la dim<strong>en</strong>sión <strong>de</strong>l<br />
espacio <strong>de</strong> los anchor mo<strong>de</strong>ls es N = n ∗ N sist .<br />
3.7.5. Otras: LDA, HMM<br />
Análisis <strong>de</strong> Discriminación Lineal<br />
El Análisis <strong>de</strong> Discriminación Lineal (<strong>en</strong> inglés LDA, Linear discriminant analysis) y la<br />
discriminación lineal <strong>de</strong> Fisher relaci<strong>on</strong>ada s<strong>on</strong> métodos usados <strong>en</strong> estadística y <strong>en</strong> apr<strong>en</strong>dizaje<br />
automático cuyo objetivo es <strong>en</strong>c<strong>on</strong>trar la combinación lineal <strong>de</strong> características que mejor separa<br />
2 o más clases.<br />
LDA está muy relaci<strong>on</strong>ado c<strong>on</strong> ANOVA (análisis <strong>de</strong> varianza) y c<strong>on</strong> el análisis <strong>en</strong><br />
regresión, que también int<strong>en</strong>tan expresar una variable como combinación lineal <strong>de</strong> otros<br />
rasgos o características. Mi<strong>en</strong>tras que <strong>en</strong> estos dos últimos métodos la variable <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te se<br />
cuantifica numéricam<strong>en</strong>te, <strong>en</strong> LDA es una variables categórica (por ejemplo, la clase emoción 1 ).<br />
LDA ha sido usado satisfactoriam<strong>en</strong>te como técnica <strong>de</strong> reducción dim<strong>en</strong>si<strong>on</strong>al <strong>en</strong> muchos<br />
problemas <strong>de</strong> clasificación, como rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla, rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> cara o recuperación<br />
<strong>de</strong> información multimedia. En [20] se usa LDA como clasificador <strong>de</strong> emoci<strong>on</strong>es.<br />
El rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla es un pequeño ejemplo <strong>de</strong> las aplicaci<strong>on</strong>es <strong>en</strong><br />
las que se hace uso <strong>de</strong> la técnica LDA. Otra es el rec<strong>on</strong>ocimi<strong>en</strong>to facial. Cada cara se repres<strong>en</strong>ta<br />
por un gran número <strong>de</strong> valores <strong>de</strong> píxeles. En este caso se usa LDA para reducir el número <strong>de</strong><br />
características a un número más manejable antes <strong>de</strong> la clasificación. Cada dim<strong>en</strong>sión nueva es<br />
combinación lineal <strong>de</strong> los valores <strong>de</strong> los píxeles. [29]<br />
Éstos s<strong>on</strong> sólo dos ejemplos <strong>de</strong> las innumerables tareas <strong>en</strong> las que la aplicación <strong>de</strong> LDA<br />
pue<strong>de</strong> emplearse c<strong>on</strong> éxito.<br />
40<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 15: Diagrama <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong>l AMF. El vector <strong>de</strong> parámetros final <strong>de</strong> la locución<br />
⃗x es la c<strong>on</strong>cat<strong>en</strong>ación <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong> ⃗x fr<strong>en</strong>te a cada mo<strong>de</strong>lo <strong>de</strong> emoción<br />
m i para cada uno <strong>de</strong> los N sist sistemas.<br />
Mo<strong>de</strong>los Ocultos <strong>de</strong> Markov<br />
Un HMM (<strong>en</strong> inglés, Hid<strong>de</strong>n Markov Mo<strong>de</strong>ls) o mo<strong>de</strong>lo oculto <strong>de</strong> Markov es un mo<strong>de</strong>lo<br />
estadístico <strong>en</strong> el que se asume que el sistema a mo<strong>de</strong>lar es un proceso <strong>de</strong> Markov <strong>de</strong> parámetros<br />
<strong>de</strong>sc<strong>on</strong>ocidos. El objetivo es <strong>de</strong>terminar los parámetros <strong>de</strong>sc<strong>on</strong>ocidos (u ocultos, <strong>de</strong> ahí el<br />
nombre) <strong>de</strong> dicha ca<strong>de</strong>na a partir <strong>de</strong> los parámetros observables. Los parámetros extraídos se<br />
pue<strong>de</strong>n emplear para llevar a cabo sucesivos análisis, por ejemplo <strong>en</strong> aplicaci<strong>on</strong>es <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to<br />
<strong>de</strong> patr<strong>on</strong>es. Un HMM se pue<strong>de</strong> c<strong>on</strong>si<strong>de</strong>rar como la red bayesiana dinámica más simple.<br />
En un mo<strong>de</strong>lo <strong>de</strong> Markov normal, el estado es visible directam<strong>en</strong>te para el observador, por<br />
lo que las probabilida<strong>de</strong>s <strong>de</strong> transición <strong>en</strong>tre estados s<strong>on</strong> los únicos parámetros. En un mo<strong>de</strong>lo<br />
oculto <strong>de</strong> Markov, el estado no es visible directam<strong>en</strong>te, sino que sólo lo s<strong>on</strong> las variables influidas<br />
por el estado. Cada estado ti<strong>en</strong>e una distribución <strong>de</strong> probabilidad sobre los posibles símbolos<br />
<strong>de</strong> salida. C<strong>on</strong>secu<strong>en</strong>tem<strong>en</strong>te, la secu<strong>en</strong>cia <strong>de</strong> símbolos g<strong>en</strong>erada por un HMM proporci<strong>on</strong>a<br />
cierta información acerca <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> estados.<br />
Los mo<strong>de</strong>los ocultos <strong>de</strong> Markov s<strong>on</strong> especialm<strong>en</strong>te aplicados a rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> formas<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 41
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
temporales, como rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong>l habla, <strong>de</strong> escritura manual, <strong>de</strong> gestos, etiquetado gramatical<br />
o <strong>en</strong> bioinformática.<br />
Dado el bu<strong>en</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> esta técnica <strong>en</strong> tareas como el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla,<br />
también se ha aplicado al rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es [20] combinado c<strong>on</strong> otras técnicas <strong>de</strong><br />
clasificación como los GMM o SVM [30].<br />
42<br />
CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES
4<br />
Diseño y Desarrollo<br />
Este capítulo comi<strong>en</strong>za haci<strong>en</strong>do un análisis <strong>de</strong> las bases <strong>de</strong> datos <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>al<br />
exist<strong>en</strong>tes <strong>en</strong> la literatura. A<strong>de</strong>más se <strong>de</strong>scrib<strong>en</strong> las que han sido utilizadas <strong>en</strong> este trabajo:<br />
SUSAS Simulated, SUSAS Actual y Ahumada III.<br />
También se <strong>de</strong>tallan los procedimi<strong>en</strong>tos seguido para la creación y evaluación <strong>de</strong> cada uno<br />
<strong>de</strong> los sistemas propuestos: parametrización <strong>de</strong>l audio, <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los y su<br />
posterior evaluación.<br />
43
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
4.1. Medios disp<strong>on</strong>ibles (BBDD, software, máquinas...)<br />
4.1.1. Bases <strong>de</strong> Datos Utilizadas<br />
Para po<strong>de</strong>r evaluar nuestros sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla se<br />
necesitan bases <strong>de</strong> datos sobre las que testearlos. Cuanto mayor sea la diversidad <strong>de</strong> la base <strong>de</strong><br />
datos, más realísticos serán los resultados obt<strong>en</strong>idos.<br />
En la Tabla 2 aparece una colección <strong>de</strong> las principales bases <strong>de</strong> datos <strong>de</strong> habla emoci<strong>on</strong>al<br />
exist<strong>en</strong>tes para tareas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to y síntesis <strong>de</strong> emoci<strong>on</strong>es. En ella se <strong>de</strong>scribe información<br />
sobre cada base <strong>de</strong> datos como: idioma, locutores, emoci<strong>on</strong>es exist<strong>en</strong>tes, etc.<br />
Refer<strong>en</strong>cia Idioma Sujetos Otras Propósito<br />
Emoci<strong>on</strong>es Tipo <strong>de</strong><br />
señales<br />
datos<br />
Abelin and Sueco 1 Nativo – Rec<strong>on</strong>oc. Eo, Mo, Simulados<br />
Allwood<br />
Ag, Tz, Se,<br />
(2000)<br />
Dt, Dom,<br />
Tz<br />
Alpert et Inglés 22 Paci<strong>en</strong>tes<br />
– Rec<strong>on</strong>oc. Dn, Nl Natural<br />
al. (2001)<br />
19 sa-<br />
nos<br />
Alter et al. Alemán 1 Female EEG Rec<strong>on</strong>oc. Eo, Fd, Nl Simulados<br />
(2000)<br />
Ambrus Inglés, Eslovaco<br />
8 Actores LG Síntesis Eo, Dt, Simulados<br />
(2000)<br />
Interface<br />
Mo, Nl, Se<br />
Amir et al. Hebreo 40 Estudiantes<br />
LG,M,G,H Rec<strong>on</strong>oc. Eo, Dt, Natural<br />
(2000)<br />
Mo, Ag,<br />
Tz<br />
Ang et al. Inglés Muchos – Rec<strong>on</strong>oc. An, Dn, Natural<br />
(2002)<br />
Nl, Fd, Co<br />
Banse and Alemán 12 Actores V Rec<strong>on</strong>oc. C/F Eo, Simulados<br />
Scherer<br />
Fd, Tz,...<br />
(1996)<br />
Batliner et Alemán, 51 Niños – Rec<strong>on</strong>oc. Eo, Ao, Provocados<br />
al. (2004) Inglés<br />
Ag, Se<br />
Bulut et Inglés 1 Actress – Síntesis Eo, Fd, Nl, Simulados<br />
al. (2002)<br />
Tz<br />
Burkhardt Alemán 10 Actores V, LG Síntesis Eo, Mo, Simulados<br />
and S<strong>en</strong>dlmeier<br />
Ag, Nl,<br />
Tz, Ao, Dt<br />
(2000)<br />
Caldognetto Italiano 1 Nativo V, IR Síntesis Eo, Dt, Simulados<br />
et al.<br />
Mo, Ag,<br />
(2004)<br />
Tz, Se<br />
Choukri Holandés 238 Nativos<br />
LG Rec<strong>on</strong>oc. Desc<strong>on</strong>ocidasSimulados<br />
(2003),<br />
Gr<strong>on</strong>ing<strong>en</strong><br />
Chuang Chino 2 Actores – Rec<strong>on</strong>oc. Eo, Aa, Simulados<br />
and Wu<br />
Fd, Mo,<br />
(2002)<br />
Se, Tz<br />
Clavel et Inglés 18 <strong>de</strong> la – Rec<strong>on</strong>oc. Nl, niveles Simulados<br />
al. (2004)<br />
TV<br />
<strong>de</strong> Mo<br />
44<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Tabla 2 – c<strong>on</strong>tinúa <strong>de</strong> la página anterior<br />
Refer<strong>en</strong>cia Idioma Sujetos Otras Propósito<br />
Emoci<strong>on</strong>es Tipo <strong>de</strong><br />
señales<br />
datos<br />
Cole<br />
(2005),<br />
Kids’<br />
Speech<br />
Inglés 780 Niños V Rec<strong>on</strong>oc.,<br />
Síntesis<br />
Desc<strong>on</strong>ocidasNatural<br />
Cowie and<br />
Douglas-<br />
Cowie<br />
(1996),<br />
Belfast<br />
Structured<br />
Douglas-<br />
Cowie et<br />
al. (2003),<br />
Belfast<br />
Natural<br />
Edgingt<strong>on</strong><br />
(1997)<br />
V Rec<strong>on</strong>oc. Varias Seminatural<br />
Engberg<br />
and Hans<strong>en</strong><br />
(1996),<br />
DES<br />
Fernan<strong>de</strong>z<br />
and Picard<br />
(2003)<br />
Fischer<br />
(1999),<br />
Verbmobil<br />
France et<br />
al. (2000)<br />
G<strong>on</strong>zalez<br />
(1999)<br />
Hans<strong>en</strong><br />
(1996),<br />
SUSAS<br />
Hans<strong>en</strong><br />
(1996),<br />
SUSC-0<br />
Hans<strong>en</strong><br />
(1996),<br />
SUSC-1<br />
Hans<strong>en</strong><br />
(1996),<br />
DLP<br />
Hans<strong>en</strong><br />
(1996),<br />
DCIEM<br />
Inglés 40 Nativos – Rec<strong>on</strong>oc. Eo, Mo,<br />
Fd, Nl, Tz<br />
Inglés 125 <strong>de</strong> la<br />
TV<br />
Natural<br />
Inglés 1 Actor LG Síntesis Eo, Ao,<br />
Mo, Fd,<br />
Nl, Tz<br />
Danish 4 Actores – Síntesis Eo, Fd, Nl,<br />
Tz, Se<br />
Simulados<br />
Simulados<br />
Inglés 4 Drivers – Rec<strong>on</strong>oc. Nl, Ss Natural<br />
Alemán 58 Nativos – Rec<strong>on</strong>oc. Eo, Dn, Nl Natural<br />
Inglés<br />
70 Paci<strong>en</strong>tes,<br />
40 sanos<br />
– Rec<strong>on</strong>oc. Dn, Nl Natural<br />
Desc<strong>on</strong>ocidos– Rec<strong>on</strong>oc. Dn, Nl Provocados<br />
Inglés, Español<br />
Inglés 32 Varios – Rec<strong>on</strong>oc. Eo, Ld eff.,<br />
Ss, Tl<br />
Inglés<br />
18 No nativos<br />
Natural,<br />
simulated<br />
H,PS,R Rec<strong>on</strong>oc. Nl, Ss A-estrés<br />
Inglés 20 Nativos – Rec<strong>on</strong>oc. Nl, Ss P-estrés<br />
Inglés 15 Nativos – Rec<strong>on</strong>oc. Nl, Ss C-estrés<br />
Inglés Desc<strong>on</strong>ocidos– Rec<strong>on</strong>oc. Nl, privación<br />
<strong>de</strong><br />
sueño<br />
Provocados<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO 45
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Tabla 2 – c<strong>on</strong>tinúa <strong>de</strong> la página anterior<br />
Refer<strong>en</strong>cia Idioma Sujetos Otras Propósito<br />
Emoci<strong>on</strong>es Tipo <strong>de</strong><br />
señales<br />
datos<br />
Heuft et al. Alemán 3 Nativos – Síntesis Eo, Mo, Simulados,<br />
(1996)<br />
Ag, Tz,... provocados<br />
Iida et al. Jap<strong>on</strong>és 2 Nativos – Síntesis Eo, Ag, Tz Simulados<br />
(2000),<br />
ESC<br />
Iri<strong>on</strong>do et Español 8 Actores – Síntesis Mo, Ag, Simulados<br />
al. (2000)<br />
Tz, Se,...<br />
Kawanami Jap<strong>on</strong>és 2 Actores – Síntesis Eo, Fd, Nl, Simulados<br />
et al.<br />
Tz<br />
(2003)<br />
Lee and Inglés Desc<strong>on</strong>ocidos– Rec<strong>on</strong>oc. Negat.–Posit.Natural<br />
Narayanan<br />
(2005)<br />
Liberman Inglés Actores – Desc<strong>on</strong>ocido Ad, C/F Simulados<br />
(2005),<br />
Eo, Fd,<br />
Emoti<strong>on</strong>al<br />
Prosody<br />
Nl, Pc, Tz,<br />
Se,...<br />
Linnankoski Inglés 13 Nativos – Rec<strong>on</strong>oc. An, Eo, Provocados<br />
et al.<br />
Mo, Tz,...<br />
(2005)<br />
Lloyd Inglés 1 Nativo – Rec<strong>on</strong>oc. Stress Simulados<br />
(1999)<br />
f<strong>on</strong>ológico<br />
Makarova Ruso 61 Nativos – Rec<strong>on</strong>oc. Eo, Fd, Se, Simulados<br />
and Petrushin<br />
Tz, Mo, Nl<br />
(2002),<br />
RUSSLA-<br />
NA<br />
Martins et Portugués 10 Nativos – Rec<strong>on</strong>oc. Eo, Dt, Simulados<br />
al. (1998),<br />
BDFALA<br />
Fd, Iy<br />
McMah<strong>on</strong> Inglés 29 Nativos – Rec<strong>on</strong>oc. Ma, Sk, Ss Provocados<br />
et al.<br />
(2003),<br />
ORES-<br />
TEIA<br />
M<strong>on</strong>tanari Inglés 15 Niños V Rec<strong>on</strong>oc. Desc<strong>on</strong>ocidasNatural<br />
et al.<br />
(2004)<br />
M<strong>on</strong>tero et Español 1 Actor – Síntesis Eo, Dt, Simulados<br />
al. (1999),<br />
SES<br />
Fd, Tz<br />
Mozzic<strong>on</strong>acci Holandés 3 Nativos – Rec<strong>on</strong>oc. Eo, Ao, Simulados<br />
and Hermes<br />
Mo, Ag,<br />
(1997)<br />
Iy, Nl, Tz<br />
Niimi et al.<br />
(2001)<br />
Jap<strong>on</strong>és 1 Male – Síntesis Eo, Ag, Tz Simulados<br />
46<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Tabla 2 – c<strong>on</strong>tinúa <strong>de</strong> la página anterior<br />
Refer<strong>en</strong>cia Idioma Sujetos Otras Propósito<br />
Emoci<strong>on</strong>es Tipo <strong>de</strong><br />
señales<br />
datos<br />
Nordstrand Sueco 1 Nativo V, IR Síntesis Fd, Nl Simulados<br />
et al.<br />
(2004)<br />
Nwe et al. Chino 12 Nativos – Rec<strong>on</strong>oc. Eo, Mo, Simulados<br />
(2003)<br />
Dt, Ag,...<br />
Pereira Inglés 2 Actores – Rec<strong>on</strong>oc. C/F Eo, Simulados<br />
(2000)<br />
Fd, Nl, Tz<br />
Petrushin Inglés 30 Nativos – Rec<strong>on</strong>oc. Eo, Mo, Simulados,<br />
(1999)<br />
Fd, Nl, Tz Natural<br />
Polzin and Inglés Desc<strong>on</strong>ocidos– Rec<strong>on</strong>oc. Eo, Mo, Simulados<br />
Waibel<br />
(2000)<br />
Nl, Tz<br />
5 estudiantes<br />
<strong>de</strong> drama<br />
Polzin and<br />
Waibel<br />
(1998)<br />
Rahurkar<br />
and Hans<strong>en</strong><br />
(2002),<br />
SOQ<br />
Scherer<br />
(2000b),<br />
Lost Luggage<br />
Scherer<br />
(2000a)<br />
Scherer et<br />
al. (2002)<br />
Schiel et<br />
al. (2002),<br />
SmartKom<br />
Schro<strong>de</strong>r<br />
and Grice<br />
(2003)<br />
Schro<strong>de</strong>r<br />
(2000)<br />
Slaney and<br />
McRoberts<br />
(2003),<br />
Babyears<br />
Stibbard<br />
(2000),<br />
Leeds<br />
Tato<br />
(2002),<br />
AIBO<br />
Tolkmitt<br />
and Scherer<br />
(1986)<br />
Inglés<br />
Inglés 6 soldados H, R, PS,<br />
ES<br />
Varios 109 Pass<strong>en</strong>gers<br />
LG Rec<strong>on</strong>oc. Eo, Mo,<br />
Fd, Nl, Tz<br />
Rec<strong>on</strong>oc. 5 niveles<br />
<strong>de</strong> estreś<br />
V Rec<strong>on</strong>oc. Eo, Hr, Ie,<br />
Tz, Ss<br />
Simulados<br />
Natural<br />
Natural<br />
Alemán 4 Actores – Ecological Eo, Dt, Simulados<br />
Mo, Ag,<br />
Tz<br />
Inglés, 100 Nativos<br />
– Rec<strong>on</strong>oc. 2 Tl, 2 Ss Natural<br />
Alemán<br />
Alemán 45 Nativos V Rec<strong>on</strong>oc. Eo, In, Nl Natural<br />
Alemán 1 Male – Síntesis Soft, modal,<br />
loud<br />
Alemán 6 Nativos – Rec<strong>on</strong>oc. Eo, Ao,<br />
Dt, Pn,...<br />
Inglés 12 Nativos – Rec<strong>on</strong>oc. An, An,<br />
Pn<br />
Inglés Desc<strong>on</strong>ocidos– Rec<strong>on</strong>oc. Amplio<br />
rango<br />
Alemán 14 Nativos – Síntesis Eo, Ao,<br />
Fd, Nl, Tz<br />
Alemán 60 Nativos – Rec<strong>on</strong>oc. Cognitive<br />
Ss<br />
Simulados<br />
Simulados<br />
Natural<br />
Natural,<br />
elicited<br />
Provocados<br />
Provocados<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO 47
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Tabla 2 – c<strong>on</strong>tinúa <strong>de</strong> la página anterior<br />
Refer<strong>en</strong>cia Idioma Sujetos Otras Propósito<br />
Emoci<strong>on</strong>es Tipo <strong>de</strong><br />
señales<br />
datos<br />
W<strong>en</strong>dt and Alemán 2 Actores – Rec<strong>on</strong>oc. Eo, Dt, Simulados<br />
Scheich<br />
Mo, Fd,<br />
(2002),<br />
Mag<strong>de</strong>burger<br />
Tz<br />
Yildirim et Inglés 1 Actriz – Rec<strong>on</strong>oc. Eo, Fd, Nl, Simulados<br />
al. (2004)<br />
Tz<br />
Yu et al. Chino Nativos – Rec<strong>on</strong>oc. Eo, Fd, Nl, Simulados<br />
(2001)<br />
Tz<br />
Yuan Chino 9 Nativos – Rec<strong>on</strong>oc. Eo, Mo, Provocados<br />
(2002)<br />
Ag, Nl, Tz<br />
Tabla 2: Recopilación <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong> habla emoci<strong>on</strong>al.<br />
Tabla adaptada <strong>de</strong> [2]. Abreviaturas <strong>de</strong> emoci<strong>on</strong>es: Dn: Diversión,<br />
Aa: Antipatía, Eo: Enfado, Ma: Molestia, An: Aprobación,<br />
An: At<strong>en</strong>ción, Ad: Ansiedad, Ao: Aburrimi<strong>en</strong>to, In:<br />
Insatisfación, Dom: Dominio, Dn: Depresión, Dt: Disgusto,<br />
Fd: Frustración, Mo: Miedo, Fd: Felicidad, Ie: Indifer<strong>en</strong>cia,<br />
Iy: Ir<strong>on</strong>ía, Ag: Alegría, Nl: Neutra, Pc: Pánico, Pn: Prohibición,<br />
Se: Sorpresa, Tz: Tristeza, Ss: Estrés, Tz: Timi<strong>de</strong>z,<br />
Sk: Shock, Co: Cansancio, Tl: Tarea c<strong>on</strong> carga <strong>de</strong> estrés, Pn:<br />
Preocupación. Abreviaturas para otras señales: PS: Presión<br />
sanguínea, ES: Examinación <strong>de</strong> sangrue, EEG: Electro<strong>en</strong>cefalograma,<br />
G: Respuesta cutánea galvánica, H: Tasa latido<br />
corazón, IR: Cámara infrarroja, LG: Laringógrafo, M: Miograma<br />
<strong>de</strong> la cara, R: Respiración, V: Vi<strong>de</strong>o. Otras abreviaturas:<br />
C/F: Cali<strong>en</strong>te/Frio, Ld eff.: efecto Lombard, A-stress,<br />
P-stress, C-stress: stress Real, Físico y Cognitivo, respectivam<strong>en</strong>te,<br />
Sim.: Simulado, Prov.:Provocado, N/A: No disp<strong>on</strong>ible.<br />
Para el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los y su posterior evaluación haremos uso <strong>de</strong> 2 bases <strong>de</strong><br />
datos disp<strong>on</strong>ibles <strong>en</strong> el <strong>ATVS</strong> (c<strong>on</strong>tacto: atvs@uam.es) como s<strong>on</strong> SUSAS (<strong>en</strong> inglés, Speech<br />
Un<strong>de</strong>r Simulated and Actual Stress) y Ahumada III.<br />
SUSAS: Speech Un<strong>de</strong>r Simulated and Actual Stress<br />
Speech Un<strong>de</strong>r Simulated and Actual Stress (SUSAS) [31] es una base <strong>de</strong> datos <strong>en</strong> inglés que<br />
ha sido empleada c<strong>on</strong> frecu<strong>en</strong>cia <strong>en</strong> el estudio <strong>de</strong> la síntesis y rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla bajo<br />
c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> estrés [20]. Esta base <strong>de</strong> datos fue originalm<strong>en</strong>te diseñada por John H.L. Hans<strong>en</strong><br />
<strong>en</strong> 1998 para tareas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla bajo estrés. En el grupo <strong>ATVS</strong> esta base <strong>de</strong><br />
datos ha sido obt<strong>en</strong>ida <strong>de</strong>l LDC (Linguistic Data C<strong>on</strong>sortium) [32].<br />
Se ha elegido la base <strong>de</strong> datos SUSAS por las sigui<strong>en</strong>tes raz<strong>on</strong>es:<br />
• c<strong>on</strong>ti<strong>en</strong>e un gran número <strong>de</strong> emoci<strong>on</strong>es.<br />
• permite hacer comparaci<strong>on</strong>es c<strong>on</strong> anteriores trabajos.<br />
• se disp<strong>on</strong>e <strong>de</strong> los IDs <strong>de</strong> los locutores.<br />
• exist<strong>en</strong> datos <strong>de</strong> tanto habla real como simulada.<br />
48<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Bu<strong>en</strong>a parte <strong>de</strong> la literatura exist<strong>en</strong>te sobre el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla usa<br />
la base <strong>de</strong> datos SUSAS para llevar a cabo sus experim<strong>en</strong>tos [17] [10] [30]. Todos los ficheros <strong>de</strong><br />
<strong>voz</strong> <strong>de</strong> SUSAS están muestreados a 8KHz y c<strong>on</strong> 16 bits por muestra. La base <strong>de</strong> datos c<strong>on</strong>sta<br />
<strong>de</strong> dos tipos <strong>de</strong> datos según éstos sean simulados o reales. Así, t<strong>en</strong>emos una parte llamada<br />
SUSAS Simulated y otro llamada SUSAS Actual respectivam<strong>en</strong>te.<br />
SUSAS Simulated c<strong>on</strong>ti<strong>en</strong>e habla simulada <strong>de</strong> 9 locutores (todos hombres) y 11 estilos <strong>de</strong><br />
habla. Los 9 locutores se distribuy<strong>en</strong> <strong>en</strong> 3 grupos c<strong>on</strong> (i) ac<strong>en</strong>to g<strong>en</strong>eral <strong>de</strong> USA (g1, g2, g3 ), (ii)<br />
ac<strong>en</strong>to <strong>de</strong> Nueva Inglaterra/Bost<strong>on</strong> (b1, b2, b3 ), y (iii) ac<strong>en</strong>to <strong>de</strong> la ciudad <strong>de</strong> Nueva York (n1,<br />
n2, n3 ). Los datos incluy<strong>en</strong> 8 estilos: angry (a), clear (c), fast (f), loud (l), neutral (n), questi<strong>on</strong><br />
(q), slow (s), soft (w) y otros 3 estilos bajo difer<strong>en</strong>te grado <strong>de</strong> estrés: lombard (lom), c<strong>on</strong>d70<br />
(c70), c<strong>on</strong>d50 (c50). angry corresp<strong>on</strong><strong>de</strong> a un estilo <strong>de</strong> habla <strong>en</strong>fadado, clear a habla c<strong>on</strong> una<br />
clara pr<strong>on</strong>unciación, fast a habla rápida, loud es habla <strong>en</strong>érgica, neutral es un estilo <strong>de</strong> habla<br />
normal o neutra, questi<strong>on</strong> corresp<strong>on</strong><strong>de</strong> a habla c<strong>on</strong> <strong>en</strong>t<strong>on</strong>ación interrogativa, slow es habla l<strong>en</strong>ta<br />
y soft habla suave o poco <strong>en</strong>érgica. El estilo <strong>de</strong> habla lombard se produce como c<strong>on</strong>secu<strong>en</strong>cia<br />
<strong>de</strong>l efecto Lombard que c<strong>on</strong>siste <strong>en</strong> la t<strong>en</strong><strong>de</strong>ncia involuntaria <strong>de</strong> los locutores <strong>en</strong> elevar la<br />
int<strong>en</strong>sidad <strong>de</strong> <strong>voz</strong> cuando se <strong>en</strong>cu<strong>en</strong>tran <strong>en</strong> un ambi<strong>en</strong>te altam<strong>en</strong>te ruidoso para mejorar su<br />
audibilidad. Las c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> estrés c<strong>on</strong>d50 y c<strong>on</strong>d70 corresp<strong>on</strong><strong>de</strong>n a habla producida por<br />
locutores mi<strong>en</strong>tras realizan una tarea estresante c<strong>on</strong> un joy-stic <strong>en</strong> un or<strong>de</strong>nador. Según el<br />
grado <strong>de</strong> dificultad, bajo o alto, t<strong>en</strong>dremos los estilos <strong>de</strong> habla c<strong>on</strong>d50 y c<strong>on</strong>d70 respectivam<strong>en</strong>te.<br />
SUSAS Actual c<strong>on</strong>ti<strong>en</strong>e habla real <strong>de</strong> 7 locutores (3 mujeres y 4 hombres) y 5 c<strong>on</strong>dici<strong>on</strong>es<br />
<strong>de</strong> estrés: neutral (n), medst (m), hist (h), freefall (f), scream (s). Los 4 locutores masculinos se<br />
<strong>de</strong>notan como m1, m2, m3 y m4, mi<strong>en</strong>tras que los 3 fem<strong>en</strong>inos como f1, f2 y f3. La c<strong>on</strong>dici<strong>on</strong>es<br />
<strong>de</strong> haba bajo estrés medst y hist corresp<strong>on</strong><strong>de</strong>n a habla <strong>en</strong> c<strong>on</strong>dici<strong>on</strong>es <strong>en</strong> que los locutores<br />
están realizando una tarea que les sup<strong>on</strong>e un estrés. Dep<strong>en</strong>di<strong>en</strong>do <strong>de</strong> si el grado <strong>de</strong> estrés<br />
es mo<strong>de</strong>rado (mo<strong>de</strong>rate) o alto (high) t<strong>en</strong>dremos los estilos medst y hist respectivam<strong>en</strong>te.<br />
Por otra parte, los estilos <strong>de</strong> habla freefall, scream y neutral se obti<strong>en</strong><strong>en</strong> <strong>de</strong> locutores m<strong>on</strong>tados<br />
<strong>en</strong> atracci<strong>on</strong>es <strong>de</strong> un parque temático. freefall se c<strong>on</strong>sigue recogi<strong>en</strong>do <strong>voz</strong> mi<strong>en</strong>tras los<br />
locutores se m<strong>on</strong>tan <strong>en</strong> una m<strong>on</strong>taña rusa y scream mi<strong>en</strong>tras lo hac<strong>en</strong> <strong>en</strong> una atracción <strong>de</strong> miedo.<br />
Los datos <strong>de</strong> Simulated y Actual c<strong>on</strong>sist<strong>en</strong> <strong>en</strong> locuci<strong>on</strong>es <strong>de</strong> palabras pert<strong>en</strong>eci<strong>en</strong>tes a un<br />
c<strong>on</strong>junto <strong>de</strong> 35 palabras (break, change, ...). Cada palabra disp<strong>on</strong>e <strong>de</strong> 2 realizaci<strong>on</strong>es por<br />
locutor y emoción.<br />
Un ejemplo <strong>de</strong> la primera <strong>de</strong> las dos repetici<strong>on</strong>es <strong>de</strong> una locución <strong>de</strong> la base <strong>de</strong> datos<br />
SUSAS Simulated <strong>de</strong> la palabra break bajo el estilo <strong>de</strong> habla angry <strong>de</strong>l locutor b2 lo t<strong>en</strong>emos<br />
<strong>en</strong> la Figura 16.<br />
Figura 16: Ejemplo <strong>de</strong> una locución <strong>de</strong> la base <strong>de</strong> datos SUSAS Simulated.<br />
Ahumada III (Ah3R1 )<br />
Ahumada III es una base <strong>de</strong> datos <strong>de</strong> habla <strong>en</strong> español <strong>de</strong>scrita <strong>en</strong> [33] recogida <strong>de</strong> casos<br />
for<strong>en</strong>ses reales por el Departam<strong>en</strong>to <strong>de</strong> Procesado <strong>de</strong> Audio e Imag<strong>en</strong> <strong>de</strong> la Guardia Civil<br />
Española. Su versión actual, Ahumada III Release 1 (Ah3R1 ) incluye habla <strong>de</strong> casos for<strong>en</strong>ses<br />
obt<strong>en</strong>idos usando el sistema típico <strong>de</strong> grabación <strong>de</strong> la Guardia Civil, cintas analógicas magnéticas<br />
c<strong>on</strong> grabaci<strong>on</strong>es GSM. Tambí<strong>en</strong> usando SITEL, un sistema español <strong>de</strong> interceptación legal<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO 49
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
<strong>de</strong> las telecomunicaci<strong>on</strong>es. Este sistema graba c<strong>on</strong>versaci<strong>on</strong>es telefónicas digitales c<strong>on</strong>ectado<br />
directam<strong>en</strong>te a todos los operadores telefónicos.<br />
Ah3R1 incluye gran variabilidad <strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es, como ruido, características <strong>de</strong>l <strong>en</strong>torno,<br />
estado anímico, país, región <strong>de</strong> orig<strong>en</strong> y dialecto <strong>de</strong> los locutores, etc.<br />
En la última década, la Guardia Civil ha ido creando una serie <strong>de</strong> base <strong>de</strong> datos c<strong>on</strong> el<br />
propósito <strong>de</strong> hacer sistemas más robustos mediante la ampliación <strong>de</strong> la variabilidad <strong>de</strong> las<br />
c<strong>on</strong>dici<strong>on</strong>es. Como ejemplos <strong>de</strong> dichas bases <strong>de</strong> datos t<strong>en</strong>emos: Ahumada I [34], Gaudi (2001),<br />
Baeza (2004-2006) o Ahumada II.<br />
El tamaño esperado <strong>de</strong> Ah3R1 es muy gran<strong>de</strong> tanto <strong>en</strong> el número <strong>de</strong> llamadas disp<strong>on</strong>ibles<br />
como <strong>en</strong> el número <strong>de</strong> locutores. Sin embargo, como las c<strong>on</strong>dici<strong>on</strong>es no s<strong>on</strong> uniformes y las<br />
grabaci<strong>on</strong>es <strong>de</strong> <strong>voz</strong> ti<strong>en</strong><strong>en</strong> que estar autorizadas una por una, se espera que progresivam<strong>en</strong>te<br />
vayan estando disp<strong>on</strong>ibles difer<strong>en</strong>tes versi<strong>on</strong>es <strong>de</strong> la base <strong>de</strong> datos.<br />
Ah3R1 c<strong>on</strong>ti<strong>en</strong>e datos <strong>de</strong> 69 locutores sacados <strong>de</strong> casos reales <strong>en</strong> llamadas GSM BDRA <strong>en</strong><br />
España c<strong>on</strong> variedad <strong>en</strong> el país <strong>de</strong> orig<strong>en</strong> <strong>de</strong> los locutores, <strong>de</strong>l estado emoci<strong>on</strong>al, c<strong>on</strong>dici<strong>on</strong>es<br />
acústicas y dialectos. En el único caso <strong>en</strong> que no hay variabilidad es <strong>en</strong> el género, pues los<br />
69 locutores s<strong>on</strong> hombres. Para cada locutor exist<strong>en</strong> dos minutos <strong>de</strong> habla disp<strong>on</strong>ibles, los<br />
cuales se usan para el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los que caracteric<strong>en</strong> el habla <strong>de</strong> dicho locutor.<br />
A<strong>de</strong>más, para tareas <strong>de</strong> evaluación se disp<strong>on</strong>e <strong>de</strong> 10 segm<strong>en</strong>tos <strong>de</strong> habla para los 31 primeros<br />
locutores y cinco para los 38 restantes, cada uno <strong>de</strong> difer<strong>en</strong>tes llamadas telefónicas. Dichos<br />
fragm<strong>en</strong>tos c<strong>on</strong>stan <strong>de</strong> <strong>en</strong>tre 7 y 25 segundos <strong>de</strong> habla, c<strong>on</strong> una duración media <strong>de</strong> 13 segundos.<br />
Los estilos <strong>de</strong> habla c<strong>on</strong>t<strong>en</strong>idos <strong>en</strong> Ah3R1 s<strong>on</strong> neutro-bajo, neutro, neutro-exaltado y exaltado.<br />
En la Figura 17 vemos un ejemplo <strong>de</strong> un par <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong> Ah3R1 pert<strong>en</strong>eci<strong>en</strong>te al locutor 23.<br />
Un ejemplo <strong>de</strong> dos locuci<strong>on</strong>es <strong>de</strong> Ah3R1, una <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y otra <strong>de</strong> test se pue<strong>de</strong> ver<br />
<strong>en</strong> la Figura 17.<br />
Figura 17: a) Locución <strong>de</strong> Ah3R1 <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (120sg) <strong>de</strong>l locutor 23 y emoción neutroexaltado.<br />
b) Locución número 4 <strong>de</strong> test <strong>de</strong> Ah3R1 <strong>de</strong>l locutor 23 y emoción neutro.<br />
Los datos <strong>de</strong> Ah3R1 s<strong>on</strong> públicos y su acceso está disp<strong>on</strong>ible para proyectos <strong>de</strong> investigación<br />
mediante una lic<strong>en</strong>cia que <strong>de</strong>be ser firmada por la Guardia Civil. (c<strong>on</strong>tacto:<br />
crim-acustica@guardiacivil.es). Varias muestras <strong>de</strong> segm<strong>en</strong>tos <strong>de</strong> habla se pue<strong>de</strong> escuchar<br />
directam<strong>en</strong>te <strong>en</strong> la página web <strong>de</strong>l <strong>ATVS</strong> (http://atvs.ii.uam.es/) para así percibir la calidad y<br />
variedad <strong>de</strong> las grabaci<strong>on</strong>es <strong>de</strong> Ah3R1.<br />
4.1.2. Software y Máquinas<br />
El hardware utilizado para el <strong>de</strong>sarrollo <strong>de</strong> este proyecto ha sido un or<strong>de</strong>nador <strong>de</strong> uso pers<strong>on</strong>al<br />
c<strong>on</strong> procesador Intel P<strong>en</strong>tium IV y SO Debian y distribución Ubuntu. También he t<strong>en</strong>ido acceso<br />
a los or<strong>de</strong>nadores <strong>de</strong>l resto <strong>de</strong> grupo <strong>de</strong> trabajo y al rack <strong>de</strong> servidores para lanzar las pruebas.<br />
50<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Todos estos medios fuer<strong>on</strong> suministrados por el grupo <strong>ATVS</strong> <strong>de</strong> la <strong>Universidad</strong> <strong>Autónoma</strong> <strong>de</strong><br />
Madrid (UAM).<br />
4.2. Diseño<br />
4.2.1. Parametrización <strong>de</strong>l audio<br />
El primer paso a la hora <strong>de</strong> implem<strong>en</strong>tar un sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla es la<br />
extracción <strong>de</strong> los rasgos característicos <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> que la i<strong>de</strong>ntifiqu<strong>en</strong> fr<strong>en</strong>te al resto. A<br />
esto proceso se le llama parametrización y su variedad es muy ext<strong>en</strong>sa <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> la tarea<br />
que se pret<strong>en</strong>da realizar. Así, según el nivel <strong>de</strong> la <strong>voz</strong> <strong>en</strong> que trabaj<strong>en</strong>, t<strong>en</strong>emos la parametrización<br />
acústica y la parametrización prosódica que s<strong>on</strong> dos <strong>de</strong> las mas importante y utilizadas.<br />
La extracción <strong>de</strong> rasgos <strong>de</strong> bajo nivel como s<strong>on</strong> los rasgos acústicos se utiliza normalm<strong>en</strong>te<br />
para mo<strong>de</strong>lar el comportami<strong>en</strong>to <strong>de</strong>l locutor. Este tipo <strong>de</strong> rasgos se suele utilizar para aut<strong>en</strong>tificación<br />
<strong>de</strong> locutor porque los locutores ti<strong>en</strong><strong>en</strong> m<strong>en</strong>os c<strong>on</strong>trol sobre los <strong>de</strong>talles espectrales <strong>de</strong>l<br />
habla que sobre rasgos <strong>de</strong> alto nivel como el pitch. Como ejemplo <strong>de</strong> parametrización acústica<br />
están los MFCC (Mel Frequ<strong>en</strong>cy Cepstral Coeffici<strong>en</strong>ts), SDC (Shifted Delta Cepstral) o LFPC<br />
(Low frecu<strong>en</strong>cy power coeffici<strong>en</strong>ts).<br />
La prosodia es una rama <strong>de</strong> la lingüística que analiza y repres<strong>en</strong>ta formalm<strong>en</strong>te aquellos<br />
elem<strong>en</strong>tos <strong>de</strong> la expresión oral, tales como el ac<strong>en</strong>to, los t<strong>on</strong>os y la <strong>en</strong>t<strong>on</strong>ación. Su manifestación<br />
c<strong>on</strong>creta <strong>en</strong> la producción <strong>de</strong> la palabra se asocia <strong>de</strong> este modo a las variaci<strong>on</strong>es <strong>de</strong> la frecu<strong>en</strong>cia<br />
fundam<strong>en</strong>tal, <strong>de</strong> la duración y <strong>de</strong> la int<strong>en</strong>sidad que c<strong>on</strong>stituy<strong>en</strong> los parámetros prosódicos físicos.<br />
Parametrización prosódica<br />
En la literatura exist<strong>en</strong> muchos trabajos que han <strong>en</strong>c<strong>on</strong>trado relación <strong>en</strong>tre las variaci<strong>on</strong>es<br />
<strong>de</strong> la prosodia <strong>de</strong>l locutor y la información <strong>de</strong> su estado emoci<strong>on</strong>al [10], [35]. Muchos sistemas<br />
<strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es utilizan los rasgos prosódicos <strong>de</strong>l habla como señal <strong>de</strong> <strong>en</strong>trada.<br />
Los rasgos prosódicos más comúnm<strong>en</strong>te utilizados s<strong>on</strong> la frecu<strong>en</strong>cia fundam<strong>en</strong>tal o pitch (F0),<br />
la <strong>en</strong>ergía y sus corresp<strong>on</strong>di<strong>en</strong>tes velocida<strong>de</strong>s, también c<strong>on</strong>ocidas como rasgos ∆ y la duración.<br />
Se va a hacer uso <strong>de</strong> la parametrización prosódica para la realización <strong>de</strong> nuestros sistemas.<br />
En c<strong>on</strong>creto, la señal <strong>de</strong> audio es <strong>en</strong>v<strong>en</strong>tanada cada 10 ms usando una v<strong>en</strong>tana <strong>de</strong> Hamming <strong>de</strong><br />
40 ms [Figura 18]. Mediante la herrami<strong>en</strong>ta Praat [36] se extrae por cada v<strong>en</strong>tana la <strong>en</strong>ergía y<br />
el log F0 obt<strong>en</strong>i<strong>en</strong>do un vector <strong>de</strong> <strong>en</strong>ergías ⃗e = [e 1 , e 2 , ..., e T ] y otro <strong>de</strong> valores logarítmicos <strong>de</strong>l<br />
pitch ⃗p = [p 1 , p 2 , ..., p T ] d<strong>on</strong><strong>de</strong> T es el número <strong>de</strong> v<strong>en</strong>tanas <strong>de</strong> la locución <strong>de</strong> <strong>voz</strong>. La eliminación<br />
<strong>de</strong> los segm<strong>en</strong>tos que no s<strong>on</strong> <strong>voz</strong> se c<strong>on</strong>sigue mediante el uso <strong>de</strong> un Detector <strong>de</strong> Actividad Vocal<br />
(VAD), aceptando únicam<strong>en</strong>te aquellas v<strong>en</strong>tanas c<strong>on</strong> valor <strong>de</strong> pitch y <strong>en</strong>ergía mayores que un<br />
umbral θ. El umbral elegido θ es:<br />
θ = min{⃗e} + MD<br />
10<br />
d<strong>on</strong><strong>de</strong> MD es el Marg<strong>en</strong> Dinámico <strong>de</strong> la <strong>en</strong>ergía, MD = max{⃗e} − min{⃗e}<br />
Para obt<strong>en</strong>er información <strong>de</strong> la velocidad <strong>de</strong> los vectores <strong>de</strong> <strong>en</strong>ergías ⃗e y pitch ⃗p, los valores<br />
∆ se obti<strong>en</strong><strong>en</strong> como la difer<strong>en</strong>cia <strong>en</strong>tre v<strong>en</strong>tanas c<strong>on</strong>secutivas. Así, ∆ ek = e k+1 − e k .<br />
Como refleja la Figura 19, por cada locución <strong>de</strong> <strong>voz</strong> u, la parametrización prosódica c<strong>on</strong>siste<br />
<strong>en</strong> un c<strong>on</strong>junto <strong>de</strong> d = 4 vectores <strong>de</strong> características o tramas (<strong>en</strong>ergía, pitch y sus valores ∆).<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO 51
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 18: a) V<strong>en</strong>tanas temporales más utilizadas para el <strong>en</strong>v<strong>en</strong>tanado <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>. b)<br />
Env<strong>en</strong>tanado y vectores <strong>de</strong> <strong>en</strong>ergía ⃗e y pitch ⃗p <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>.<br />
⃗u p = {⃗e, ⃗p, ⃗ ∆ e , ⃗ ∆ p }<br />
Es posible normalizar cada una <strong>de</strong> las 4 tramas restándole su valor medio. En el capítulo 5<br />
<strong>de</strong> Pruebas y Resultados se indicará que tipo <strong>de</strong> normalización se ha llevado a cabo según el<br />
sistema o el tipo <strong>de</strong> prueba realizada, para optimizar resultados.<br />
Figura 19: Diagrama <strong>de</strong> bloques <strong>de</strong> la extracción <strong>de</strong> parámetros prosódicos <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>.<br />
4.2.2. Subsistemas fr<strong>on</strong>t-<strong>en</strong>d (SVM c<strong>on</strong> estadísticos y GMM-SVM)<br />
Un sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> <strong>voz</strong> fr<strong>on</strong>t-<strong>en</strong>d es todo aquel que utiliza como <strong>en</strong>trada la<br />
propia señal <strong>de</strong> <strong>voz</strong> y obti<strong>en</strong>e a la salida una serie <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong> dicha señal<br />
<strong>de</strong> <strong>voz</strong> fr<strong>en</strong>te a un c<strong>on</strong>junto <strong>de</strong> mo<strong>de</strong>los previam<strong>en</strong>te <strong>en</strong>tr<strong>en</strong>ados.<br />
Para la tarea que nos ocupa se han diseñado dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d.<br />
• Un sistema <strong>de</strong> SVM cuyo vector <strong>de</strong> <strong>en</strong>trada es un c<strong>on</strong>junto <strong>de</strong> estadísticos globales <strong>de</strong><br />
las características prosódicas.<br />
• Otro sistema <strong>de</strong> SVM que utiliza los valores <strong>de</strong> las medias <strong>de</strong> los GMMs para c<strong>on</strong>figurar el<br />
supervector <strong>de</strong> <strong>en</strong>trada.<br />
52<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
A partir <strong>de</strong> ahora al primero le llamaremos SVM c<strong>on</strong> estadísticos y al segundo GMM-<br />
SVM.<br />
En la sigui<strong>en</strong>te sección se <strong>de</strong>scrib<strong>en</strong> los procesos <strong>de</strong> mo<strong>de</strong>lado y evaluación <strong>de</strong> los subsistemas<br />
y la fusión <strong>de</strong> los resultados obt<strong>en</strong>idos por ambos.<br />
Creación y evaluación <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong>l subsistema SVM basado <strong>en</strong> estadísticos<br />
globales<br />
Este tipo <strong>de</strong> mo<strong>de</strong>lado SVM utiliza como vector <strong>de</strong> <strong>en</strong>trada un vector formado por la<br />
c<strong>on</strong>cat<strong>en</strong>ación <strong>de</strong> n = 9 valores estadísticos <strong>de</strong> cada uno <strong>de</strong> las d = 4 tramas prosódicas (⃗e, ⃗ ∆ e ,<br />
⃗p y ⃗ ∆ p ). Estos 9 coefici<strong>en</strong>tes estadísticos aparec<strong>en</strong> <strong>en</strong> la Tabla 3.<br />
Coefici<strong>en</strong>tes<br />
Máximo<br />
Mínimo<br />
Medio<br />
Desviación estándar<br />
Mediana<br />
Primer cuartil<br />
Tercer cuartil<br />
Skewness<br />
Kurtosis<br />
Tabla 3: Coefici<strong>en</strong>tes estadísticos calculados por cada trama prosódica.<br />
Por lo tanto, por cada locución <strong>de</strong> <strong>voz</strong> se obti<strong>en</strong>e un vector <strong>de</strong> l<strong>on</strong>gitud fija <strong>de</strong><br />
L = d ∗ n = 4 ∗ 9 = 36 valores. En este nuevo espacio <strong>de</strong> características L-dim<strong>en</strong>si<strong>on</strong>al<br />
es d<strong>on</strong><strong>de</strong> se mo<strong>de</strong>lan las emoci<strong>on</strong>es usando un SVM lineal. Como pue<strong>de</strong> verse <strong>en</strong> la Figura<br />
20 el vector <strong>de</strong> rasgos L-dim<strong>en</strong>si<strong>on</strong>al se pue<strong>de</strong> ver como el resultado <strong>de</strong> la función kernel<br />
[37] l(⃗u p ) que mapea las tramas prosódicas <strong>de</strong> ⃗u p <strong>en</strong> un espacio <strong>de</strong> características L-dim<strong>en</strong>si<strong>on</strong>al.<br />
C<strong>on</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se crean los mo<strong>de</strong>los por cada emoción. Dado un mo<strong>de</strong>lo<br />
SVM ⃗w e <strong>de</strong> una emoción e, la función <strong>de</strong> puntuación o scoring s( ⃗w, l(⃗u)) por cada locución<br />
<strong>de</strong> test ⃗u ptest es simplem<strong>en</strong>te un producto escalar calculado <strong>de</strong> la sigui<strong>en</strong>te forma [Ver Figura 20]:<br />
s( ⃗w e , l(⃗u ptest )) = ⃗w e * l(⃗u ptest ) T<br />
Figura 20: Diagrama <strong>de</strong> bloques <strong>de</strong>l clasificador SVM utilizando estadísticos globales.<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO 53
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Como resultado <strong>de</strong> dicha función <strong>de</strong> scoring se ti<strong>en</strong><strong>en</strong> una puntuación Λ que dará una<br />
medida <strong>de</strong> la similitud <strong>en</strong>tre la locución <strong>de</strong> test ⃗u ptest y el mo<strong>de</strong>lo ⃗w e .<br />
La Figura 21 repres<strong>en</strong>ta un esquema <strong>de</strong>l funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> un SVM <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista<br />
<strong>de</strong> la distribución <strong>de</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. Por cada emoción e1, e2 y e3 exist<strong>en</strong> N e1 , N e2<br />
y N e3 locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to respectivam<strong>en</strong>te. Así, para <strong>en</strong>tr<strong>en</strong>ar el mo<strong>de</strong>lo ⃗w e1 se usan<br />
como datos target (clase +1) las locuci<strong>on</strong>es l(⃗u ptrain ) pert<strong>en</strong>eci<strong>en</strong>tes a la emoción e1 y como<br />
datos n<strong>on</strong>-target (clase -1) a los pert<strong>en</strong>eci<strong>en</strong>tes al resto <strong>de</strong> clases o emoci<strong>on</strong>es, <strong>en</strong> el ejemplo a<br />
las emoci<strong>on</strong>es e2 y e3.<br />
Figura 21: Esquema <strong>de</strong> distribución <strong>de</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>en</strong> un clasificador SVM para<br />
vectores <strong>de</strong> <strong>en</strong>trada l(⃗u ptrain ).<br />
Creación y evaluación <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong>l subsistema GMM-SVM<br />
Como ya se ha explicado <strong>en</strong> el capítulo <strong>de</strong> Técnicas <strong>de</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es<br />
[3.7], la técnica <strong>de</strong> SVMs basados <strong>en</strong> supervectores GMMs c<strong>on</strong>siste <strong>en</strong> <strong>en</strong>tr<strong>en</strong>ar los mo<strong>de</strong>los<br />
SVM c<strong>on</strong> supervectores L ′ -dim<strong>en</strong>si<strong>on</strong>ales creados mediante la apilación <strong>de</strong> los vectores medios<br />
d-dim<strong>en</strong>si<strong>on</strong>ales <strong>de</strong> las M comp<strong>on</strong><strong>en</strong>tes Gaussianas, d<strong>on</strong><strong>de</strong> L ′ = M * d.<br />
Se pue<strong>de</strong> c<strong>on</strong>si<strong>de</strong>rar al supervector GMM como resultado <strong>de</strong> una función SV (⃗u p ) que mapea<br />
los vectores prosódicos ⃗u p <strong>en</strong> un vector <strong>de</strong> mayor dim<strong>en</strong>sión L ′<br />
= M * d [Ver Figura 22]. En<br />
este espacio L ′ -dim<strong>en</strong>si<strong>on</strong>al es d<strong>on</strong><strong>de</strong> se mo<strong>de</strong>la el SVM para obt<strong>en</strong>er un mo<strong>de</strong>lo final ⃗w e <strong>de</strong> la<br />
emoción e.<br />
En nuestro caso la parametrización prosódica ⃗u p c<strong>on</strong>siste <strong>en</strong> 4 vectores (⃗e, ⃗p, ⃗ ∆ e , ⃗ ∆ p ) por lo<br />
54<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
tanto el vector medio <strong>de</strong> cada mezcla GMM serán 4-dim<strong>en</strong>si<strong>on</strong>ales [Ver Figura 22]. Tomando<br />
por ejemplo un número <strong>de</strong> Gaussianas <strong>de</strong> 256 (M = 256), el supervector GMM SV (⃗u p ) que<br />
servirá como <strong>en</strong>trada al SVM t<strong>en</strong>drá una dim<strong>en</strong>sión <strong>de</strong> L ′ = 256 * 4 = 1024.<br />
Figura 22: Diagrama <strong>de</strong> bloques <strong>de</strong>l clasificador GMM-SVM.<br />
Para este caso la función <strong>de</strong> scoring también c<strong>on</strong>sistirá <strong>en</strong> un producto escalar <strong>en</strong>tre el<br />
mo<strong>de</strong>lo ⃗w e y el supervector GMM <strong>de</strong> test SV (⃗u ptest ) si<strong>en</strong>do ésta:<br />
s ′ ( ⃗w e , SV (⃗u ptest )) = ⃗w e * SV (⃗u ptest ) T<br />
La manera <strong>en</strong> que el SVM funci<strong>on</strong>a a la hora <strong>de</strong> clasificar aparece <strong>en</strong> la Figura 23. El<br />
funci<strong>on</strong>ami<strong>en</strong>to es el mismo al <strong>de</strong> la Figura 21 excepto por el hecho <strong>de</strong> que los vectores <strong>de</strong><br />
<strong>en</strong>tradas <strong>de</strong>l SVM s<strong>on</strong> supervectores GMM <strong>de</strong> la forma SV (⃗u ptrain ).<br />
Fusión suma <strong>de</strong> los resultados <strong>de</strong> los subsistemas<br />
Tanto el sistema <strong>de</strong> SVMs c<strong>on</strong> estadísticos globales como el <strong>de</strong> supervectores GMM ofrec<strong>en</strong><br />
a la salida unas puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>en</strong>tre la muestra <strong>de</strong> test ⃗u ptest y el mo<strong>de</strong>lo ⃗w e :<br />
respectivam<strong>en</strong>te.<br />
s( ⃗w e , l(⃗u ptest )) = ⃗w e * l(⃗u ptest ) T<br />
s ′ ( ⃗w e , SV (⃗u ptest )) = ⃗w e * SV (⃗u ptest ) T<br />
Mediante la combinación <strong>de</strong> dichas puntuaci<strong>on</strong>es se c<strong>on</strong>sigue una nueva puntuación<br />
final S( ⃗w e , ⃗u ptest )) que pue<strong>de</strong> ofrecer mejores resultados si los subsistemas fusi<strong>on</strong>ados dan<br />
información complem<strong>en</strong>taria.<br />
La combinación se realiza como una fusión suma (sum fusi<strong>on</strong> <strong>en</strong> inglés) precedida <strong>de</strong> una<br />
T-norm (test normalizati<strong>on</strong>) [capítulo 2.5] que hace que los rangos <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> ambos<br />
sistemas sean similares. El c<strong>on</strong>junto cohorte <strong>de</strong> la T-norm está formado por todo el c<strong>on</strong>junto <strong>de</strong><br />
emoci<strong>on</strong>es ⃗w e para e = 1, ..., N emoci<strong>on</strong>es . La puntuación final fusi<strong>on</strong>ada S( ⃗w e , ⃗u ptest )) se calcula<br />
como:<br />
S( ⃗w e , ⃗u ptest ) = s′ ( ⃗w e , SV (⃗u ptest )) − µ ′<br />
std ′ + s( ⃗w e, l(⃗u ptest )) − µ<br />
std<br />
D<strong>on</strong><strong>de</strong> µ ′ y µ s<strong>on</strong> las medias <strong>de</strong> las puntuaci<strong>on</strong>es cohorte, y std ′ y std s<strong>on</strong> sus respectivas<br />
<strong>de</strong>sviaci<strong>on</strong>es estándares.<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO 55
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 23: Esquema <strong>de</strong> distribución <strong>de</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>en</strong> un clasificador SVM para<br />
supervectores <strong>de</strong> <strong>en</strong>trada SV (⃗u ptrain ).<br />
4.2.3. Sistema back-<strong>en</strong>d (Fusi<strong>on</strong> Anchor Mo<strong>de</strong>ls)<br />
Por c<strong>on</strong>traposición a los sistemas fr<strong>on</strong>t-<strong>en</strong>d, t<strong>en</strong>emos los sistemas back-<strong>en</strong>d. Como ejemplo<br />
<strong>de</strong> este tipo <strong>de</strong> técnicas, t<strong>en</strong>emos la fusión <strong>de</strong> los anchor mo<strong>de</strong>ls (Anchor Mo<strong>de</strong>l Fusi<strong>on</strong>, AMF)<br />
que ya vimos <strong>en</strong> el capítulo 3.7.4.<br />
Esta técnica novedosa es original <strong>de</strong>l <strong>ATVS</strong> y fue pres<strong>en</strong>tada <strong>en</strong> el c<strong>on</strong>greso internaci<strong>on</strong>al<br />
Interspeech 2008 para rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> idioma [27]. La aplicación a tareas <strong>de</strong><br />
rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es la pres<strong>en</strong>tamos <strong>en</strong> [28] y está aceptada y p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> pres<strong>en</strong>tar<br />
<strong>en</strong> Interspeech 2009.<br />
Creación <strong>de</strong> mo<strong>de</strong>los SVM a partir <strong>de</strong> los resultados <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d<br />
Este tipo <strong>de</strong> técnicas usa las puntuaci<strong>on</strong>es obt<strong>en</strong>idas previam<strong>en</strong>te por otros subsistemas<br />
y las utiliza para formar el vector <strong>de</strong> parámetros <strong>de</strong> <strong>en</strong>trada para el nuevo sistema que<br />
producirá las puntuaci<strong>on</strong>es finales. En la Figura 15 se vio como una locución <strong>de</strong> test ⃗x se<br />
<strong>en</strong>fr<strong>en</strong>taba a n mo<strong>de</strong>los <strong>de</strong> N sist subsistemas para así c<strong>on</strong>formar el vector <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong><br />
dim<strong>en</strong>sión N = n ∗ N sist <strong>de</strong>notado como ⃗ S x,m . Este vector <strong>de</strong> puntuaci<strong>on</strong>es es el que pasa a ser<br />
el vector <strong>de</strong> parámetros <strong>de</strong> la locución ⃗x para el sistema back-<strong>en</strong>d.<br />
En nuestro caso, el número <strong>de</strong> subsistemas N sist es <strong>de</strong> 2, el sistema GMM-SVM y el <strong>de</strong><br />
SVM c<strong>on</strong> estadísticos. Por otro lado, el número <strong>de</strong> mo<strong>de</strong>los n a <strong>en</strong>fr<strong>en</strong>tar <strong>de</strong>p<strong>en</strong><strong>de</strong>rá <strong>de</strong> la<br />
base <strong>de</strong> datos que usemos. Así, por ejemplo para SUSAS Simulated <strong>en</strong> un sistema in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te<br />
<strong>de</strong> locutor t<strong>en</strong>dremos 11 mo<strong>de</strong>los, uno por cada emoción y por lo tanto n = 11. [Figura 24]<br />
56<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 24: Uso <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> dos sistemas fr<strong>on</strong>t-<strong>en</strong>d para c<strong>on</strong>formar el sistema back-<strong>en</strong>d<br />
para la base <strong>de</strong> datos SUSAS Simulated.<br />
Una vez se ha obt<strong>en</strong>ido el nuevo vector <strong>de</strong> parámetros ⃗ S x,m para cada locución ⃗x, el sigui<strong>en</strong>te<br />
paso es <strong>en</strong>tr<strong>en</strong>ar un clasificador back-<strong>en</strong>d c<strong>on</strong> esta nueva parametrización. El nuevo clasificador<br />
back-<strong>en</strong>d va a ser un SVM. El <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los SVM se hará <strong>de</strong> la misma forma<br />
que vimos <strong>en</strong> la sección 4.2.2. Los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (pert<strong>en</strong>eci<strong>en</strong>tes al espacio <strong>de</strong> anchor<br />
mo<strong>de</strong>ls) serán los <strong>en</strong>cargados <strong>de</strong> mo<strong>de</strong>las los nuevos mo<strong>de</strong>los w ′ e y los datos <strong>de</strong> test (también<br />
pert<strong>en</strong>eci<strong>en</strong>tes al espacio <strong>de</strong> anchor mo<strong>de</strong>ls) los evaluarán obt<strong>en</strong>i<strong>en</strong>do una puntuación final ⃗ S ′ x<br />
[Ver Figura 24].<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO 57
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
58<br />
CAPÍTULO 4. DISEÑO Y DESARROLLO
5<br />
Pruebas y Resultados<br />
En este trabajo se distigu<strong>en</strong> dos tipos <strong>de</strong> experim<strong>en</strong>tos: in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes y <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong><br />
locutor. Se lleva a cabo dicha división c<strong>on</strong> el objetivo <strong>de</strong> analizar la variabilidad introducida<br />
por los distintos usuarios.<br />
En aplicaci<strong>on</strong>es d<strong>on</strong><strong>de</strong> no exist<strong>en</strong> datos específicos por cada locutor es preferible usar<br />
sistemas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor. Mi<strong>en</strong>tras que si sí están disp<strong>on</strong>ibles datos <strong>de</strong> cada locutor<br />
es mejor adaptar los mo<strong>de</strong>los a cada uno <strong>de</strong> ellos eliminando la variabilidad inter-locutor y<br />
así presumiblem<strong>en</strong>te c<strong>on</strong>seguiremos reducir la tasar <strong>de</strong> error.<br />
La v<strong>en</strong>taja <strong>de</strong> los sistemas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor es que no es necesario el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
<strong>de</strong> mo<strong>de</strong>los específicos para cada usuario. Por ello, existe un compromiso <strong>en</strong>tre<br />
ambos tipos <strong>de</strong> sistemas. Los in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor ofrec<strong>en</strong> una mayor rapi<strong>de</strong>z y comodidad<br />
para el usuario mi<strong>en</strong>tras que los <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor c<strong>on</strong>sigu<strong>en</strong> m<strong>en</strong>ores tasas <strong>de</strong> error.<br />
Para cada uno <strong>de</strong> estos dos tipos <strong>de</strong> experim<strong>en</strong>tos y para cada base <strong>de</strong> datos se van a<br />
pres<strong>en</strong>tar y analizar los resultados obt<strong>en</strong>idos mediante los dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d y su fusión<br />
suma, al igual que para el sistema back-<strong>en</strong>d <strong>de</strong> AMF.<br />
C<strong>on</strong> el objetivo <strong>de</strong> lograr sistemas más robustos se ajustarán una serie <strong>de</strong> variables como el<br />
coste asociado al <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to SVM o el número <strong>de</strong> mezclas Gaussianas <strong>de</strong> los GMM, a<strong>de</strong>más<br />
<strong>de</strong> la normalización <strong>de</strong> tanto los vectores <strong>de</strong> parámetros prosódicos como <strong>de</strong> las puntuaci<strong>on</strong>es<br />
resultantes.<br />
59
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
5.1. Pruebas y Resultados in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor<br />
Para evaluar los sistemas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor se han hecho dos tipos <strong>de</strong> pruebas.<br />
En las primeras, se evalúan los mo<strong>de</strong>los <strong>de</strong> cada base <strong>de</strong> datos (SUSAS Simulated, SUSAS<br />
Actual y Ah3R1 ) fr<strong>en</strong>te a datos <strong>de</strong> test <strong>de</strong> la misma base <strong>de</strong> datos. Por ejemplo, las locuci<strong>on</strong>es<br />
<strong>de</strong> test <strong>de</strong> Ah3R1 se evaluarán únicam<strong>en</strong>te fr<strong>en</strong>te a los mo<strong>de</strong>los creados a partir <strong>de</strong> la base <strong>de</strong><br />
datos Ah3R1. A este tipo <strong>de</strong> experim<strong>en</strong>tos los llamaremos experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos.<br />
En el otro tipo <strong>de</strong> pruebas se evalúan las locuci<strong>on</strong>es <strong>de</strong> test <strong>de</strong> cada base <strong>de</strong> datos fr<strong>en</strong>te<br />
a todos los mo<strong>de</strong>los creados por todas las bases <strong>de</strong> datos. Es <strong>de</strong>cir, por ejemplo, los datos <strong>de</strong><br />
test <strong>de</strong> Ah3R1 se evalúan fr<strong>en</strong>te a los mo<strong>de</strong>los <strong>de</strong> SUSAS Simulated, SUSAS Actual y Ah3R1.<br />
Serán llamados por lo tanto experim<strong>en</strong>tos Inter-Base <strong>de</strong> datos.<br />
5.1.1. Experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos: Evaluación <strong>de</strong> cada Base <strong>de</strong> Datos<br />
fr<strong>en</strong>te a mo<strong>de</strong>los <strong>de</strong> la misma Base <strong>de</strong> Datos<br />
SUSAS Simulated<br />
En este apartado se van a <strong>de</strong>scribir los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor realizados<br />
sobre la base <strong>de</strong> datos SUSAS Simulated. Como se vio <strong>en</strong> el capítulo 4.1.1, se ti<strong>en</strong>e 9 locutores<br />
los cuales se divi<strong>de</strong>n <strong>en</strong> 3 grupos según la etapa (<strong>de</strong>velopm<strong>en</strong>t, <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test) a la que se<br />
<strong>de</strong>diqu<strong>en</strong> [Ver Tabla 4]. Los datos <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t serán utilizados para g<strong>en</strong>erar el mo<strong>de</strong>lo UBM.<br />
Etapa<br />
Developm<strong>en</strong>t<br />
Entr<strong>en</strong>ami<strong>en</strong>to<br />
Test<br />
Locutores<br />
g1,b1,n1<br />
g2,b2,n2<br />
g3,b3,n3<br />
Tabla 4: Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />
Simulated.<br />
• SUSAS Simulated - SVM c<strong>on</strong> estadísticos<br />
Como aparece <strong>en</strong> la Figura 25, se <strong>en</strong>tr<strong>en</strong>an 11 mo<strong>de</strong>los ( ⃗w SV M angry , ⃗w SV M clear ,<br />
⃗w SV M c<strong>on</strong>d50 , ⃗w SV M c<strong>on</strong>d70 , ⃗w SV M fast , ⃗w SV M lombard , ⃗w SV M loud , ⃗w SV M neutral , ⃗w SV M questi<strong>on</strong> ,<br />
⃗w SV M slow y ⃗w SV M soft ), uno por cada emoción utilizando los locutores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (g2,<br />
b2, n2 ). El número <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to por cada emoción es <strong>de</strong>:<br />
35 palabras * 2 repetici<strong>on</strong>es/palabra * 3 locutores = 210 locuci<strong>on</strong>es/emoción.<br />
Para este caso <strong>en</strong> que no intervi<strong>en</strong>e la técnica GMM, no se <strong>en</strong>tr<strong>en</strong>a un UBM y por lo tanto no<br />
se usan los datos <strong>de</strong> los locutores g1, b1, n1.<br />
Una vez se ti<strong>en</strong>e un mo<strong>de</strong>lo por cada emoción se pasa a la etapa <strong>de</strong> evaluación <strong>de</strong> los<br />
mismos. Se usan los datos <strong>de</strong> test <strong>de</strong> los locutores g3, b3, n3. Se <strong>en</strong>fr<strong>en</strong>tan todos las locuci<strong>on</strong>es<br />
<strong>de</strong> test fr<strong>en</strong>te a los 11 mo<strong>de</strong>los.<br />
El número <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong> test es <strong>de</strong>:<br />
35 palabras * 2 repetici<strong>on</strong>es/palabra * 3 locutores * 11 emoci<strong>on</strong>es = 2310 locuci<strong>on</strong>es.<br />
Por lo tanto, como cada locución <strong>de</strong> test se <strong>en</strong>fr<strong>en</strong>ta a los 11 mo<strong>de</strong>los, el número <strong>de</strong> puntuaci<strong>on</strong>es<br />
será <strong>de</strong>:<br />
60<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 25: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para el sistema ’SUSAS Simulated<br />
- SVM c<strong>on</strong> estadísticos’.<br />
11 mo<strong>de</strong>los * 2310 locuci<strong>on</strong>es = 25410 puntuaci<strong>on</strong>es.<br />
Para este subsistema se van a llevar a cabo las sigui<strong>en</strong>tes tareas para optimizar los resultados:<br />
• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />
• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
• Selección <strong>de</strong> parámetros<br />
• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />
Como se com<strong>en</strong>tó <strong>en</strong> el capítulo 4.2.1, es posible realizar una normalización <strong>de</strong> cada una<br />
<strong>de</strong> las 4 tramas <strong>de</strong> vectores prosódicos (⃗e, ⃗p, ⃗ ∆ e y ⃗ ∆ p ) restándole su valor medio. Para estos<br />
experim<strong>en</strong>tos se ha realizado la normalización <strong>de</strong>l vector ⃗e pues es la opción que mejores<br />
resultados c<strong>on</strong>sigue. C<strong>on</strong>secu<strong>en</strong>tem<strong>en</strong>te los vectores prosódicos s<strong>on</strong>:<br />
⃗u p = {⃗e − E(⃗e), ⃗p, ⃗ ∆ e , ⃗ ∆ p }<br />
d<strong>on</strong><strong>de</strong> E(⃗e) es la esperanza matemática o valor medio <strong>de</strong>l vector <strong>de</strong> <strong>en</strong>ergías ⃗e.<br />
Otra <strong>de</strong> las variables que se van a ajustar es el coste <strong>de</strong>l clasificador SVM. El coste <strong>en</strong><br />
el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to SVM (ver sección 3.7.2) es una variable mediante la cual c<strong>on</strong>trolamos la<br />
p<strong>en</strong>alización aplicada a una muestra incorrectam<strong>en</strong>te clasificada a la hora <strong>de</strong> establecer el<br />
hiperplano <strong>de</strong> separación <strong>en</strong>tre las clases.<br />
Los resultados para varios valores <strong>de</strong> coste se muestran <strong>en</strong> la Figura 26 <strong>en</strong> forma <strong>de</strong> curva<br />
DET y <strong>en</strong> la Tabla 5 c<strong>on</strong> valores numéricos.<br />
Una c<strong>on</strong>clusión que se pue<strong>de</strong> sacar aunque no se refleja <strong>en</strong> los resultados anteriores, es que<br />
cuanto mayor es el coste, mayor tiempo se emplea <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los. Por esa<br />
razón interesa el m<strong>en</strong>or valor <strong>de</strong> coste posible. Según se ve <strong>en</strong> los resultados, éstos s<strong>on</strong> mejores<br />
c<strong>on</strong> un valor <strong>de</strong> coste <strong>de</strong> 10. Por lo tanto, y dado que dicho valor no hace que el tiempo <strong>de</strong><br />
<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se dispare, se eligirá 10 como valor <strong>de</strong> coste.<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 61
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 26: Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />
costes <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />
Coste EER global( %) DCF min EER medio ( %)<br />
0.01 39.85 0.099 37.20<br />
0.1 38.18 0.098 36.11<br />
1 39.85 0.099 37.20<br />
10 38.07 0.095 35.74<br />
100 40.40 0.098 36.52<br />
Tabla 5: Resultados ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong> la<br />
variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />
El último tipo <strong>de</strong> optimización que se ha realizado sobre este tipo <strong>de</strong> experim<strong>en</strong>tos es<br />
la selección <strong>de</strong> los mejores coefici<strong>en</strong>tes estadísticos <strong>de</strong> la Tabla 3, eliminando aquellas que<br />
ofrec<strong>en</strong> información redundante. La técnica usada para la selección es backward-eliminati<strong>on</strong><br />
que c<strong>on</strong>siste <strong>en</strong> a partir <strong>de</strong> todos los parámetros ir secu<strong>en</strong>cialm<strong>en</strong>te eliminando áquel que más<br />
<strong>de</strong>crem<strong>en</strong>ta o m<strong>en</strong>os increm<strong>en</strong>ta el porc<strong>en</strong>taje <strong>de</strong> clasificación.<br />
El proceso <strong>de</strong> selección <strong>de</strong> características backward-eliminati<strong>on</strong> nos ha llevado a c<strong>on</strong>cluir<br />
que la mejor c<strong>on</strong>figuración se obti<strong>en</strong>e eliminando el coefici<strong>en</strong>te <strong>de</strong> kurtosis, la mediana y la<br />
media <strong>de</strong>l vector <strong>de</strong> <strong>en</strong>ergías ⃗e.<br />
Una vez llevada a cabo la selección <strong>de</strong> características y tras hacer T-normalización <strong>de</strong> los<br />
resultados, llegamos a obt<strong>en</strong>er los resultados <strong>de</strong> la Tabla 6:<br />
Norm. ⃗u p Coste Backward<br />
eliminati<strong>on</strong><br />
⃗e 10 kurtosis<br />
mediana y<br />
media <strong>de</strong> ⃗e<br />
T-norm EER global DCF min EER medio<br />
sí 35.11 0.096 34.47<br />
Tabla 6: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’.<br />
• SUSAS Simulated - GMM-SVM<br />
Para la técnica <strong>de</strong> GMM-SVM, se usan los datos <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t (g1, b1, n1) para <strong>en</strong>tr<strong>en</strong>ar<br />
el mo<strong>de</strong>lo UBM que nos servirá como base para la adaptación a los mo<strong>de</strong>los GMM. El número<br />
62<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
<strong>de</strong> datos <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t es <strong>de</strong>:<br />
35 palabras * 2 repetici<strong>on</strong>es/palabra * 3 locutores * 11emoci<strong>on</strong>es = 2310 locuci<strong>on</strong>es.<br />
Los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (g2,b2,n2) adaptaran dicho UBM g<strong>en</strong>erando así un mo<strong>de</strong>lo<br />
GMM por cada locución. [Ver Figura 27]<br />
Como ya se explicó <strong>en</strong> el capítulo 3.7.3, por cada locución <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test<br />
se c<strong>on</strong>cat<strong>en</strong>an los vectores <strong>de</strong> medias 4-dim<strong>en</strong>si<strong>on</strong>ales <strong>de</strong> las M comp<strong>on</strong><strong>en</strong>tes gaussianas<br />
c<strong>on</strong>formando así el supervector <strong>de</strong> <strong>en</strong>trada al clasificador SVM. El valor M será ajustado para<br />
obt<strong>en</strong>er los mejores resultados. Como se aprecia <strong>en</strong> la Figura 27, mediante los clasificadores<br />
SVM se <strong>en</strong>tr<strong>en</strong>an 11 mo<strong>de</strong>los, uno por emoción ( ⃗w GMM−SV M angry , ⃗w GMM−SV M clear ,<br />
⃗w GMM−SV M c<strong>on</strong>d50 , ⃗w GMM−SV M c<strong>on</strong>d70 , ⃗w GMM−SV M fast , ⃗w GMM−SV M lombard ,<br />
⃗w GMM−SV M loud , ⃗w GMM−SV M neutral , ⃗w GMM−SV M questi<strong>on</strong> , ⃗w GMM−SV M slow y<br />
⃗w GMM−SV M soft ). Al igual que el sistema <strong>de</strong> SVM c<strong>on</strong> coefici<strong>en</strong>tes estadísticos, se disp<strong>on</strong>e<br />
<strong>de</strong> 210 locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to por emoción.<br />
Figura 27: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated - GMM-<br />
SVM’.<br />
En este sistema las tareas que se van a realizar para optimizar resultados s<strong>on</strong>:<br />
• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />
• Optimización variable M número <strong>de</strong> gaussianas<br />
• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />
Tras una serie <strong>de</strong> pruebas realizadas normalizando cada uno <strong>de</strong> los vectores <strong>de</strong> parámetros<br />
prosódicos <strong>de</strong> ⃗u p se ha llegado a la c<strong>on</strong>clusión que la c<strong>on</strong>figuración que ofrece m<strong>en</strong>or tasa <strong>de</strong><br />
error es mediante la normalización <strong>de</strong> tanto el vector <strong>de</strong> <strong>en</strong>ergías ⃗e como el <strong>de</strong> su velocidad ⃗ ∆ e<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 63
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
quedando la parametrización prosódica <strong>de</strong> la sigui<strong>en</strong>te manera:<br />
⃗u p = {⃗e − E(⃗e), ⃗p, ⃗ ∆ e − E( ⃗ ∆ e ), ⃗ ∆ p }<br />
El sigui<strong>en</strong>te valor a ajustar es M, el número <strong>de</strong> comp<strong>on</strong><strong>en</strong>tes gaussianas <strong>de</strong> los GMM. La<br />
v<strong>en</strong>taja <strong>de</strong> mo<strong>de</strong>lar c<strong>on</strong> un número alto <strong>de</strong> gaussianas es que se logra una mejor adaptación<br />
<strong>de</strong> las mezclas a los datos <strong>de</strong>l problema. La <strong>de</strong>sv<strong>en</strong>taja es que se necesita disp<strong>on</strong>er <strong>de</strong> gran<br />
cantidad <strong>de</strong> datos. Para un valor <strong>de</strong> M bajo se produce una peor adaptación al problema pero<br />
por el c<strong>on</strong>trario no requiere <strong>de</strong> muchos datos.<br />
Los resultados <strong>de</strong> esta optimización se muestran <strong>en</strong> la Figura 28 <strong>en</strong> forma <strong>de</strong> curva DET y<br />
<strong>en</strong> la Tabla 7 mediante valores numéricos.<br />
Figura 28: Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - GMM-SVM’ para varios números <strong>de</strong><br />
Gaussianas.<br />
M EER global( %) DCF min EER medio ( %)<br />
128 31.09 0.0901 29.80<br />
256 30.83 0.0903 29.62<br />
512 32.43 0.0911 31.98<br />
Tabla 7: Resultados para ’SUSAS Simulated - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l número <strong>de</strong> gaussianas<br />
M.<br />
Analizando los resultados <strong>de</strong> la Tabla 7 se opta por un valor <strong>de</strong> M <strong>de</strong> 256 gaussianas pues<br />
aunque no es la que mejor DCF min ofrece, sí es la que m<strong>en</strong>or tasa <strong>de</strong> error c<strong>on</strong>sigue, tanto<br />
global como media.<br />
A c<strong>on</strong>tinuación se ajustará la variable coste mant<strong>en</strong>i<strong>en</strong>do fijo el número <strong>de</strong> gaussianas a 256.<br />
La Figura 29 refleja los resultados para distintos valores <strong>de</strong> coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, mi<strong>en</strong>tras<br />
que la Tabla 8 los muestra numéricam<strong>en</strong>te.<br />
Como vemos <strong>en</strong> la Tabla 8 hay discordancia <strong>en</strong>tre el valor <strong>de</strong> coste que hace optimizar cada<br />
una <strong>de</strong> las 3 medidas <strong>de</strong> resultados. Aunque c<strong>on</strong> un coste <strong>de</strong> 100 se obti<strong>en</strong>e el mejor resultado<br />
<strong>de</strong> DCF min , no se optará por dicha opción pues necesita un tiempo <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to mayor.<br />
C<strong>on</strong> un coste <strong>de</strong> 0.01 se obti<strong>en</strong>e la mejor tasa <strong>de</strong> EER medio . Sin embargo, este coste tampoco<br />
será escogido. La mejor opción es tomar un coste <strong>de</strong> 1. De esta manera únicam<strong>en</strong>te se empeora<br />
64<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 29: Curvas DET para varios valores <strong>de</strong> coste <strong>en</strong> ’SUSAS Simulated - GMM-SVM’.<br />
Coste EER global( %) DCF min EER medio ( %)<br />
0.01 31.05 0.0904 29.60<br />
0.1 31.02 0.0903 29.63<br />
1 30.83 0.0903 29.62<br />
10 31 0.0902 29.84<br />
100 30.92 0.0901 29.87<br />
Tabla 8: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Simulated - GMM-SVM’.<br />
2 c<strong>en</strong>tésimas el EER medio c<strong>on</strong> respecto al <strong>de</strong> coste 0.01 y la EER global se ve mejorada <strong>en</strong> casi 2<br />
décimas.<br />
Tras haber optimizado tanto el valor <strong>de</strong> coste como el <strong>de</strong> M, la última tarea es realizar una<br />
T-normalización <strong>de</strong> los resultados utilizando la c<strong>on</strong>figuración <strong>de</strong> la Tabla 9.<br />
Norm. ⃗u p M coste T-norm EER global DCF min EER medio<br />
⃗e y ∆ ⃗ e 256 10 sí 29.44 0.0903 30.44<br />
Tabla 9: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - GMM-SVM’.<br />
• SUSAS Simulated - Fusión suma SVM estadísticos + GMM-SVM<br />
El capítulo 4.2.2 <strong>de</strong>scribió <strong>en</strong> que c<strong>on</strong>sistía la fusión suma. Dicha fusión se ha <strong>de</strong> realizar<br />
previa T-normalización <strong>de</strong> las puntuaci<strong>on</strong>es para que los rangos <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> tanto el<br />
subsistema GMM-SVM como el <strong>de</strong> SVM c<strong>on</strong> estadísticos sean similares.<br />
A la hora <strong>de</strong> realizar la fusión se toma para cada uno <strong>de</strong> los dos sistemas la c<strong>on</strong>figuración<br />
que ofrece mejores resultados [Tabla 6 y 9]. En la Figura 30 se repres<strong>en</strong>ta la curva DET para<br />
cada sistema y para la fusión <strong>de</strong> ambos.<br />
Los valores <strong>de</strong> EER global <strong>de</strong> GMM-SVM, SVM c<strong>on</strong> estadísticos y la fusión suma s<strong>on</strong><br />
29.44 %, 35.11 % y 31.62 % respectivam<strong>en</strong>te. Para este caso la fusión suma no c<strong>on</strong>sigue mejorar<br />
los resultados <strong>de</strong>l mejor <strong>de</strong> los dos subsistemas pues el otro obti<strong>en</strong>e resultados bastante peores.<br />
• SUSAS Simulated - Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls (AMF)<br />
Como vimos <strong>en</strong> el capítulo 4.2.3, para esta nueva técnica se utilizan las puntuaci<strong>on</strong>es <strong>de</strong> cada<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 65
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 30: Curvas DET <strong>de</strong> ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />
suma’.<br />
locución <strong>de</strong> test obt<strong>en</strong>idas tras evaluarla fr<strong>en</strong>te a los 11 mo<strong>de</strong>los <strong>de</strong> cada uno <strong>de</strong> los subsistemas<br />
GMM-SVM y SVM c<strong>on</strong> estadísticos para c<strong>on</strong>formar un nuevo vector <strong>de</strong> parámetros. Dichas<br />
puntuaci<strong>on</strong>es serán las corresp<strong>on</strong>di<strong>en</strong>tes a la c<strong>on</strong>figuración que <strong>en</strong> cada caso ha dado los mejores<br />
resultados [Tabla 6 y 9]. Dicho vector ⃗ S locuci<strong>on</strong> test t<strong>en</strong>drá 22 valores [Ver Figura 31].<br />
Figura 31: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated - AMF’.<br />
Una vez se ti<strong>en</strong>e por cada locución <strong>de</strong> test ⃗x un nuevo vector <strong>de</strong> parámetros ⃗ S x , éstos se<br />
utilizan como <strong>en</strong>trada a un clasificador SVM. Para mant<strong>en</strong>er los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes<br />
<strong>de</strong> locutor, se cogerán iterativam<strong>en</strong>te los datos <strong>de</strong> cada uno <strong>de</strong> los tres locutores g3,b3,n3 y se<br />
utilizarán para evaluación mi<strong>en</strong>tras que los datos <strong>de</strong> los otros dos restantes se utilizarán para<br />
<strong>en</strong>tr<strong>en</strong>ar los mo<strong>de</strong>los SVM, uno por emoción. A esta práctica se la c<strong>on</strong>oce como leave-<strong>on</strong>e-<br />
66<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
locutor-out que es un tipo <strong>de</strong> validación cruzada (cross-validati<strong>on</strong>). Así se c<strong>on</strong>sigue que datos<br />
<strong>de</strong> un mismo locutor no se utilic<strong>en</strong> para <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test simultáneam<strong>en</strong>te. A esta técnica<br />
se la c<strong>on</strong>oce como validación cruzada (cross validati<strong>on</strong>) [38].<br />
En la Figura 32 se repres<strong>en</strong>tan un c<strong>on</strong>junto <strong>de</strong> curvas DET para varios valores <strong>de</strong> la variable<br />
coste <strong>de</strong>l clasificador back-<strong>en</strong>d SVM. Y <strong>en</strong> la Tabla 10 valores numéricos <strong>de</strong> tasas <strong>de</strong> error y<br />
DCF min . La mejor c<strong>on</strong>figuración se logra cuando el coste toma valor 1. Aunque para un coste<br />
<strong>de</strong> 10 se reduce <strong>en</strong> 2 milésimas el DCF min , ésto sup<strong>on</strong>e un mayor tiempo <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y<br />
peores tasas <strong>de</strong> error.<br />
Figura 32: Curvas DET <strong>de</strong> ’SUSAS Simulated - AMF’ para varios valores <strong>de</strong> coste.<br />
Coste EER global( %) DCF min EER medio ( %)<br />
0.01 25.92 0.0922 26.94<br />
0.1 25.24 0.0923 26.25<br />
1 24.18 0.0852 26<br />
10 24.62 0.0834 26.2<br />
100 25.54 0.0839 27.35<br />
200 26.25 0.0842 27.72<br />
Tabla 10: Resultados para varios costes para ’SUSAS Simulated - AMF’.<br />
Si se comparan los resultados <strong>de</strong> los sistemas fr<strong>on</strong>t-<strong>en</strong>d fr<strong>en</strong>te al sistema back-<strong>en</strong>d <strong>de</strong> AMF<br />
[Tabla 11], lo primero que pue<strong>de</strong> apreciarse es un increm<strong>en</strong>to <strong>en</strong> el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> éste sistema<br />
fr<strong>en</strong>te a los primeros. C<strong>on</strong> AMF se c<strong>on</strong>sigue una EER media <strong>de</strong> 26 % mi<strong>en</strong>tras que la fusión <strong>de</strong><br />
los sistemas fr<strong>on</strong>t-<strong>en</strong>d [Tabla 11] obti<strong>en</strong>e un 30.46 %. Es <strong>de</strong>cir, se reduce casi 4 puntos las tasas<br />
<strong>de</strong> error.<br />
Se c<strong>on</strong>stata por lo tanto que nuestro nuevo sistema pres<strong>en</strong>tado <strong>en</strong> [28] logra mejorar los<br />
resultados <strong>de</strong>l sistema GMM-SVM, SVM c<strong>on</strong> estadísticos y la fusión suma.<br />
En la Figura 33 se repres<strong>en</strong>ta la curva DET para la fusión suma <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d<br />
y la curva DET para el sistema <strong>de</strong> AMF.<br />
Por último, la Tabla 11 analiza los EER medio por emoción <strong>de</strong> tanto la fusión suma <strong>de</strong> los<br />
dos sistemas fr<strong>on</strong>t-<strong>en</strong>d como <strong>de</strong>l sistema back-<strong>en</strong>d <strong>de</strong> AMF. La última columna corresp<strong>on</strong><strong>de</strong><br />
c<strong>on</strong> la mejora relativa (M.R. <strong>en</strong> %) <strong>de</strong> éste último sistema c<strong>on</strong> respecto al primero.<br />
De la Tabla 11 es importante resaltar la gran difer<strong>en</strong>cia <strong>de</strong> tasas <strong>de</strong> error <strong>en</strong>tre emoci<strong>on</strong>es.<br />
Así, estilos <strong>de</strong> habla como c<strong>on</strong>d50 o c<strong>on</strong>d70 ti<strong>en</strong><strong>en</strong> una tasa <strong>de</strong> error <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to muy<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 67
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 33: Curvas DET <strong>de</strong> la ’SUSAS Simulated - fusión suma y AMF’.<br />
Emoción EER ( %) fusión suma EER ( %) AMF M.R. ( %)<br />
angry 19.93 21.88 +9.78<br />
clear 34.85 34.84 -0.03<br />
c<strong>on</strong>d50 39.49 41.14 +4.18<br />
c<strong>on</strong>d70 45.30 33.41 -26.25<br />
fast 33.84 22.10 -34.69<br />
lombard 31.99 31.02 -3.03<br />
loud 31.90 41.80 +31.03<br />
neutral 40.43 10.05 -75.14<br />
questi<strong>on</strong> 3.38 3.43 +1.48<br />
slow 24.36 24.35 -0.04<br />
soft 29.61 21.97 -25.8<br />
EER medio 30.46 26 -14.64<br />
Tabla 11: EER ( %) por emoción para ’SUSAS Simulated - fusión suma y AMF’.<br />
alta mi<strong>en</strong>tras que otros como questi<strong>on</strong> la ti<strong>en</strong>e muy baja.<br />
Una c<strong>on</strong>clusión que se obti<strong>en</strong>e es que <strong>en</strong> emoci<strong>on</strong>es <strong>en</strong> las cuales hay una alta variación <strong>de</strong><br />
la int<strong>en</strong>sidad <strong>de</strong> habla, como angry, o una gran variación <strong>de</strong> la frecu<strong>en</strong>cia fundam<strong>en</strong>tal, como<br />
questi<strong>on</strong>, se c<strong>on</strong>sigu<strong>en</strong> tasas <strong>de</strong> error relativam<strong>en</strong>te bajas c<strong>on</strong> respecto a la tasa media. Esto es<br />
<strong>de</strong>bido a que justam<strong>en</strong>te <strong>en</strong> nuestra parametrización hemos utilizado tanto la <strong>en</strong>ergía <strong>de</strong> habla<br />
como el pitch y sus corresp<strong>on</strong>di<strong>en</strong>tes variaci<strong>on</strong>es. Por lo tanto, si se quiere obt<strong>en</strong>er mejores<br />
tasas <strong>de</strong> error <strong>en</strong> emoci<strong>on</strong>es <strong>en</strong> las que c<strong>on</strong> la parametrización actual no se c<strong>on</strong>sigu<strong>en</strong> habría<br />
primero que analizar las propieda<strong>de</strong>s prosódicas o acústicas que caracterizan a cada una <strong>de</strong><br />
ellas y obt<strong>en</strong>er un nuevo tipo <strong>de</strong> parametrización.<br />
Otra c<strong>on</strong>clusión que se pue<strong>de</strong> sacar <strong>de</strong> la Tabla 11 es que aunque AMF mejora el r<strong>en</strong>dimi<strong>en</strong>to<br />
sobre casi todas las emoci<strong>on</strong>es, para loud (+31 %) y angry (+9.78 %), que s<strong>on</strong> justam<strong>en</strong>te los<br />
estilos c<strong>on</strong> alta int<strong>en</strong>sidad <strong>de</strong> habla, se produce un empeorami<strong>en</strong>to relativo c<strong>on</strong> respecto a la<br />
fusión suma. La mayor mejora relativa ocurre <strong>en</strong> la emoción neutral, la cual pasa <strong>de</strong> un 40.43 %<br />
a un 10.05 %. Esto quiere <strong>de</strong>cir que <strong>en</strong> el nuevo espacio <strong>de</strong> dim<strong>en</strong>si<strong>on</strong>es <strong>de</strong> Anchor Mo<strong>de</strong>ls se<br />
c<strong>on</strong>sigue mo<strong>de</strong>lar mejor dicha emoción que <strong>en</strong> el espacio <strong>de</strong> parámetros inicial.<br />
68<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
SUSAS Actual<br />
Aquí vamos a ver los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor realizados sobre la base <strong>de</strong><br />
datos SUSAS Actual. Como ya sabemos, esta base <strong>de</strong> datos ti<strong>en</strong>e 7 locutores los cuales se van a<br />
dividir también <strong>en</strong> 3 grupos según a que etapa (<strong>de</strong>velopm<strong>en</strong>t, <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test) se <strong>de</strong>diqu<strong>en</strong><br />
[Ver Tabla 12].<br />
Etapa<br />
Developm<strong>en</strong>t<br />
Entr<strong>en</strong>ami<strong>en</strong>to<br />
Test<br />
Locutores<br />
f1,m1<br />
f2,m2<br />
f3,m3,m4<br />
Tabla 12: Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />
Actual .<br />
• SUSAS Actual - SVM c<strong>on</strong> estadísticos<br />
Como se ve <strong>en</strong> la Figura 34, se <strong>en</strong>tr<strong>en</strong>an 5 mo<strong>de</strong>los ( ⃗w SV M neutral , ⃗w SV M medst , ⃗w SV M hist ,<br />
⃗w SV M scream y ⃗w SV M freefall ), uno por cada emoción utilizando para ello los locutores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
(f2, m2 ). El número <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to por cada emoción es <strong>de</strong>:<br />
35 palabras * 2 repetici<strong>on</strong>es/palabra * 2locutores = 140 locuci<strong>on</strong>es/emoción.<br />
Para este caso <strong>en</strong> que no se <strong>en</strong>tr<strong>en</strong>a un UBM no se usa los datos <strong>de</strong> los locutores f1,m1.<br />
Una vez se ti<strong>en</strong>e un mo<strong>de</strong>lo por cada emoción pasamos a la evaluación <strong>de</strong> los mismos. Para<br />
ello se usa los datos <strong>de</strong> test <strong>de</strong> los locutores f3,m3,m4. Se <strong>en</strong>fr<strong>en</strong>tan todas las locuci<strong>on</strong>es <strong>de</strong> test<br />
fr<strong>en</strong>te a los 5 mo<strong>de</strong>los.<br />
Figura 34: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - SVM c<strong>on</strong><br />
estadísticos’.<br />
El número <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong> test es <strong>de</strong>:<br />
35 palabras * 2 repetici<strong>on</strong>es/palabra * 3 locutores * 5 emoci<strong>on</strong>es = 1050 locuci<strong>on</strong>es.<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 69
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Por lo tanto, como cada locución <strong>de</strong> test se <strong>en</strong>fr<strong>en</strong>ta a los 5 mo<strong>de</strong>los, t<strong>en</strong>dremos:<br />
5 mo<strong>de</strong>los * 1050 locuci<strong>on</strong>es = 5250 puntuaci<strong>on</strong>es.<br />
Para este sistema se van a llevar a cabo las sigui<strong>en</strong>tes tareas para optimizar los resultados:<br />
• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />
• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />
Para este tipo <strong>de</strong> experim<strong>en</strong>tos y <strong>de</strong>spués <strong>de</strong> realizar varias pruebas c<strong>on</strong> distintas normalizaci<strong>on</strong>es<br />
<strong>de</strong> los parámetros prosódicos, se opta por no normalizar ningún vector <strong>de</strong> ⃗u p pues es la<br />
opción que mejores resultados c<strong>on</strong>sigue. Por lo tanto se manti<strong>en</strong><strong>en</strong> los vectores <strong>de</strong> parámetros<br />
originales ⃗u p :<br />
⃗u p = {⃗e, ⃗p, ⃗ ∆ e , ⃗ ∆ p }<br />
Como ya se hizo para SUSAS Simulated, se ajustará la variable coste <strong>de</strong>l clasificador SVM.<br />
Los resultados ya T-normalizados se muestran <strong>en</strong> la Figura 35 <strong>en</strong> forma <strong>de</strong> curvas DET y<br />
<strong>en</strong> la Tabla 13 c<strong>on</strong> valores numéricos.<br />
Figura 35: Curvas DET <strong>de</strong>l sistema ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />
costes.<br />
Coste EER global DCF min EER medio<br />
0.01 29.92 0.1 39.47<br />
0.1 26.64 0.1 29.45<br />
1 26.45 0.0996 28.89<br />
10 26.54 0.0999 27.93<br />
100 28.96 0.0998 27.93<br />
Tabla 13: Resultados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste.<br />
Analizando la Tabla 13 se opta por un valor <strong>de</strong> coste 1 pues aunque c<strong>on</strong> costes superiores<br />
se alcanza mejor EER medio , ésto sup<strong>on</strong>e bastante mayor tiempo <strong>en</strong> <strong>en</strong>tr<strong>en</strong>ar los mo<strong>de</strong>los SVM.<br />
La c<strong>on</strong>figuración final para este tipo <strong>de</strong> pruebas se pue<strong>de</strong> ver <strong>en</strong> la Tabla 14:<br />
70<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Normalización ⃗u p Coste T-norm EER global DCF min EER medio<br />
no 1 sí 26.45 0.0996 28.89<br />
Tabla 14: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’.<br />
• SUSAS Actual - GMM-SVM<br />
Para el subsistema GMM-SVM, se usan los datos <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t (f1, m1) para <strong>en</strong>tr<strong>en</strong>ar el<br />
mo<strong>de</strong>lo UBM que nos servirá como base para la posterior adaptación a los mo<strong>de</strong>los GMM. El<br />
número <strong>de</strong> datos <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t es <strong>de</strong>:<br />
35 palabras * 2repetici<strong>on</strong>es/palabra * 2 locutores * 5emoci<strong>on</strong>es = 700 locuci<strong>on</strong>es.<br />
Los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (f2,m2 ) adaptaran dicho UBM g<strong>en</strong>erando así un mo<strong>de</strong>lo GMM<br />
por cada locución. [Ver Figura 36]<br />
Figura 36: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - GMM-<br />
SVM’.<br />
Como se ve <strong>en</strong> la Figura 36, mediante los clasificadores SVM se <strong>en</strong>tr<strong>en</strong>an 5 mo<strong>de</strong>los, uno<br />
por emoción ( ⃗w GMM−SV M neutral , ⃗w GMM−SV M medst , ⃗w GMM−SV M hist , ⃗w GMM−SV M scream y<br />
⃗w GMM−SV M freefall ). Al igual que el sistema <strong>de</strong> SVM c<strong>on</strong> coefici<strong>en</strong>tes estadísticos, se disp<strong>on</strong>e<br />
<strong>de</strong> 140 locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to por emoción.<br />
En este sistema las tareas que se van a realizar para optimizar resultados s<strong>on</strong>:<br />
• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />
• Optimización variable M número <strong>de</strong> gaussianas<br />
• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />
Tras una serie <strong>de</strong> pruebas realizadas normalizando cada uno <strong>de</strong> los vectores <strong>de</strong> parámetros<br />
prosódicos <strong>de</strong> ⃗u p , la c<strong>on</strong>figuración que ofrece mejores resultados es mediante la normalización<br />
<strong>de</strong> tanto el vector <strong>de</strong> <strong>en</strong>ergías ⃗e como el <strong>de</strong> su velocidad ⃗ ∆ e . Por lo tanto ⃗u p queda:<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 71
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
⃗u p = {⃗e − E(⃗e), ⃗p, ⃗ ∆ e − E( ⃗ ∆ e ), ⃗ ∆ p }<br />
Para optimizar la variable M, se han lanzado también una serie <strong>de</strong> pruebas para finalm<strong>en</strong>te<br />
elegir un valor <strong>de</strong> M <strong>de</strong> 32 gaussianas. C<strong>on</strong>trasta que este valor sea mucho m<strong>en</strong>or que las 256<br />
gaussianas <strong>en</strong> este mismo tipo <strong>de</strong> experim<strong>en</strong>tos para la base <strong>de</strong> datos SUSAS Simulated. Esto<br />
es <strong>de</strong>bido a que al haber m<strong>en</strong>os locutores para SUSAS Actual, la cantidad <strong>de</strong> datos es m<strong>en</strong>or y<br />
por ello no se c<strong>on</strong>sigue mo<strong>de</strong>lar correctam<strong>en</strong>te un número mezclas tan alto como s<strong>on</strong> 256.<br />
A c<strong>on</strong>tinuación vamos a ajustar la variable coste mant<strong>en</strong>i<strong>en</strong>do fijo el número <strong>de</strong> gaussianas<br />
a 32. La Figura 37 refleja los resultados para distintos valores <strong>de</strong> coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to,<br />
mi<strong>en</strong>tras que la Tabla 15 los muestra numéricam<strong>en</strong>te.<br />
Figura 37: Curvas DET <strong>de</strong>l sistema ’SUSAS Actual - GMM-SVM’ para difer<strong>en</strong>tes costes.<br />
Coste EER global( %) DCF min EER medio ( %)<br />
0.01 29.45 0.0998 36.5<br />
0.1 29.82 0.0999 37.3<br />
1 31.09 0.1 37.8<br />
Tabla 15: Resultados <strong>de</strong>l sistema ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste.<br />
Según los resultados <strong>de</strong> la Tabla 15, cuanto m<strong>en</strong>or es el valor <strong>de</strong> la variable coste, mejores<br />
resultados se c<strong>on</strong>sigu<strong>en</strong>. Como ya se vio <strong>en</strong> el capítulo 3.7.2, un valor <strong>de</strong> coste muy pequeño<br />
hace priorizar la c<strong>on</strong>dición <strong>de</strong> maximizar el marg<strong>en</strong> <strong>en</strong>tre clases <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to SVM. En<br />
la Tabla 16 aparece la c<strong>on</strong>figuración óptima para el subsistema GMM-SVM in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong><br />
locutor c<strong>on</strong> la base <strong>de</strong> datos SUSAS Actual .<br />
Norm. ⃗u p M coste T-norm EER global DCF min EER medio<br />
⃗e y ∆ ⃗ e 32 0.01 sí 29.45 0.0998 36.5<br />
Tabla 16: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - GMM-SVM’.<br />
• SUSAS Actual - Fusión suma SVM estadísticos + GMM-SVM<br />
Para realizar la fusión suma <strong>de</strong> los resultados obt<strong>en</strong>idos mediante los dos subsistemas,<br />
GMM-SVM y SVM c<strong>on</strong> estadísticos, se han utilizado las respectivas c<strong>on</strong>figuraci<strong>on</strong>es <strong>de</strong> las<br />
Tablas 14 y 16 que ofrec<strong>en</strong> mejores resultados. Las curvas DET <strong>de</strong> tanto la fusión suma como<br />
72<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
<strong>de</strong> los dos subsistemas aparec<strong>en</strong> <strong>en</strong> la Figura 38.<br />
Figura 38: Curvas DET para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />
suma’.<br />
Los valores <strong>de</strong> EER global <strong>de</strong> GMM-SVM, SVM c<strong>on</strong> estadísticos y la fusión suma s<strong>on</strong><br />
29.45 %, 26.45 % y 26.66 % respectivam<strong>en</strong>te. Para este caso la fusión suma c<strong>on</strong>sigue resultados<br />
prácticam<strong>en</strong>te iguales a los <strong>de</strong>l mejor subsistema.<br />
• SUSAS Actual - Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls (AMF)<br />
Cada locución <strong>de</strong> test se <strong>en</strong>fr<strong>en</strong>ta c<strong>on</strong> los 5 mo<strong>de</strong>los <strong>de</strong> cada uno <strong>de</strong> los subsistemas GMM-<br />
SVM y SVM c<strong>on</strong> estadísticos para c<strong>on</strong>formar un nuevo vector <strong>de</strong> parámetros <strong>de</strong> dim<strong>en</strong>sión 10<br />
( ⃗ S locuci<strong>on</strong> test ) [Ver Figura 39].<br />
Figura 39: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - AMF’.<br />
Los nuevos vectores <strong>de</strong> parámetros <strong>en</strong> el espacio <strong>de</strong> los Anchor Mo<strong>de</strong>ls ⃗ S x se utilizan como<br />
<strong>en</strong>trada a un clasificador SVM. Igual se hizo para SUSAS Simulated, se aplica la técnica <strong>de</strong><br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 73
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
leave-<strong>on</strong>e-locutor-out. Es <strong>de</strong>cir, se selecci<strong>on</strong>arán iterativam<strong>en</strong>te los datos <strong>de</strong> cada uno <strong>de</strong> los<br />
tres locutores f3,m3,m4 y se utilizarán para evaluación mi<strong>en</strong>tras que los datos <strong>de</strong> los otros dos<br />
restantes se utilizarán para <strong>en</strong>tr<strong>en</strong>ar un mo<strong>de</strong>lo SVM por emoción.<br />
En la Figura 40 se repres<strong>en</strong>tan un c<strong>on</strong>junto <strong>de</strong> curvas DET para varios valores <strong>de</strong> la variable<br />
coste <strong>de</strong>l clasificador back-<strong>en</strong>d SVM. Y <strong>en</strong> la Tabla 17 valores numéricos <strong>de</strong> tasas <strong>de</strong> error y<br />
DCF min . Como se pue<strong>de</strong> ver <strong>en</strong> dicha tabla, el valor <strong>de</strong> coste que optimiza los resultados es <strong>de</strong><br />
1 si se opta por el mejor valor <strong>de</strong> EER global o 0.1 si se <strong>de</strong>sea el valor óptimo <strong>de</strong> EER medio .<br />
.<br />
Figura 40: Curvas DET para ’SUSAS Actual - AMF’ para varios valores <strong>de</strong> coste.<br />
Coste EER global( %) DCF min EER medio ( %)<br />
0.01 35.41 0.099 33.11<br />
0.1 33.37 0.0987 32.46<br />
1 33.03 0.0988 35.70<br />
10 34.05 0.0991 37.20<br />
100 34.39 0.0995 37.80<br />
Tabla 17: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste ’SUSAS Actual - AMF’.<br />
En SUSAS Actual , a difer<strong>en</strong>cia <strong>de</strong> lo que ocurría <strong>en</strong> SUSAS Simulated, el sistema back-<strong>en</strong>d<br />
<strong>de</strong> AMF empeora c<strong>on</strong> respecto a los subsistemas. C<strong>on</strong> AMF se c<strong>on</strong>sigue una EER media <strong>de</strong><br />
35.7 % mi<strong>en</strong>tras que la fusión <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d [Tabla 18] obt<strong>en</strong>ía un 29.9 %. Es<br />
<strong>de</strong>cir, AMF empeora <strong>en</strong> casi 6 puntos la EER media . En la Figura 41 se repres<strong>en</strong>tan la curva<br />
DET para la fusión suma <strong>de</strong>l sistema SVM <strong>de</strong> estadísticos c<strong>on</strong> el sistema GMM-SVM y la<br />
curva DET para el sistema <strong>de</strong> AMF.<br />
Por último, la Tabla 18 analiza los EER medio por emoción <strong>de</strong> tanto la fusión suma <strong>de</strong> los<br />
dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d como <strong>de</strong>l sistema back-<strong>en</strong>d <strong>de</strong> AMF. Al igual que <strong>en</strong> la Tabla 33,<br />
la cuarta columna muestra la mejora relativa (M.R. <strong>en</strong> %) que ofrece AMF fr<strong>en</strong>te a la fusión<br />
suma fr<strong>on</strong>t-<strong>en</strong>d<br />
Una c<strong>on</strong>clusión que se obti<strong>en</strong>e <strong>de</strong> la Tabla 18 es que a difer<strong>en</strong>cia <strong>de</strong> lo que ocurría para la<br />
base <strong>de</strong> datos SUSAS Simulated, AMF no hace mejorar los resultados alcanzados por la fusión<br />
suma para SUSAS Actual.<br />
Al igual que <strong>en</strong> SUSAS Simulated, hay estilos <strong>de</strong> habla o emoci<strong>on</strong>es que obti<strong>en</strong><strong>en</strong> mejores<br />
tasas <strong>de</strong> error. Este es el caso <strong>de</strong>l estilo scream. Las locuci<strong>on</strong>es <strong>de</strong> dicho estilo <strong>de</strong> habla se<br />
caracterizan por t<strong>en</strong>er una alta int<strong>en</strong>sidad <strong>de</strong> <strong>voz</strong> (o <strong>en</strong>ergía) y gran variabilidad <strong>de</strong> la misma.<br />
74<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 41: Curvas DET para ’SUSAS Actual - fusión suma y AMF’.<br />
Emoción EER ( %) fusión suma EER ( %) AMF M.R. ( %)<br />
neutral 33.23 40.42 +21,64<br />
medst 41.51 43.95 +5,88<br />
hist 35.83 44.83 +25,12<br />
freefall 31.29 37.57 +20,07<br />
scream 7.64 11.72 +53,4<br />
EER medio 29.9 35.7 +19,4<br />
Tabla 18: EER ( %) por emoción para ’SUSAS Actual - fusión suma y AMF’.<br />
Es <strong>de</strong>cir, los vectores prosódicos ⃗e y ⃗ ∆ e van a caracterizar bi<strong>en</strong> dicha clase.<br />
Ah3R1<br />
En este apartado se van a <strong>de</strong>scribir los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor realizados<br />
sobre la base <strong>de</strong> datos Ah3R1. Como se vio <strong>en</strong> el capítulo 4.1.1, esta base <strong>de</strong> datos disp<strong>on</strong>e <strong>de</strong><br />
69 locutores. Cada uno ellos ti<strong>en</strong>e un c<strong>on</strong>junto <strong>de</strong> locuci<strong>on</strong>es para <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to/<strong>de</strong>velopm<strong>en</strong>t<br />
y otro para evaluación.<br />
• Ah3R1 - SVM c<strong>on</strong> estadísticos<br />
Para las dos bases <strong>de</strong> datos <strong>de</strong> SUSAS se dividían los locutores según la tarea a la que se<br />
emplearan sus locuci<strong>on</strong>es.<br />
Por el c<strong>on</strong>trario, para Ah3R1 los 69 locutores se van a emplear tanto para tareas <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t/<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
como <strong>de</strong> test. Así, la manera <strong>de</strong> g<strong>en</strong>erar los mo<strong>de</strong>los SVM es la sigui<strong>en</strong>te<br />
y es la que aparece <strong>en</strong> la Figura 42. Se van a <strong>en</strong>tr<strong>en</strong>ar mo<strong>de</strong>los <strong>de</strong> la forma ⃗w SV M notLocX emoc .<br />
Dichos mo<strong>de</strong>los serán <strong>en</strong>tr<strong>en</strong>ados c<strong>on</strong> datos <strong>de</strong> la emoción emoc (neutro-bajo, neutro, neutroexaltado,<br />
exaltado) utilizando locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> todos los locutores m<strong>en</strong>os el locutor<br />
X. Por lo tanto el número <strong>de</strong> mo<strong>de</strong>los que serán <strong>en</strong>tr<strong>en</strong>ados es <strong>de</strong>:<br />
4 emoci<strong>on</strong>es * 69 locutores = 276 mo<strong>de</strong>los.<br />
Una vez se ha g<strong>en</strong>erado un mo<strong>de</strong>lo por cada emoción se pasa a la etapa <strong>de</strong> evaluación <strong>de</strong> los<br />
mismos. Para ello se usa los datos <strong>de</strong> test <strong>de</strong> cada locutor. El procedimi<strong>en</strong>to es el sigui<strong>en</strong>te. Se<br />
evalúan las locuci<strong>on</strong>es <strong>de</strong> test <strong>de</strong>l locutor X fr<strong>en</strong>te a los mo<strong>de</strong>los <strong>de</strong> la forma ⃗w SV M notLocX emoc ,<br />
d<strong>on</strong><strong>de</strong> emoc es cada una <strong>de</strong> las 4 emoci<strong>on</strong>es <strong>de</strong> Ah3R1. De esta manera se realizan pruebas<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 75
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor d<strong>on</strong><strong>de</strong> los datos <strong>de</strong> test <strong>de</strong> un locutor no se usan para evaluar<br />
mo<strong>de</strong>los <strong>en</strong>tr<strong>en</strong>ados por ese mismo locutor.<br />
Figura 42: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’.<br />
Como ya vimos <strong>en</strong> 4.1.1, no todos los locutores ti<strong>en</strong><strong>en</strong> el mismo número <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong><br />
test. Así, los 31 primeros ti<strong>en</strong><strong>en</strong> 10 y los 38 restantes únicam<strong>en</strong>te 5. Por lo tanto, el número <strong>de</strong><br />
locuci<strong>on</strong>es <strong>de</strong> test es <strong>de</strong>:<br />
31 locutores * 10 locuci<strong>on</strong>es/locutor + 38 locutores * 5 locuci<strong>on</strong>es/locutor = 500 locuci<strong>on</strong>es.<br />
Como cada locución <strong>de</strong> test se <strong>en</strong>fr<strong>en</strong>ta a cada uno <strong>de</strong> los 276 mo<strong>de</strong>los, el número <strong>de</strong> puntuaci<strong>on</strong>es<br />
será <strong>de</strong>:<br />
276 mo<strong>de</strong>los * 500 locuci<strong>on</strong>es = 138000 puntuaci<strong>on</strong>es.<br />
Para este sistema se van a llevar a cabo las sigui<strong>en</strong>tes tareas para optimizar los resultados:<br />
• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />
• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />
El primer valor a ajustar es la variable coste <strong>de</strong>l <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to SVM. Para ello mant<strong>en</strong>emos<br />
los vectores <strong>de</strong> parámetros prosódicos sin ningún tipo <strong>de</strong> normalización. Los resultados para<br />
varios valores <strong>de</strong> coste se repres<strong>en</strong>tan <strong>en</strong> la Figura 43 y <strong>en</strong> la Tabla 19<br />
76<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 43: Curvas DET <strong>de</strong>l sistema ’Ah3R1 - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes costes.<br />
Coste EER global( %) DCF min EER medio ( %)<br />
0.001 27.64 0.1 46.97<br />
0.01 27.23 0.0997 44.56<br />
0.1 29.28 0.0993 43.05<br />
1 28.25 0.0997 37.32<br />
10 30.51 0.0997 36.97<br />
100 33.99 0.0997 37.79<br />
Tabla 19: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong>l coste para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’.<br />
A la vista <strong>de</strong> los resultados <strong>de</strong> la Tabla 19, el valor <strong>de</strong>l coste que hace minimizar el EER<br />
global no coinci<strong>de</strong> c<strong>on</strong> el que minimiza el EER medio. Ambas tasas <strong>de</strong> error únicam<strong>en</strong>te<br />
coinci<strong>de</strong>n cuando el número <strong>de</strong> <strong>en</strong>fr<strong>en</strong>tami<strong>en</strong>tos fr<strong>en</strong>te a cada mo<strong>de</strong>lo es el mismo. El que <strong>en</strong><br />
Ah3R1 ambas tasas difieran tanto es <strong>de</strong>bido a la <strong>de</strong>scomp<strong>en</strong>sación <strong>de</strong>l número <strong>de</strong> locuci<strong>on</strong>es<br />
según para que emoción. Así, exist<strong>en</strong> muchas más locuci<strong>on</strong>es <strong>de</strong> test <strong>de</strong> la emoción neutro que<br />
<strong>de</strong> neutro-bajo o exaltado.<br />
Para un valor <strong>de</strong> coste muy pequeño como es 0.01 se c<strong>on</strong>sigue la mejor tasa <strong>de</strong> EER global<br />
<strong>de</strong> 27.23 % pero sin embargo el EER medio aum<strong>en</strong>ta hasta el 44.46 %. Por otro lado, si se toma<br />
como coste el valor 10 se obti<strong>en</strong>e el mínimo EER medio <strong>de</strong> 36.97 % pero el EER global alcanza<br />
el 30.51 %. Por lo tanto, nos vamos a <strong>de</strong>cantar por una opción intermedia como es coste 1, pues<br />
únicam<strong>en</strong>te es 1 punto más alto que el mejor EER global logrando también uno <strong>de</strong> los mejores<br />
EER medio.<br />
Una vez se ha ajustado el valor <strong>de</strong>l coste a 1, lo sigui<strong>en</strong>te es la normalización <strong>de</strong> los vectores<br />
prosódicos. En la Tabla 20 aparec<strong>en</strong> los resultados <strong>de</strong> varios experim<strong>en</strong>tos según el vector o<br />
vectores prosódicos normalizados, mant<strong>en</strong>i<strong>en</strong>do el valor <strong>de</strong> coste fijo a 1.<br />
Según los resultados <strong>de</strong> la Tabla 20, se opta por elegir la opción <strong>de</strong> normalizar tanto el vector<br />
<strong>de</strong> <strong>en</strong>ergías ⃗e como el <strong>de</strong> su velocidad ⃗ ∆ e pues c<strong>on</strong>sigue reducir tanto la EER global como la<br />
media.<br />
Tras los ajustes anteriores y la posterior T-normalización <strong>de</strong> las puntuaci<strong>on</strong>es se obiti<strong>en</strong><strong>en</strong><br />
los resultados <strong>de</strong> la Tabla 21:<br />
• Ah3R1 - GMM-SVM<br />
Para la técnica <strong>de</strong> GMM-SVM, se usan todos los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to para <strong>en</strong>tr<strong>en</strong>ar el<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 77
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Normalización ⃗u p EER global( %) DCF min EER medio ( %)<br />
no 28.25 0.0997 37.32<br />
⃗e 28.25 0.0997 34.16<br />
⃗e y ∆ ⃗ e 27.78 0.1 34.24<br />
⃗p 31.60 0.0997 40.76<br />
⃗p y ∆ ⃗ p 31.87 0.0997 40.41<br />
⃗e, ∆ ⃗ e , ⃗p y ∆ ⃗ p 30.71 0.0997 37.22<br />
⃗e, ∆ ⃗ e , y ∆ ⃗ p 28.25 0.1 34.55<br />
Tabla 20: Resultados para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong><br />
parámetros prosódicos normalizados.<br />
Norm. ⃗u p Coste T-norm EER global DCF min EER medio<br />
⃗e y ∆ ⃗ e y 1 sí 27.44 0.0991 32.95<br />
400<br />
Tabla 21: C<strong>on</strong>figuración y resultados optimizados para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’.<br />
mo<strong>de</strong>lo UBM. Cada locución <strong>de</strong> <strong>en</strong>treami<strong>en</strong>to lo adaptará para así g<strong>en</strong>erar un mo<strong>de</strong>lo GMM<br />
por cada locución. [Ver Figura 44]<br />
La manera <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ar los mo<strong>de</strong>los [Ver Figura 42] es la misma que para el caso anterior<br />
<strong>de</strong> SVM c<strong>on</strong> estadísticos. Se <strong>en</strong>tr<strong>en</strong>an mo<strong>de</strong>los <strong>de</strong> la forma ⃗w GMM−SV M notLocX emoc . Dichos<br />
mo<strong>de</strong>los serán <strong>en</strong>tr<strong>en</strong>ados c<strong>on</strong> datos <strong>de</strong> la emoción emoc (neutro-bajo, neutro, neutro-exaltado,<br />
exaltado) utilizando locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> todos los locutores m<strong>en</strong>os el locutor X.<br />
En la etapa <strong>de</strong> evaluación se testean las locuci<strong>on</strong>es <strong>de</strong> test <strong>de</strong>l locutor X fr<strong>en</strong>te a los mo<strong>de</strong>los<br />
<strong>de</strong> la forma ⃗w GMM−SV M notLocX emoc , d<strong>on</strong><strong>de</strong> emoc es cada una <strong>de</strong> las 4 emoci<strong>on</strong>es <strong>de</strong> Ah3R1.<br />
Se va a optimizar sobre los sigui<strong>en</strong>tes parámetros:<br />
• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />
• Optimización variable M número <strong>de</strong> gaussianas<br />
• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />
El primer ajuste que se realizará es el <strong>de</strong>l número <strong>de</strong> gaussianas M. Para ello se mant<strong>en</strong>i<strong>en</strong>e<br />
fijo el valor <strong>de</strong>l coste a 0.1 y vamos variando M c<strong>on</strong> valores pot<strong>en</strong>cia <strong>de</strong> 2.<br />
Los resultados <strong>de</strong> esta optimización se muestran <strong>en</strong> la Tabla 22.<br />
M EER global( %) DCF min EER medio ( %)<br />
64 24.03 0.0963 36.74<br />
128 23.89 0.0938 32.65<br />
256 23.95 0.0943 35.28<br />
512 24.98 0.0935 33.96<br />
Tabla 22: Resultados para ’Ah3R1 - GMM-SVM’ variando el número <strong>de</strong> gaussinas.<br />
A la vista <strong>de</strong> los resultados, resulta evi<strong>de</strong>nte que el número <strong>de</strong> gaussianas que hace que se<br />
obt<strong>en</strong>gan mejores resultados es <strong>de</strong> 128, valor para el cual se minimizan tanto el EER global,<br />
como el DCF min como el EER medio.<br />
78<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 44: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - GMM-SVM’.<br />
La sigui<strong>en</strong>te variable a ajustar es el coste. Para ello se manti<strong>en</strong>e fijo el valor <strong>de</strong> M a 128 y<br />
se va variando el coste. La Figura 45 y la Tabla 23 muestran dichos resultados.<br />
Coste EER global( %) DCF min EER medio ( %)<br />
0.001 27.84 0.0945 38.76<br />
0.01 23.89 0.0948 40.44<br />
0.1 23.89 0.0938 32.65<br />
1 25.32 0.0961 34.10<br />
10 27.78 0.0997 35.24<br />
Tabla 23: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’Ah3R1 - GMM-SVM’.<br />
El valor <strong>de</strong> coste óptimo es <strong>de</strong> 0.1 pues minimiza tanto el EER medio, como el EER global,<br />
como el DCF min .<br />
Por último, los resultados terminan <strong>de</strong> <strong>de</strong> ser ajustados mediante la normalización o no <strong>de</strong><br />
cada uno <strong>de</strong> los 4 vectores <strong>de</strong> parámetros prosódicos ⃗e, ⃗ ∆ e , ⃗p y ⃗ ∆ p . Los resultados, para un<br />
valor fijo <strong>de</strong> coste y M <strong>de</strong> 0.1 y 128 respectivam<strong>en</strong>te, <strong>de</strong> dichas normalizaci<strong>on</strong>es aparec<strong>en</strong> <strong>en</strong> la<br />
Figura 46 y <strong>en</strong> la Tabla 24.<br />
A partir <strong>de</strong> la Tabla 24, la c<strong>on</strong>figuración que logra optimizar los resultados es mediante la<br />
normalización <strong>de</strong> los vectores <strong>de</strong> <strong>en</strong>ergía ⃗e y su velocidad ⃗ ∆ e .<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 79
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 45: Curvas DET para varios costes para ’Ah3R1 - GMM-SVM’.<br />
Figura 46: Curvas DET para ’Ah3R1 - GMM-SVM’ según la normalización <strong>de</strong> los vectores <strong>de</strong><br />
parámetros prosódicos.<br />
Tras haber optimizado tanto el valor <strong>de</strong> coste, como el <strong>de</strong> M, como la normalización <strong>de</strong> los<br />
vectores prosódicos, la última tarea es la T-normalización <strong>de</strong> los resultados utilizando la mejor<br />
c<strong>on</strong>figuración [Ver Tabla 25].<br />
Aquí, a difer<strong>en</strong>cia <strong>de</strong> lo que ocurría <strong>en</strong> los casos anteriores, las tasas <strong>de</strong> error empeoran<br />
cuando se lleva a cabo la T-normalización <strong>de</strong> puntuaci<strong>on</strong>es.<br />
• Ahumada III - Fusión suma SVM estadísticos + GMM-SVM<br />
Normalización ⃗u p EER global( %) DCF min EER medio ( %)<br />
no 23.89 0.0938 32.65<br />
⃗e 21.63 0.0943 30.99<br />
⃗e y ∆ ⃗ e 21.63 0.0943 30.88<br />
⃗p 25.59 0.0993 43.54<br />
⃗p y ∆ ⃗ p 25.18 0.0993 41.92<br />
Tabla 24: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos normalizados para<br />
’Ah3R1 - GMM-SVM’.<br />
80<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Norm. ⃗u p M coste T-norm EER global DCF min EER medio<br />
⃗e y ∆ ⃗ e 128 0.1 sí 25.52 0.0933 33.92<br />
Tabla 25: C<strong>on</strong>figuración y resultados optimizados para ’Ah3R1 - GMM-SVM’.<br />
Se toman los resultados <strong>de</strong> las Tablas 21 y 25 como los resultados óptimos para los subsistemas<br />
fr<strong>on</strong>t-<strong>en</strong>d <strong>de</strong> SVM c<strong>on</strong> estadísticos y GMM-SVM respectivam<strong>en</strong>te. Dichos resultados<br />
están T-normalizados para que los rangos <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> ambos subsistemas sean parecidos.<br />
Figura 47: Curvas DET <strong>de</strong> ’Ah3R1 - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión suma’.<br />
Las tasas <strong>de</strong> EER global <strong>de</strong> tanto el subsistema SVM c<strong>on</strong> estadísticos como el <strong>de</strong> GMM-SVM<br />
como la fusión suma <strong>de</strong> ambos s<strong>on</strong> <strong>de</strong> 27.44 %, 25.52 % y 22.59 % respectivam<strong>en</strong>te. Como se<br />
v<strong>en</strong> claram<strong>en</strong>te <strong>en</strong> la Figura 47, la fusión suma c<strong>on</strong>sigue reducir notablem<strong>en</strong>te las tasas <strong>de</strong> error<br />
<strong>de</strong> los subsistemas.<br />
• Ah3R1 - Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls (AMF)<br />
Cada locución <strong>de</strong> test se <strong>en</strong>fr<strong>en</strong>ta c<strong>on</strong> los 4 mo<strong>de</strong>los <strong>de</strong> cada uno <strong>de</strong> los subsistemas<br />
GMM-SVM y SVM c<strong>on</strong> estadísticos que no han sido <strong>en</strong>tr<strong>en</strong>ados c<strong>on</strong> datos <strong>de</strong> ese mismo locutor.<br />
Así, se forma un nuevo vector <strong>de</strong> parámetros <strong>de</strong> dim<strong>en</strong>sión 8 ( ⃗ S locuci<strong>on</strong> test ) [Ver Figura 48].<br />
El nuevo vector <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> dim<strong>en</strong>sión 8 corresp<strong>on</strong><strong>de</strong> c<strong>on</strong> nuestro nuevo vector<br />
<strong>de</strong> parámetros. Dicho vector será nuestro supervector que servirá para mo<strong>de</strong>lar un nuevo<br />
clasificador SVM. En Ah3R1, al igual que hicimos <strong>en</strong> AMF para la base <strong>de</strong> datos SUSAS, se<br />
aplicará la validación cruzada leave-<strong>on</strong>e-locutor-out. Se cogerán iterativam<strong>en</strong>te los datos <strong>de</strong><br />
cada uno <strong>de</strong> los 69 locutores Loc01,...,Loc69 y se utilizarán para evaluación mi<strong>en</strong>tras que los<br />
datos <strong>de</strong> los 68 restantes se utilizarán para <strong>en</strong>tr<strong>en</strong>ar un mo<strong>de</strong>lo SVM por emoción.<br />
En la Figura 49 se repres<strong>en</strong>tan curvas DET para varios valores <strong>de</strong> la variable coste <strong>de</strong>l<br />
clasificador back-<strong>en</strong>d SVM. Y <strong>en</strong> la Tabla 26 valores numéricos <strong>de</strong> tasas <strong>de</strong> error y DCF min .<br />
.<br />
T<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cu<strong>en</strong>ta el EER global podríamos <strong>de</strong>cir que el valor <strong>de</strong> coste óptimo es <strong>de</strong><br />
0.1 pues alcanza un 21.17 % cosa que otro valor <strong>de</strong> coste no lo alcanza. Sin embargo, se<br />
aprecia que c<strong>on</strong> un coste <strong>de</strong> 10 ap<strong>en</strong>as empeora el EER global mejorando 3 puntos el EER<br />
medio. Por esa razón elegimos dicho valor <strong>de</strong> coste aunque el tiempo <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to sea mayor.<br />
A t<strong>en</strong>or <strong>de</strong> los resultados anteriores se pue<strong>de</strong> <strong>de</strong>cir que para la base <strong>de</strong> datos Ah3R1 la<br />
técnica back-<strong>en</strong>d <strong>de</strong> AMF ap<strong>en</strong>as c<strong>on</strong>sigue mejorar los resultados que ofrece la fusión <strong>de</strong> los<br />
dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d. En c<strong>on</strong>creto la fusión suma obti<strong>en</strong>e un EER global <strong>de</strong> 22.59 %<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 81
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 48: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - AMF’.<br />
Coste EER global( %) DCF min EER medio ( %)<br />
0.01 22.21 0.0995 36.48<br />
0.1 21.17 0.0985 34.62<br />
1 22.83 0.099 35.57<br />
10 22.83 0.0987 31.65<br />
100 23.04 0.0994 32.45<br />
Tabla 26: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’Ah3R1 - AMF’.<br />
por un 22.83 % <strong>de</strong> AMF. Si se mi<strong>de</strong> <strong>en</strong> EER medio se pasa <strong>de</strong> un 34.01 % a un 31.65 % c<strong>on</strong> AMF.<br />
En la Figura 50 se repres<strong>en</strong>ta la curva DET <strong>de</strong> la fusión suma y <strong>de</strong> AMF. Mi<strong>en</strong>tras que<br />
<strong>en</strong> la Tabla 27 se analizan los EER medios por emoción para ambas técnicas. También se<br />
muestran las mejoras relativas (M.R. <strong>en</strong> %) que ofrece AMF fr<strong>en</strong>te a la fusión suma.<br />
Según la Tabla 27, AMF ofrece una mejora <strong>en</strong> el EER medio que no llega a los 3 puntos<br />
c<strong>on</strong> respecto a la fusión suma. Esto sup<strong>on</strong>e una mejora relativa <strong>de</strong>l -6.94 % puntos. La mejora<br />
relativa que se c<strong>on</strong>seguía para las bases <strong>de</strong> datos SUSAS Simulated y SUSAS Actual era <strong>de</strong>l<br />
-14.64 % y +19,4 %. Es <strong>de</strong>cir, mi<strong>en</strong>tras que para tanto SUSAS Simulated como Ah3R1 la<br />
técnica <strong>de</strong> AMF mejora c<strong>on</strong> respecto a los sistemas fr<strong>on</strong>t-<strong>en</strong>d, <strong>en</strong> SUSAS Actual empeora<br />
c<strong>on</strong>si<strong>de</strong>rablem<strong>en</strong>te.<br />
Entre los resultados <strong>de</strong> Ah3R1 y los <strong>de</strong> SUSAS se aprecia una difer<strong>en</strong>cia. Para los primeros<br />
no hay tanta difer<strong>en</strong>cia <strong>en</strong>tre emoci<strong>on</strong>es mi<strong>en</strong>tras que <strong>en</strong> SUSAS había emoci<strong>on</strong>es como angry,<br />
questi<strong>on</strong> o scream c<strong>on</strong> las que se obt<strong>en</strong>ían mucho mejores tasas <strong>de</strong> error que para el resto.<br />
Posiblem<strong>en</strong>te esto es <strong>de</strong>bio a que <strong>en</strong> Ah3R1 las emoci<strong>on</strong>es o estilos <strong>de</strong> habla (neutro-bajo,<br />
82<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 49: Curvas DET <strong>de</strong>l sistema ’Ah3R1 - AMF’ según la variable coste.<br />
Figura 50: Curvas DET para ’Ah3R1 - fusión suma y AMF’.<br />
neutro, neutro-exaltado y exaltado) están mucho m<strong>en</strong>os <strong>de</strong>finidas o cubr<strong>en</strong> un rango más<br />
amplio que las <strong>de</strong> las bases <strong>de</strong> datos <strong>de</strong> SUSAS. Aún c<strong>on</strong> eso, <strong>en</strong> Ah3R1 se pue<strong>de</strong>n apreciar<br />
ligeras difer<strong>en</strong>cias <strong>de</strong> tasas errores según la emoción. Así, la emoción exaltado es la que mejores<br />
resultados ofrece llegando a un EER <strong>de</strong>l 25.05 % para la fusión suma o el 31.65 % para AMF.<br />
Lo que es común para las 3 bases <strong>de</strong> datos es que los estilos <strong>de</strong> habla que se caracterizan por<br />
una alta int<strong>en</strong>sidad <strong>de</strong> habla o <strong>de</strong> frecu<strong>en</strong>cia (angry o questi<strong>on</strong> <strong>en</strong> SUSAS Simulated, scream o<br />
freefall <strong>en</strong> SUSAS Actual y exaltado <strong>en</strong> Ah3R1 ) funci<strong>on</strong>an mucho mejor que el resto. Por algo<br />
nuestros vectores paramétricos incluy<strong>en</strong> la <strong>en</strong>ergía y la frecu<strong>en</strong>cia fundam<strong>en</strong>tal.<br />
Una vez se han visto los resultados para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor, se van<br />
Emoción EER ( %) fusión suma EER ( %) AMF M.R. ( %)<br />
neutro-bajo 38.87 27.86 -28.33<br />
neutro 34.82 33.48 -3.85<br />
neutro-exaltado 37.30 34.28 -8.1<br />
exaltado 25.05 30.97 +23.63<br />
EER medio 34.01 31.65 -6.94<br />
Tabla 27: EER ( %) por emoción para ’Ah3R1 - fusión suma y AMF’.<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 83
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
a comparar según la base <strong>de</strong> datos. Así, <strong>en</strong> la Tabla 28 nos muestra el EER medio para las 3<br />
bases <strong>de</strong> datos.<br />
base <strong>de</strong> datos fr<strong>on</strong>t-<strong>en</strong>d/back-<strong>en</strong>d EER medio ( %)<br />
SUSAS Simulated<br />
fr<strong>on</strong>t-<strong>en</strong>d(fusión suma) 30.46<br />
back-<strong>en</strong>d (AMF) 26.00<br />
SUSAS Actual<br />
fr<strong>on</strong>t-<strong>en</strong>d(fusión suma) 29.90<br />
back-<strong>en</strong>d (AMF) 35.70<br />
Ah3R1<br />
fr<strong>on</strong>t-<strong>en</strong>d(fusión suma) 34.01<br />
back-<strong>en</strong>d (AMF) 31.65<br />
Tabla 28: EER medio ( %) para las 3 bases <strong>de</strong> datos para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor.<br />
Vi<strong>en</strong>do la Tabla 28 <strong>de</strong> resum<strong>en</strong>, la base <strong>de</strong> datos <strong>en</strong> que la técnica <strong>de</strong> AMF c<strong>on</strong>sigue mejoras<br />
c<strong>on</strong>si<strong>de</strong>rables c<strong>on</strong> respecto a la fusión suma es SUSAS Simulated. Posiblem<strong>en</strong>te eso sea <strong>de</strong>bido<br />
a que dicha base <strong>de</strong> datos está formada por locuci<strong>on</strong>es <strong>de</strong> habla <strong>de</strong> emoci<strong>on</strong>es simuladas,<br />
posiblem<strong>en</strong>te exageradas. Así el espacio <strong>de</strong> Anchor Mo<strong>de</strong>ls <strong>en</strong> el que trabaja AMF es mucho<br />
más discriminativo para esta base <strong>de</strong> datos.<br />
Por otro lado, la base <strong>de</strong> datos sobre la que se han obt<strong>en</strong>ido mejores resultados, tanto <strong>de</strong><br />
AMF como <strong>de</strong> la fusión suma, es también SUSAS Simulated. La razón es la misma, aunque<br />
es la que más emoci<strong>on</strong>es ti<strong>en</strong>e, las emoci<strong>on</strong>es están exageradas y claram<strong>en</strong>te difer<strong>en</strong>ciadas<br />
unas <strong>de</strong> otras. Así, se pue<strong>de</strong> c<strong>on</strong>cluir que nuestros sistemas para tareas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong><br />
locutor discriminan mejor sobre un c<strong>on</strong>junto amplio <strong>de</strong> clases o emoci<strong>on</strong>es bi<strong>en</strong> difer<strong>en</strong>ciadas o<br />
exageradas que sobre un c<strong>on</strong>junto más pequeño pero más c<strong>on</strong>fusas.<br />
5.1.2. Experim<strong>en</strong>tos Inter-Base <strong>de</strong> datos: Evaluación <strong>de</strong> cada Base <strong>de</strong> Datos<br />
fr<strong>en</strong>te a mo<strong>de</strong>los <strong>de</strong> todas las Bases <strong>de</strong> Datos<br />
Este capítulo trata <strong>de</strong>, <strong>en</strong> vez <strong>de</strong> evaluar cada base <strong>de</strong> datos c<strong>on</strong> mo<strong>de</strong>los creados c<strong>on</strong> datos<br />
<strong>de</strong> la misma base <strong>de</strong> datos, evaluar cada una c<strong>on</strong> mo<strong>de</strong>los <strong>de</strong> todas las bases <strong>de</strong> datos. Así,<br />
por ejemplo, las locuci<strong>on</strong>es <strong>de</strong> test <strong>de</strong> SUSAS Simulated se <strong>en</strong>fr<strong>en</strong>tará c<strong>on</strong> mo<strong>de</strong>los <strong>de</strong> tanto<br />
SUSAS Simulated, como <strong>de</strong> SUSAS Actual como <strong>de</strong> Ah3R1.<br />
Para las bases <strong>de</strong> datos SUSAS Simulated y SUSAS Actual se han <strong>en</strong>tr<strong>en</strong>ado un mo<strong>de</strong>lo<br />
por cada emoción. S<strong>on</strong> 11 (angry, clear, c<strong>on</strong>d50, c<strong>on</strong>d70, fast, lombard, loud, neutral, questi<strong>on</strong>,<br />
slow y soft) para la bases <strong>de</strong> datos SUSAS Simulated y 5 (neutral, medst, hist, freefall y<br />
scream) para la bases <strong>de</strong> datos SUSAS Actual. Sin embargo, para la base <strong>de</strong> datos Ah3R1 al<br />
haber hecho cross validati<strong>on</strong> no t<strong>en</strong>emos un mo<strong>de</strong>lo por cada emoción, sino un mo<strong>de</strong>lo por<br />
cada emoción y locutor. Por lo tanto exist<strong>en</strong> 276 mo<strong>de</strong>los ( 276 = 4 emoci<strong>on</strong>es * 69 locutores).<br />
Se podría tomar los 276 mo<strong>de</strong>los <strong>de</strong> Ah3R1 pero se hiciese habría una gran <strong>de</strong>scomp<strong>en</strong>sación<br />
<strong>en</strong>tre el número <strong>de</strong> mo<strong>de</strong>los por cada base <strong>de</strong> datos. Por lo tanto se toman 4 mo<strong>de</strong>los cualquiera<br />
<strong>de</strong> los 276 <strong>de</strong> Ah3R1. Uno <strong>de</strong> cada emoción (neutro-bajo, neutro, neutro-exaltado y exaltado).<br />
Entre las tres bases <strong>de</strong> datos se disp<strong>on</strong>e por lo tanto <strong>de</strong> 20 mo<strong>de</strong>los por cada subsistema<br />
fr<strong>on</strong>t-<strong>en</strong>d (11 <strong>de</strong> SUSAS Simulated, 5 <strong>de</strong> SUSAS Actual y 4 <strong>de</strong> Ah3R1 ). La Figura 51 muestra<br />
la forma <strong>en</strong> que se va a evaluar cada uno <strong>de</strong> estos mo<strong>de</strong>los.<br />
La parte <strong>de</strong> datos <strong>de</strong> cada base <strong>de</strong> datos reservada para test se usa para evaluar dichos<br />
mo<strong>de</strong>los. Para SUSAS Simulated se reservan los locutores g3, b3 y n3 para dicha tarea. Para<br />
SUSAS Actual los locutores f3, m3 y m4. Y para Ah3R1 se usan las locuci<strong>on</strong>es <strong>de</strong> test que<br />
84<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 51: Esquema <strong>de</strong> evaluación <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> las 3 bases <strong>de</strong> datos.<br />
hay para cada uno <strong>de</strong> los 69 locutores. En c<strong>on</strong>creto, exist<strong>en</strong> 10 locuci<strong>on</strong>es <strong>de</strong> test para los 31<br />
primeros locutores y 5 para los 38 restantes.<br />
Una vez se ti<strong>en</strong>e claro el número <strong>de</strong> mo<strong>de</strong>los que se van a tomar por cada base <strong>de</strong> datos, lo<br />
sigui<strong>en</strong>te es <strong>de</strong>cidir la c<strong>on</strong>figuración a establecer para <strong>en</strong>tr<strong>en</strong>ar dichos mo<strong>de</strong>los. Es <strong>de</strong>cir, valores<br />
<strong>de</strong> coste, M, tipo <strong>de</strong> normalización <strong>de</strong> los vectores prosódicos, etc. A priori se podrían tomar<br />
aquellas c<strong>on</strong>figuraci<strong>on</strong>es que han dado mejores resultados. Sin embargo, si se hiciese eso, los<br />
mo<strong>de</strong>los <strong>de</strong> distintas bases y datos y subsistemas t<strong>en</strong>drían distinta c<strong>on</strong>figuración y por lo tanto<br />
habría incompet<strong>en</strong>cia <strong>en</strong>tre mo<strong>de</strong>los. Por ello, <strong>de</strong>cidimos por <strong>en</strong>tr<strong>en</strong>ar todos los mo<strong>de</strong>los c<strong>on</strong> la<br />
sigui<strong>en</strong>te c<strong>on</strong>figuración:<br />
· Normalización vectores parámetros prosódicos: no<br />
· M, número <strong>de</strong> Gaussianas: 256<br />
· coste: 1.<br />
Una vez se ha sacado los resultados T-normalizados para los dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d se<br />
hace la fusión suma.<br />
Por último se realiza AMF. Cada locución <strong>de</strong> test <strong>de</strong> las 3 bases <strong>de</strong> datos se <strong>en</strong>fr<strong>en</strong>ta c<strong>on</strong><br />
los 20 mo<strong>de</strong>los <strong>de</strong> cada uno <strong>de</strong> los subsistemas GMM-SVM y SVM c<strong>on</strong> estadísticos. Así, se<br />
forma un nuevo vector <strong>de</strong> parámetros <strong>de</strong> dim<strong>en</strong>sión 40.<br />
El nuevo vector <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> dim<strong>en</strong>sión 40 será nuestro nuevo vector <strong>de</strong> parámetros.<br />
Dicho vector será nuestro supervector que servirá para mo<strong>de</strong>lar un nuevo clasificador SVM al<br />
cual se le ajustará el coste. Se cogerán iterativam<strong>en</strong>te los datos <strong>de</strong> cada locutor y se utilizarán<br />
para evaluación mi<strong>en</strong>tras que los datos <strong>de</strong> los restantes locutores se utilizarán para <strong>en</strong>tr<strong>en</strong>ar los<br />
mo<strong>de</strong>los SVM.<br />
La Tabla 29 nos ofrece los resultados <strong>de</strong> tanto los subsistemas fr<strong>on</strong>t-<strong>en</strong>d, como <strong>de</strong> la fusión<br />
suma <strong>de</strong> ambos, como <strong>de</strong> AMF.<br />
Como se dijo anteriorm<strong>en</strong>te, se ha ajustado la variable coste para el clasificador SVM <strong>de</strong>l<br />
sistema back-<strong>en</strong>d. Tras realizar los experim<strong>en</strong>tos se ha visto que para un valor <strong>de</strong> coste 1 se<br />
optimizan los resultados.<br />
Se pue<strong>de</strong> ver <strong>en</strong> la Tabla 29 que para estos tipos <strong>de</strong> experim<strong>en</strong>tos Inter-Base <strong>de</strong> datos, la<br />
técnica <strong>de</strong> AMF c<strong>on</strong>sigue mejorar <strong>en</strong> todos los casos los resultados <strong>de</strong> la fusión suma. Este<br />
hecho refleja que los AMF funci<strong>on</strong>an mejor cuanto mayor dim<strong>en</strong>sión <strong>de</strong>l espacio Anchor Mo<strong>de</strong>l<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 85
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
SVM estadísticos GMM-SVM fusión suma AMF<br />
EER glob EER med EER glob EER med EER glob EER med EER glob EER med<br />
Simulat. 39.39 34.78 36.79 29.44 39.15 31.01 27.74 28.80<br />
Actual 29.62 32.46 37.06 51.10 25.43 32.61 22.45 23.46<br />
Ah3R1 31.64 46.88 16.79 35.45 17.41 37.70 21.62 30.30<br />
Tabla 29: EERs ( %) <strong>de</strong> los sistemas fr<strong>on</strong>t-<strong>en</strong>d y back-<strong>en</strong>d para experim<strong>en</strong>tos inter-Base <strong>de</strong><br />
Datos.<br />
se ti<strong>en</strong>e. Así, <strong>en</strong> nuestro caso <strong>de</strong> ahora, los vectores <strong>de</strong> parámetros <strong>de</strong>l sistema back-<strong>en</strong>d ti<strong>en</strong><strong>en</strong><br />
40 valores. O <strong>en</strong> otras palabras, el espacio <strong>de</strong> los Anchor Mo<strong>de</strong>ls es <strong>de</strong> <strong>de</strong> dim<strong>en</strong>sión 40.<br />
Cuando se realizaban experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos, el espacio <strong>de</strong> dim<strong>en</strong>sión <strong>de</strong> los<br />
Anchor Mo<strong>de</strong>ls era <strong>de</strong> 22, 10 y 8 para cada base <strong>de</strong> datos SUSAS Simulated, SUSAS Actual y<br />
Ah3R1 respectivam<strong>en</strong>te.<br />
Como ya se vio <strong>en</strong> el capítulo 3.7.4, AMF crea un nuevo vector <strong>de</strong> parámetros a partir <strong>de</strong><br />
los resultados <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d SVM c<strong>on</strong> estadísticos y GMM-SVM. Cuanto mayor<br />
número <strong>de</strong> subsistemas se fusi<strong>on</strong><strong>en</strong> para crear este nuevo vector <strong>de</strong> parámetros mayor será la<br />
dim<strong>en</strong>sión <strong>de</strong>l mismo y por lo tanto según lo visto antes, mejores resultados obt<strong>en</strong>drá. Así, se<br />
va a realizar un nuevo AMF a partir <strong>de</strong> los resultados <strong>de</strong> SVM c<strong>on</strong> estadísticos, GMM-SVM y<br />
a<strong>de</strong>más la fusión suma <strong>de</strong> ambos como se ve <strong>en</strong> la Figura 52. El nuevo vector <strong>de</strong> parámetros<br />
⃗S x,m está formado c<strong>on</strong> las puntuaci<strong>on</strong>es <strong>de</strong> los 3 subsistemas t<strong>en</strong>drá 60 coefici<strong>en</strong>tes.<br />
Figura 52: Uso <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d y <strong>de</strong> la fusión suma para<br />
c<strong>on</strong>formar el nuevo sistema back-<strong>en</strong>d <strong>de</strong> AMF.<br />
Los resultados <strong>de</strong> este nuevo AMF formado por la fusión <strong>de</strong> 3 subsistemas aparec<strong>en</strong> <strong>en</strong> la<br />
Tabla 30 al igual que los <strong>de</strong>l anterior AMF <strong>en</strong> lo que se fusi<strong>on</strong>aban 2 subsistemas.<br />
Como se ve <strong>en</strong> la Tabla 30, la nueva AMF c<strong>on</strong>sigue mejorar ligeram<strong>en</strong>te los resultados para<br />
86<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
AMF (fusión 2 subsistemas) AMF (fusión 3 subsistemas)<br />
EER global EER medio EER global EER medio<br />
Simulated 27.74 28.80 25.96 26.29<br />
Actual 22.45 23.46 21.89 23.01<br />
Ah3R1 21.62 30.30 21.76 30.72<br />
Tabla 30: EERs ( %) para los dos tipos <strong>de</strong> sistemas AMF.<br />
SUSAS Simulated y SUSAS Actual , pero no para Ah3R1 <strong>en</strong> los que empeoran un poco.<br />
Añadi<strong>en</strong>do la fusión suma a los AMF no se c<strong>on</strong>sigu<strong>en</strong> mejorar c<strong>on</strong>si<strong>de</strong>rablem<strong>en</strong>te los<br />
resultados. Esto es <strong>de</strong>bido a que los resultados <strong>de</strong> la fusión suma s<strong>on</strong> combinación <strong>de</strong> los otros<br />
dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d <strong>de</strong> SVM c<strong>on</strong> estadísticos y GMM-SVM, y por lo tanto no se aña<strong>de</strong><br />
mucha más información.<br />
5.2. Pruebas y Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor<br />
C<strong>on</strong> experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor eliminamos la variabilidad inter locutor pues los<br />
mo<strong>de</strong>los serán <strong>en</strong>tr<strong>en</strong>ados c<strong>on</strong> datos <strong>de</strong> un sólo locutor.<br />
Se van a pres<strong>en</strong>tar y analizar los resultados para SUSAS Simulated y Actual obt<strong>en</strong>idos para<br />
los dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d y su fusión suma y para el sistema back-<strong>en</strong>d <strong>de</strong> AMF.<br />
Parte <strong>de</strong> los resultados <strong>de</strong> estos experim<strong>en</strong>tos han sido recogidos <strong>en</strong> [25] y aceptados para el<br />
c<strong>on</strong>greso internaci<strong>on</strong>al Interspeech 2009.<br />
SUSAS Simulated<br />
Para la base <strong>de</strong> datos SUSAS Simulated la distribución <strong>de</strong> los locutores es la que aparece<br />
<strong>en</strong> la Tabla 31:<br />
Etapa<br />
Developm<strong>en</strong>t<br />
Entr<strong>en</strong>ami<strong>en</strong>to y Test<br />
Locutores<br />
g1,b1,n1<br />
g2,b2,n2,g3,b3,n3<br />
Tabla 31: Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS Simulated.<br />
No se separan unos locutores para <strong>en</strong>tr<strong>en</strong>ar los mo<strong>de</strong>los y otros para evaluar, sino que datos<br />
<strong>de</strong> un mismo locutor los usamos tanto para <strong>en</strong>tr<strong>en</strong>ar mo<strong>de</strong>los como para evaluarlos.<br />
• SUSAS Simulated - Sistemas fr<strong>on</strong>t-<strong>en</strong>d: SVM c<strong>on</strong> estadísticos, GMM-SVM y<br />
fusión suma<br />
Se <strong>en</strong>tr<strong>en</strong>an mo<strong>de</strong>los por cada emoción y locutor. A<strong>de</strong>más se hace cross validati<strong>on</strong>, es<br />
<strong>de</strong>cir, se <strong>en</strong>tr<strong>en</strong>an mo<strong>de</strong>los <strong>de</strong> la forma ⃗w loc emoc notW ordX d<strong>on</strong><strong>de</strong> loc es cada uno <strong>de</strong> los 6<br />
locutores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, emoc es cada una <strong>de</strong> las 11 emoci<strong>on</strong>es <strong>de</strong> SUSAS Simulated y<br />
notWordX significa que dicho mo<strong>de</strong>lo es <strong>en</strong>tr<strong>en</strong>ado c<strong>on</strong> locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tre el c<strong>on</strong>junto <strong>de</strong> las<br />
35 palabras m<strong>en</strong>os la palabra WordX. Así, por ejemplo, el mo<strong>de</strong>lo ⃗w f2 a notBreak será <strong>en</strong>tr<strong>en</strong>ado<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 87
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
c<strong>on</strong> locuci<strong>on</strong>es <strong>de</strong>l locutor f2, <strong>de</strong> la emoción a (angry) y c<strong>on</strong> todas m<strong>en</strong>os la palabra break.<br />
Por lo tanto, el número <strong>de</strong> mo<strong>de</strong>los para SUSAS Simulated para cada subsistema fr<strong>on</strong>t-<strong>en</strong>d<br />
(SVM c<strong>on</strong> estadísticos y GMM-SVM) es <strong>de</strong> 11 emoci<strong>on</strong>es * 6 locutores * 35 palabras = 2310<br />
mo<strong>de</strong>los.<br />
Una vez se han <strong>en</strong>tr<strong>en</strong>ado los 2310 mo<strong>de</strong>los pasamos a la tarea <strong>de</strong> evaluación. Así, una<br />
locución <strong>de</strong> test como por ejemplo break1.n2c5 se evalúa fr<strong>en</strong>te a los sigui<strong>en</strong>tes 11 mo<strong>de</strong>los:<br />
⃗w n2 emoc notBreak d<strong>on</strong><strong>de</strong> emoc es cada una <strong>de</strong> las 11 emoci<strong>on</strong>es. C<strong>on</strong> validación cruzada (cross<br />
validati<strong>on</strong>) se c<strong>on</strong>sigue <strong>en</strong>t<strong>on</strong>ces que no se utilic<strong>en</strong> las mismas locuci<strong>on</strong>es para <strong>en</strong>tr<strong>en</strong>ar y evaluar.<br />
La Figura 53 muestra un esquema <strong>de</strong> la manera <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ar y evaluar <strong>de</strong>scrita anteriorm<strong>en</strong>te<br />
para el sistemas fr<strong>on</strong>t-<strong>en</strong>d <strong>de</strong> SVM c<strong>on</strong> estadísticos. La mecánica para el sistema GMM-SVM<br />
es la misma pero por cada locución <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test se crea un mo<strong>de</strong>lo GMM mediante<br />
la adaptación <strong>de</strong>l UBM g<strong>en</strong>erado c<strong>on</strong> los datos <strong>de</strong> los locutores g1,b1 y n1.<br />
Figura 53: Esquema <strong>de</strong> la evaluación <strong>de</strong> las pruebas <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS<br />
Simulated - SVM c<strong>on</strong> estadísticos’.<br />
Para ambos subsistemas se van a ajustar los sigui<strong>en</strong>tes parámetros:<br />
• Optimización variable M número <strong>de</strong> gaussianas (sólo subsistema GMM-SVM)<br />
• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />
No se ha incluido la normalización <strong>de</strong> los parámetros prosódicos como una tarea a ajustar<br />
ya que se va a usar la c<strong>on</strong>figuración que mejores resultados dio para los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes<br />
<strong>de</strong> locutor. Así, para el subsistema <strong>de</strong> SVM c<strong>on</strong> estadísticos se normalizará únicam<strong>en</strong>te<br />
el vector <strong>de</strong> <strong>en</strong>ergía ⃗e mi<strong>en</strong>tras que para el <strong>de</strong> GMM-SVM se normalizará tanto el vector <strong>de</strong><br />
<strong>en</strong>ergía ⃗e como el <strong>de</strong> su velocidad ⃗ ∆ e .<br />
En primer lugar se ajusta el valor <strong>de</strong>l coste <strong>de</strong>l clasificador SVM para ambos subsistemas.<br />
La Tabla 32 y la Figura 54 ofrec<strong>en</strong> los resultados <strong>en</strong> forma <strong>de</strong> tasas <strong>de</strong> error y DCF min para<br />
varios valores <strong>de</strong> coste para el subsistema <strong>de</strong> SVM c<strong>on</strong> estadísticos.<br />
Según la Tabla 32, se aprecia que a medida que aum<strong>en</strong>ta el coste se obti<strong>en</strong><strong>en</strong> m<strong>en</strong>ores tasas<br />
<strong>de</strong> error, sin embargo no es apropiado establecer un valor <strong>de</strong> coste muy alto pues el tiempo <strong>de</strong><br />
<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se dispara. Es por eso por lo que no hemos realizado la prueba para un valor<br />
88<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 54: Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />
costes <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />
Coste EER global( %) DCF min EER medio ( %)<br />
0.1 24.99 0.0887 21.22<br />
1 22.80 0.0830 19.20<br />
10 21.40 0.0805 17.99<br />
100 20.69 0.0797 17.30<br />
Tabla 32: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong>l coste para ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’.<br />
<strong>de</strong> 1000. Por lo tanto, nos quedamos c<strong>on</strong> un coste <strong>de</strong> 100 como valor óptimo. La Figura 54<br />
también <strong>de</strong>ja claro que ésta es la mejor opción.<br />
Para el subsistema <strong>de</strong> GMM-SVM se optimiza el número <strong>de</strong> gaussianas M. Tras varias<br />
pruebas probando c<strong>on</strong> valores pot<strong>en</strong>cia <strong>de</strong> 2 se tomó el caso <strong>de</strong> 256 gaussianas pues es el que<br />
mejor resultados obt<strong>en</strong>ía para un valor <strong>de</strong> coste fijo.<br />
Figura 55: Curvas DET para ’SUSAS Simulated - GMM-SVM’ variando el coste.<br />
Ahora se ajustan el coste para el subsistema GMM-SVM mant<strong>en</strong>i<strong>en</strong>do fijo M a 256. Los<br />
resultados aparec<strong>en</strong> <strong>en</strong> forma gráfica <strong>en</strong> la Figura 55 y numéricam<strong>en</strong>te <strong>en</strong> la Tabla 33.<br />
Al igual que para el subsistema <strong>de</strong> SVM c<strong>on</strong> estadísticos, a medida que el coste es mayor, se<br />
obti<strong>en</strong><strong>en</strong> mejores resultados. Así, se elege el valor <strong>de</strong> coste <strong>de</strong> 100 pues es la opción que ofrece<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 89
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Coste EER global( %) DCF min EER medio ( %)<br />
1 20.86 0.0857 17.32<br />
10 20.94 0.0848 17.28<br />
100 20.50 0.0755 17.17<br />
Tabla 33: Resultados para ’SUSAS Simulated - GMM-SVM’ para varios costes.<br />
mejores resultados sin que el tiempo <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se dispare.<br />
La Tabla 34 es la c<strong>on</strong>figuración final <strong>de</strong> tanto el subsistema SVM c<strong>on</strong> estadísticos como <strong>de</strong>l<br />
GMM-SVM una vez se ha hecho T-normalización <strong>de</strong> las puntuaci<strong>on</strong>es finales.<br />
SVM c<strong>on</strong><br />
estadísticos<br />
GMM-<br />
SVM<br />
Norm<br />
⃗u p<br />
M coste T-norm EER glob DCF min EER med<br />
⃗e - 100 sí 20.84 0.0820 16.13<br />
⃗e y ∆ ⃗ e 256 100 sí 18.24 0.0733 15.29<br />
fusión suma 15.63 0.068 12.15<br />
Tabla 34: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos<br />
y GMM-SVM’.<br />
Las curvas DET <strong>de</strong> tanto los 2 subsistemas por separado como la <strong>de</strong> la fusión suma aparec<strong>en</strong><br />
<strong>en</strong> la Figura 56. Como dicha fusión suma se ha <strong>de</strong> realizar sobre resultados T-normalizados,<br />
tomaremos los datos <strong>de</strong> la Tabla 34 como c<strong>on</strong>figuración <strong>de</strong> nuestros sistemas.<br />
Figura 56: Curva DET <strong>de</strong> ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />
suma’.<br />
• SUSAS Simulated - Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls (AMF)<br />
Las puntuaci<strong>on</strong>es <strong>de</strong> cada locución <strong>de</strong> test (ejemplo: break1.n2c5 ) obt<strong>en</strong>idas tras evaluarla<br />
fr<strong>en</strong>te a los 11 mo<strong>de</strong>los <strong>de</strong> la forma ⃗w n2emoc notBreak <strong>de</strong> cada uno <strong>de</strong> los subsistemas GMM-SVM<br />
y SVM c<strong>on</strong> estadísticos se c<strong>on</strong>cat<strong>en</strong>an para c<strong>on</strong>formar un nuevo vector <strong>de</strong> parámetros. Dichas<br />
puntuaci<strong>on</strong>es serán las corresp<strong>on</strong>di<strong>en</strong>tes a la c<strong>on</strong>figuración que <strong>en</strong> cada caso ha dado los mejores<br />
resultados [Tabla 34]. Dicho vector ⃗ S break1.n2c5 t<strong>en</strong>drá 22 valores [Ver Figura 57].<br />
90<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 57: Esquema <strong>de</strong> las pruebas <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated - AMF’.<br />
Una vez se ti<strong>en</strong>e por cada locución <strong>de</strong> test ⃗x un nuevo vector <strong>de</strong> parámetros ⃗ S x , éstos se<br />
utilizan como vectores <strong>de</strong> <strong>en</strong>trada a un clasificador SVM.<br />
Estos nuevos mo<strong>de</strong>los <strong>de</strong> la forma ⃗w ′ loc emoc notW ordX<br />
<strong>de</strong>l sistema back-<strong>en</strong>d se crean <strong>de</strong> igual<br />
manera que se crear<strong>on</strong> <strong>en</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d. Es <strong>de</strong>cir, se crean c<strong>on</strong> datos <strong>de</strong>l locutor loc<br />
y emoción emoc y c<strong>on</strong> todas la palabras m<strong>en</strong>os la WordX. Y se evalúan c<strong>on</strong> las locuci<strong>on</strong>es <strong>de</strong><br />
ese mismo locutor y que sean <strong>de</strong> la palabra WordX.<br />
En la Figura 58 se repres<strong>en</strong>tan un c<strong>on</strong>junto <strong>de</strong> curvas DET para varios valores <strong>de</strong> la variable<br />
coste <strong>de</strong>l clasificador back-<strong>en</strong>d SVM. Y <strong>en</strong> la Tabla 35 valores numéricos <strong>de</strong> tasas <strong>de</strong> error y<br />
DCF min .<br />
Figura 58: Curvas DET para ’SUSAS Simulated - AMF’ y varios costes.<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 91
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Coste EER global( %) DCF min EER medio ( %)<br />
0.01 13.99 0.0751 9.30<br />
0.1 13.82 0.0725 9.67<br />
1 13.12 0.0583 9.02<br />
10 12.72 0.0508 8.56<br />
20 12.50 0.0499 8.26<br />
30 12.50 0.0493 8.58<br />
Tabla 35: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Simulated - AMF’.<br />
Tanto para coste 20 como 30 se alcanza la más baja y mínima tasa <strong>de</strong> error global. Sin<br />
embargo la que optimiza los resultados es el coste 20 pues logra una tasa <strong>de</strong> error media 3<br />
décimas inferior.<br />
Una vez vistos los resultados para AMF, se compararán dichos resultados c<strong>on</strong> los <strong>de</strong> la<br />
fusión suma <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d.<br />
Figura 59: Curvas DET para ’SUSAS Simulated - fusión suma y AMF’.<br />
C<strong>on</strong> AMF se c<strong>on</strong>sigue una EER global <strong>de</strong> 12.50 % mi<strong>en</strong>tras que la fusión <strong>de</strong> los sistemas<br />
fr<strong>on</strong>t-<strong>en</strong>d obt<strong>en</strong>ía un 15.63 %. Es <strong>de</strong>cir, se reduce <strong>en</strong> más <strong>de</strong> 3 puntos la tasa <strong>de</strong> error media. En<br />
la Figura 59 se repres<strong>en</strong>ta la curva DET para la fusión suma <strong>de</strong>l sistema SVM <strong>de</strong> estadísticos<br />
c<strong>on</strong> el sistema GMM-SVM y la curva DET para el sistema <strong>de</strong> AMF.<br />
Por último, la Tabla 36 analiza los EER medio por emoción <strong>de</strong> tanto la fusión suma <strong>de</strong><br />
los dos sistemas fr<strong>on</strong>t-<strong>en</strong>d como <strong>de</strong>l sistema back-<strong>en</strong>d <strong>de</strong> AMF. La última columna corresp<strong>on</strong><strong>de</strong><br />
c<strong>on</strong> la mejora relativa (M.R. <strong>en</strong> %) que ofrece éste último sistema c<strong>on</strong> respecto al primero.<br />
En la Figura 60 aparec<strong>en</strong> las curvas DET para cada una <strong>de</strong> las emoci<strong>on</strong>es <strong>de</strong> SUSAS<br />
Simulated para la fusión suma <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d.<br />
Mi<strong>en</strong>tras que <strong>en</strong> la Figura 61 repres<strong>en</strong>ta las curvas DET para cada una <strong>de</strong> las emoci<strong>on</strong>es <strong>de</strong><br />
SUSAS Simulated para AMF.<br />
El rasgo más llamativo <strong>de</strong> la Tabla 36 es el estilo <strong>de</strong> habla questi<strong>on</strong> pues alcanza unas tasas<br />
<strong>de</strong> error muy bajas tanto para la fusión suma (2.2 %) como para AMF (1.08 %). Igualm<strong>en</strong>te,<br />
los estilos angry y loud también obti<strong>en</strong><strong>en</strong> porc<strong>en</strong>tajes <strong>de</strong> error muy reducidos, por <strong>de</strong>bajo <strong>de</strong>l<br />
10 %. Como vi<strong>en</strong>e si<strong>en</strong>do habitual, los estilos que ofrec<strong>en</strong> peores resultados s<strong>on</strong> c<strong>on</strong>d50 y c<strong>on</strong>d70.<br />
92<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Emoción EER ( %) fusión suma EER ( %) AMF M.R. ( %)<br />
angry 9.16 7.41 -19.1<br />
clear 25.84 14.29 -44.7<br />
c<strong>on</strong>d50 23.40 20.90 -10.68<br />
c<strong>on</strong>d70 21.12 20.48 -3.03<br />
fast 15.62 14.80 -5.25<br />
lombard 14.13 9.92 -29.79<br />
loud 10.09 4.88 -51.64<br />
neutral 25.90 23.56 -9.03<br />
questi<strong>on</strong> 2.22 1.08 -51.35<br />
slow 13.53 12.96 -4.21<br />
soft 10.39 7.73 -25.6<br />
Tabla 36: EER ( %) por emoción para ’SUSAS Simulated - fusión suma y AMF’.<br />
Figura 60: Curva DET para la fusión suma por emoción.<br />
Como se vio <strong>en</strong> la Tabla 11, <strong>en</strong> los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor el sistema <strong>de</strong><br />
AMF parecía funci<strong>on</strong>ar relativam<strong>en</strong>te bi<strong>en</strong> excepto para los estilos <strong>de</strong> habla angry y loud. Sin<br />
embargo estos s<strong>on</strong> dos <strong>de</strong> los estilos <strong>de</strong> habla para los que AMF funci<strong>on</strong>a mejor <strong>en</strong> experim<strong>en</strong>tos<br />
<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor [Ver Tabla 36].<br />
En las Figuras 60 y 61 se repres<strong>en</strong>tan gráficam<strong>en</strong>te las curvas DET para la fusión suma<br />
y AMF por emoción respectivam<strong>en</strong>te. Llama la at<strong>en</strong>ción la similitud <strong>en</strong>tre ambas gráficas <strong>en</strong><br />
cuanto al r<strong>en</strong>dimi<strong>en</strong>to relativo por emoción. Esto implica que ambas técnicas ofrec<strong>en</strong> resultados<br />
relativos y globales similares. Así, la curva <strong>de</strong> la emoción questi<strong>on</strong> (azul disc<strong>on</strong>tinua) es la que<br />
mejores tasas c<strong>on</strong>sigue y por ello más cercana al orig<strong>en</strong> se <strong>en</strong>cu<strong>en</strong>tra. La sigu<strong>en</strong> las curvas<br />
<strong>de</strong> angry (negra), loud (negra disc<strong>on</strong>tinua) y soft (ver<strong>de</strong> disc<strong>on</strong>tinúa). También para ambas<br />
gráficas las curvas más alejadas <strong>de</strong>l orig<strong>en</strong> y por lo tanto las <strong>de</strong> peores resultados s<strong>on</strong> las <strong>de</strong> los<br />
estilos clear (roja), c<strong>on</strong>d50 (azul) y c<strong>on</strong>d70 (rosa).<br />
SUSAS Actual<br />
La distribución <strong>de</strong> los locutores aparece <strong>en</strong> la Tabla 37.<br />
• SUSAS Actual - Sistemas fr<strong>on</strong>t-<strong>en</strong>d: SVM c<strong>on</strong> estadísticos, GMM-SVM y<br />
fusión suma<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 93
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 61: Curvas DET por emoción para ’SUSAS Simulated - AMF’.<br />
Etapa<br />
Developm<strong>en</strong>t<br />
Entr<strong>en</strong>ami<strong>en</strong>to y Test<br />
Locutores<br />
f1,m1<br />
f2,m2,f3,m3,m4<br />
Tabla 37: Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS Actual<br />
.<br />
Al igual que <strong>en</strong> SUSAS Simulated, se <strong>en</strong>tr<strong>en</strong>an mo<strong>de</strong>los por locutor y emoción y a<strong>de</strong>más se<br />
implem<strong>en</strong>ta Leave-One-Word-Out. Los mo<strong>de</strong>los s<strong>on</strong> <strong>de</strong> la forma ⃗w loc emoc notW ordX d<strong>on</strong><strong>de</strong> loc es<br />
cada uno <strong>de</strong> los 5 locutores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, emoc es cada una <strong>de</strong> las 5 emoci<strong>on</strong>es <strong>de</strong> SUSAS<br />
Actual y WordX es la palabra que no se usará para el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> ese mo<strong>de</strong>lo. Por<br />
ejemplo, el mo<strong>de</strong>lo ⃗w m4 f notHello será <strong>en</strong>tr<strong>en</strong>ado c<strong>on</strong> locuci<strong>on</strong>es <strong>de</strong>l locutor m4, <strong>de</strong> la emoción<br />
f (freefall) y c<strong>on</strong> todas m<strong>en</strong>os la palabra hello. El número <strong>de</strong> mo<strong>de</strong>los para SUSAS Actual por<br />
cada subsistema fr<strong>on</strong>t-<strong>en</strong>d (SVM c<strong>on</strong> estadísticos y GMM-SVM) es 5 emoci<strong>on</strong>es * 5 locutores<br />
* 35 palabras = 875mo<strong>de</strong>los.<br />
Una locución <strong>de</strong> test como por ejemplo hello2.m4f se evalúa fr<strong>en</strong>te a los sigui<strong>en</strong>tes 5<br />
mo<strong>de</strong>los: ⃗w m4emoc notHello d<strong>on</strong><strong>de</strong> emoc es cada una <strong>de</strong> las 5 emoci<strong>on</strong>es.<br />
Los datos <strong>de</strong> los locutores f1 y m1 se usan para g<strong>en</strong>erar el mo<strong>de</strong>lo UBM para el subsistema<br />
GMM-SVM.<br />
Para ambos subsistemas fr<strong>on</strong>t-<strong>en</strong>d (SVM c<strong>on</strong> estadísticos y GMM-SVM) se van a optimizar<br />
los sigui<strong>en</strong>tes parámetros:<br />
• Optimización variable M número <strong>de</strong> gaussianas (sólo subsistema GMM-SVM)<br />
• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />
Todos los resultados que aparec<strong>en</strong> para estos tipos <strong>de</strong> experim<strong>en</strong>tos serán tras haber hecho T-<br />
normalización <strong>de</strong> puntuaci<strong>on</strong>es pues se ha visto que siempre sup<strong>on</strong>e una mejora sobre el sistema.<br />
Los parámetros <strong>de</strong>l subsistema GMM-SVM serán los primeros <strong>en</strong> ser ajustados. Se empieza<br />
c<strong>on</strong> la normalización <strong>de</strong> los vectores prosódicos mant<strong>en</strong>i<strong>en</strong>do fijo el número <strong>de</strong> gaussianas M a<br />
32 y valor <strong>de</strong> coste <strong>de</strong> 1. C<strong>on</strong> ello, se obti<strong>en</strong><strong>en</strong> los valores <strong>de</strong> EER global <strong>de</strong> la Tabla 38.<br />
94<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Normalización ⃗u p EER global( %)<br />
no 19.20<br />
⃗e 20.30<br />
⃗e y ∆ ⃗ e 20.20<br />
⃗p 21.55<br />
⃗p y ∆ ⃗ p 23.68<br />
⃗e, ∆ ⃗ e , ⃗p y ∆ ⃗ p 23.78<br />
Tabla 38: EER global <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos normalizados para<br />
’SUSAS Actual - GMM-SVM’.<br />
El valor <strong>de</strong> M es el sigui<strong>en</strong>te <strong>en</strong> ser ajustado. Para esta tarea se manti<strong>en</strong><strong>en</strong> los vectores<br />
<strong>de</strong> parámetros prosódicos originales, es <strong>de</strong>cir, sin normalizar pues según la Tabla 38 es<br />
la que mejores resultados ofrece. La Tabla 39 ti<strong>en</strong>e los EER globales para distintos valores <strong>de</strong> M.<br />
M EER global( %)<br />
8 52.50<br />
16 17.27<br />
32 19.20<br />
64 22.70<br />
Tabla 39: EER global para ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l número <strong>de</strong> gaussinas.<br />
Por último, se varía la variable coste <strong>de</strong>l clasificador SVM habi<strong>en</strong>do usado 16 gaussianas y<br />
no normalización <strong>de</strong> los vectores <strong>de</strong> parámetros. Es <strong>de</strong>cir la c<strong>on</strong>figuración que ofrece mejores<br />
resultados. Estos resultados los po<strong>de</strong>mos ver <strong>en</strong> la Tabla 40. Los resultados se optimizan c<strong>on</strong><br />
un valor <strong>de</strong> coste <strong>de</strong> 10.<br />
Coste EER global( %)<br />
1 17.27<br />
10 15.9<br />
100 15.96<br />
Tabla 40: EER global para ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste.<br />
Una vez ajustado el subsistema <strong>de</strong> GMM-SVM es el turno <strong>de</strong> optimizar el <strong>de</strong> SVM c<strong>on</strong><br />
estadísticos. Para este subsistema únicam<strong>en</strong>te ajustaremos las variables <strong>de</strong> coste y normalización<br />
<strong>de</strong> los vectores prosódicos. Así, <strong>en</strong> la Tabla 41 aparec<strong>en</strong> los EER globales para varias<br />
normalizaci<strong>on</strong>es.<br />
Normalizando únicam<strong>en</strong>te el vector ⃗e <strong>de</strong> <strong>en</strong>ergías se c<strong>on</strong>sigu<strong>en</strong> los mejores tasas <strong>de</strong> error.<br />
[Ver Tabla 41].<br />
La Tabla 42 ofrece los resultados para varios valores <strong>de</strong> coste habiénd<strong>on</strong>os normalizado<br />
anteriorm<strong>en</strong>te el vector prosódico <strong>de</strong> <strong>en</strong>ergías. El valor <strong>de</strong> 100 <strong>de</strong> coste es el que ofrece mejores<br />
resultados <strong>de</strong> <strong>en</strong>tre los tres que hemos probado. No se han probado valores más altos pues<br />
retardaban <strong>en</strong> exceso los tiempos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los.<br />
C<strong>on</strong> todo esto, la Tabla 43 es la c<strong>on</strong>figuración final <strong>de</strong> tanto el subsistema SVM c<strong>on</strong> estadísticos<br />
como <strong>de</strong>l GMM-SVM una vez se ha hecho T-normalización <strong>de</strong> las puntuaci<strong>on</strong>es finales:<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 95
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Normalización ⃗u p EER global( %)<br />
no 21.86<br />
⃗e 19.86<br />
⃗e y ∆ ⃗ e 19.97<br />
⃗p 21.04<br />
⃗p y ∆ ⃗ p 21.80<br />
⃗e, ∆ ⃗ e , ⃗p y ∆ ⃗ p 26.45<br />
Tabla 41: EER global para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ según los vectores prosódicos<br />
normalizados.<br />
Coste EER global( %)<br />
1 20.9<br />
10 19.86<br />
100 18.64<br />
Tabla 42: EER global <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’.<br />
Las curvas DET <strong>de</strong> tanto los 2 subsistemas por separado como la <strong>de</strong> la fusión suma aparec<strong>en</strong><br />
<strong>en</strong> la Figura 62.<br />
Como suele suce<strong>de</strong>r, la fusión suma c<strong>on</strong>sigue mejorar los resultados <strong>de</strong> los subsistemas<br />
individuales. Este caso <strong>en</strong> c<strong>on</strong>creto, c<strong>on</strong>sigue bajar <strong>en</strong> torno a 1 punto las tasas <strong>de</strong> error <strong>de</strong>l<br />
subsistema GMM-SVM que es el mejor <strong>de</strong> los 2.<br />
• SUSAS Actual - Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls (AMF)<br />
Las puntuaci<strong>on</strong>es <strong>de</strong> cada locución <strong>de</strong> test (ejemplo: hello2.m4f ) obt<strong>en</strong>idas tras evaluarla<br />
fr<strong>en</strong>te a los 5 mo<strong>de</strong>los <strong>de</strong> la forma ⃗w m4emoc notHello <strong>de</strong> cada uno <strong>de</strong> los subsistemas GMM-SVM<br />
y SVM c<strong>on</strong> estadísticos para c<strong>on</strong>formar un nuevo vector <strong>de</strong> parámetros. Este vector ⃗ S hello2.m4f<br />
t<strong>en</strong>drá 10 valores. Como siempre, estos nuevos vectores <strong>de</strong> parámetros ⃗ S x se usan como <strong>en</strong>trada<br />
a un clasificador SVM.<br />
Estos nuevos mo<strong>de</strong>los <strong>de</strong> la forma ⃗w ′ loc emoc notW ordX<br />
<strong>de</strong>l sistema back-<strong>en</strong>d se crean c<strong>on</strong> datos<br />
<strong>de</strong>l locutor loc y emoción emoc y c<strong>on</strong> todas la palabras m<strong>en</strong>os la WordX. Y se evalúan c<strong>on</strong> las<br />
locuci<strong>on</strong>es <strong>de</strong> ese mismo locutor y que sean <strong>de</strong> la palabra WordX.<br />
La Figura 63 c<strong>on</strong>ti<strong>en</strong>e una serie <strong>de</strong> curvas DET para varios valores <strong>de</strong> la variable coste<br />
<strong>de</strong>l clasificador back-<strong>en</strong>d SVM. Y <strong>en</strong> la Tabla 44 valores numéricos <strong>de</strong> tasas <strong>de</strong> error y DCF min .<br />
SVM<br />
estadísticos<br />
GMM-<br />
SVM<br />
Norm<br />
⃗u p<br />
M coste T-norm EER global DCF min EER medio<br />
⃗e - 100 sí 18.64 0.0902 17.05<br />
no 16 10 sí 15.90 0.0816 11.64<br />
fusión suma 15.02 0.0746 10.29<br />
Tabla 43: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos<br />
y GMM-SVM’.<br />
96<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 62: Curvas DET para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />
suma’.<br />
Figura 63: Curvas DET para ’SUSAS Actual - AMF’ y varios costes.<br />
Coste EER global( %) DCF min EER medio ( %)<br />
0.001 14.44 0.0730 13.18<br />
0.01 14.47 0.0729 12.17<br />
0.1 14.39 0.0669 11.99<br />
1 14.89 0.0725 12.38<br />
10 15.17 0.0739 12.38<br />
Tabla 44: Resultados para varios costes para ’SUSAS Actual - AMF’.<br />
Se elige el valor <strong>de</strong> coste que mejores resultados ofrece, es <strong>de</strong>cir, el <strong>de</strong> 0.1.<br />
Una vez vistos los resultados para AMF, se comparan dichos resultados c<strong>on</strong> los <strong>de</strong> la fusión<br />
suma <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d [Ver Figura 64].<br />
C<strong>on</strong> AMF se c<strong>on</strong>sigue una EER global <strong>de</strong> 14.39 % mi<strong>en</strong>tras que la fusión <strong>de</strong> los sistemas<br />
fr<strong>on</strong>t-<strong>en</strong>d obt<strong>en</strong>ía un 15.02 %. Ent<strong>on</strong>ces, AMF reduce <strong>en</strong> unas décimas la tasa <strong>de</strong> error global.<br />
Sin embargo si ahora se analizan los valores <strong>de</strong> EER medio se aprecia que AMF alcanza un<br />
11.99 % por un 10.29 % <strong>de</strong> la fusión. Es <strong>de</strong>cir, ahora AMF no mejora los resultados que ofrece la<br />
fusión suma. Se c<strong>on</strong>cluye que para SUSAS Actual el comportami<strong>en</strong>to <strong>de</strong> los sistemas fr<strong>on</strong>t-<strong>en</strong>d<br />
es muy similar al sistema back-<strong>en</strong>d <strong>de</strong> AMF.<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 97
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 64: Curvas DET para ’SUSAS Actual - fusión suma y AMF’.<br />
Por último, la Tabla 45 analiza los EER medio por emoción <strong>de</strong> tanto la fusión suma <strong>de</strong> los<br />
dos sistemas fr<strong>on</strong>t-<strong>en</strong>d, como <strong>de</strong>l sistema back-<strong>en</strong>d <strong>de</strong> AMF, como <strong>de</strong> la mejora relativa <strong>de</strong> este<br />
último sobre el primero.<br />
Emoción EER ( %) fusión suma EER ( %) AMF M.R. ( %)<br />
neutral 15.23 19.74 +29.61<br />
medst 22.79 17.42 -23.56<br />
hist 19.85 19.34 -2.08<br />
freefall 20.97 18.43 -12.11<br />
scream 5.72 6.37 +11.36<br />
Tabla 45: EER ( %) por emoción para ’SUSAS Actual - fusión suma y AMF’.<br />
En la Figura 65 aparec<strong>en</strong> las curvas DET para cada una <strong>de</strong> las emoci<strong>on</strong>es <strong>de</strong> SUSAS Actual<br />
para la fusión suma <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d.<br />
Figura 65: Curvas DET por emoción para ’SUSAS Actual - fusión suma’.<br />
Mi<strong>en</strong>tras que <strong>en</strong> la Figura 66 repres<strong>en</strong>ta las curvas DET para cada una <strong>de</strong> las emoci<strong>on</strong>es <strong>de</strong><br />
SUSAS Actual para AMF.<br />
El estilo <strong>de</strong> habla que c<strong>on</strong> difer<strong>en</strong>cia ofrece mejores resultados para SUSAS Actual es según<br />
98<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
Figura 66: Curvas DET por emoción para ’SUSAS Actual - AMF’.<br />
la Tabla 45, scream. Alcanza unas tasas <strong>de</strong> error muy bajas tanto para la fusión suma (5.72 %)<br />
como para AMF (6.37 %). Los <strong>de</strong>más (neutra, medst, hist y freefall) obti<strong>en</strong><strong>en</strong> resultados<br />
similares <strong>en</strong> torno al 15 %.<br />
El sistema <strong>de</strong> AMF parece funci<strong>on</strong>ar mejor para aquellas emoci<strong>on</strong>es que peor resultados<br />
obti<strong>en</strong><strong>en</strong>. Así, para medst, hist y freefall la técnica <strong>de</strong> AMF mejora c<strong>on</strong> respecto a la fusión<br />
suma, sobre todo para el estilo medst [Ver Tabla 45].<br />
En las Figuras 65 y 66 se repres<strong>en</strong>tan gráficam<strong>en</strong>te las curvas DET para la fusión suma y<br />
AMF por emoción respectivam<strong>en</strong>te. Lo que más llama la at<strong>en</strong>ció a primera vista para ambas<br />
gráficas es que la emoción scream es c<strong>on</strong> difer<strong>en</strong>cia la que m<strong>en</strong>ores tasas <strong>de</strong> error produce.<br />
Tras analizar los resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor, se pres<strong>en</strong>ta <strong>en</strong> la Tabla 46 una<br />
recopilación <strong>de</strong> los mejores EER medio para SUSAS Simulated y Actual.<br />
base <strong>de</strong> datos fr<strong>on</strong>t-<strong>en</strong>d/back-<strong>en</strong>d EER medio ( %)<br />
SUSAS Simulated<br />
fr<strong>on</strong>t-<strong>en</strong>d(fusión suma) 12.15<br />
back-<strong>en</strong>d (AMF) 8.26<br />
SUSAS Actual<br />
fr<strong>on</strong>t-<strong>en</strong>d(fusión suma) 10.29<br />
back-<strong>en</strong>d (AMF) 11.99<br />
Tabla 46: EER medio ( %) para las 3 bases <strong>de</strong> datos para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor.<br />
Vi<strong>en</strong>do la Tabla 28 <strong>de</strong> resum<strong>en</strong>, el sistema <strong>de</strong> fusión suma es más robusto para la base <strong>de</strong><br />
datos SUSAS Actual mi<strong>en</strong>tras que AMF lo es para SUSAS Simulated.<br />
Ah3R1<br />
En un principio se int<strong>en</strong>tar<strong>on</strong> realizar experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para la base<br />
<strong>de</strong> datos Ah3R1. Sin embargo los resultados obt<strong>en</strong>idos fuer<strong>on</strong> mucho peores al <strong>de</strong>l resto <strong>de</strong><br />
bases <strong>de</strong> datos para este mismo tipo <strong>de</strong> experim<strong>en</strong>tos. La razón <strong>de</strong> dichos malos resultados<br />
posiblem<strong>en</strong>te sea que dada la escasez <strong>de</strong> datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to por cada locutor y emoción<br />
que ofrece Ah3R1, no se c<strong>on</strong>sigue <strong>en</strong>tr<strong>en</strong>ar mo<strong>de</strong>los correctam<strong>en</strong>te adaptados a cada locutor.<br />
Se espera que progresivam<strong>en</strong>te vayan estando disp<strong>on</strong>ibles difer<strong>en</strong>tes versi<strong>on</strong>es <strong>de</strong> esta base <strong>de</strong><br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS 99
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
datos ofreci<strong>en</strong>do así más volum<strong>en</strong> <strong>de</strong> información por locutor. Si así suce<strong>de</strong>, se c<strong>on</strong>seguirá más<br />
robustez <strong>en</strong> experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para esta base <strong>de</strong> datos.<br />
100<br />
CAPÍTULO 5. PRUEBAS Y RESULTADOS
6<br />
C<strong>on</strong>clusi<strong>on</strong>es y Trabajo futuro<br />
101
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
6.1. C<strong>on</strong>clusi<strong>on</strong>es<br />
Este trabajo se ha focalizado <strong>en</strong> la evaluación y <strong>de</strong>sarrollo <strong>de</strong> sistemas para el rec<strong>on</strong>ocimi<strong>en</strong>to<br />
automático <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla. Nuestros resultados s<strong>on</strong> similares a los obt<strong>en</strong>idos <strong>en</strong> el<br />
estado <strong>de</strong>l arte, incluso <strong>en</strong> algunos casos s<strong>on</strong> c<strong>on</strong>si<strong>de</strong>rablem<strong>en</strong>te mejores.<br />
Parte <strong>de</strong> esta evaluación c<strong>on</strong>sistió <strong>en</strong> la realización <strong>de</strong> experim<strong>en</strong>tos <strong>en</strong> los que se examinó<br />
<strong>de</strong>s<strong>de</strong> la influ<strong>en</strong>cia <strong>de</strong> ciertas variables <strong>en</strong> el comportami<strong>en</strong>to <strong>de</strong>l sistema, hasta su<br />
r<strong>en</strong>dimi<strong>en</strong>to tras la implem<strong>en</strong>tación <strong>de</strong> distintos tipos <strong>de</strong> normalizaci<strong>on</strong>es <strong>de</strong> tanto los vectores<br />
paramétricos como <strong>de</strong> las puntuaci<strong>on</strong>es.<br />
Las variables ajustadas fuer<strong>on</strong> por un lado el coste <strong>de</strong>l <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y el número <strong>de</strong> mezclas<br />
gaussianas M. El coste no ha seguido un comportami<strong>en</strong>to regular <strong>en</strong> cuanto a los resultados, la<br />
única influ<strong>en</strong>cia ha sido sobre el tiempo empleado <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los. Aunque<br />
la elección <strong>de</strong> un valor alto <strong>de</strong> M implica una mejor adaptación a los resultados, no siempre<br />
ha sido posible por la escasez <strong>de</strong> datos disp<strong>on</strong>ibles. Por otro lado, se realizar<strong>on</strong> dos tipos <strong>de</strong><br />
normalizaci<strong>on</strong>es. Una, la T-norm, sobre las puntuaci<strong>on</strong>es, la cual mostró siempre una leve<br />
mejora <strong>en</strong> el comportami<strong>en</strong>to <strong>de</strong>l sistema. La otra, sobre los vectores <strong>de</strong> parámetros prosódicos,<br />
comprueba que los únicos vectores sobre los que su normalización logra mejorar los resultados<br />
s<strong>on</strong> el vector <strong>de</strong> <strong>en</strong>ergías ⃗e y su velocidad ⃗ ∆ e .<br />
Para experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos, la nueva técnica <strong>de</strong> AMF logra mejorar los<br />
resultados <strong>de</strong> la fusión suma <strong>en</strong> todos los casos m<strong>en</strong>os para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes<br />
<strong>de</strong> locutor sobre la base <strong>de</strong> datos SUSAS Actual. Mi<strong>en</strong>tras que <strong>en</strong> experim<strong>en</strong>tos Inter-Base<br />
<strong>de</strong> datos AMF siempre supera a la fusión suma. Para estos últimos experim<strong>en</strong>tos existe un<br />
mayor número <strong>de</strong> mo<strong>de</strong>los Cohorte y por lo tanto la dim<strong>en</strong>sión <strong>de</strong> los Anchor Mo<strong>de</strong>ls es<br />
mayor. Una mayor dim<strong>en</strong>sión implica que sea más probable la discriminación <strong>en</strong>tre emoci<strong>on</strong>es<br />
que para un número pequeño <strong>de</strong> emoci<strong>on</strong>es como ocurre <strong>en</strong> los experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos.<br />
La teoría anterior se vuelve a comprobar si comparamos los resultados para el sistema<br />
AMF formado a partir <strong>de</strong> los resultados <strong>de</strong> los dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d y el otro, formado a<br />
partir <strong>de</strong> los dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d a<strong>de</strong>más <strong>de</strong> su fusión suma. Este último AMF, al t<strong>en</strong>er<br />
vectores <strong>de</strong> mayor dim<strong>en</strong>sión obti<strong>en</strong>e inferiores tasas <strong>de</strong> error que el primero. Por ejemplo para<br />
la base <strong>de</strong> datos SUSAS Simulated se pasa <strong>de</strong> un 28.8 % <strong>de</strong> EER medio a un 26.29 %.<br />
Las mejoras relativas más importantes <strong>de</strong> AMF sobre la fusión suma se logran <strong>en</strong> la base <strong>de</strong><br />
datos SUSAS Simulated pues al t<strong>en</strong>er más emoci<strong>on</strong>es que el resto <strong>de</strong> bases <strong>de</strong> datos, es d<strong>on</strong><strong>de</strong><br />
más dim<strong>en</strong>si<strong>on</strong>es <strong>de</strong> los Anchor Mo<strong>de</strong>ls se ti<strong>en</strong>e.<br />
No todas las emoci<strong>on</strong>es se comportan <strong>de</strong> igual manera. Así, <strong>en</strong> pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes<br />
<strong>de</strong> locutor, AMF mejora m<strong>en</strong>os o empeora más c<strong>on</strong> respecto a la fusión suma <strong>en</strong> aquellas<br />
emoci<strong>on</strong>es que se caracterizan por t<strong>en</strong>er valores altos <strong>de</strong> <strong>en</strong>ergía y <strong>de</strong> su variación como s<strong>on</strong><br />
angry, loud para SUSAS Simulated, scream para SUSAS Actual y exaltado para Ah3R1.<br />
También, las emoci<strong>on</strong>es que m<strong>en</strong>ores tasas <strong>de</strong> error ofrec<strong>en</strong> s<strong>on</strong> aquellas que se caracterizan<br />
por gran<strong>de</strong>s variaci<strong>on</strong>es <strong>de</strong> <strong>en</strong>ergía y pitch ya que s<strong>on</strong> justam<strong>en</strong>te estos dos parámetros c<strong>on</strong> los<br />
que hemos caracterizado la señal <strong>de</strong> <strong>voz</strong>. Éstas s<strong>on</strong>: angry y questi<strong>on</strong> <strong>en</strong> SUSAS Simulated,<br />
scream <strong>en</strong> SUSAS Actual y exaltado <strong>en</strong> Ah3R1. Así, por ejemplo, la emoción scream pres<strong>en</strong>ta<br />
un EER cercano al 5 % o mejor aún, la emoción questi<strong>on</strong> llega a alcanzar el 1.08 % <strong>en</strong><br />
experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor.<br />
Cabe <strong>de</strong>stacar los resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor alcanzados mediante la fusión <strong>de</strong>l<br />
sistema SVM c<strong>on</strong> estadísticos y el sistema híbrido GMM-SVM y mediante la fusión <strong>de</strong> Anchor<br />
Mo<strong>de</strong>ls para la base <strong>de</strong> datos SUSAS Simulated. Los resultados pres<strong>en</strong>tan un EER medio <strong>de</strong>l<br />
102<br />
CAPÍTULO 6. CONCLUSIONES Y TRABAJO FUTURO
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
12.15 % y 8.26 % respectivam<strong>en</strong>te. Estos resultados sitúan a nuestros sistemas <strong>en</strong> una muy<br />
bu<strong>en</strong>a posición <strong>en</strong> el estado <strong>de</strong>l arte actual.<br />
Los resultados <strong>de</strong> los experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor s<strong>on</strong> c<strong>on</strong>si<strong>de</strong>rablem<strong>en</strong>te mejores<br />
que los in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor pues eliminan la variabilidad <strong>de</strong> locutor. De esta manera,<br />
al tratar c<strong>on</strong> datos <strong>de</strong> un solo locutor, éstos abarcan mucha m<strong>en</strong>os diversidad <strong>de</strong> habla que si<br />
manéjasemos datos <strong>de</strong> todos los locutores.<br />
La base <strong>de</strong> datos que ofrece mejores resultados es SUSAS Simulated pues, aunque éstos<br />
s<strong>on</strong> similares a los obt<strong>en</strong>idos sobre SUSAS Actual, se compr<strong>en</strong><strong>de</strong> <strong>de</strong> 11 emoci<strong>on</strong>es por solo 5 <strong>de</strong><br />
SUSAS Actual y por lo tanto la tarea <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es se hace más difícil. Sin<br />
embargo, los resultados más realísticos serían los obt<strong>en</strong>idos sobre SUSAS Actual y Ah3R1 pues<br />
c<strong>on</strong>ti<strong>en</strong><strong>en</strong> datos reales y esp<strong>on</strong>táneas mi<strong>en</strong>tras que los SUSAS Simulated están posiblem<strong>en</strong>te<br />
exagerados.<br />
Por lo g<strong>en</strong>eral los resultados s<strong>on</strong> muy satisfactorios si los comparamos c<strong>on</strong> el estado <strong>de</strong>l<br />
arte actual, más aún si t<strong>en</strong>emos <strong>en</strong> cu<strong>en</strong>ta que el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es es un campo<br />
nuevo <strong>en</strong> el grupo <strong>ATVS</strong>.<br />
Los resultados obt<strong>en</strong>idos <strong>en</strong> este proyecto han dado lugar a dos publicaci<strong>on</strong>es aceptadas y<br />
a la espera <strong>de</strong> ser publicadas <strong>en</strong> c<strong>on</strong>gresos internaci<strong>on</strong>ales:<br />
• Lopez-Mor<strong>en</strong>o, I., Ortego-Resa C., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>n<br />
emoti<strong>on</strong> recogniti<strong>on</strong> using prosodic supervectors”, 2009.<br />
• Ortego-Resa C., Lopez-Mor<strong>en</strong>o, I., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Anchor mo<strong>de</strong>l<br />
fusi<strong>on</strong> for emoti<strong>on</strong> recogniti<strong>on</strong> in speech”, 2009.<br />
CAPÍTULO 6. CONCLUSIONES Y TRABAJO FUTURO 103
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
6.2. Trabajo futuro<br />
A partir <strong>de</strong>l pres<strong>en</strong>te trabajo, exist<strong>en</strong> varias líneas <strong>de</strong> investigación <strong>en</strong> el campo <strong>de</strong> las<br />
emoci<strong>on</strong>es <strong>en</strong> el habla. Una <strong>de</strong> ellas sería buscar el tipo <strong>de</strong> parametrización óptima para la<br />
discriminación <strong>en</strong>tre emoci<strong>on</strong>es. Un primer paso sería la combinación <strong>de</strong> parámetros prosódicos<br />
y acústicos así como añadir rasgos <strong>de</strong> acceleración a los vectores prosódicos <strong>de</strong> <strong>en</strong>ergía y pitch.<br />
También resulta interesante aplicar las técnicas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es para tareas<br />
<strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> locutor a través <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>al o rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla emoci<strong>on</strong>al.<br />
Estas tareas aunque no c<strong>on</strong>sist<strong>en</strong> explícitam<strong>en</strong>te <strong>en</strong> clasificar emoci<strong>on</strong>es, sí requier<strong>en</strong> el uso <strong>de</strong><br />
sus técnicas.<br />
Por último, otra línea futura <strong>de</strong> trabajo sería añadir el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los SVM<br />
basados <strong>en</strong> regresión, épsil<strong>on</strong>-SVR. Esta es una <strong>de</strong> las investigaci<strong>on</strong>es más importantes llevadas<br />
a cabo <strong>en</strong> el campo <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> locutor y que podría migrar a rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong><br />
emoci<strong>on</strong>es logrando bu<strong>en</strong>os resultados.<br />
104<br />
CAPÍTULO 6. CONCLUSIONES Y TRABAJO FUTURO
Bibliografía<br />
[1] Anil K. Jain and David Malt<strong>on</strong>i, Handbook of Fingerprint Recogniti<strong>on</strong>, Springer-Verlag<br />
New York, Inc., Secaucus, NJ, USA, 2003.<br />
[2] Dimitrios Ververidis and C<strong>on</strong>stantine Kotropoulos, “Emoti<strong>on</strong>al speech recogniti<strong>on</strong>: Resources,<br />
features, and methods”, Speech Communicati<strong>on</strong>, vol. 48, no. 9, pp. 1162 – 1181,<br />
2006.<br />
[3] Alvin Martin, George Doddingt<strong>on</strong>, Terri Kamm, Mark Ordowski, and Mark Przybocki,<br />
“The <strong>de</strong>t curve in assessm<strong>en</strong>t of <strong>de</strong>tecti<strong>on</strong> task performance”, in Proc. Eurospeech ’97,<br />
Rho<strong>de</strong>s, Greece, 1997, pp. 1895–1898.<br />
[4] Roland Auck<strong>en</strong>thaler, Michael Carey, and Harvey Lloyd-Thomas, “Score normalizati<strong>on</strong> for<br />
text-in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt speaker verificati<strong>on</strong> systems”, Digital Signal Processing, vol. 10, no. 1-3,<br />
pp. 42 – 54, 2000.<br />
[5] Zhih<strong>on</strong>g Z<strong>en</strong>g, M. Pantic, G. I. Roisman, and T. S. Huang, “A survey of affect recogniti<strong>on</strong><br />
methods: Audio, visual, and sp<strong>on</strong>taneous expressi<strong>on</strong>s”, Pattern Analysis and Machine<br />
Intellig<strong>en</strong>ce, IEEE Transacti<strong>on</strong>s <strong>on</strong>, vol. 31, no. 1, pp. 39–58, 2009.<br />
[6] Bjöern Schuller, R<strong>on</strong>ald Müeller, B<strong>en</strong>edikt Höernler, Anja Höethker, Hitoshi K<strong>on</strong>osu, and<br />
Gerhard Rigoll, “Audiovisual recogniti<strong>on</strong> of sp<strong>on</strong>taneous interest within c<strong>on</strong>versati<strong>on</strong>s”, in<br />
ICMI ’07: Proceedings of the 9th internati<strong>on</strong>al c<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong> Multimodal interfaces, New<br />
York, NY, USA, 2007, pp. 30–37, ACM.<br />
[7] D. G. Chil<strong>de</strong>rs and Ke Wu, “G<strong>en</strong><strong>de</strong>r recogniti<strong>on</strong> from speech. part ii: Fine analysis”, The<br />
Journal of the Acoustical Society of America, vol. 90, no. 4, pp. 1841–1856, 1991.<br />
[8] T. Bocklet, A. Maier, J.G. Bauer, F. Burkhardt, and E.Ñoth, “Age and g<strong>en</strong><strong>de</strong>r recogniti<strong>on</strong><br />
for teleph<strong>on</strong>e applicati<strong>on</strong>s based <strong>on</strong> gmm supervectors and support vector machines”, in<br />
Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce<br />
<strong>on</strong>, 31 2008-April 4 2008, pp. 1605–1608.<br />
[9] Carl E. Williams and K<strong>en</strong>nethÑ. Stev<strong>en</strong>s, “Emoti<strong>on</strong>s and speech: Some acoustical correlates”,<br />
The Journal of the Acoustical Society of America, vol. 52, no. 4B, pp. 1238–1250,<br />
1972.<br />
[10] J.H.L. Hans<strong>en</strong> and S. Patil, “Speech un<strong>de</strong>r stress: Analysis, mo<strong>de</strong>ling and recogniti<strong>on</strong>”,<br />
in Speaker Classificati<strong>on</strong> (1). 2007, vol. 4343 of Lecture Notes in Computer Sci<strong>en</strong>ce, pp.<br />
108–137, Springer.<br />
[11] J.H.L. Hans<strong>en</strong>, “Evaluati<strong>on</strong> of acoustic correlates of speech un<strong>de</strong>r stress for robust speech<br />
recogniti<strong>on</strong>”, Mar 1989, pp. 31–32.<br />
[12] B. Schuller, G. Rigoll, and M. Lang, “Speech emoti<strong>on</strong> recogniti<strong>on</strong> combining acoustic<br />
features and linguistic informati<strong>on</strong> in a hybrid support vector machine-belief network architecture”,<br />
in Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP ’04).<br />
IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong>, May 2004, vol. 1, pp. I–577–80 vol.1.<br />
[13] C. Pereira, “Dim<strong>en</strong>si<strong>on</strong>s of emoti<strong>on</strong>al meaning in speech”, 2000.<br />
105
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
[14] Rodman R.D. Erikss<strong>on</strong>, E.J. and R.C. Hubal, “Emoti<strong>on</strong>s in speech: Juristic implicati<strong>on</strong>s”,<br />
in Speaker Classificati<strong>on</strong> (1). 2007, vol. 4343 of Lecture Notes in Computer Sci<strong>en</strong>ce, pp.<br />
152–173, Springer.<br />
[15] Daniel Neiberg1, Kjell El<strong>en</strong>ius, and Kornel Laskowski, “Emoti<strong>on</strong> recogniti<strong>on</strong> in sp<strong>on</strong>taneous<br />
speech using gmms”, in Interspeech 2006, 2006.<br />
[16] A. P. Dempster, N. M. Laird, and D. B. Rubin, “Maximum likelihood from incomplete data<br />
via the em algorithm”, Journal of the Royal Statistical Society. Series B (Methodological),<br />
vol. 39, no. 1, pp. 1–38, 1977.<br />
[17] Bogdan Vlas<strong>en</strong>ko, “Combining frame and turn-level informati<strong>on</strong> for robust recogniti<strong>on</strong> of<br />
emoti<strong>on</strong>s within speech”, in Interspeech 2007.<br />
[18] Navas E. Hernáez I. Lu<strong>en</strong>go, I. and J. Sánchez, “Automatic emoti<strong>on</strong> recogniti<strong>on</strong> using<br />
prosodic parameters”, in Interspeech 2005.<br />
[19] Vladimir Vapnik, The nature of statistical learning theory, Springer-Verlag New York, Inc.,<br />
New York, NY, USA, 1995.<br />
[20] Oh-Wook Kw<strong>on</strong>, Kwokleung Chan, Jiucang Hao, and Te-W<strong>on</strong> Lee, “Emoti<strong>on</strong> recogniti<strong>on</strong><br />
by speech signals”, in EUROSPEECH-2003, 2003, pp. 125–128.<br />
[21] Iker Lu<strong>en</strong>go, Eva Navas, Inmaculada Hernáez, and J<strong>on</strong> Sánchez, “Automatic emoti<strong>on</strong><br />
recogniti<strong>on</strong> using prosodic parameters”, in EUROSPEECH 2005.<br />
[22] Björn Schuller, Ant<strong>on</strong> Batliner, Dino Seppi, Stefan Steidl, Thurid Vogt, Johannes Wagner,<br />
Laur<strong>en</strong>ce Devillers, Laur<strong>en</strong>ce Vidrascu, Noam Amir, Loic Kessous, and Vered Ahar<strong>on</strong>s<strong>on</strong>,<br />
“The relevance of feature type for the automatic classificati<strong>on</strong> of emoti<strong>on</strong>al user states:<br />
Low level <strong>de</strong>scriptors and functi<strong>on</strong>als”, in Proceedings of Interspeech, Antwerp, Belgium,<br />
August 2007.<br />
[23] Hao Hu, Ming-Xing Xu, and Wei Wu, “Gmm supervector based svm with spectral features<br />
for speech emoti<strong>on</strong> recogniti<strong>on</strong>”, in Acoustics, Speech and Signal Processing, 2007. ICASSP<br />
2007. IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong>, 2007, vol. 4, pp. IV–413–IV–416.<br />
[24] W.M. Campbell, D.E. Sturim, D.A. Reynolds, and A. Solom<strong>on</strong>off, “Svm based speaker<br />
verificati<strong>on</strong> using a gmm supervector kernel and nap variability comp<strong>en</strong>sati<strong>on</strong>”, May 2006,<br />
vol. 1, pp. I–I.<br />
[25] Ortego-Resa C. G<strong>on</strong>zalez-Rodriguez J. Ramos D. Lopez-Mor<strong>en</strong>o, I., “Speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />
emoti<strong>on</strong> recogniti<strong>on</strong> using prosodic supervectors”, 2009.<br />
[26]<br />
V.Ñ. Vapnik and A. Ya. Cherv<strong>on</strong><strong>en</strong>kis, “On the uniform c<strong>on</strong>verg<strong>en</strong>ce of relative frequ<strong>en</strong>cies<br />
of ev<strong>en</strong>ts to their probabilities”, Theory of Probability and its Applicati<strong>on</strong>s, vol. 16, no. 2,<br />
pp. 264–280, 1971.<br />
[27] I. Lopez-Mor<strong>en</strong>o, D. Ramos, J. G<strong>on</strong>zalez-Rodriguez, and D. T. Toledano, “Anchor-mo<strong>de</strong>l<br />
fusi<strong>on</strong> for language recogniti<strong>on</strong>”, in Proceedings of Interspeech 2008, September 2008.<br />
[28] Lopez-Mor<strong>en</strong>o I. G<strong>on</strong>zalez-Rodriguez J. Ramos D. Ortego-Resa, C., “Anchor mo<strong>de</strong>l fusi<strong>on</strong><br />
for emoti<strong>on</strong> recogniti<strong>on</strong> in speech”, 2009.<br />
[29] Hua Yu and Jie Yang, “A direct lda algorithm for high-dim<strong>en</strong>si<strong>on</strong>al data – with applicati<strong>on</strong><br />
to face recogniti<strong>on</strong>”, Pattern Recogniti<strong>on</strong>, vol. 34, no. 10, pp. 2067 – 2070, 2001.<br />
[30] Tin Lay Nwe, Say Wei Foo, and L.C. De Silva, “Classificati<strong>on</strong> of stress in speech using<br />
linear and n<strong>on</strong>linear features”, April 2003, vol. 2, pp. II–9–12 vol.2.<br />
[31] J.H.L. Hans<strong>en</strong> and S.E. Bou-Ghazale, “Getting started with susas: a speech un<strong>de</strong>r simulated<br />
and actual stress database”, in EUROSPEECH-1997, 1997, pp. 1743–1746.<br />
106 BIBLIOGRAFÍA
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
[32] John H. L. Hans<strong>en</strong>, SUSAS, Linguistic Data C<strong>on</strong>sortium, 1999.<br />
[33] D. Ramos, J. G<strong>on</strong>zalez-Rodriguez, J. G<strong>on</strong>zalez-Dominguez, and J. J. Luc<strong>en</strong>a-Molina, “Addressing<br />
database mismatch in for<strong>en</strong>sic speaker recogniti<strong>on</strong> with ahumada iii: a public<br />
real-case database in spanish”, in Proceedings of Interspeech 2008, September 2008, pp.<br />
1493–1496.<br />
[34] J. Ortega-Garcia, J. G<strong>on</strong>zalez-Rodriguez, and V. Marrero-Aguiar, “Ahumada: a large<br />
speech corpus in spanish for speaker characterizati<strong>on</strong> and i<strong>de</strong>ntificati<strong>on</strong>”, Speech Communicati<strong>on</strong>,<br />
vol. 31, pp. 255–264, June 2000.<br />
[35] M. Grimm, K. Kroschel, and S.Ñarayanan, “Support vector regressi<strong>on</strong> for automatic recogniti<strong>on</strong><br />
of sp<strong>on</strong>taneous emoti<strong>on</strong>s in speech”, in Acoustics, Speech and Signal Processing,<br />
2007. ICASSP 2007. IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong>, 2007, vol. 4, pp. IV–1085–IV–<br />
1088.<br />
[36] P. Boersma and D. We<strong>en</strong>ink, “Praat: doing ph<strong>on</strong>etics by computer (versi<strong>on</strong> 5.1.04) [computer<br />
program]”, Ap 2009, http://www.praat.org/.<br />
[37] Nello Cristianini, “Kernel methods for pattern analysis”, in ICTAI ’03: Proceedings of the<br />
15th IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong> Tools with Artificial Intellig<strong>en</strong>ce, Washingt<strong>on</strong>, DC,<br />
USA, 2003, p. .21, IEEE Computer Society.<br />
[38] R<strong>on</strong> Kohavi, “A study of cross-validati<strong>on</strong> and bootstrap for accuracy estimati<strong>on</strong> and mo<strong>de</strong>l<br />
selecti<strong>on</strong>”, 1995, pp. 1137–1143, Morgan Kaufmann.<br />
BIBLIOGRAFÍA 107
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
108 BIBLIOGRAFÍA
Glosario <strong>de</strong> acrónimos<br />
AMF: Anchor Mo<strong>de</strong>l Fusi<strong>on</strong><br />
ANN: Artificial Neural Networks<br />
DCF: Detecti<strong>on</strong> Cost Functi<strong>on</strong><br />
EER: Equal Error Rate<br />
EM: Expectati<strong>on</strong>-Maximizati<strong>on</strong><br />
FA: Falsa Aceptación<br />
FR: Falso Rechazo<br />
GMM: Gaussian Mixture Mo<strong>de</strong>l<br />
HMM: Hid<strong>de</strong>n Markov Mo<strong>de</strong>l<br />
LDA: Linear discriminant analysis<br />
LDC: Linguistic Data C<strong>on</strong>sortium<br />
LFPC: Low Frecu<strong>en</strong>cy Power Coeffici<strong>en</strong>ts<br />
MAP: Maximum A Posteriori<br />
MFCC: Mel-Frequ<strong>en</strong>cy Cepstral Coeffici<strong>en</strong>ts<br />
NIST: Nati<strong>on</strong>al Institute of Standards and Technology<br />
ROC: Receiver Operating Curve<br />
SDC: Shifted Delta Cepstral<br />
SRE: Speaker Recogniti<strong>on</strong> Evaluati<strong>on</strong><br />
SUSAS: Speech Un<strong>de</strong>r Simulated and Actual Stress<br />
SVM: Support Vector Machine<br />
T-norm: Test Normalizati<strong>on</strong><br />
UBM: Universal Background Mo<strong>de</strong>l<br />
VAD: Voice Activity Detector<br />
Z-norm: Zero Normalizati<strong>on</strong><br />
109
A<br />
Anexo: publicaci<strong>on</strong>es<br />
Publicaci<strong>on</strong>es <strong>en</strong> c<strong>on</strong>gresos internaci<strong>on</strong>ales (aceptadas y a la espera <strong>de</strong> ser<br />
publicadas)<br />
• Lopez-Mor<strong>en</strong>o, I., Ortego-Resa C., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />
emoti<strong>on</strong> recogniti<strong>on</strong> using prosodic supervectors”, 2009.<br />
• Ortego-Resa C., Lopez-Mor<strong>en</strong>o, I., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Anchor mo<strong>de</strong>l<br />
fusi<strong>on</strong> for emoti<strong>on</strong> recogniti<strong>on</strong> in speech”, 2009.<br />
111
Speaker Dep<strong>en</strong><strong>de</strong>nt Emoti<strong>on</strong> Recogniti<strong>on</strong> Using Prosodic Supervectors<br />
Ignacio Lopez-Mor<strong>en</strong>o, Carlos Ortego-Resa, Joaquin G<strong>on</strong>zalez-Rodriguez and Daniel Ramos<br />
<strong>ATVS</strong> Biometric Recogniti<strong>on</strong> Group, <strong>Universidad</strong> Aut<strong>on</strong>oma <strong>de</strong> Madrid, Spain<br />
ignacio.lopez@uam.es<br />
Abstract<br />
This work pres<strong>en</strong>ts a novel approach for <strong>de</strong>tecti<strong>on</strong> of emoti<strong>on</strong>s<br />
embed<strong>de</strong>d in the speech signal. The proposed approach works<br />
at the prosodic level, and mo<strong>de</strong>ls the statistical distributi<strong>on</strong> of<br />
the prosodic features with Gaussian Mixture Mo<strong>de</strong>ls (GMM)<br />
mean-adapted from a Universal Background Mo<strong>de</strong>l (UBM).<br />
This allows the use of GMM-mean supervectors, which are<br />
classified by a Support Vector Machine (SVM). Our proposal is<br />
compared to a popular baseline, which classifies with an SVM a<br />
set of selected prosodic features from the whole speech signal.<br />
In or<strong>de</strong>r to measure the speaker inter-variability, which is a factor<br />
of <strong>de</strong>gradati<strong>on</strong> in this task, speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt and speaker<br />
in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt frameworks have be<strong>en</strong> c<strong>on</strong>si<strong>de</strong>red. Experim<strong>en</strong>ts<br />
have be<strong>en</strong> carried out un<strong>de</strong>r the SUSAS subcorpus, including<br />
real and simulated emoti<strong>on</strong>s. Results shows that in a speaker<br />
<strong>de</strong>p<strong>en</strong><strong>de</strong>nt framework our proposed approach achieves a relative<br />
improvem<strong>en</strong>t greater than 14% in Equal Error Rate (EER)<br />
with respect to the baseline approach. The relative improvem<strong>en</strong>t<br />
is greater than 17% wh<strong>en</strong> both approaches are combined<br />
together by fusi<strong>on</strong> with respect to the baseline.<br />
In<strong>de</strong>x Terms: emoti<strong>on</strong> recogniti<strong>on</strong>, speaker inter-variability,<br />
supervectors, SVMs<br />
1. Introducti<strong>on</strong><br />
Emoti<strong>on</strong> recogniti<strong>on</strong> from the speech signal is an increasingly<br />
interesting task in human-machine interacti<strong>on</strong>, with diverse applicati<strong>on</strong>s<br />
in the speech technologies field such as call c<strong>en</strong>tres,<br />
intellig<strong>en</strong>t auto-mobile systems, speaker intra-variability comp<strong>en</strong>sati<strong>on</strong><br />
or <strong>en</strong>tertainm<strong>en</strong>t industry [1]. Emoti<strong>on</strong> recogniti<strong>on</strong> is<br />
g<strong>en</strong>erally stated as a multiclass classificati<strong>on</strong> problem, where a<br />
giv<strong>en</strong> speech utterance is classified am<strong>on</strong>g n emoti<strong>on</strong>s (classes).<br />
However, it is of interest to <strong>de</strong>tect a giv<strong>en</strong> emoti<strong>on</strong> in a speech<br />
segm<strong>en</strong>t, which justifies the use of a verificati<strong>on</strong> or <strong>de</strong>tecti<strong>on</strong><br />
approach <strong>de</strong>scribed as follows: giv<strong>en</strong> a speech utterance and a<br />
target emoti<strong>on</strong>al state e from the whole n emoti<strong>on</strong>s set, the objective<br />
is to <strong>de</strong>termine whether the dominant emoti<strong>on</strong> that affect<br />
the speaker in the utterance is e or not. Thus, emoti<strong>on</strong> <strong>de</strong>tecti<strong>on</strong><br />
is ess<strong>en</strong>tially a two-class problem, where the target class is<br />
true wh<strong>en</strong> e is the dominant emoti<strong>on</strong> in the test utterance and<br />
the n<strong>on</strong>-target class is true wh<strong>en</strong> it is not. The standard architecture<br />
in such scheme is to compute a similarity measure (a<br />
score) am<strong>on</strong>g an emoti<strong>on</strong> mo<strong>de</strong>l of e and the emoti<strong>on</strong> in the test<br />
utteranace, which will be further compared to a threshold for<br />
<strong>de</strong>tecti<strong>on</strong>.<br />
Recognizing emoti<strong>on</strong>s from speech is ess<strong>en</strong>tially motivated<br />
from their nature: affective states caused by subjective judgem<strong>en</strong>ts,<br />
memories and s<strong>en</strong>sati<strong>on</strong>s frequ<strong>en</strong>tly accompanied of<br />
physical and psychological changes of the well-being s<strong>en</strong>sati<strong>on</strong>.<br />
Thus humans can recognize emoti<strong>on</strong>s by the study of those<br />
changes of the neutral states, including the semantic level of the<br />
speech, n<strong>on</strong> usual behaviours and <strong>de</strong>cisi<strong>on</strong>s, as well as other not<br />
so high cognitive levels, comm<strong>on</strong>ly more capable to be learned<br />
by machines [2].<br />
Unluckily, emoti<strong>on</strong> recogniti<strong>on</strong> from speech is a difficult<br />
task, mainly because of two reas<strong>on</strong>s. First, emoti<strong>on</strong>s does not<br />
manifest in the same way in differ<strong>en</strong>t speakers, and therefore,<br />
inter-variability of speakers seriously affects the recogniti<strong>on</strong><br />
process. Sec<strong>on</strong>d, it is difficult to <strong>de</strong>fine the target emoti<strong>on</strong>s set<br />
because the limits am<strong>on</strong>g differ<strong>en</strong>t emoti<strong>on</strong>s may not be clear<br />
for list<strong>en</strong>ers in g<strong>en</strong>eral, and several emoti<strong>on</strong>s from the c<strong>on</strong>si<strong>de</strong>red<br />
set can be simultaneously in the same utterance, or ev<strong>en</strong><br />
at the same mom<strong>en</strong>t in time. Despite the difficulty of the chall<strong>en</strong>ge,<br />
the research in the area has experim<strong>en</strong>ted an increase in<br />
the last years, which has motivated the availability of emoti<strong>on</strong>al<br />
labeled speech corpora. Most popular <strong>on</strong>es are FAU AIBO<br />
Emoti<strong>on</strong> Corpus [3], SUSAS, EMO-DB, ISL meeting corpus,<br />
Danish Emoti<strong>on</strong>al Speech Database [4] and rec<strong>en</strong>tly Ahumada<br />
III [5].<br />
In this work, we pres<strong>en</strong>t a novel method for emoti<strong>on</strong>s <strong>de</strong>tecti<strong>on</strong><br />
based <strong>on</strong> Gaussian Mixture Mo<strong>de</strong>ls (GMM) of short-term<br />
prosodic features, whose supervectors are further classified with<br />
Support Vector Machines (SVM). Moreover, we pres<strong>en</strong>t results<br />
of the fusi<strong>on</strong> of the proposed system with a baseline, based <strong>on</strong><br />
a popular approach of mo<strong>de</strong>lling utterance-level prosodic features<br />
with SVM. We show that the proposed approach, namely<br />
prosodic SVM-GMM, mo<strong>de</strong>ls distances am<strong>on</strong>g complete join<br />
probability distributi<strong>on</strong>s of the prosodic features, and not <strong>on</strong>ly<br />
with some significant values, as happ<strong>en</strong> with the baseline system.<br />
Moreover, the fusi<strong>on</strong> of both systems significantly improves<br />
the performance of proposed approach, which indicates<br />
uncorrelated informati<strong>on</strong> am<strong>on</strong>g both methods. We evaluate<br />
the proposed system in a speaker-<strong>de</strong>p<strong>en</strong><strong>de</strong>nt and a speakerin<strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />
sc<strong>en</strong>ario. Experim<strong>en</strong>ts are pres<strong>en</strong>ted using the<br />
SUSAS database [6].<br />
This work is organised as follows. The role of prosody and<br />
the proposed prosodic parametrizati<strong>on</strong> is <strong>de</strong>scribed in Secti<strong>on</strong><br />
2. In Secti<strong>on</strong> 3, the proposed system is <strong>de</strong>scribed in <strong>de</strong>tail, as<br />
well as the baseline and the approach for fusi<strong>on</strong> of both systems.<br />
Secti<strong>on</strong> 4 <strong>de</strong>scribes the experim<strong>en</strong>tal work which shows<br />
the a<strong>de</strong>quacy of the approach. Finally, c<strong>on</strong>clusi<strong>on</strong>s are drawn in<br />
Secti<strong>on</strong> 5.<br />
2. Prosodic features for emoti<strong>on</strong> recognit<strong>on</strong><br />
Many works had shown the relati<strong>on</strong> betwe<strong>en</strong> the variati<strong>on</strong> of<br />
speaker prosody and the informati<strong>on</strong> of their emoti<strong>on</strong>al states<br />
[7]. Therefore prosodic features are oft<strong>en</strong> c<strong>on</strong>si<strong>de</strong>red as input<br />
signals in many emoti<strong>on</strong> recogniti<strong>on</strong> systems. Frequ<strong>en</strong>t<br />
prosodic features are the fundam<strong>en</strong>tal frequ<strong>en</strong>cy (pitch), the <strong>en</strong>ergy<br />
and their velocity, also known as ∆ features [8].<br />
The proposed GMM-SVM approach in this work uses a<br />
prosodic feature extracti<strong>on</strong> scheme in the following way: the<br />
audio signal is windowed every 10ms using a 40ms Hamming
window. For every window, <strong>en</strong>ergy and log pitch values are extracted<br />
(Fig.1) using Praat [9] toolbox. In vocal segm<strong>en</strong>ts, velocity<br />
informati<strong>on</strong> is obtained as a differ<strong>en</strong>ce betwe<strong>en</strong> two c<strong>on</strong>secutive<br />
windows. Using a voice activity <strong>de</strong>tector (VAD), n<strong>on</strong>voiced<br />
segm<strong>en</strong>ts are erased by accepting <strong>on</strong>ly those windows<br />
with pitch and <strong>en</strong>ergy values higher than a threshold. As a c<strong>on</strong>sequ<strong>en</strong>ce,<br />
for every utterance u, the feature vector set c<strong>on</strong>sist<br />
of a set of d = 4 dim<strong>en</strong>si<strong>on</strong>al feature vectors, or streams ( <strong>en</strong>ergy,<br />
pitch and their ∆ features). It is possible to normalize each<br />
stream by subtracting its mean value. Energy and <strong>de</strong>lta-<strong>en</strong>ergy<br />
normalizati<strong>on</strong> have be<strong>en</strong> applied to the proposed GMM-SVM<br />
approach while <strong>on</strong>ly <strong>en</strong>ergy normalizati<strong>on</strong> for the baseline.<br />
Figure 2: Block diagram of the GMM Supervector based SVM.<br />
3.2. Baseline approach<br />
The baseline system is based <strong>on</strong> a popular scheme pres<strong>en</strong>ted<br />
in [8]. For every utterance u, the statistical distributi<strong>on</strong> of the<br />
prosodic vectors is characterized by computing n = 9 values<br />
for each <strong>on</strong>e of the prosodic streams (table 1). Thus, we obtain<br />
a L = d ∗ n fixed-l<strong>en</strong>gth feature vector per utterance. This<br />
new <strong>de</strong>rived L-dim<strong>en</strong>si<strong>on</strong>al feature space is where emoti<strong>on</strong>s are<br />
mo<strong>de</strong>led by using a <strong>on</strong>e-versus-all linear SVM (Figure 3. Note<br />
that this L-dim<strong>en</strong>si<strong>on</strong>al feature vector can be se<strong>en</strong> as the result<br />
of a kernel functi<strong>on</strong> l(u), that maps the d-dim<strong>en</strong>si<strong>on</strong>al prosodic<br />
vectors of u into a L-dim<strong>en</strong>si<strong>on</strong>al feature space.<br />
Figure 1: Block diagram of the prosodic feature extracti<strong>on</strong> module.<br />
3. A prosodic GMM-SVM approach for<br />
emoti<strong>on</strong> <strong>de</strong>tecti<strong>on</strong><br />
This secti<strong>on</strong> <strong>de</strong>tails the novel prosodic GMM-SVM system proposed<br />
in this paper, the baseline mo<strong>de</strong>lling scheme and the fusi<strong>on</strong><br />
approach for combining informati<strong>on</strong> from both systems.<br />
3.1. Proposed approach<br />
SVM-GMM supervectors have be<strong>en</strong> previously used for emoti<strong>on</strong><br />
recogniti<strong>on</strong> at the spectral level of the speech in [10]. This<br />
technique also shows an excell<strong>en</strong>t performance in speaker and<br />
language recogniti<strong>on</strong>. The main advantage of this proposed<br />
technique is that it is capable to summarize the whole probability<br />
<strong>de</strong>nsity functi<strong>on</strong> (pdf) of the feature vectors in utterance u,<br />
into a single high-dim<strong>en</strong>si<strong>on</strong>ality vector known as a GMM supervector.<br />
This supervector is obtained by the c<strong>on</strong>cat<strong>en</strong>ati<strong>on</strong> of<br />
the vectors of means of a d-dim<strong>en</strong>si<strong>on</strong>al GMM mo<strong>de</strong>l obtained<br />
from all the d-dim<strong>en</strong>si<strong>on</strong>al prosodic vectors in the utterance (<br />
Figure 2 ). The M-mixture GMM, is calculated as a Maximum<br />
a Posteriori Adaptati<strong>on</strong> (MAP) from a Universal background<br />
Mo<strong>de</strong>l (UBM), which is an standard M-mixtures GMM mo<strong>de</strong>l,<br />
trained with a large amount of <strong>de</strong>velopm<strong>en</strong>t data from all the<br />
emoti<strong>on</strong>al states available. Thus, the UBM aims at repres<strong>en</strong>ting<br />
the emoti<strong>on</strong>-in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt statistical distributi<strong>on</strong> of the features.<br />
The GMM supervector can be c<strong>on</strong>si<strong>de</strong>red as a kernel functi<strong>on</strong><br />
sv(u) that maps the prosodic features of u in a highdim<strong>en</strong>si<strong>on</strong>al<br />
vector of size L ′ = M ∗ d. This L ′ -dim<strong>en</strong>si<strong>on</strong>al<br />
supervector space is where an SVM is used to obtain a final<br />
mo<strong>de</strong>l ⃗w e of the target emoti<strong>on</strong> e. In this case the scoring functi<strong>on</strong><br />
s ′ (w e, sv(u test)) for every testing utterance u test is <strong>de</strong>fined<br />
as follows<br />
s ′ ( ⃗w e, sv(u⃗<br />
test)) = ⃗w e ∗<br />
sv(u⃗<br />
test) T<br />
Figure 3: Block diagram of the Baseline Classifier.<br />
Giv<strong>en</strong> an SVM mo<strong>de</strong>l ⃗w e of an emoti<strong>on</strong> e, the scoring functi<strong>on</strong><br />
s( ⃗w, l(u)) ⃗ for every test utterance u test is a simple dot<br />
product computed as follows:<br />
s( ⃗w e, l(u⃗<br />
test)) = ⃗w e ∗<br />
l(u⃗<br />
test) T<br />
Table 1: Statistical coeffici<strong>en</strong>ts extracted for every prosodic<br />
stream in the Baseline approach.<br />
Coeffici<strong>en</strong>ts<br />
Maximum<br />
Minimum<br />
Mean<br />
Standard <strong>de</strong>viati<strong>on</strong><br />
Median<br />
First quartile<br />
Third quartile<br />
Skewness<br />
Kurtosis<br />
On the <strong>on</strong>e hand, the similarities betwe<strong>en</strong> the proposed<br />
prosodic GMM-SVM system and the baseline are: i) Previous<br />
d-dim<strong>en</strong>si<strong>on</strong>al prosodic features vectors are used as inputs, ii)<br />
The mo<strong>de</strong>ling of their l<strong>on</strong>g-term statistical distributi<strong>on</strong> (pdf)<br />
of the vectors in u by using linear SVMs and iii) Both cases<br />
are an attempt to characterize pdf. Nevertheless, the method<br />
used to characterize pdf’s differs betwe<strong>en</strong> both pres<strong>en</strong>ted subsystem.<br />
As a c<strong>on</strong>sequ<strong>en</strong>ce, not <strong>on</strong>ly performances differ, also
uncorrelated scores are g<strong>en</strong>erated. This fact motivates a posterior<br />
subsystem fusi<strong>on</strong> in or<strong>de</strong>r to increase the final performance<br />
achieved. On the other hand, the baseline <strong>on</strong>ly uses a small set<br />
of well performing values to characterize the pdf of the vectors<br />
in every u, but probably they are not seizing the whole informati<strong>on</strong><br />
embed<strong>de</strong>d in it. Note for example that the baseline subsystem<br />
compute the n statistical values stream by stream, not using<br />
the correlated informati<strong>on</strong> am<strong>on</strong>g them.<br />
3.3. Subsystem fusin<br />
Final scores g<strong>en</strong>erated by the system are combinati<strong>on</strong>s of<br />
s ′ ( ⃗w e, sv(u test)) and s( ⃗w e, sv(u test)). Combinati<strong>on</strong> is performed<br />
as a sum fusi<strong>on</strong> prece<strong>de</strong>d of a test normalizati<strong>on</strong> (Tnorm<br />
[ref]) stage, which fosters a similar range of the scores of both<br />
subsystems. Tnrom cohort is form by the whole set of emoti<strong>on</strong>s<br />
mo<strong>de</strong>ls w e, for e = 1...N emoti<strong>on</strong>s. The final combined score<br />
S( ⃗w e, u test) is computed as follows<br />
S( ⃗w e, u test) = s′ ( ⃗w e, sv(u test)) − µ ′ s( ⃗we, sv(utest)) − µ<br />
+<br />
std ′ std<br />
Where µ ′ and µ are the means of the cohort scores, and std ′<br />
and std the standard <strong>de</strong>viati<strong>on</strong>s. Referred to the Proposed and<br />
Baseline systems respectively.<br />
4.1. Databases<br />
4. Experim<strong>en</strong>ts<br />
The proposed emoti<strong>on</strong> recogniti<strong>on</strong> system has be<strong>en</strong> tested over<br />
the English SUSAS database ( Speech Un<strong>de</strong>r Simulated And<br />
Actual Stress ). SUSAS has be<strong>en</strong> employed frequ<strong>en</strong>tly in the<br />
study of the effects of speech producti<strong>on</strong> and recogniti<strong>on</strong>, wh<strong>en</strong><br />
speaking un<strong>de</strong>r stressed c<strong>on</strong>diti<strong>on</strong>s [8]. This database was <strong>de</strong>signed<br />
originally by John H.L. Hans<strong>en</strong>, et al. in 1998 for speech<br />
recogniti<strong>on</strong> un<strong>de</strong>r stress. All speech files from SUSAS database<br />
were sampled at 8kHz, and 16-bit integers. SUSAS Simulated<br />
subcorpora c<strong>on</strong>tains speech from 9 speakers and 11 speaking<br />
styles. They inclu<strong>de</strong> 7 simulated styles (slow, fast, soft,<br />
questi<strong>on</strong>, clear <strong>en</strong>unciati<strong>on</strong>, angry) and four other styles<br />
un<strong>de</strong>r differ<strong>en</strong>t workload c<strong>on</strong>diti<strong>on</strong>s (high, c<strong>on</strong>d70, c<strong>on</strong>d50,<br />
mo<strong>de</strong>rate). SUSAS Actual speech c<strong>on</strong>tains speech from 11<br />
speakers, and 5 differ<strong>en</strong>t and real stress c<strong>on</strong>diti<strong>on</strong>s (neutral,<br />
medst, hist, freefall, scream). Actual and Simulated subcorpora<br />
c<strong>on</strong>tains 35 spok<strong>en</strong> words with 2 realisati<strong>on</strong> of each,<br />
for every speaker and speaking style. The SUSAS database has<br />
be<strong>en</strong> selected for the following reas<strong>on</strong>s: i) pres<strong>en</strong>ts a large set<br />
of target emoti<strong>on</strong>s; ii) allows comparis<strong>on</strong>s with previous work<br />
in the literature; iii) speaker IDs are available; and iv) there<br />
exist simulated and actual emoti<strong>on</strong>al states. These two last subcorpora,<br />
namely Simulated and Actual, have characteristics differ<strong>en</strong>t<br />
<strong>en</strong>ough to c<strong>on</strong>si<strong>de</strong>r them as differ<strong>en</strong>t databases.<br />
4.2. Results<br />
Speaker inter-variability can cause that differ<strong>en</strong>t emoti<strong>on</strong>s and<br />
differ<strong>en</strong>t speakers may be located in the same regi<strong>on</strong> in the feature<br />
space. This drawback can be comp<strong>en</strong>sated by using speaker<br />
in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt emoti<strong>on</strong> mo<strong>de</strong>ls. To compare the performance improvem<strong>en</strong>t<br />
betwe<strong>en</strong> both sc<strong>en</strong>arios, we carried out speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />
and speaker in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts. Experim<strong>en</strong>ts are<br />
performed for both SUSAS subcorporas, Simulated and Actual.<br />
Both subcorpus have be<strong>en</strong> divi<strong>de</strong>d in three n<strong>on</strong>-overlapped sets<br />
with equival<strong>en</strong>t amount of data: training set, testing set, and a<br />
<strong>de</strong>velopm<strong>en</strong>t set used for UBM training.<br />
Any mo<strong>de</strong>l w e(spk) or w ′ e(spk), for the baseline and the<br />
proposed prosodic GMM-SVM subsystems respectively, will<br />
be <strong>de</strong>noted as w e(spk) for simplicity. Performance results will<br />
be measured in terms of equal error rate (EER), which is a popular<br />
performance measure for any <strong>de</strong>tecti<strong>on</strong> task.<br />
4.2.1. Speaker In<strong>de</strong>p<strong>en</strong><strong>de</strong>nt Experim<strong>en</strong>ts<br />
For <strong>de</strong>tecti<strong>on</strong> of target emoti<strong>on</strong> e, every mo<strong>de</strong>l w e is trained using<br />
data bel<strong>on</strong>ging to e as the target class, and any other emoti<strong>on</strong><br />
as the n<strong>on</strong>-target class. Therefore we will obtain 11 emoti<strong>on</strong><br />
mo<strong>de</strong>ls for Simulated speech and 5 mo<strong>de</strong>ls for Actual speech.<br />
In or<strong>de</strong>r to obtain results not affected by speaker overfitting,<br />
training, testing, and <strong>de</strong>velopm<strong>en</strong>t sets, each experim<strong>en</strong>tal subset<br />
of SUSAS will be built with differ<strong>en</strong>t speakers.<br />
Table 2: EER(%) in Speaker In<strong>de</strong>p<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts for<br />
SUSAS Simulated speech. R.I. <strong>de</strong>notes the relative improvem<strong>en</strong>t<br />
of Combine in respect of Baseline.<br />
Emoti<strong>on</strong> Baseline Proposed Combined R.I. %<br />
angry 18.16 20.47 16.73 +7.87<br />
clear 42.68 31.04 31.99 +25.05<br />
c<strong>on</strong>d50 40.76 39.84 38.22 +6.23<br />
c<strong>on</strong>d70 42.28 40.21 40.43 +4.37<br />
fast 24.31 27.23 20.63 +15.13<br />
lombard 51.24 42.06 42.55 +16.96<br />
loud 23.03 24.57 21.03 +8.68<br />
neutral 36.29 35.33 34.38 +5.26<br />
questi<strong>on</strong> 12.44 4.38 4.38 +64.79<br />
slow 19.60 26.10 22.46 -14.59<br />
soft 20.65 38.19 22.26 -7.79<br />
Avg. EER 30.13 29.94 26.82 +10.37<br />
Table 3: EER(%) in Speaker In<strong>de</strong>p<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts for<br />
SUSAS Actual speech.<br />
Emoti<strong>on</strong> Baseline Proposed Combined R.I. %<br />
neutral 35.12 34.61 33.31 +5.15<br />
medst 40.99 42.21 41.51 -1.26<br />
hist 36.82 38.97 35.75 +2.9<br />
freefall 25.07 54.75 31.29 -24.81<br />
scream 6.46 11.68 7.6 -17.64<br />
Avg. EER 28.89 36.04 29.78 -3.08<br />
Results in tables 2 and 3 shows better performance for Actual<br />
subcorpus than for Simulated <strong>on</strong>e. This fact is probably<br />
cuased by the less number of target classes, which makes the<br />
performance of the <strong>de</strong>tecti<strong>on</strong> of a target emoti<strong>on</strong> with respect to<br />
the rest easier. Also note that the EER for similar classes such<br />
as c<strong>on</strong>d50, c<strong>on</strong>d70 and lombard is higher than for other more<br />
differ<strong>en</strong>tiable emoti<strong>on</strong>s such as questi<strong>on</strong> and angry. This emphasizes<br />
the str<strong>on</strong>g <strong>de</strong>p<strong>en</strong><strong>de</strong>nce of the performance <strong>on</strong> the emoti<strong>on</strong><br />
set.<br />
4.2.2. Speaker Dep<strong>en</strong><strong>de</strong>nt Experim<strong>en</strong>ts<br />
For a speaker spk and a target emoti<strong>on</strong> e, every mo<strong>de</strong>l w e(spk)<br />
is trained using all the utterances bel<strong>on</strong>ging to simultaneously<br />
spk and e for the target mo<strong>de</strong>l. N<strong>on</strong>-target mo<strong>de</strong>l is trained in<br />
this sc<strong>en</strong>ario using data from all speakers and emoti<strong>on</strong>s except<br />
those inclu<strong>de</strong>d in the target mo<strong>de</strong>l training set.
Table 4: EER(%) in Speaker Dep<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts for SUSAS<br />
Simulated speech.<br />
Emoti<strong>on</strong> Baseline Proposed Combined R.I. %<br />
angry 11.07 12.00 9.04 +18.33<br />
clear 37.51 26.31 26.34 +29.77<br />
c<strong>on</strong>d50 37.40 33.61 32.38 +13.42<br />
c<strong>on</strong>d70 37.17 33.52 33.14 +10.84<br />
fast 20.18 19.71 15.62 +22.59<br />
lombard 31.14 29.02 26.63 +14.48<br />
loud 15.56 11.27 10.17 +34.64<br />
neutral 32.22 27.31 26.04 +19.18<br />
questi<strong>on</strong> 5.80 3.19 1.98 +65.86<br />
slow 16.66 15.08 13.17 +20.94<br />
soft 10.13 15.67 10.18 -0.49<br />
Avg. EER 23.16 19.70 18.60 +19.68<br />
Table 5: EER(%) in Speaker Dep<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts for SUSAS<br />
Actual speech.<br />
Emoti<strong>on</strong> Baseline Proposed Combined R.I. %<br />
neutral 18.23 17.21 15.23 +16.45<br />
medst 27.06 24.29 22.79 +15.77<br />
hist 23.35 21.53 19.85 +14.98<br />
freefall 25.40 19.27 20.97 +17.44<br />
scream 8.31 5.72 5.72 +31.16<br />
Avg. EER 20.47 17.60 16.91 +17.39<br />
Results in tables 4 and 5 shows that by combining individual<br />
classifiers in a speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt framework, we can<br />
achieve better performance than for any of them separately. Relative<br />
improvem<strong>en</strong>ts of the combined approach respect to the<br />
baseline are about 17.4% or 19.7% in Actual and Simulated<br />
speech respectively. Table 6 also shows that class overlapping<br />
is remarkable reduced betwe<strong>en</strong> speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt and in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />
schemes. Note that the Combined system achieves a relative<br />
improvem<strong>en</strong>t about 30.64% wh<strong>en</strong> it is evaluated in Actual<br />
subcorpus. Relative improvem<strong>en</strong>t is about 43.21% for Simulated<br />
subcorpus.<br />
5. C<strong>on</strong>clusi<strong>on</strong>s<br />
This work introduces a novel approach for emoti<strong>on</strong> recogniti<strong>on</strong><br />
using prosodic features. The porposed approaches mo<strong>de</strong>ls<br />
the statistical distributi<strong>on</strong> of short-term pitch, <strong>en</strong>ergy and<br />
their velocities by a GMM, and the a SVM classificati<strong>on</strong> of in<br />
the mean-supervector space of the mo<strong>de</strong>ls gives the final score<br />
for <strong>de</strong>tecti<strong>on</strong>. We compare this prosodic GMM-SVM system<br />
with a baseline implem<strong>en</strong>ting a popular approach also at the<br />
prosodic level. Moreover, we explore a combinati<strong>on</strong> (fusi<strong>on</strong>)<br />
approach with a baseline system, which further increases performance.<br />
The task is pres<strong>en</strong>ted as a verificati<strong>on</strong> or <strong>de</strong>tecti<strong>on</strong><br />
problem measured in terms of EER. The experim<strong>en</strong>tal set-up<br />
is based <strong>on</strong> two subcorpus of the SUSAS database, as well as<br />
in two differ<strong>en</strong>t experim<strong>en</strong>tal frameworks: speaker-in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />
and speaker-<strong>de</strong>p<strong>en</strong><strong>de</strong>nt. According to results we c<strong>on</strong>clu<strong>de</strong> that<br />
the proposed approach achieved equal or better results than the<br />
baseline. Remarkably <strong>en</strong>ough, the fusi<strong>on</strong> of both approaches in<br />
a speaker-<strong>de</strong>p<strong>en</strong><strong>de</strong>nt framework yields performance improvem<strong>en</strong>ts<br />
by a factor of 17.4% or 19.7% respectively for Actual<br />
and Simulated subcorpus. We also c<strong>on</strong>clu<strong>de</strong> that by removing<br />
Table 6: Comparati<strong>on</strong> betwe<strong>en</strong> speaker in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt and<br />
speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts<br />
Subcorpus Approach Spk. Ind. Spk. Dep. R.I.%<br />
Baseline 30.13 23.16 +23.13<br />
Actual Proposed 29.94 19.70 +34.20<br />
Combined 26.82 18.60 +30.64<br />
Baseline 28.89 20.47 +29.14<br />
Simulated Proposed 36.04 17.0 +52.83<br />
Combined 29.78 16.91 +43.21<br />
speaker inter-variability the system performance significantly<br />
improves. The relative improvem<strong>en</strong>t is about 30.64% wh<strong>en</strong> it is<br />
evaluated in Actual subcorpus and about 43.21% for Simulated<br />
subcorpus.<br />
The use of new improved c<strong>on</strong>figurati<strong>on</strong>s for pitch c<strong>on</strong>tinuous<br />
estimati<strong>on</strong> will be addressed in future work as well as the<br />
combinati<strong>on</strong> of prosodic and acoustic level of features.<br />
6. Refer<strong>en</strong>ces<br />
[1] Rosalind W. Picard, Affective Computing, The MIT Press,<br />
September 1997.<br />
[2] L.C. De Silva, T. Miyasato, and R. Nakatsu, “Facial<br />
emoti<strong>on</strong> recogniti<strong>on</strong> using multi-modal informati<strong>on</strong>”, Sep<br />
1997, vol. 1, pp. 397–401 vol.1.<br />
[3] Björn Schuller, Stefan Steidl, and Ant<strong>on</strong> Batliner, “The<br />
interspeech 2009 emoti<strong>on</strong> chall<strong>en</strong>ge”, 2009.<br />
[4] Zhih<strong>on</strong>g Z<strong>en</strong>g, M. Pantic, G. I. Roisman, and T. S. Huang,<br />
“A survey of affect recogniti<strong>on</strong> methods: Audio, visual,<br />
and sp<strong>on</strong>taneous expressi<strong>on</strong>s”, Pattern Analysis and Machine<br />
Intellig<strong>en</strong>ce, IEEE Transacti<strong>on</strong>s <strong>on</strong>, vol. 31, no. 1,<br />
pp. 39–58, 2009.<br />
[5] D. Ramos, J. G<strong>on</strong>zalez-Rodriguez, J. G<strong>on</strong>zalez-<br />
Dominguez, and J. J. Luc<strong>en</strong>a-Molina, “Addressing<br />
database mismatch in for<strong>en</strong>sic speaker recogniti<strong>on</strong> with<br />
ahumada iii: a public real-case database in spanish”, in<br />
Proceedings of Interspeech 2008, September 2008, pp.<br />
1493–1496.<br />
[6] J.H.L. Hans<strong>en</strong> and S.E. Bou-Ghazale, “Getting started<br />
with susas: a speech un<strong>de</strong>r simulated and actual stress<br />
database”, in EUROSPEECH-1997, 1997, pp. 1743–<br />
1746.<br />
[7] J.H.L. Hans<strong>en</strong> and S. Patil, “Speech un<strong>de</strong>r stress: Analysis,<br />
mo<strong>de</strong>ling and recogniti<strong>on</strong>”, in Speaker Classificati<strong>on</strong><br />
(1). 2007, vol. 4343 of Lecture Notes in Computer Sci<strong>en</strong>ce,<br />
pp. 108–137, Springer.<br />
[8] Oh-Wook Kw<strong>on</strong>, Kwokleung Chan, Jiucang Hao, and Te-<br />
W<strong>on</strong> Lee, “Emoti<strong>on</strong> recogniti<strong>on</strong> by speech signals”, in<br />
EUROSPEECH-2003, 2003, pp. 125–128.<br />
[9] P. Boersma and D. We<strong>en</strong>ink, “Praat: doing ph<strong>on</strong>etics by<br />
computer (versi<strong>on</strong> 5.1.04) [computer program]”, Ap 2009,<br />
http://www.praat.org/.<br />
[10] Hao Hu, Ming-Xing Xu, and Wei Wu, “Gmm supervector<br />
based svm with spectral features for speech emoti<strong>on</strong><br />
recogniti<strong>on</strong>”, in Acoustics, Speech and Signal Processing,<br />
2007. ICASSP 2007. IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong>,<br />
2007, vol. 4, pp. IV–413–IV–416.
Anchor Mo<strong>de</strong>l Fusi<strong>on</strong> for Emoti<strong>on</strong> Recogniti<strong>on</strong><br />
in Speech<br />
Carlos Ortego-Resa, Ignacio Lopez-Mor<strong>en</strong>o<br />
, Joaquin G<strong>on</strong>zalez-Rodriguez, and Daniel Ramos<br />
<strong>ATVS</strong> Biometric Recogniti<strong>on</strong> Group, <strong>Universidad</strong> Aut<strong>on</strong>oma <strong>de</strong> Madrid, Spain<br />
carlos.ortego@estudiantes.uam.es,<br />
http://atvs.ii.uam.es/<br />
Abstract. Key words: emoti<strong>on</strong> recogniti<strong>on</strong>, anchor mo<strong>de</strong>ls, back<strong>en</strong>d,<br />
prosody, GMM supervectors, SVM.<br />
1 Introducti<strong>on</strong><br />
Automatic emoti<strong>on</strong> recogniti<strong>on</strong> in speech is ganing a str<strong>on</strong>g support in the sci<strong>en</strong>tific<br />
community due to its applicati<strong>on</strong>s to human-machine interacti<strong>on</strong> industry<br />
[1]. As a result new methodologies focused <strong>on</strong> a wi<strong>de</strong> range of informati<strong>on</strong> sources<br />
and classificati<strong>on</strong> schemes have emerged. This fact motivates the use of fusi<strong>on</strong><br />
schemes that seizes uncorrelated informati<strong>on</strong> of each scheme.<br />
It is comm<strong>on</strong> for this task to be stated as a multiclass classificati<strong>on</strong> problem.<br />
However, emoti<strong>on</strong> recogniti<strong>on</strong> can also be hea<strong>de</strong>d as a verificati<strong>on</strong> or <strong>de</strong>tecti<strong>on</strong><br />
problem. In such case, giv<strong>en</strong> an utterance x and a target emoti<strong>on</strong>al state e, from<br />
a N fe emoti<strong>on</strong>s set, the objective is to <strong>de</strong>termine whether the dominant emoti<strong>on</strong><br />
that affect the speaker in the utterance is e (target class) or not (n<strong>on</strong>-target<br />
class). In such squeme any mo<strong>de</strong>l m e , and utterance x, can compute a similarity<br />
score <strong>de</strong>noted as s x,me . Classificati<strong>on</strong> is performance by comparing s x,me to a<br />
giv<strong>en</strong> threshold. In this work mo<strong>de</strong>ls M = [m j ], j ∈ {1, .., N fe } are <strong>de</strong>noted as<br />
fr<strong>on</strong>t-<strong>en</strong>d mo<strong>de</strong>ls in opositi<strong>on</strong> to back-<strong>en</strong>d mo<strong>de</strong>ls which are trained in advance<br />
using scores, such as s x,mj , as feature vectors.<br />
C<strong>on</strong>si<strong>de</strong>r that limits am<strong>on</strong>g emoti<strong>on</strong>s may not be clear and oft<strong>en</strong> overlaped,<br />
moreover wh<strong>en</strong> differ<strong>en</strong>t databases and differ<strong>en</strong>t target emoti<strong>on</strong>s are tak<strong>en</strong> into<br />
account. This fact leads, for mo<strong>de</strong>ls of differ<strong>en</strong>t emoti<strong>on</strong>s, to characteristicaly<br />
rate wh<strong>en</strong> they are compare to utterances of any emoti<strong>on</strong> e. And not <strong>on</strong>ly wh<strong>en</strong><br />
they are compare with the target mo<strong>de</strong>l. We expect for mo<strong>de</strong>ls in M to offer<br />
additi<strong>on</strong>al informati<strong>on</strong> that back-<strong>en</strong>d emoti<strong>on</strong> mo<strong>de</strong>ls can learn.<br />
This work propuses a novel back-<strong>en</strong>d approach that combines outputs from<br />
N sys differ<strong>en</strong>t classificati<strong>on</strong> schemes. It is based <strong>on</strong> anchor mo<strong>de</strong>ls [2] and supports<br />
the final <strong>de</strong>cissi<strong>on</strong> not <strong>on</strong>ly <strong>on</strong> the target emoti<strong>on</strong> mo<strong>de</strong>l but also <strong>on</strong> the<br />
relati<strong>on</strong>ship am<strong>on</strong>g all the avaible mo<strong>de</strong>ls in M.<br />
In or<strong>de</strong>r to show the viability of this novelty technique in various embirom<strong>en</strong>ts,<br />
three emoti<strong>on</strong>al labeled corporas have be<strong>en</strong> used: Ahumada III [3]., SUSAS<br />
Simulated and SUSAS Actual [4]. AMF have be<strong>en</strong> used to combine scores from
2 Authors Suppressed Due to Excessive L<strong>en</strong>gth<br />
two prosidic emoti<strong>on</strong> recogniti<strong>on</strong> systems <strong>de</strong>noted as GMM-SVM and statistics-<br />
SVM. Performance results will be measured in terms of equal error rate (EER),<br />
average EER and relative improvem<strong>en</strong>t in the EER, which are popular performance<br />
measures for any <strong>de</strong>tecti<strong>on</strong> task.<br />
This work is organised as follows. The role of anchor mo<strong>de</strong>ls <strong>de</strong>scribed in<br />
Secti<strong>on</strong> 2. In Secti<strong>on</strong> 3, the proposed AMF system is <strong>de</strong>scribed in <strong>de</strong>tail. Secti<strong>on</strong> 4<br />
<strong>de</strong>scribes fr<strong>on</strong>t-<strong>en</strong>d systems implem<strong>en</strong>ted as well as the prosodic parametrizatin.<br />
The experim<strong>en</strong>tal work which shows the a<strong>de</strong>quacy of the approach is shown in<br />
5.2. Finally, c<strong>on</strong>clusi<strong>on</strong>s are drawn in Secti<strong>on</strong> 6.<br />
2 Anchor mo<strong>de</strong>ls<br />
Giv<strong>en</strong> a speech utterance x from a unknown spok<strong>en</strong> emoti<strong>on</strong>, and a fr<strong>on</strong>t-<strong>en</strong>d<br />
emoti<strong>on</strong> recogti<strong>on</strong> system that mo<strong>de</strong>ls N fe target emoti<strong>on</strong>s M = [m j ], j ∈<br />
{1, .., N fe }. A similarity score s x,mj , can be obtain as a result of comparing x<br />
against any emoti<strong>on</strong> mo<strong>de</strong>l m j .<br />
C<strong>on</strong>si<strong>de</strong>r that m j is replaced by all the mo<strong>de</strong>ls in M. In this case, for every<br />
utterance x we obtain a N fe dim<strong>en</strong>si<strong>on</strong>al vector ¯S x,M that stacks all posible<br />
values of s mj,x, j ∈ {1, .., N fe }.<br />
¯S x,M = [s x,m1 · · · s x,mN ] (1)<br />
This scheme <strong>de</strong>fines a <strong>de</strong>rived similarity feature space known as anchor mo<strong>de</strong>l<br />
space in which every utterance x can be projected. The anchor mo<strong>de</strong>l projecti<strong>on</strong><br />
allows for back-<strong>en</strong>d data driv<strong>en</strong> classifiers, to train in advance new emoti<strong>on</strong><br />
mo<strong>de</strong>ls M ′ = [m ′ j ], j ∈ {1, .., N be}, by learning the realative behavior of the<br />
speech utterance x with respect to M. This relative behaviour is shown in figure<br />
1 where utterances from four emoti<strong>on</strong>s (angry, questi<strong>on</strong>, neutral, extressed,) are<br />
compared with two differ<strong>en</strong>t cohorts M of anchor mo<strong>de</strong>ls.<br />
Notice that the N fe fr<strong>on</strong>t-<strong>en</strong>d mo<strong>de</strong>ls in M do not need to match with the N be<br />
target mo<strong>de</strong>ls in the back-<strong>en</strong>d stage, <strong>de</strong>noted as M ′ . However, feature vectors<br />
from the target emoti<strong>on</strong>s mo<strong>de</strong>ls in the back-<strong>en</strong>d stage M ′ require to behave<br />
distinguishably with respect to mo<strong>de</strong>ls in M.<br />
3 Anchor Mo<strong>de</strong>l Fusi<strong>on</strong> (AMF) back-<strong>en</strong>d<br />
AMF is a data-driv<strong>en</strong> approach that have shown an excel<strong>en</strong>t performance wh<strong>en</strong> it<br />
is applied in language rec<strong>on</strong>gniti<strong>on</strong> ph<strong>on</strong>e-SVM mo<strong>de</strong>ls [5]. In AMF, the cohort of<br />
mo<strong>de</strong>ls M is built by including all the available mo<strong>de</strong>ls from the N sys emoti<strong>on</strong><br />
recogniti<strong>on</strong> systems in the fr<strong>on</strong>t-<strong>en</strong>d. Resulting AMF similaritie vector of the<br />
utterance x, <strong>de</strong>noted as S AM , stacks the N sys values of S j x,M<br />
over all emoti<strong>on</strong><br />
recogniti<strong>on</strong> system j in the fr<strong>on</strong>t-<strong>en</strong>d.<br />
S AM<br />
¯ (x, M) = [ ¯S1 x,m , · · · ¯S N ]<br />
sys<br />
x,m<br />
(2)
Anchor Mo<strong>de</strong>l Fusi<strong>on</strong> for Emoti<strong>on</strong> Recogniti<strong>on</strong> in Speech 3<br />
target emoti<strong>on</strong>: Angry<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
target emoti<strong>on</strong>: Questi<strong>on</strong><br />
Values<br />
0<br />
−0.2<br />
c7 fast lomb loud neutr quest slow soft<br />
−0.4<br />
−0.6<br />
−0.8<br />
−1<br />
angry clear c5 c7 fast lomb loud neutr quest slow soft<br />
target emoti<strong>on</strong>: Neutral<br />
30<br />
target emoti<strong>on</strong>: Extressed<br />
25<br />
20<br />
15<br />
Values<br />
10<br />
5<br />
0<br />
−5<br />
neutr−low neutr−extressed neutr<br />
−10<br />
extressed neutr−low neutr−extressed neutr<br />
Fig. 1. Up. Relative range of angry (left) and questi<strong>on</strong> (right) utterances over the a<br />
set M form by the emoti<strong>on</strong> mo<strong>de</strong>ls in SUSAS Simulated speech. Down. Relative range<br />
of neutral (left) and extressed (right) utterances over the a set M form by the emoti<strong>on</strong><br />
mo<strong>de</strong>ls in Ahumada III<br />
.<br />
Fig. 2 ilutrate the process in which S AM (x, M) is obtained by projecting x<br />
into the AMF space <strong>de</strong>fined by M.<br />
H<strong>en</strong>ce, the number of dim<strong>en</strong>si<strong>on</strong>s of AMF space is d = ∑ N sys<br />
j=1 N j, where N j<br />
is the number of mo<strong>de</strong>ls in the fr<strong>on</strong>t-<strong>en</strong>d system j. At this point, the objective is<br />
to boost the probability of finding a characteristic behavior of the speech pattern<br />
in the anchor mo<strong>de</strong>l space, by increasing d. This objective can be achieved by<br />
differ<strong>en</strong>t and complem<strong>en</strong>tary approaches: i) Including in M fr<strong>on</strong>t-<strong>en</strong>d mo<strong>de</strong>ls of<br />
the back-<strong>en</strong>d target emoti<strong>on</strong>s (M ′ ∈ M). ii) Including in M mo<strong>de</strong>ls from differ<strong>en</strong>t<br />
databases, and techniques, such as Gaussian Mixture Mo<strong>de</strong>ls (GMM), SVM, n-<br />
grams, etc [6]. iii) Including in M hierarchy emoti<strong>on</strong> mo<strong>de</strong>ls. The following<br />
example ilustrate this situati<strong>on</strong>. C<strong>on</strong>si<strong>de</strong>r that our goal is to separate betwe<strong>en</strong><br />
extressed and n<strong>on</strong> − extressed speakers, by uncluding in M mo<strong>de</strong>ls of emoti<strong>on</strong>s<br />
such as happy, anxious or angry back-<strong>en</strong>d results will be supported by the<br />
behavior of extressed and n<strong>on</strong> − extressed utterances over these hierarchily<br />
lower, emoti<strong>on</strong> mo<strong>de</strong>ls.<br />
Once every training and testing utterance is projected over the AMF space,<br />
any classifier can be used for training any back-<strong>en</strong>d emoti<strong>on</strong> in M ′ . In this
4 Authors Suppressed Due to Excessive L<strong>en</strong>gth<br />
Fig. 2. Diagram of g<strong>en</strong>erati<strong>on</strong> of features in the AMF space. ¯SAM (x, M) stacks the<br />
similarities of x i over the set of mo<strong>de</strong>ls m l j, for language j and subsystem l<br />
.<br />
work, SVM were applied due to its robustness while the dim<strong>en</strong>si<strong>on</strong> of the AMF<br />
increases.<br />
4 Emoti<strong>on</strong> recogniti<strong>on</strong> systems fr<strong>on</strong>-<strong>en</strong>d<br />
This secti<strong>on</strong> <strong>de</strong>tails the prosodic parametres extracted from the audio signal,<br />
and used as input vectors for both fr<strong>on</strong>t-<strong>en</strong>d systems implem<strong>en</strong>ted. Subsecti<strong>on</strong>s<br />
4.2 and 4.3 <strong>de</strong>scrives in more <strong>de</strong>tail their implem<strong>en</strong>tati<strong>on</strong>.<br />
4.1 Prosodic features for emoti<strong>on</strong> recognit<strong>on</strong><br />
Prosodic features are oft<strong>en</strong> c<strong>on</strong>si<strong>de</strong>red as input signals for emoti<strong>on</strong> recogniti<strong>on</strong><br />
systems due to their relati<strong>on</strong> with the emoti<strong>on</strong>al state informati<strong>on</strong> [4]. In this<br />
work prosodic features c<strong>on</strong>sist of a set of d = 4 dim<strong>en</strong>si<strong>on</strong>al vectors with the<br />
sort-term coeffici<strong>en</strong>ts of <strong>en</strong>ergy, the logarithm of the pitch and their velocity<br />
coeffici<strong>en</strong>ts, also known as ∆ features. These coeffici<strong>en</strong>ts are extracted <strong>on</strong>ly from<br />
voiced segm<strong>en</strong>ts with an <strong>en</strong>ergy value higher than the 90% of the dinamic range.<br />
Mean normalizati<strong>on</strong> have be<strong>en</strong> used for <strong>en</strong>ergy and ∆-<strong>en</strong>ergy coeffici<strong>en</strong>ts. Pitch<br />
and <strong>en</strong>ergy have be<strong>en</strong> computed by using Praat [7].
Anchor Mo<strong>de</strong>l Fusi<strong>on</strong> for Emoti<strong>on</strong> Recogniti<strong>on</strong> in Speech 5<br />
4.2 prosodic GMM-SVM<br />
Previous works have shown the excelet performance of SVM-GMM supervectors<br />
in the tasks of language and speaker recogniti<strong>on</strong>, while the applicati<strong>on</strong> of this<br />
technique to the prosodic level of the speech were firstly introduced in [8].<br />
This technique can be se<strong>en</strong> as a sec<strong>on</strong>dary parametrizati<strong>on</strong> capable to summarize<br />
the distributi<strong>on</strong> of the feature vectors in x, into a single high-dim<strong>en</strong>si<strong>on</strong>ality<br />
vector. This high-dim<strong>en</strong>si<strong>on</strong>ality vector is known as a GMM supervector. In or<strong>de</strong>r<br />
to build the GMM supervector, first the prosodic vectors of x are used to<br />
train a M-mixtures GMM mo<strong>de</strong>l λ x , as a Maximun A Posteriori (AMP) adaptai<strong>on</strong><br />
of means from a g<strong>en</strong>eral GMM mo<strong>de</strong>l λ UBM . The GMM supervector of<br />
the utterance x is the c<strong>on</strong>cat<strong>en</strong>ati<strong>on</strong> of the M vectors of means in λ x .<br />
GMM supervector are oft<strong>en</strong> c<strong>on</strong>si<strong>de</strong>red as kernel functi<strong>on</strong>s µ(x) that maps<br />
prosodic features from dim<strong>en</strong>si<strong>on</strong> of d into a high-dim<strong>en</strong>si<strong>on</strong>al feature space of<br />
size L ′ = M ∗ d. Once every utterance is mapped into this L ′ -dim<strong>en</strong>si<strong>on</strong>al supervector<br />
space, linear SVM mo<strong>de</strong>ls are used to train the fr<strong>on</strong>t-<strong>en</strong>d emoti<strong>on</strong> mo<strong>de</strong>ls.<br />
Therefore, any m j is a L ′ -dim<strong>en</strong>si<strong>on</strong>al vector that repres<strong>en</strong>t an hiperplane that<br />
optimally, separate supervectors of utterances form the target emoti<strong>on</strong> j with<br />
respect to supervectors from other emoti<strong>on</strong>s.<br />
4.3 prosodic statistics-SVM<br />
This scheme is based <strong>on</strong> a previous work pres<strong>en</strong>ted in [9]. It c<strong>on</strong>sist <strong>on</strong> a statistical<br />
analisys of each prosodic coeffici<strong>en</strong>t followed by a SVM. The distriduti<strong>on</strong> of the<br />
prosodic values is charaztericed by computing n = 9 statistical coeffici<strong>en</strong>ts per<br />
feature (table 1). Once every utterance is mapped into this <strong>de</strong>rived feature space<br />
of dim<strong>en</strong>si<strong>on</strong> L = d ∗ n, fr<strong>on</strong>t-<strong>en</strong>d emoti<strong>on</strong>s mo<strong>de</strong>ls are obtained as linear <strong>on</strong>evs-all<br />
SVM mo<strong>de</strong>ls.<br />
Table 1. Statistical coeffici<strong>en</strong>ts extracted for every prosodic stream in the statistics-<br />
SVM approach.<br />
Coeffici<strong>en</strong>ts<br />
Maximum<br />
Minimum<br />
Mean<br />
Standard <strong>de</strong>viati<strong>on</strong><br />
Median<br />
First quartile<br />
Third quartile<br />
Skewness<br />
Kurtosis<br />
It is comm<strong>on</strong> for systems pres<strong>en</strong>ted in secti<strong>on</strong>s 4.3 and 4.2 to g<strong>en</strong>erate scores<br />
in differ<strong>en</strong>t ranks. This fact motivates the use of a posterior score normalizati<strong>on</strong>
6 Authors Suppressed Due to Excessive L<strong>en</strong>gth<br />
technique before they are used to built AMF feature vectors. Test normalizati<strong>on</strong><br />
(Tnorm [ref]) have be<strong>en</strong> used for this purpose. Tnorm estimate the scores distributi<strong>on</strong><br />
for every testing utterance x t by comparing x t over a cohort of mo<strong>de</strong>ls.<br />
The values of mean and variance of this distributi<strong>on</strong> are th<strong>en</strong> used to normalise<br />
the similarity scores of x t over any mo<strong>de</strong>l m j . In this work M have also be<strong>en</strong><br />
used as Tnorm cohort.<br />
5 Experim<strong>en</strong>ts<br />
5.1 Databases<br />
The proposed emoti<strong>on</strong> recogniti<strong>on</strong> system has be<strong>en</strong> tested over Ahumada III<br />
and SUSAS ( Speech Un<strong>de</strong>r Simulated And Actual Stress ) databases. Ahumada<br />
III is form by real for<strong>en</strong>sics cases recor<strong>de</strong>d by the spanish police forces<br />
(Guardia Civil). It inclu<strong>de</strong>s speech from 69 speakers and 4 emoti<strong>on</strong>al states<br />
(neutral, neutral-low, neutral-extressed, extressed) with 150 sec<strong>on</strong>ds training utterances<br />
while testing utterances are 10 and 5 sec<strong>on</strong>ds l<strong>en</strong>ght. SUSAS database<br />
is divi<strong>de</strong>d in two subcorpora from simulated and real spok<strong>en</strong> emoti<strong>on</strong>s. SUSAS<br />
Simulated subcorpora c<strong>on</strong>tains speech from 9 speakers and 11 speaking styles.<br />
They inclu<strong>de</strong> 7 simulated styles (slow, fast, soft, questi<strong>on</strong>, clear <strong>en</strong>unciati<strong>on</strong>,<br />
angry) and four other styles un<strong>de</strong>r differ<strong>en</strong>t workload c<strong>on</strong>diti<strong>on</strong>s (high, c<strong>on</strong>d70,<br />
c<strong>on</strong>d50, mo<strong>de</strong>rate). SUSAS Actual speech c<strong>on</strong>tains speech from 11 speakers, and<br />
5 differ<strong>en</strong>t and real stress c<strong>on</strong>diti<strong>on</strong>s (neutral, medst, hist, freefall, scream).<br />
Actual and Simulated subcorpora c<strong>on</strong>tains 35 spok<strong>en</strong> words with 2 realisati<strong>on</strong><br />
of each, for every speaker and speaking style.<br />
5.2 Results<br />
Experim<strong>en</strong>ts were carry out over corpora pres<strong>en</strong>ted in secti<strong>on</strong> 5.1 and systems<br />
pres<strong>en</strong>ted in secti<strong>on</strong>s 4.2 and 4.3.<br />
The GMM-SVM fr<strong>on</strong>t-<strong>en</strong>d system requires a set of <strong>de</strong>velopm<strong>en</strong>t data for<br />
building the mo<strong>de</strong>l λ UBM . Therefore every database were splited in two differ<strong>en</strong>t<br />
and n<strong>on</strong> overlaped sets. The first <strong>on</strong>e have be<strong>en</strong> used for training a M=256<br />
mixtures GMM mo<strong>de</strong>l (λ UBM ). For this purpose we used Expecteati<strong>on</strong> Maximizati<strong>on</strong><br />
(EM) algorithm. The sec<strong>on</strong>d set were used for implem<strong>en</strong>eting two stages<br />
of boot straping. A first stage is used for training and testing fr<strong>on</strong>t-<strong>en</strong>d mo<strong>de</strong>ls,<br />
while back-<strong>en</strong>d mo<strong>de</strong>ls are trained and tested during the sec<strong>on</strong>d stage. These two<br />
stages of boot straping repectively used a 90% and 10% of the available data for<br />
training and testing purposes.<br />
AMF cohort M is form with mo<strong>de</strong>ls from all databases and systems. Therefore<br />
for each <strong>on</strong>e of both fr<strong>on</strong>t-<strong>en</strong>d system we obatined 4 mo<strong>de</strong>ls from Ahumada<br />
corpus, 11 mo<strong>de</strong>ls from SUSAS Simulated corpus and 5 mo<strong>de</strong>ls from SUSAS<br />
Actual corpus. M inclu<strong>de</strong>s mo<strong>de</strong>ls for both systems as well as their sum fusi<strong>on</strong>,<br />
this scheme leads to a AMF space of (4 + 11 + 5) × 3 = 60 dim<strong>en</strong>si<strong>on</strong>s.<br />
In or<strong>de</strong>r to compare AMF with a baseline fusi<strong>on</strong> technique we performed<br />
a standard sum fusi<strong>on</strong> betwe<strong>en</strong> the scores of GMM-SVM and statistics-SVM
Anchor Mo<strong>de</strong>l Fusi<strong>on</strong> for Emoti<strong>on</strong> Recogniti<strong>on</strong> in Speech 7<br />
systems. Notice that sum fusi<strong>on</strong> outcomes the results obtained from any of both<br />
system individaualy.<br />
Table 2. Comparati<strong>on</strong> betwe<strong>en</strong> AMF and sum fusi<strong>on</strong> both implem<strong>en</strong>ted emoti<strong>on</strong> recogniti<strong>on</strong><br />
systems. Results in terms of EER(%) and relative improvem<strong>en</strong>t (R.I.) for<br />
SUSAS Simulated, SUSAS Simulated and Ahumada III<br />
SUSAS Simulated<br />
Emoti<strong>on</strong> Baseline AMF R.I. %<br />
angry 22.93 32.76 42.87<br />
clear 42.91 41.89 -2.38<br />
c<strong>on</strong>d50 41.01 33.57 -18.14<br />
c<strong>on</strong>d70 48.3 30.55 -36.75<br />
fast 30.21 16.81 -44.36<br />
lombard 34.85 38.65 10.9<br />
loud 27.65 13.2 -52.26<br />
neutral 40.53 35.31 -12.88<br />
questi<strong>on</strong> 3.86 3.52 -8.81<br />
slow 26.75 20.35 -23.93<br />
soft 22.07 22.54 2.13<br />
Avg. EER 31.01 26.29 -15.22<br />
SUSAS Actual<br />
Emoti<strong>on</strong> Baseline AMF R.I. %<br />
neutral 36.54 35.26 -3.5<br />
medst 46.95 50.08 6.67<br />
hist 42.57 39.14 -8.06<br />
freefall 25.86 24.66 -4.64<br />
scream 11.15 14.6 30.94<br />
Avg. EER 32.61 32.75 0.43<br />
AhumadaIII<br />
Emoti<strong>on</strong> Baseline AMF R.I. %<br />
neutral-low 50.21 30.02 -40.21<br />
neutral 33.77 33.92 0.44<br />
neutral-extressed 38.12 33.22 -12.85<br />
extressed 28.69 25.7 -10.42<br />
Avg. EER 37.7 30.72 -18.51<br />
Obtained results over Ahumada III and SUSAS Simulated (table 2 ) shows<br />
an average improvem<strong>en</strong>t larger than a 15%. Remarkable good results are obtained<br />
for neutral-low, loud and fast emoti<strong>on</strong> mo<strong>de</strong>ls while for mo<strong>de</strong>ls scream<br />
and angry a significant loss of performance is obtained, probably due to n<strong>on</strong><br />
mo<strong>de</strong>led variablity factors such as the speaker i<strong>de</strong>ntity.
8 Authors Suppressed Due to Excessive L<strong>en</strong>gth<br />
6 C<strong>on</strong>clusi<strong>on</strong>s<br />
This work introduces a novel approach for combining outputs from N sys emoti<strong>on</strong><br />
recogniti<strong>on</strong> systems in a robust way. The approach is based <strong>on</strong> the anchor<br />
mo<strong>de</strong>l space which <strong>de</strong>fines a <strong>de</strong>rived feature space where new back-<strong>en</strong>d mo<strong>de</strong>ls<br />
can be trained in advance. Wh<strong>en</strong> anchor mo<strong>de</strong>ls are used for fusing a set<br />
of fr<strong>on</strong>t-<strong>en</strong>d systems, similarities over a all their mo<strong>de</strong>ls are used as features.<br />
Therefore back-<strong>en</strong>d emoti<strong>on</strong> mo<strong>de</strong>ls m ′ are supported over the set of fr<strong>on</strong>t-<strong>en</strong>d<br />
mo<strong>de</strong>ls M trained with differ<strong>en</strong>t emoti<strong>on</strong>s, databases, recording c<strong>on</strong>diti<strong>on</strong>s, etc.<br />
In this work the proposed AMF approach have be<strong>en</strong> used for fusing two differ<strong>en</strong>t<br />
prosodic emoti<strong>on</strong> recogniti<strong>on</strong> systems as well as a third <strong>on</strong>e obtained as<br />
the result of the sum fusi<strong>on</strong> of both systems. Thus M have be<strong>en</strong> built with 3<br />
systems and 20 fr<strong>on</strong>t-<strong>en</strong>d mo<strong>de</strong>ls which leads to a 60-dim<strong>en</strong>si<strong>on</strong>s AMF space.<br />
Experim<strong>en</strong>ts have be<strong>en</strong> carry out over three corpora (Ahumada III, SUSAS Simulated<br />
and SUSAS Actual) with simutated and real emoti<strong>on</strong>s, differ<strong>en</strong>t languges<br />
and recordin c<strong>on</strong>diti<strong>on</strong>s. Resuts are compared with the sum fusi<strong>on</strong> of both fr<strong>on</strong>t<strong>en</strong>d<br />
systems. They show a performance improvem<strong>en</strong>t larger than the 15% for<br />
Ahumada III and SUSAS Simulated corpora. Future work will explore <strong>on</strong> the<br />
optimal selecti<strong>on</strong> of mo<strong>de</strong>ls in M, normalizati<strong>on</strong> techniques of the AMF space<br />
vectors and new classificati<strong>on</strong> methods such as Linear Discriminant Analysis.<br />
Refer<strong>en</strong>ces<br />
1. Picard, R.W.: Affective Computing. The MIT Press (September 1997)<br />
2. Collet, M., Mami, Y., Charlet, D., Bimbot, F.: Probabilistic anchor mo<strong>de</strong>ls approach<br />
for speaker verificati<strong>on</strong>. (2005) 2005–2008<br />
3. Ramos, D., G<strong>on</strong>zalez-Rodriguez, J., G<strong>on</strong>zalez-Dominguez, J., Luc<strong>en</strong>a-Molina, J.J.:<br />
Addressing database mismatch in for<strong>en</strong>sic speaker recogniti<strong>on</strong> with ahumada iii: a<br />
public real-case database in spanish. In: Proceedings of Interspeech 2008. (September<br />
2008) 1493–1496<br />
4. Hans<strong>en</strong>, J., Patil, S.: Speech un<strong>de</strong>r stress: Analysis, mo<strong>de</strong>ling and recogniti<strong>on</strong>. In:<br />
Speaker Classificati<strong>on</strong> (1). Volume 4343 of Lecture Notes in Computer Sci<strong>en</strong>ce.,<br />
Springer (2007) 108–137<br />
5. Lopez-Mor<strong>en</strong>o, I., Ramos, D., G<strong>on</strong>zalez-Rodriguez, J., Toledano, D.T.: Anchormo<strong>de</strong>l<br />
fusi<strong>on</strong> for language recogniti<strong>on</strong>. In: Proceedings of Interspeech 2008. (September<br />
2008)<br />
6. B<strong>en</strong>esty, J., S<strong>on</strong>dhi, M.M., Huang, Y.E.: Springer Handbook of Speech Processing.<br />
Part G. Springer (2008)<br />
7. Boersma, P., We<strong>en</strong>ink, D.: Praat: doing ph<strong>on</strong>etics by computer (versi<strong>on</strong> 5.1.04)<br />
[computer program] (Ap 2009) http://www.praat.org/.<br />
8. Hu, H., Xu, M.X., Wu, W.: Gmm supervector based svm with spectral features<br />
for speech emoti<strong>on</strong> recogniti<strong>on</strong>. In: Acoustics, Speech and Signal Processing, 2007.<br />
ICASSP 2007. IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong>. Volume 4. (2007) IV–413–IV–416<br />
9. Kw<strong>on</strong>, O.W., Chan, K., Hao, J., Lee, T.W.: Emoti<strong>on</strong> recogniti<strong>on</strong> by speech signals.<br />
In: EUROSPEECH-2003. (2003) 125–128
B<br />
Presupuesto<br />
1) Ejecución Material<br />
Compra <strong>de</strong> or<strong>de</strong>nador pers<strong>on</strong>al (Software incluido) 2.000 ¤<br />
Alquiler <strong>de</strong> impresora láser durante 10 meses 200 ¤<br />
Material <strong>de</strong> oficina 150 ¤<br />
Total <strong>de</strong> ejecución material 2.350 ¤<br />
2) Gastos g<strong>en</strong>erales<br />
16 % sobre Ejecución Material 376 ¤<br />
3) B<strong>en</strong>eficio Industrial<br />
6 % sobre Ejecución Material 141 ¤<br />
4) H<strong>on</strong>orarios Proyecto<br />
1000 horas a 15 ¤/ hora 15000 ¤<br />
5) Material fungible<br />
Gastos <strong>de</strong> impresión 200 ¤<br />
Encua<strong>de</strong>rnación 100 ¤<br />
6) Subtotal <strong>de</strong>l presupuesto<br />
Subtotal Presupuesto 18.167 ¤<br />
7) I.V.A. aplicable<br />
16 % Subtotal Presupuesto 2.906.72 ¤<br />
8) Total presupuesto<br />
Total Presupuesto 21073.72 ¤<br />
Madrid, Julio 2009<br />
El Ing<strong>en</strong>iero Jefe <strong>de</strong> Proyecto<br />
Fdo.: Carlos Ortego Resa<br />
Ing<strong>en</strong>iero Superior <strong>de</strong> Telecomunicación<br />
125
C<br />
Pliego <strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es<br />
Pliego <strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es<br />
Este docum<strong>en</strong>to c<strong>on</strong>ti<strong>en</strong>e las c<strong>on</strong>dici<strong>on</strong>es legales que guiarán la realización, <strong>en</strong> este proyecto,<br />
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA. En lo que sigue, se sup<strong>on</strong>drá que<br />
el proyecto ha sido <strong>en</strong>cargado por una empresa cli<strong>en</strong>te a una empresa c<strong>on</strong>sultora c<strong>on</strong> la finalidad<br />
<strong>de</strong> realizar dicho sistema. Dicha empresa ha <strong>de</strong>bido <strong>de</strong>sarrollar una línea <strong>de</strong> investigación c<strong>on</strong><br />
objeto <strong>de</strong> elaborar el proyecto. Esta línea <strong>de</strong> investigación, junto c<strong>on</strong> el posterior <strong>de</strong>sarrollo <strong>de</strong><br />
los programas está amparada por las c<strong>on</strong>dici<strong>on</strong>es particulares <strong>de</strong>l sigui<strong>en</strong>te pliego.<br />
Supuesto que la utilización industrial <strong>de</strong> los métodos recogidos <strong>en</strong> el pres<strong>en</strong>te proyecto ha<br />
sido <strong>de</strong>cidida por parte <strong>de</strong> la empresa cli<strong>en</strong>te o <strong>de</strong> otras, la obra a realizar se regulará por las<br />
sigui<strong>en</strong>tes:<br />
C<strong>on</strong>dici<strong>on</strong>es g<strong>en</strong>erales.<br />
1. La modalidad <strong>de</strong> c<strong>on</strong>tratación será el c<strong>on</strong>curso. La adjudicación se hará, por tanto, a la<br />
proposición más favorable sin at<strong>en</strong><strong>de</strong>r exclusivam<strong>en</strong>te al valor ec<strong>on</strong>ómico, <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong><br />
las mayores garantías ofrecidas. La empresa que somete el proyecto a c<strong>on</strong>curso se reserva<br />
el <strong>de</strong>recho a <strong>de</strong>clararlo <strong>de</strong>sierto.<br />
2. El m<strong>on</strong>taje y mecanización completa <strong>de</strong> los equipos que interv<strong>en</strong>gan será realizado totalm<strong>en</strong>te<br />
por la empresa licitadora.<br />
3. En la oferta, se hará c<strong>on</strong>star el precio total por el que se compromete a realizar la obra<br />
y el tanto por ci<strong>en</strong>to <strong>de</strong> baja que sup<strong>on</strong>e este precio <strong>en</strong> relación c<strong>on</strong> un importe límite si<br />
este se hubiera fijado.<br />
4. La obra se realizará bajo la dirección técnica <strong>de</strong> un Ing<strong>en</strong>iero Superior <strong>de</strong> Telecomunicación,<br />
auxiliado por el número <strong>de</strong> Ing<strong>en</strong>ieros Técnicos y Programadores que se estime<br />
preciso para el <strong>de</strong>sarrollo <strong>de</strong> la misma.<br />
5. Aparte <strong>de</strong>l Ing<strong>en</strong>iero Director, el c<strong>on</strong>tratista t<strong>en</strong>drá <strong>de</strong>recho a c<strong>on</strong>tratar al resto <strong>de</strong>l pers<strong>on</strong>al,<br />
pudi<strong>en</strong>do ce<strong>de</strong>r esta prerrogativa a favor <strong>de</strong>l Ing<strong>en</strong>iero Director, qui<strong>en</strong> no estará obligado<br />
a aceptarla.<br />
6. El c<strong>on</strong>tratista ti<strong>en</strong>e <strong>de</strong>recho a sacar copias a su costa <strong>de</strong> los planos, pliego <strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es y<br />
presupuestos. El Ing<strong>en</strong>iero autor <strong>de</strong>l proyecto autorizará c<strong>on</strong> su firma las copias solicitadas<br />
por el c<strong>on</strong>tratista <strong>de</strong>spués <strong>de</strong> c<strong>on</strong>fr<strong>on</strong>tarlas.<br />
7. Se ab<strong>on</strong>ará al c<strong>on</strong>tratista la obra que realm<strong>en</strong>te ejecute c<strong>on</strong> sujeción al proyecto que sirviá<br />
<strong>de</strong> base para la c<strong>on</strong>tratación, a las modificaci<strong>on</strong>es autorizadas por la superioridad o a<br />
127
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
las ór<strong>de</strong>nes que c<strong>on</strong> arreglo a sus faculta<strong>de</strong>s le hayan comunicado por escrito al Ing<strong>en</strong>iero<br />
Director <strong>de</strong> obras siempre que dicha obra se haya ajustado a los preceptos <strong>de</strong> los pliegos<br />
<strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es, c<strong>on</strong> arreglo a los cuales, se harán las modificaci<strong>on</strong>es y la valoración <strong>de</strong> las<br />
diversas unida<strong>de</strong>s sin que el importe total pueda exce<strong>de</strong>r <strong>de</strong> los presupuestos aprobados.<br />
Por c<strong>on</strong>sigui<strong>en</strong>te, el número <strong>de</strong> unida<strong>de</strong>s que se c<strong>on</strong>signan <strong>en</strong> el proyecto o <strong>en</strong> el presupuesto,<br />
no podrá servirle <strong>de</strong> fundam<strong>en</strong>to para <strong>en</strong>tablar reclamaci<strong>on</strong>es <strong>de</strong> ninguna clase,<br />
salvo <strong>en</strong> los casos <strong>de</strong> rescisión.<br />
8. Tanto <strong>en</strong> las certificaci<strong>on</strong>es <strong>de</strong> obras como <strong>en</strong> la liquidación final, se ab<strong>on</strong>arán los trabajos<br />
realizados por el c<strong>on</strong>tratista a los precios <strong>de</strong> ejecución material que figuran <strong>en</strong> el<br />
presupuesto para cada unidad <strong>de</strong> la obra.<br />
9. Si excepci<strong>on</strong>alm<strong>en</strong>te se hubiera ejecutado algún trabajo que no se ajustase a las c<strong>on</strong>dici<strong>on</strong>es<br />
<strong>de</strong> la c<strong>on</strong>trata pero que sin embargo es admisible a juicio <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong> obras,<br />
se dará c<strong>on</strong>ocimi<strong>en</strong>to a la Dirección, prop<strong>on</strong>i<strong>en</strong>do a la vez la rebaja <strong>de</strong> precios que el<br />
Ing<strong>en</strong>iero estime justa y si la Dirección resolviera aceptar la obra, quedará el c<strong>on</strong>tratista<br />
obligado a c<strong>on</strong>formarse c<strong>on</strong> la rebaja acordada.<br />
10. Cuando se juzgue necesario emplear materiales o ejecutar obras que no figur<strong>en</strong> <strong>en</strong> el<br />
presupuesto <strong>de</strong> la c<strong>on</strong>trata, se evaluará su importe a los precios asignados a otras obras o<br />
materiales análogos si los hubiere y cuando no, se discutirán <strong>en</strong>tre el Ing<strong>en</strong>iero Director y el<br />
c<strong>on</strong>tratista, sometiéndolos a la aprobación <strong>de</strong> la Dirección. Los nuevos precios c<strong>on</strong>v<strong>en</strong>idos<br />
por uno u otro procedimi<strong>en</strong>to, se sujetarán siempre al establecido <strong>en</strong> el punto anterior.<br />
11. Cuando el c<strong>on</strong>tratista, c<strong>on</strong> autorización <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong> obras, emplee materiales<br />
<strong>de</strong> calidad más elevada o <strong>de</strong> mayores dim<strong>en</strong>si<strong>on</strong>es <strong>de</strong> lo estipulado <strong>en</strong> el proyecto, o<br />
sustituya una clase <strong>de</strong> fabricación por otra que t<strong>en</strong>ga asignado mayor precio o ejecute<br />
c<strong>on</strong> mayores dim<strong>en</strong>si<strong>on</strong>es cualquier otra parte <strong>de</strong> las obras, o <strong>en</strong> g<strong>en</strong>eral, introduzca <strong>en</strong><br />
ellas cualquier modificación que sea b<strong>en</strong>eficiosa a juicio <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong> obras,<br />
no t<strong>en</strong>drá <strong>de</strong>recho sin embargo, sino a lo que le corresp<strong>on</strong><strong>de</strong>ría si hubiera realizado la obra<br />
c<strong>on</strong> estricta sujeción a lo proyectado y c<strong>on</strong>tratado.<br />
12. Las cantida<strong>de</strong>s calculadas para obras accesorias, aunque figur<strong>en</strong> por partida alzada <strong>en</strong> el<br />
presupuesto final (g<strong>en</strong>eral), no serán ab<strong>on</strong>adas sino a los precios <strong>de</strong> la c<strong>on</strong>trata, según las<br />
c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> la misma y los proyectos particulares que para ellas se form<strong>en</strong>, o <strong>en</strong> su<br />
<strong>de</strong>fecto, por lo que resulte <strong>de</strong> su medición final.<br />
13. El c<strong>on</strong>tratista queda obligado a ab<strong>on</strong>ar al Ing<strong>en</strong>iero autor <strong>de</strong>l proyecto y director <strong>de</strong> obras<br />
así como a los Ing<strong>en</strong>ieros Técnicos, el importe <strong>de</strong> sus respectivos h<strong>on</strong>orarios facultativos<br />
por formación <strong>de</strong>l proyecto, dirección técnica y administración <strong>en</strong> su caso, c<strong>on</strong> arreglo a<br />
las tarifas y h<strong>on</strong>orarios vig<strong>en</strong>tes.<br />
14. C<strong>on</strong>cluida la ejecución <strong>de</strong> la obra, será rec<strong>on</strong>ocida por el Ing<strong>en</strong>iero Director que a tal<br />
efecto <strong>de</strong>signe la empresa.<br />
15. La garantía <strong>de</strong>finitiva será <strong>de</strong>l 4<br />
16. La forma <strong>de</strong> pago será por certificaci<strong>on</strong>es m<strong>en</strong>suales <strong>de</strong> la obra ejecutada, <strong>de</strong> acuerdo c<strong>on</strong><br />
los precios <strong>de</strong>l presupuesto, <strong>de</strong>ducida la baja si la hubiera.<br />
17. La fecha <strong>de</strong> comi<strong>en</strong>zo <strong>de</strong> las obras será a partir <strong>de</strong> los 15 días naturales <strong>de</strong>l replanteo oficial<br />
<strong>de</strong> las mismas y la <strong>de</strong>finitiva, al año <strong>de</strong> haber ejecutado la provisi<strong>on</strong>al, procediéndose si<br />
no existe reclamación alguna, a la reclamación <strong>de</strong> la fianza.<br />
18. Si el c<strong>on</strong>tratista al efectuar el replanteo, observase algún error <strong>en</strong> el proyecto, <strong>de</strong>berá comunicarlo<br />
<strong>en</strong> el plazo <strong>de</strong> quince días al Ing<strong>en</strong>iero Director <strong>de</strong> obras, pues transcurrido ese<br />
plazo será resp<strong>on</strong>sable <strong>de</strong> la exactitud <strong>de</strong>l proyecto.<br />
128<br />
APÉNDICE C. PLIEGO DE CONDICIONES
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
19. El c<strong>on</strong>tratista está obligado a <strong>de</strong>signar una pers<strong>on</strong>a resp<strong>on</strong>sable que se <strong>en</strong>t<strong>en</strong><strong>de</strong>rá c<strong>on</strong> el<br />
Ing<strong>en</strong>iero Director <strong>de</strong> obras, o c<strong>on</strong> el <strong>de</strong>legado que éste <strong>de</strong>signe, para todo relaci<strong>on</strong>ado<br />
c<strong>on</strong> ella. Al ser el Ing<strong>en</strong>iero Director <strong>de</strong> obras el que interpreta el proyecto, el c<strong>on</strong>tratista<br />
<strong>de</strong>berá c<strong>on</strong>sultarle cualquier duda que surja <strong>en</strong> su realización.<br />
20. Durante la realización <strong>de</strong> la obra, se girarán visitas <strong>de</strong> inspección por pers<strong>on</strong>al facultativo<br />
<strong>de</strong> la empresa cli<strong>en</strong>te, para hacer las comprobaci<strong>on</strong>es que se crean oportunas. Es obligación<br />
<strong>de</strong>l c<strong>on</strong>tratista, la c<strong>on</strong>servación <strong>de</strong> la obra ya ejecutada hasta la recepción <strong>de</strong> la misma,<br />
por lo que el <strong>de</strong>terioro parcial o total <strong>de</strong> ella, aunque sea por ag<strong>en</strong>tes atmosféricos u otras<br />
causas, <strong>de</strong>berá ser reparado o rec<strong>on</strong>struido por su cu<strong>en</strong>ta.<br />
21. El c<strong>on</strong>tratista, <strong>de</strong>berá realizar la obra <strong>en</strong> el plazo m<strong>en</strong>ci<strong>on</strong>ado a partir <strong>de</strong> la fecha <strong>de</strong>l<br />
c<strong>on</strong>trato, incurri<strong>en</strong>do <strong>en</strong> multa, por retraso <strong>de</strong> la ejecución siempre que éste no sea <strong>de</strong>bido<br />
a causas <strong>de</strong> fuerza mayor. A la terminación <strong>de</strong> la obra, se hará una recepción provisi<strong>on</strong>al<br />
previo rec<strong>on</strong>ocimi<strong>en</strong>to y exam<strong>en</strong> por la dirección técnica, el <strong>de</strong>positario <strong>de</strong> efectos, el interv<strong>en</strong>tor<br />
y el jefe <strong>de</strong> servicio o un repres<strong>en</strong>tante, estampando su c<strong>on</strong>formidad el c<strong>on</strong>tratista.<br />
22. Hecha la recepción provisi<strong>on</strong>al, se certificará al c<strong>on</strong>tratista el resto <strong>de</strong> la obra, reservándose<br />
la administración el importe <strong>de</strong> los gastos <strong>de</strong> c<strong>on</strong>servación <strong>de</strong> la misma hasta su recepción<br />
<strong>de</strong>finitiva y la fianza durante el tiempo señalado como plazo <strong>de</strong> garantía. La recepción<br />
<strong>de</strong>finitiva se hará <strong>en</strong> las mismas c<strong>on</strong>dici<strong>on</strong>es que la provisi<strong>on</strong>al, ext<strong>en</strong>diéndose el acta<br />
corresp<strong>on</strong>di<strong>en</strong>te. El Director Técnico prop<strong>on</strong>drá a la Junta Ec<strong>on</strong>ómica la <strong>de</strong>volución <strong>de</strong> la<br />
fianza al c<strong>on</strong>tratista <strong>de</strong> acuerdo c<strong>on</strong> las c<strong>on</strong>dici<strong>on</strong>es ec<strong>on</strong>ómicas legales establecidas.<br />
23. Las tarifas para la <strong>de</strong>terminación <strong>de</strong> h<strong>on</strong>orarios, reguladas por or<strong>de</strong>n <strong>de</strong> la Presi<strong>de</strong>ncia<br />
<strong>de</strong>l Gobierno el 19 <strong>de</strong> Octubre <strong>de</strong> 1961, se aplicarán sobre el <strong>de</strong>nominado <strong>en</strong> la actualidad<br />
”Presupuesto <strong>de</strong> Ejecución <strong>de</strong> C<strong>on</strong>trata anteriorm<strong>en</strong>te llamado ”Presupuesto <strong>de</strong><br />
Ejecución Material”que hoy <strong>de</strong>signa otro c<strong>on</strong>cepto.<br />
C<strong>on</strong>dici<strong>on</strong>es particulares.<br />
La empresa c<strong>on</strong>sultora, que ha <strong>de</strong>sarrollado el pres<strong>en</strong>te proyecto, lo <strong>en</strong>tregará a la empresa<br />
cli<strong>en</strong>te bajo las c<strong>on</strong>dici<strong>on</strong>es g<strong>en</strong>erales ya formuladas, <strong>de</strong>bi<strong>en</strong>do añadirse las sigui<strong>en</strong>tes c<strong>on</strong>dici<strong>on</strong>es<br />
particulares:<br />
1. La propiedad intelectual <strong>de</strong> los procesos <strong>de</strong>scritos y analizados <strong>en</strong> el pres<strong>en</strong>te trabajo,<br />
pert<strong>en</strong>ece por <strong>en</strong>tero a la empresa c<strong>on</strong>sultora repres<strong>en</strong>tada por el Ing<strong>en</strong>iero Director <strong>de</strong>l<br />
Proyecto.<br />
2. La empresa c<strong>on</strong>sultora se reserva el <strong>de</strong>recho a la utilización total o parcial <strong>de</strong> los resultados<br />
<strong>de</strong> la investigación realizada para <strong>de</strong>sarrollar el sigui<strong>en</strong>te proyecto, bi<strong>en</strong> para su publicación<br />
o bi<strong>en</strong> para su uso <strong>en</strong> trabajos o proyectos posteriores, para la misma empresa cli<strong>en</strong>te o<br />
para otra.<br />
3. Cualquier tipo <strong>de</strong> reproducción aparte <strong>de</strong> las reseñadas <strong>en</strong> las c<strong>on</strong>dici<strong>on</strong>es g<strong>en</strong>erales, bi<strong>en</strong><br />
sea para uso particular <strong>de</strong> la empresa cli<strong>en</strong>te, o para cualquier otra aplicación, c<strong>on</strong>tará c<strong>on</strong><br />
autorización expresa y por escrito <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong>l Proyecto, que actuará <strong>en</strong><br />
repres<strong>en</strong>tación <strong>de</strong> la empresa c<strong>on</strong>sultora.<br />
4. En la autorización se ha <strong>de</strong> hacer c<strong>on</strong>star la aplicación a que se <strong>de</strong>stinan sus reproducci<strong>on</strong>es<br />
así como su cantidad.<br />
5. En todas las reproducci<strong>on</strong>es se indicará su proce<strong>de</strong>ncia, explicitando el nombre <strong>de</strong>l proyecto,<br />
nombre <strong>de</strong>l Ing<strong>en</strong>iero Director y <strong>de</strong> la empresa c<strong>on</strong>sultora.<br />
6. Si el proyecto pasa la etapa <strong>de</strong> <strong>de</strong>sarrollo, cualquier modificación que se realice sobre él,<br />
<strong>de</strong>berá ser notificada al Ing<strong>en</strong>iero Director <strong>de</strong>l Proyecto y a criterio <strong>de</strong> éste, la empresa<br />
c<strong>on</strong>sultora <strong>de</strong>cidirá aceptar o no la modificación propuesta.<br />
2<br />
APÉNDICE C. PLIEGO DE CONDICIONES 129
DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />
7. Si la modificación se acepta, la empresa c<strong>on</strong>sultora se hará resp<strong>on</strong>sable al mismo nivel que<br />
el proyecto inicial <strong>de</strong>l que resulta el añadirla.<br />
8. Si la modificación no es aceptada, por el c<strong>on</strong>trario, la empresa c<strong>on</strong>sultora <strong>de</strong>clinará toda<br />
resp<strong>on</strong>sabilidad que se <strong>de</strong>rive <strong>de</strong> la aplicación o influ<strong>en</strong>cia <strong>de</strong> la misma.<br />
9. Si la empresa cli<strong>en</strong>te <strong>de</strong>ci<strong>de</strong> <strong>de</strong>sarrollar industrialm<strong>en</strong>te uno o varios productos <strong>en</strong> los que<br />
resulte parcial o totalm<strong>en</strong>te aplicable el estudio <strong>de</strong> este proyecto, <strong>de</strong>berá comunicarlo a la<br />
empresa c<strong>on</strong>sultora.<br />
10. La empresa c<strong>on</strong>sultora no se resp<strong>on</strong>sabiliza <strong>de</strong> los efectos laterales que se puedan producir<br />
<strong>en</strong> el mom<strong>en</strong>to <strong>en</strong> que se utilice la herrami<strong>en</strong>ta objeto <strong>de</strong>l pres<strong>en</strong>te proyecto para la<br />
realización <strong>de</strong> otras aplicaci<strong>on</strong>es.<br />
11. La empresa c<strong>on</strong>sultora t<strong>en</strong>drá prioridad respecto a otras <strong>en</strong> la elaboración <strong>de</strong> los proyectos<br />
auxiliares que fuese necesario <strong>de</strong>sarrollar para dicha aplicación industrial, siempre que no<br />
haga explícita r<strong>en</strong>uncia a este hecho. En este caso, <strong>de</strong>berá autorizar expresam<strong>en</strong>te los<br />
proyectos pres<strong>en</strong>tados por otros.<br />
12. El Ing<strong>en</strong>iero Director <strong>de</strong>l pres<strong>en</strong>te proyecto, será el resp<strong>on</strong>sable <strong>de</strong> la dirección <strong>de</strong> la aplicación<br />
industrial siempre que la empresa c<strong>on</strong>sultora lo estime oportuno. En caso c<strong>on</strong>trario,<br />
la pers<strong>on</strong>a <strong>de</strong>signada <strong>de</strong>berá c<strong>on</strong>tar c<strong>on</strong> la autorización <strong>de</strong>l mismo, qui<strong>en</strong> <strong>de</strong>legará <strong>en</strong> él<br />
las resp<strong>on</strong>sabilida<strong>de</strong>s que ost<strong>en</strong>te.<br />
130<br />
APÉNDICE C. PLIEGO DE CONDICIONES