20.04.2015 Views

on de emociones en voz espont - ATVS - Universidad Autónoma de ...

on de emociones en voz espont - ATVS - Universidad Autónoma de ...

on de emociones en voz espont - ATVS - Universidad Autónoma de ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Universidad</strong> <strong>Autónoma</strong> <strong>de</strong> Madrid<br />

Escuela Politécnica Superior<br />

Proyecto fin <strong>de</strong> carrera<br />

DETECCIÓN DE EMOCIONES EN VOZ<br />

ESPONTÁNEA<br />

Ing<strong>en</strong>iería Superior <strong>en</strong> Telecomunicación<br />

Carlos Ortego Resa<br />

Julio 2009


2<br />

DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA


DETECCIÓN DE EMOCIONES EN VOZ<br />

ESPONTÁNEA<br />

AUTOR: Carlos Ortego Resa<br />

TUTOR: Ignacio López Mor<strong>en</strong>o<br />

Grupo <strong>ATVS</strong><br />

Dpto. <strong>de</strong> Ing<strong>en</strong>iería Informática<br />

Escuela Politécnica Superior<br />

<strong>Universidad</strong> <strong>Autónoma</strong> <strong>de</strong> Madrid<br />

Julio 2009<br />

1


2<br />

DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA


Resum<strong>en</strong><br />

Resum<strong>en</strong><br />

En este proyecto <strong>de</strong> fin <strong>de</strong> carrera se pres<strong>en</strong>tan nuevos métodos a<strong>de</strong>más <strong>de</strong>l estado <strong>de</strong>l<br />

arte <strong>de</strong> las técnicas exist<strong>en</strong>tes para el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoción <strong>en</strong> el habla. Se<br />

emplean técnicas discriminativas como SVM (Support Vector Machines) y estadísticas como<br />

GMM (Gaussian Mixture Mo<strong>de</strong>ls). A partir <strong>de</strong> estas técnicas se implem<strong>en</strong>tan dos tipos <strong>de</strong><br />

sistemas: fr<strong>on</strong>t-<strong>en</strong>d y back-<strong>en</strong>d. Los primeros usan la señal <strong>de</strong> <strong>voz</strong> como <strong>en</strong>trada y produc<strong>en</strong> a<br />

la salida unas puntuaci<strong>on</strong>es. Los segundos utilizan como <strong>en</strong>trada las puntuaci<strong>on</strong>es <strong>de</strong> salida <strong>de</strong>l<br />

sistema fr<strong>on</strong>t-<strong>en</strong>d para obt<strong>en</strong>er a la salida otras puntuaci<strong>on</strong>es.<br />

Se realizará a<strong>de</strong>más un exam<strong>en</strong> completo <strong>de</strong> estos sistemas, <strong>de</strong>s<strong>de</strong> el c<strong>on</strong>junto <strong>de</strong> datos <strong>de</strong><br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test, influ<strong>en</strong>cia <strong>de</strong> distintas variables <strong>en</strong> los mo<strong>de</strong>los <strong>en</strong>tr<strong>en</strong>ados, fusión <strong>de</strong><br />

sistemas, normalización <strong>de</strong> puntuaci<strong>on</strong>es, etc.<br />

En la parte experim<strong>en</strong>tal <strong>de</strong>l proyecto se llevan a cabo experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes y<br />

<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor c<strong>on</strong> el fin <strong>de</strong> valorar la variabilidad <strong>de</strong> locutor sobre los sistemas.<br />

En la memoria se <strong>de</strong>scribe el funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> un sistema automático <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to<br />

<strong>de</strong> patr<strong>on</strong>es así como los modos <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to. También se explican los principios básicos<br />

<strong>de</strong> las emoci<strong>on</strong>es y cómo afectan éstas al habla. A<strong>de</strong>más, se hace un repaso <strong>de</strong> las disciplinas<br />

más empleadas <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es.<br />

Por último se realiza un análisis <strong>de</strong>l trabajo extray<strong>en</strong>do c<strong>on</strong>clusi<strong>on</strong>es y prop<strong>on</strong>i<strong>en</strong>do futuras<br />

líneas <strong>de</strong> investigación.<br />

Los resultados obt<strong>en</strong>idos <strong>en</strong> este proyecto <strong>de</strong> fin <strong>de</strong> carrera han sido aceptados y a la espera<br />

<strong>de</strong> ser publicados <strong>en</strong> 2 c<strong>on</strong>gresos internaci<strong>on</strong>ales <strong>en</strong> los artículos:<br />

• Lopez-Mor<strong>en</strong>o, I., Ortego-Resa C., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />

emoti<strong>on</strong> recogniti<strong>on</strong> using prosodic supervectors”, 2009.<br />

• Ortego-Resa C., Lopez-Mor<strong>en</strong>o, I., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Anchor mo<strong>de</strong>l<br />

fusi<strong>on</strong> for emoti<strong>on</strong> recogniti<strong>on</strong> in speech”, 2009.<br />

Palabras Clave<br />

Rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla, pitch, T-norm, Máquinas <strong>de</strong> Vectores<br />

Soporte, Mo<strong>de</strong>los <strong>de</strong> Mezcla <strong>de</strong> Gaussianas, base <strong>de</strong> datos SUSAS, parametrización prosódica,<br />

Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls.<br />

3


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Abstract<br />

In this master’s thesis we pres<strong>en</strong>t new methods besi<strong>de</strong>s the state of the art of the existing<br />

techniques for automatic emoti<strong>on</strong> recogniti<strong>on</strong> in speech. Discriminative techniques such as SVM<br />

(Support Vector Machines) and statistic <strong>on</strong>es such as GMM (Gaussian Mixture Mo<strong>de</strong>ls) are<br />

employed. With these techniques two kind of systems are <strong>de</strong>veloped: fr<strong>on</strong>t-<strong>en</strong>d and back-<strong>en</strong>d.<br />

The first <strong>on</strong>e uses voice signal as input signal and a set of scores are obtained as output<br />

signal. The sec<strong>on</strong>d <strong>on</strong>e uses the output scores from fr<strong>on</strong>t-<strong>en</strong>d system as input signal and makes<br />

another set of scores as output.<br />

We report a study of these systems regarding training and testing set selecti<strong>on</strong>, system<br />

behavior acording to some variables, fusi<strong>on</strong> techniques, scores normalizati<strong>on</strong>s, etc.<br />

Al<strong>on</strong>g the experim<strong>en</strong>tal secti<strong>on</strong> of the master’s thesis several speaker in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt and<br />

<strong>de</strong>p<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts are showing with the purpose of evaluating the speaker variability<br />

about systems.<br />

The report <strong>de</strong>scribes the operati<strong>on</strong> of an automatic patterns recogniti<strong>on</strong> system. It also<br />

explains the basic principles of emoti<strong>on</strong>s and how they affect speech. In additi<strong>on</strong>, an overview<br />

of the disciplines used in emoti<strong>on</strong> recogniti<strong>on</strong> is ma<strong>de</strong>.<br />

Finally, an analysis of work and c<strong>on</strong>clusi<strong>on</strong>s are drawn, and future researchs are proposed.<br />

Results from this master’s thesis have be<strong>en</strong> accepted in internati<strong>on</strong>al c<strong>on</strong>gresses and now it<br />

is waiting for being published:<br />

• Lopez-Mor<strong>en</strong>o, I., Ortego-Resa C., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />

emoti<strong>on</strong> recogniti<strong>on</strong> using prosodic supervectors”, 2009.<br />

• Ortego-Resa C., Lopez-Mor<strong>en</strong>o, I., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Anchor mo<strong>de</strong>l<br />

fusi<strong>on</strong> for emoti<strong>on</strong> recogniti<strong>on</strong> in speech”, 2009.<br />

Key words<br />

Automatic emoti<strong>on</strong> recogniti<strong>on</strong> in speech, pitch, T-norm, Support Vector Machines, Gaussian<br />

Mixture Mo<strong>de</strong>ls, SUSAS database, prosodic parametrizati<strong>on</strong>, Anchor Mo<strong>de</strong>ls Fusi<strong>on</strong>.<br />

4


Agra<strong>de</strong>cimi<strong>en</strong>tos<br />

Primero dar las gracias a toda la g<strong>en</strong>te que me ha servido <strong>de</strong> ayuda durante estos últimos<br />

años. En especial a mis padres pues ellos s<strong>on</strong> mi mo<strong>de</strong>lo a seguir. A mis tios y primos por lo<br />

bi<strong>en</strong> que se han portado c<strong>on</strong>migo. Y a mis abuelos por el apoyo inc<strong>on</strong>dici<strong>on</strong>al hacia su nieto.<br />

También me gustaría agra<strong>de</strong>cer a mi tutor Ignacio López Mor<strong>en</strong>o por su apoyo y <strong>de</strong>dicación<br />

<strong>en</strong> mi proyecto al igual que al resto <strong>de</strong>l grupo <strong>ATVS</strong>. A<strong>de</strong>más, agra<strong>de</strong>cer a Joaquín G<strong>on</strong>zález<br />

Rodríguez por darme la oportunidad <strong>de</strong> formar parte <strong>de</strong>l grupo <strong>ATVS</strong>.<br />

No quiero olvidarme <strong>de</strong> todos los bu<strong>en</strong>os compañeros que he hecho durante estos 5 años <strong>en</strong><br />

la EPS: Ángel, Jesús, Jorge, Soci, David, Pablo, Javi,...<br />

Por último, agra<strong>de</strong>cer a mis amigos <strong>de</strong> toda la vida por lo mucho que me ayudais y me<br />

haceis reir.<br />

Carlos Ortego Resa<br />

Julio <strong>de</strong> 2009<br />

5


6<br />

DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA


Indice G<strong>en</strong>eral<br />

Indice <strong>de</strong> Figuras 8<br />

Indice <strong>de</strong> Tablas 10<br />

1. Introducción 13<br />

1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

1.3. Organización <strong>de</strong> la Memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

2. Sistema automático <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es 17<br />

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.2. Estructura G<strong>en</strong>eral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.3. Modos <strong>de</strong> Operación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

2.3.1. I<strong>de</strong>ntificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

2.3.2. Verificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2.4. Evaluación <strong>de</strong> los Sistemas Automáticos <strong>de</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to . . . . . . . . . . . . 20<br />

2.5. Normalización <strong>de</strong> Puntuaci<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

3. Estado <strong>de</strong>l arte <strong>en</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es 23<br />

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

3.2. Aplicaci<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

3.3. Naturaleza <strong>de</strong> las Emoci<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

3.4. Emoci<strong>on</strong>es <strong>en</strong> el Habla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

3.4.1. Pitch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

3.4.2. Duración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

3.4.3. Calidad <strong>de</strong> Voz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

3.4.4. Pulso Glotal y Tracto Vocal . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

3.5. Clasificación <strong>de</strong> las Emoci<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

3.6. Implicaci<strong>on</strong>es Jurídicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

3.7. Técnicas <strong>de</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . 31<br />

3.7.1. GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

3.7.2. SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

3.7.3. SVMs basados <strong>en</strong> supervectores GMMs . . . . . . . . . . . . . . . . . . . 38<br />

3.7.4. Anchor Mo<strong>de</strong>ls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />

3.7.5. Otras: LDA, HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />

4. Diseño y Desarrollo 43<br />

4.1. Medios disp<strong>on</strong>ibles (BBDD, software, máquinas...) . . . . . . . . . . . . . . . . . 44<br />

4.1.1. Bases <strong>de</strong> Datos Utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

4.1.2. Software y Máquinas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

4.2. Diseño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

4.2.1. Parametrización <strong>de</strong>l audio . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

4.2.2. Subsistemas fr<strong>on</strong>t-<strong>en</strong>d (SVM c<strong>on</strong> estadísticos y GMM-SVM) . . . . . . . 52<br />

4.2.3. Sistema back-<strong>en</strong>d (Fusi<strong>on</strong> Anchor Mo<strong>de</strong>ls) . . . . . . . . . . . . . . . . . . 56<br />

7


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

5. Pruebas y Resultados 59<br />

5.1. Pruebas y Resultados in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor . . . . . . . . . . . . . . . . . . . 60<br />

5.1.1. Experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos: Evaluación <strong>de</strong> cada Base <strong>de</strong> Datos<br />

fr<strong>en</strong>te a mo<strong>de</strong>los <strong>de</strong> la misma Base <strong>de</strong> Datos . . . . . . . . . . . . . . . . . 60<br />

5.1.2. Experim<strong>en</strong>tos Inter-Base <strong>de</strong> datos: Evaluación <strong>de</strong> cada Base <strong>de</strong> Datos<br />

fr<strong>en</strong>te a mo<strong>de</strong>los <strong>de</strong> todas las Bases <strong>de</strong> Datos . . . . . . . . . . . . . . . . 84<br />

5.2. Pruebas y Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor . . . . . . . . . . . . . . . . . . . . 87<br />

6. C<strong>on</strong>clusi<strong>on</strong>es y Trabajo futuro 101<br />

6.1. C<strong>on</strong>clusi<strong>on</strong>es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102<br />

6.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104<br />

Glosario <strong>de</strong> acrónimos 109<br />

A. Anexo: publicaci<strong>on</strong>es 111<br />

B. Presupuesto 125<br />

C. Pliego <strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es 127<br />

8 INDICE GENERAL


Indice <strong>de</strong> Figuras<br />

1. Esquema <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to. . . . . . . . . . . . 18<br />

2. Sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>en</strong> modo <strong>de</strong> i<strong>de</strong>ntificación. Figura adaptada<br />

<strong>de</strong> [1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

3. Sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>en</strong> modo <strong>de</strong> verificación. Figura adaptada<br />

<strong>de</strong> [1]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

4. D<strong>en</strong>sida<strong>de</strong>s y distribuci<strong>on</strong>es <strong>de</strong> probabilidad <strong>de</strong> int<strong>en</strong>tos target y n<strong>on</strong>-target. . . . 20<br />

5. Curvas ROC y DET. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

6. Ejemplo <strong>de</strong> distribución <strong>de</strong> probabilidad <strong>de</strong> pitch para un locutor masculino. . . 26<br />

7. Distribución F0 hombre/mujer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

8. GMM bidim<strong>en</strong>si<strong>on</strong>al <strong>de</strong> 4 Gaussianas. . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

9. C<strong>on</strong>cepto <strong>de</strong> un SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

10. a) Muestras clasificadas incorrectam<strong>en</strong>te c<strong>on</strong> un valor h i asociado. b) Muestras<br />

clasificadas correctam<strong>en</strong>te pero c<strong>on</strong> un error h i . . . . . . . . . . . . . . . . . . . . 36<br />

11. Mapeo <strong>de</strong> los vectores ⃗x 2-dim<strong>en</strong>si<strong>on</strong>ales a b(⃗x) 3-dim<strong>en</strong>si<strong>on</strong>ales. . . . . . . . . . 37<br />

12. C<strong>on</strong>strucción <strong>de</strong> un supervector GMM a partir <strong>de</strong> una locución <strong>de</strong> <strong>voz</strong>. . . . . . . 38<br />

13. Ejemplo <strong>de</strong> c<strong>on</strong>strucción <strong>de</strong> un supervector GMM a partir <strong>de</strong> 3 mezclas gaussianas<br />

bidim<strong>en</strong>si<strong>on</strong>ales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

14. Sx ⃗ agrupa las puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong>l vector ⃗x fr<strong>en</strong>te a cada mo<strong>de</strong>lo m i . . . 39<br />

15. Diagrama <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong>l AMF. El vector <strong>de</strong> parámetros final <strong>de</strong> la locución<br />

⃗x es la c<strong>on</strong>cat<strong>en</strong>ación <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong> ⃗x fr<strong>en</strong>te a cada<br />

mo<strong>de</strong>lo <strong>de</strong> emoción m i para cada uno <strong>de</strong> los N sist sistemas. . . . . . . . . . . . . 41<br />

16. Ejemplo <strong>de</strong> una locución <strong>de</strong> la base <strong>de</strong> datos SUSAS Simulated. . . . . . . . . . . 49<br />

17. a) Locución <strong>de</strong> Ah3R1 <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (120sg) <strong>de</strong>l locutor 23 y emoción neutroexaltado.<br />

b) Locución número 4 <strong>de</strong> test <strong>de</strong> Ah3R1 <strong>de</strong>l locutor 23 y emoción neutro. 50<br />

18. a) V<strong>en</strong>tanas temporales más utilizadas para el <strong>en</strong>v<strong>en</strong>tanado <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>.<br />

b) Env<strong>en</strong>tanado y vectores <strong>de</strong> <strong>en</strong>ergía ⃗e y pitch ⃗p <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>. . . . . . . . 52<br />

19. Diagrama <strong>de</strong> bloques <strong>de</strong> la extracción <strong>de</strong> parámetros prosódicos <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>. 52<br />

20. Diagrama <strong>de</strong> bloques <strong>de</strong>l clasificador SVM utilizando estadísticos globales. . . . . 53<br />

21. Esquema <strong>de</strong> distribución <strong>de</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>en</strong> un clasificador SVM<br />

para vectores <strong>de</strong> <strong>en</strong>trada l(⃗u ptrain ). . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />

22. Diagrama <strong>de</strong> bloques <strong>de</strong>l clasificador GMM-SVM. . . . . . . . . . . . . . . . . . . 55<br />

23. Esquema <strong>de</strong> distribución <strong>de</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>en</strong> un clasificador SVM<br />

para supervectores <strong>de</strong> <strong>en</strong>trada SV (⃗u ptrain ). . . . . . . . . . . . . . . . . . . . . . . 56<br />

24. Uso <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> dos sistemas fr<strong>on</strong>t-<strong>en</strong>d para c<strong>on</strong>formar el sistema<br />

back-<strong>en</strong>d para la base <strong>de</strong> datos SUSAS Simulated. . . . . . . . . . . . . . . . . . . 57<br />

25. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para el sistema ’SUSAS Simulated<br />

- SVM c<strong>on</strong> estadísticos’. . . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />

26. Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />

costes <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

27. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated -<br />

GMM-SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />

28. Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - GMM-SVM’ para varios números<br />

<strong>de</strong> Gaussianas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64<br />

9


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

29. Curvas DET para varios valores <strong>de</strong> coste <strong>en</strong> ’SUSAS Simulated - GMM-SVM’. . 65<br />

30. Curvas DET <strong>de</strong> ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />

suma’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66<br />

31. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated - AMF’. 66<br />

32. Curvas DET <strong>de</strong> ’SUSAS Simulated - AMF’ para varios valores <strong>de</strong> coste. . . . . . 67<br />

33. Curvas DET <strong>de</strong> la ’SUSAS Simulated - fusión suma y AMF’. . . . . . . . . . . . 68<br />

34. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - SVM<br />

c<strong>on</strong> estadísticos’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />

35. Curvas DET <strong>de</strong>l sistema ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />

costes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70<br />

36. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - GMM-<br />

SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />

37. Curvas DET <strong>de</strong>l sistema ’SUSAS Actual - GMM-SVM’ para difer<strong>en</strong>tes costes. . . 72<br />

38. Curvas DET para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />

suma’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />

39. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - AMF’. 73<br />

40. Curvas DET para ’SUSAS Actual - AMF’ para varios valores <strong>de</strong> coste. . . . . . . 74<br />

41. Curvas DET para ’SUSAS Actual - fusión suma y AMF’. . . . . . . . . . . . . . 75<br />

42. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76<br />

43. Curvas DET <strong>de</strong>l sistema ’Ah3R1 - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes costes. . 77<br />

44. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - GMM-SVM’. . 79<br />

45. Curvas DET para varios costes para ’Ah3R1 - GMM-SVM’. . . . . . . . . . . . . 80<br />

46. Curvas DET para ’Ah3R1 - GMM-SVM’ según la normalización <strong>de</strong> los vectores<br />

<strong>de</strong> parámetros prosódicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />

47. Curvas DET <strong>de</strong> ’Ah3R1 - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión suma’. . . 81<br />

48. Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - AMF’. . . . . . 82<br />

49. Curvas DET <strong>de</strong>l sistema ’Ah3R1 - AMF’ según la variable coste. . . . . . . . . . 83<br />

50. Curvas DET para ’Ah3R1 - fusión suma y AMF’. . . . . . . . . . . . . . . . . . . 83<br />

51. Esquema <strong>de</strong> evaluación <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> las 3 bases <strong>de</strong> datos. . . . . . . . . . . 85<br />

52. Uso <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d y <strong>de</strong> la fusión suma para<br />

c<strong>on</strong>formar el nuevo sistema back-<strong>en</strong>d <strong>de</strong> AMF. . . . . . . . . . . . . . . . . . . . 86<br />

53. Esquema <strong>de</strong> la evaluación <strong>de</strong> las pruebas <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS<br />

Simulated - SVM c<strong>on</strong> estadísticos’. . . . . . . . . . . . . . . . . . . . . . . . . . . 88<br />

54. Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />

costes <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />

55. Curvas DET para ’SUSAS Simulated - GMM-SVM’ variando el coste. . . . . . . 89<br />

56. Curva DET <strong>de</strong> ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />

suma’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90<br />

57. Esquema <strong>de</strong> las pruebas <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated - AMF’. 91<br />

58. Curvas DET para ’SUSAS Simulated - AMF’ y varios costes. . . . . . . . . . . . 91<br />

59. Curvas DET para ’SUSAS Simulated - fusión suma y AMF’. . . . . . . . . . . . 92<br />

60. Curva DET para la fusión suma por emoción. . . . . . . . . . . . . . . . . . . . . 93<br />

61. Curvas DET por emoción para ’SUSAS Simulated - AMF’. . . . . . . . . . . . . 94<br />

62. Curvas DET para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />

suma’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97<br />

63. Curvas DET para ’SUSAS Actual - AMF’ y varios costes. . . . . . . . . . . . . . 97<br />

64. Curvas DET para ’SUSAS Actual - fusión suma y AMF’. . . . . . . . . . . . . . 98<br />

65. Curvas DET por emoción para ’SUSAS Actual - fusión suma’. . . . . . . . . . . 98<br />

66. Curvas DET por emoción para ’SUSAS Actual - AMF’. . . . . . . . . . . . . . . 99<br />

10 INDICE DE FIGURAS


Indice <strong>de</strong> Tablas<br />

1. Emoci<strong>on</strong>es y características <strong>de</strong>l habla. . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

2. Recopilación <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong> habla emoci<strong>on</strong>al. Tabla adaptada <strong>de</strong> [2]. Abreviaturas<br />

<strong>de</strong> emoci<strong>on</strong>es: Dn: Diversión, Aa: Antipatía, Eo: Enfado, Ma: Molestia,<br />

An: Aprobación, An: At<strong>en</strong>ción, Ad: Ansiedad, Ao: Aburrimi<strong>en</strong>to, In: Insatisfación,<br />

Dom: Dominio, Dn: Depresión, Dt: Disgusto, Fd: Frustración, Mo: Miedo,<br />

Fd: Felicidad, Ie: Indifer<strong>en</strong>cia, Iy: Ir<strong>on</strong>ía, Ag: Alegría, Nl: Neutra, Pc: Pánico, Pn:<br />

Prohibición, Se: Sorpresa, Tz: Tristeza, Ss: Estrés, Tz: Timi<strong>de</strong>z, Sk: Shock, Co:<br />

Cansancio, Tl: Tarea c<strong>on</strong> carga <strong>de</strong> estrés, Pn: Preocupación. Abreviaturas para<br />

otras señales: PS: Presión sanguínea, ES: Examinación <strong>de</strong> sangrue, EEG: Electro<strong>en</strong>cefalograma,<br />

G: Respuesta cutánea galvánica, H: Tasa latido corazón, IR:<br />

Cámara infrarroja, LG: Laringógrafo, M: Miograma <strong>de</strong> la cara, R: Respiración,<br />

V: Vi<strong>de</strong>o. Otras abreviaturas: C/F: Cali<strong>en</strong>te/Frio, Ld eff.: efecto Lombard, A-<br />

stress, P-stress, C-stress: stress Real, Físico y Cognitivo, respectivam<strong>en</strong>te, Sim.:<br />

Simulado, Prov.:Provocado, N/A: No disp<strong>on</strong>ible. . . . . . . . . . . . . . . . . . . 48<br />

3. Coefici<strong>en</strong>tes estadísticos calculados por cada trama prosódica. . . . . . . . . . . 53<br />

4. Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />

Simulated. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

5. Resultados ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong><br />

la variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

6. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

7. Resultados para ’SUSAS Simulated - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l número <strong>de</strong><br />

gaussianas M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64<br />

8. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Simulated - GMM-SVM’. . . . . 65<br />

9. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - GMM-SVM’. . 65<br />

10. Resultados para varios costes para ’SUSAS Simulated - AMF’. . . . . . . . . . . 67<br />

11. EER ( %) por emoción para ’SUSAS Simulated - fusión suma y AMF’. . . . . . . 68<br />

12. Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />

Actual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />

13. Resultados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste. . 70<br />

14. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />

15. Resultados <strong>de</strong>l sistema ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste. . . 72<br />

16. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - GMM-SVM’. . . . 72<br />

17. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste ’SUSAS Actual - AMF’. . . . . . . . . . . . . . 74<br />

18. EER ( %) por emoción para ’SUSAS Actual - fusión suma y AMF’. . . . . . . . . 75<br />

19. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong>l coste para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’. 77<br />

20. Resultados para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong><br />

parámetros prosódicos normalizados. . . . . . . . . . . . . . . . . . . . . . . . . . 78<br />

21. C<strong>on</strong>figuración y resultados optimizados para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’. . . 78<br />

22. Resultados para ’Ah3R1 - GMM-SVM’ variando el número <strong>de</strong> gaussinas. . . . . 78<br />

23. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’Ah3R1 - GMM-SVM’. . . . . . . . . . . 79<br />

11


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

24. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos normalizados<br />

para ’Ah3R1 - GMM-SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />

25. C<strong>on</strong>figuración y resultados optimizados para ’Ah3R1 - GMM-SVM’. . . . . . . . 81<br />

26. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’Ah3R1 - AMF’. . . . . . . . . . . . . . . 82<br />

27. EER ( %) por emoción para ’Ah3R1 - fusión suma y AMF’. . . . . . . . . . . . . 83<br />

28. EER medio ( %) para las 3 bases <strong>de</strong> datos para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong><br />

locutor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84<br />

29. EERs ( %) <strong>de</strong> los sistemas fr<strong>on</strong>t-<strong>en</strong>d y back-<strong>en</strong>d para experim<strong>en</strong>tos inter-Base <strong>de</strong><br />

Datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86<br />

30. EERs ( %) para los dos tipos <strong>de</strong> sistemas AMF. . . . . . . . . . . . . . . . . . . . 87<br />

31. Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />

Simulated. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87<br />

32. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong>l coste para ’SUSAS Simulated - SVM c<strong>on</strong><br />

estadísticos’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89<br />

33. Resultados para ’SUSAS Simulated - GMM-SVM’ para varios costes. . . . . . . . 90<br />

34. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos<br />

y GMM-SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90<br />

35. Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Simulated - AMF’. . . . . . . . . 92<br />

36. EER ( %) por emoción para ’SUSAS Simulated - fusión suma y AMF’. . . . . . . 93<br />

37. Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />

Actual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94<br />

38. EER global <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos normalizados<br />

para ’SUSAS Actual - GMM-SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />

39. EER global para ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l número <strong>de</strong> gaussinas.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />

40. EER global para ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste. . . . . . . 95<br />

41. EER global para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ según los vectores<br />

prosódicos normalizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />

42. EER global <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’. 96<br />

43. C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos<br />

y GMM-SVM’. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />

44. Resultados para varios costes para ’SUSAS Actual - AMF’. . . . . . . . . . . . . 97<br />

45. EER ( %) por emoción para ’SUSAS Actual - fusión suma y AMF’. . . . . . . . . 98<br />

46. EER medio ( %) para las 3 bases <strong>de</strong> datos para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor. 99<br />

12 INDICE DE TABLAS


13<br />

1<br />

Introducción


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

1.1. Motivación<br />

El rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es a partir <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> es una disciplina que está ganando<br />

interés <strong>en</strong> la interacción hombre-máquina. Ti<strong>en</strong>e como objetivo i<strong>de</strong>ntificar automáticam<strong>en</strong>te<br />

el estado emoci<strong>on</strong>al o físico <strong>de</strong>l ser humano a través <strong>de</strong> su <strong>voz</strong>. A los estados emoci<strong>on</strong>ales y<br />

físicos <strong>de</strong>l locutor se les c<strong>on</strong>oce como aspectos emoci<strong>on</strong>ales <strong>de</strong> la <strong>voz</strong> y forman parte <strong>de</strong> los<br />

llamados aspectos paralingüísticos <strong>de</strong>l habla. Aunque el estado emoci<strong>on</strong>al no altera el c<strong>on</strong>t<strong>en</strong>ido<br />

lingüístico, éste es un factor importante <strong>en</strong> la comunicación humana, ya que proporci<strong>on</strong>a más<br />

información que la meram<strong>en</strong>te semántica acerca <strong>de</strong>l interlocutor.<br />

C<strong>on</strong> el progreso <strong>de</strong> las nuevas tecnologías y la introducción <strong>de</strong> sistemas interactivos, se<br />

ha increm<strong>en</strong>tado <strong>en</strong>ormem<strong>en</strong>te la <strong>de</strong>manda <strong>de</strong> interfaces amigables para comunicarse c<strong>on</strong> las<br />

máquinas. Existe un amplio rango <strong>de</strong> aplicaci<strong>on</strong>es <strong>en</strong> las tecnologías <strong>de</strong>l habla tales como, call<br />

c<strong>en</strong>ters, sistemas intelig<strong>en</strong>tes <strong>de</strong> automóvil o <strong>en</strong> la industria <strong>de</strong>l <strong>en</strong>tret<strong>en</strong>imi<strong>en</strong>to. Por ejemplo,<br />

el proyecto SmartKom <strong>de</strong>sarrolla un sistema <strong>de</strong> reserva <strong>de</strong> <strong>en</strong>tradas que emplea un rec<strong>on</strong>ocedor<br />

automático <strong>de</strong>l habla si<strong>en</strong>do capaz <strong>de</strong> rec<strong>on</strong>ocer el nivel <strong>de</strong> <strong>en</strong>fado o frustración <strong>de</strong> un usuario<br />

cambiando su respuesta corresp<strong>on</strong>di<strong>en</strong>tem<strong>en</strong>te. El rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong><br />

el habla pue<strong>de</strong> ser empleado por terapeutas como una herrami<strong>en</strong>ta <strong>de</strong> diagnóstico <strong>en</strong> medicina.<br />

En psicología, los métodos <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>al pue<strong>de</strong>n hacer fr<strong>en</strong>te c<strong>on</strong> la<br />

<strong>en</strong>orme cantidad <strong>de</strong> datos <strong>en</strong> tiempo real, obt<strong>en</strong>i<strong>en</strong>do <strong>de</strong> forma sistemática las características<br />

<strong>de</strong>l habla que transmit<strong>en</strong> emoción.<br />

El estudio <strong>de</strong> las características emoci<strong>on</strong>ales <strong>de</strong>l habla no ti<strong>en</strong>e como único objetivo<br />

el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es. Otro <strong>de</strong> estos objetivos es la síntesis <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>al<br />

<strong>en</strong>focada principalm<strong>en</strong>te para la comunicación <strong>de</strong> discapacitados. También, tareas como el<br />

rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong>l habla emoci<strong>on</strong>al o el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> locutor a partir <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>ada<br />

s<strong>on</strong> otras <strong>de</strong> las disciplinas hacia las que está <strong>en</strong>focada el estudio <strong>de</strong> las emoci<strong>on</strong>es <strong>en</strong> el habla.<br />

Por lo g<strong>en</strong>eral, las emoci<strong>on</strong>es no s<strong>on</strong> g<strong>en</strong>uinas o protípicas, sino que se aparec<strong>en</strong> como<br />

combinación <strong>de</strong> varias. Ésto hace <strong>de</strong> su clasificación una tarea ardua y dada a la subjetividad.<br />

Sin embargo, la mayoría <strong>de</strong> los investigadores han tratado c<strong>on</strong> emoci<strong>on</strong>es prototípicas o<br />

completas pues es la única manera <strong>de</strong> po<strong>de</strong>r discriminar <strong>en</strong>tre unas emoci<strong>on</strong>es y otras.<br />

En este proyecto se profundiza <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla.<br />

Esta tarea c<strong>on</strong>siste <strong>en</strong> un problema <strong>de</strong> clasificación multiclase, d<strong>on</strong><strong>de</strong> una locución <strong>de</strong> habla<br />

dada es clasificada <strong>en</strong>tre un c<strong>on</strong>junto <strong>de</strong> n emoci<strong>on</strong>es. Sin embargo, también resulta <strong>de</strong> interés<br />

<strong>de</strong>tectar una emoción <strong>de</strong>terminada <strong>en</strong> un segm<strong>en</strong>to <strong>de</strong> habla, lo cual justifica el uso <strong>de</strong> un<br />

<strong>en</strong>foque <strong>de</strong> verificación o <strong>de</strong>tección.<br />

1.2. Objetivos<br />

El objetivo <strong>de</strong>l pres<strong>en</strong>te proyecto es evaluar el funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> un c<strong>on</strong>junto técnicas<br />

exist<strong>en</strong>tes para el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es así como <strong>de</strong> nuevas técnicas pres<strong>en</strong>tadas<br />

<strong>en</strong> el mismo. Dichas técnicas se evaluarán tanto para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes como<br />

<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor. En c<strong>on</strong>creto, los sistemas están basados <strong>en</strong> Mo<strong>de</strong>los <strong>de</strong> Mezcla <strong>de</strong><br />

Gaussianas y Máquinas <strong>de</strong> Vectores Soporte. El proyecto estudia la forma <strong>de</strong> optimizar los<br />

resultados.<br />

Para el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los y para la evaluación <strong>de</strong> los sistemas, se hace uso <strong>de</strong><br />

la bases <strong>de</strong> datos SUSAS Simulated, SUSAS Actual y Ahumada III. El uso <strong>de</strong> varias bases<br />

<strong>de</strong> datos para la evaluación <strong>de</strong> nuestros sistemas va a sup<strong>on</strong>er una mayor variabilidad <strong>de</strong><br />

14<br />

CAPÍTULO 1. INTRODUCCIÓN


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

emoci<strong>on</strong>es y locutores haci<strong>en</strong>do que los resultados obt<strong>en</strong>idos sean más realísticos.<br />

1.3. Organización <strong>de</strong> la Memoria<br />

La memoria c<strong>on</strong>sta <strong>de</strong> los sigui<strong>en</strong>tes capítulos:<br />

1. Introducción: motivación y objetivos <strong>de</strong>l proyecto.<br />

2. Sistemas automáticos <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es: repasa la estructura y los difer<strong>en</strong>tes<br />

tipos <strong>de</strong> sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es.<br />

3. Estado <strong>de</strong>l arte <strong>en</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es: realiza un repaso <strong>de</strong> las principales<br />

técnicas utilizadas para esta disciplina.<br />

4. Diseño y Desarrollo: <strong>de</strong>scribe las bases <strong>de</strong> datos y sistemas empleados para realizar<br />

los experim<strong>en</strong>tos.<br />

5. Pruebas y Resultados: <strong>de</strong>scribe las pruebas y optimiza los resultados.<br />

6. C<strong>on</strong>clusi<strong>on</strong>es y trabajo futuro: Evalúa los resultados obt<strong>en</strong>idos y prop<strong>on</strong>e nuevas líneas <strong>de</strong><br />

investigación y mejora.<br />

CAPÍTULO 1. INTRODUCCIÓN 15


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

16<br />

CAPÍTULO 1. INTRODUCCIÓN


2<br />

Sistema automático <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es<br />

Un patrón es una colección <strong>de</strong> <strong>de</strong>scriptores c<strong>on</strong> los cuales repres<strong>en</strong>tamos los rasgos <strong>de</strong> una<br />

clase. Así, un sistema automático <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es es una técnica que mediante<br />

el análisis <strong>de</strong> las características <strong>de</strong> cierto elem<strong>en</strong>to, asigna una etiqueta, que repres<strong>en</strong>ta a una<br />

clase, a un patrón c<strong>on</strong>creto.<br />

Un tipo <strong>de</strong> sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> patr<strong>on</strong>es es la biometría o rec<strong>on</strong>ocimi<strong>en</strong>to<br />

biométrico. Éste, se basa <strong>en</strong> los rasgos físicos intrínsecos o c<strong>on</strong>ductuales para el<br />

rec<strong>on</strong>ocimi<strong>en</strong>to único <strong>de</strong> humanos. Estas características o comportami<strong>en</strong>tos humanos forman<br />

parte <strong>de</strong> lo que c<strong>on</strong>ocemos como rasgos biométricos.<br />

Otro tipo <strong>de</strong> sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es automático, aunque no propiam<strong>en</strong>te<br />

pert<strong>en</strong>eci<strong>en</strong>te al rec<strong>on</strong>ocimi<strong>en</strong>to biométricos, es el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es.<br />

Este tipo <strong>de</strong> sistema se basa <strong>en</strong> el análisis <strong>de</strong> las características particulares <strong>de</strong> las emoci<strong>on</strong>es<br />

para clasificar unas fr<strong>en</strong>te a otras. La percepción <strong>de</strong>l estado anímico humano pue<strong>de</strong> prov<strong>en</strong>ir<br />

<strong>de</strong> varios canales, si<strong>en</strong>do los dos principales las expresi<strong>on</strong>es faciales obt<strong>en</strong>idas a partir <strong>de</strong>l canal<br />

visual y las expresi<strong>on</strong>es léxico-f<strong>on</strong>éticas prov<strong>en</strong>i<strong>en</strong>tes <strong>de</strong>l habla.<br />

17


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

2.1. Introducción<br />

2.2. Estructura G<strong>en</strong>eral<br />

La estructura que sigue un sistema automático <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> patr<strong>on</strong>es es g<strong>en</strong>eralm<strong>en</strong>te<br />

la misma y es la que aparece <strong>en</strong> la Figura 1. A partir <strong>de</strong> ahora nos c<strong>en</strong>tramos <strong>en</strong> los<br />

sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático que utilizan la información emoci<strong>on</strong>al <strong>de</strong> la <strong>voz</strong> como<br />

base para la creación <strong>de</strong> los patr<strong>on</strong>es para dicho rec<strong>on</strong>ocimi<strong>en</strong>to.<br />

Des<strong>de</strong> que la señal <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>ada se exp<strong>on</strong>e al sistema hasta que el sistema la rec<strong>on</strong>oce,<br />

verifica o rechaza exist<strong>en</strong> una serie <strong>de</strong> etapas intermedias que se pasan a <strong>de</strong>scribir.<br />

Por norma g<strong>en</strong>eral el usuario sólo ti<strong>en</strong>e acceso al s<strong>en</strong>sor, mediante el cual se extraerá la<br />

señal <strong>de</strong> <strong>voz</strong>. Dicha fr<strong>on</strong>tera vi<strong>en</strong>e <strong>de</strong>terminada por la línea disc<strong>on</strong>tinua <strong>de</strong> la Figura 1. Los<br />

módulos que aparec<strong>en</strong> c<strong>on</strong> líneas c<strong>on</strong>tinuas s<strong>on</strong> aquellos que c<strong>on</strong>forman el sistema base <strong>de</strong><br />

rec<strong>on</strong>ocimi<strong>en</strong>to automático, mi<strong>en</strong>tras que los módulos c<strong>on</strong> líneas disc<strong>on</strong>tinuas s<strong>on</strong> opci<strong>on</strong>ales y<br />

se suel<strong>en</strong> usar como complem<strong>en</strong>to <strong>de</strong> los primeros.<br />

Figura 1: Esquema <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> un sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to.<br />

La primera tarea c<strong>on</strong>siste <strong>en</strong> la captura por parte <strong>de</strong> un micróf<strong>on</strong>o <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>, que<br />

transforma la señal acústica <strong>en</strong> señal eléctrica.<br />

El sigui<strong>en</strong>te paso es la parametrización <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> o extracción <strong>de</strong> sus características<br />

que c<strong>on</strong>siste <strong>en</strong> su codificación para que el sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to sea capaz <strong>de</strong> medirla y<br />

evaluarla cuantitativam<strong>en</strong>te. La parametrización pue<strong>de</strong> v<strong>en</strong>ir precedida <strong>de</strong> un preprocesado <strong>de</strong><br />

la señal. Esta etapa opci<strong>on</strong>al esta formada por todos aquellas transformaci<strong>on</strong>es que sufre la<br />

señal y que facilitan su posterior parametrización o que la hace más efici<strong>en</strong>te. Un ejemplo <strong>de</strong><br />

preprocesado es la eliminación <strong>de</strong> ruido <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> aplicando diversos tipos <strong>de</strong> filtros.<br />

Las etapas anteriores s<strong>on</strong> comunes tanto para el proceso <strong>de</strong> registro como para el <strong>de</strong><br />

rec<strong>on</strong>ocimi<strong>en</strong>to o test. En la etapa <strong>de</strong> registro, el usuario ofrece su <strong>voz</strong> al sistema. Ésta es<br />

18 CAPÍTULO 2. SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE PATRONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

parametrizada y mo<strong>de</strong>lada mediante la fase <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to para obt<strong>en</strong>er como resultado<br />

las difer<strong>en</strong>tes clases (emoci<strong>on</strong>es) <strong>en</strong> que va a po<strong>de</strong>r ser clasificado una muestra <strong>de</strong> test. Estos<br />

mo<strong>de</strong>los se almac<strong>en</strong>an <strong>en</strong> una base <strong>de</strong> datos para la posterior etapa <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to.<br />

En la etapa <strong>de</strong> i<strong>de</strong>ntificación se utiliza un comparador para obt<strong>en</strong>er la similitud <strong>de</strong> nuestro<br />

rasgo parametrizado c<strong>on</strong> respecto a las emoci<strong>on</strong>es mo<strong>de</strong>ladas <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. Como salida<br />

a dicha etapa t<strong>en</strong>emos una puntuación (score <strong>en</strong> inglés).<br />

La etapa <strong>de</strong> <strong>de</strong>cisión <strong>de</strong>p<strong>en</strong><strong>de</strong>rá <strong>de</strong>l modo <strong>de</strong> operación <strong>de</strong>l sistema. Si se trabaja <strong>en</strong> modo<br />

<strong>de</strong> verificación nos hará falta prefijar un umbral que nuestra puntuación ha <strong>de</strong> sobrepasar para<br />

c<strong>on</strong>si<strong>de</strong>rar que la emoción <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> <strong>de</strong> test pert<strong>en</strong>ece a la emoción objetivo.<br />

2.3. Modos <strong>de</strong> Operación<br />

Des<strong>de</strong> el punto <strong>de</strong> vista <strong>de</strong> los modos <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> los sistemas automáticos <strong>de</strong><br />

rec<strong>on</strong>ocimi<strong>en</strong>to, se pue<strong>de</strong> difer<strong>en</strong>ciar dos perspectivas <strong>de</strong> trabajo.<br />

• Sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>en</strong> modo i<strong>de</strong>ntificación<br />

• Sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>en</strong> modo verificación<br />

2.3.1. I<strong>de</strong>ntificación<br />

El modo <strong>de</strong> i<strong>de</strong>ntificación es el que usan los sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático<br />

<strong>de</strong> locutor e idioma. El objetivo <strong>en</strong> este tipo <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to es el <strong>de</strong> clasificar una<br />

realización <strong>de</strong>terminada <strong>de</strong> un rasgo biométrico como pert<strong>en</strong>eci<strong>en</strong>te a uno <strong>de</strong> las N posibles<br />

clases. Para ello se lleva a cabo una comparación “uno a varios” [Figura 2]. El sistema<br />

<strong>de</strong>cidirá si el rasgo <strong>de</strong> test pert<strong>en</strong>ece a alguna <strong>de</strong> las clases mo<strong>de</strong>ladas <strong>en</strong> la etapa <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

o a ninguna. D<strong>en</strong>tro <strong>de</strong> estos sistemas <strong>de</strong>bemos <strong>de</strong> difer<strong>en</strong>ciar <strong>en</strong>tre dos posibles casos.<br />

• I<strong>de</strong>ntificación <strong>en</strong> c<strong>on</strong>junto cerrado: <strong>en</strong> este caso, el resultado <strong>de</strong>l proceso es una<br />

asignación a una <strong>de</strong> las clases mo<strong>de</strong>ladas por el sistema. Exist<strong>en</strong>, por lo tanto, N posibles<br />

<strong>de</strong>cisi<strong>on</strong>es <strong>de</strong> salida posibles.<br />

• I<strong>de</strong>ntificación <strong>en</strong> c<strong>on</strong>junto abierto: aquí <strong>de</strong>bemos <strong>de</strong> c<strong>on</strong>si<strong>de</strong>rar una posibilidad<br />

adici<strong>on</strong>al a las N <strong>de</strong>l caso anterior: que el rasgo que pret<strong>en</strong><strong>de</strong> ser i<strong>de</strong>ntificado no pert<strong>en</strong>ezca al<br />

grupo <strong>de</strong> clases que c<strong>on</strong>ti<strong>en</strong>e la base <strong>de</strong> datos, c<strong>on</strong> lo que el sistema <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong>be <strong>de</strong><br />

c<strong>on</strong>templar la posibilidad <strong>de</strong> no clasificar la realización <strong>de</strong> <strong>en</strong>trada como pert<strong>en</strong>eci<strong>en</strong>te a las N<br />

posibles.<br />

Figura 2: Sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>en</strong> modo <strong>de</strong> i<strong>de</strong>ntificación. Figura adaptada <strong>de</strong><br />

[1].<br />

CAPÍTULO 2. SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE PATRONES 19


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

2.3.2. Verificación<br />

Los sistemas <strong>de</strong> verificación, por el c<strong>on</strong>trario llevan a cabo comparaci<strong>on</strong>es “uno a uno” y<br />

por ello sup<strong>on</strong><strong>en</strong> un m<strong>en</strong>or coste computaci<strong>on</strong>al que el sistema <strong>de</strong> i<strong>de</strong>ntificación. [Ver Figura 3].<br />

Este tipo <strong>de</strong> sistemas necesitan dos <strong>en</strong>tradas: una realización <strong>de</strong>l rasgo <strong>de</strong> test y una solicitud<br />

<strong>de</strong> i<strong>de</strong>ntidad a verificar. El sistema busca <strong>en</strong> la base <strong>de</strong> datos el mo<strong>de</strong>lo <strong>de</strong> dicha i<strong>de</strong>ntidad para<br />

<strong>en</strong>fr<strong>en</strong>tarlo a la realización <strong>de</strong> test facilitada.<br />

Figura 3: Sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>en</strong> modo <strong>de</strong> verificación. Figura adaptada <strong>de</strong><br />

[1].<br />

De este modo las dos únicas salidas o <strong>de</strong>cisi<strong>on</strong>es posibles <strong>de</strong>l sistema s<strong>on</strong> la aceptación o<br />

rechazo <strong>de</strong>l rasgo <strong>de</strong> test como aquel que pret<strong>en</strong><strong>de</strong> ser. La <strong>de</strong>cisión <strong>de</strong> aceptación o rechazo<br />

<strong>de</strong>p<strong>en</strong><strong>de</strong>rá <strong>de</strong> si la puntuación obt<strong>en</strong>ida <strong>en</strong> la i<strong>de</strong>ntificación supera o no un <strong>de</strong>terminado umbral<br />

<strong>de</strong> <strong>de</strong>cisión.<br />

Los sistemas <strong>de</strong> verificación pue<strong>de</strong>n ser vistos como un caso particular <strong>de</strong> i<strong>de</strong>ntificación <strong>en</strong><br />

c<strong>on</strong>junto abierto, <strong>en</strong> el que N=1.<br />

2.4. Evaluación <strong>de</strong> los Sistemas Automáticos <strong>de</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to<br />

Una <strong>de</strong> las tareas más importantes a la hora <strong>de</strong> diseñar un sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to<br />

automático es obt<strong>en</strong>er una medida fiable y precisa <strong>de</strong> su r<strong>en</strong>dimi<strong>en</strong>to. Gracias a ello vamos a<br />

po<strong>de</strong>r <strong>de</strong>terminar si nuestro sistema cumple unas especificaci<strong>on</strong>es mínimas <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to,<br />

evaluar posibles mejoras o compararlo c<strong>on</strong> otros sistemas.<br />

Figura 4: D<strong>en</strong>sida<strong>de</strong>s y distribuci<strong>on</strong>es <strong>de</strong> probabilidad <strong>de</strong> int<strong>en</strong>tos target y n<strong>on</strong>-target.<br />

En primer lugar hay que t<strong>en</strong>er claro que s<strong>on</strong> pruebas target y pruebas n<strong>on</strong>-target. Se<br />

20 CAPÍTULO 2. SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE PATRONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

<strong>de</strong>nomina int<strong>en</strong>to target cuando se comparara una muestra <strong>de</strong> una clase c<strong>on</strong> el patrón <strong>de</strong><br />

la misma clase, si la muestra y el patrón s<strong>on</strong> <strong>de</strong> clases distintas, al int<strong>en</strong>to se le <strong>de</strong>nomina<br />

n<strong>on</strong>-target. Cuanto mayor sea el número <strong>de</strong> int<strong>en</strong>tos <strong>de</strong> tanto pruebas target como n<strong>on</strong>-target,<br />

más fiable será la medida <strong>de</strong>l r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong>l sistema. Las puntuaci<strong>on</strong>es obt<strong>en</strong>idas <strong>en</strong> pruebas<br />

target serán puntuaci<strong>on</strong>es <strong>de</strong> usuarios válidos mi<strong>en</strong>tras que las obt<strong>en</strong>idas <strong>en</strong> pruebas n<strong>on</strong>-target<br />

serán puntuaci<strong>on</strong>es <strong>de</strong> usuarios impostores. El comportami<strong>en</strong>to <strong>de</strong>l sistema <strong>de</strong>p<strong>en</strong><strong>de</strong>rá <strong>de</strong>l valor<br />

<strong>de</strong> umbral a partir <strong>de</strong>l cual aceptaré la muestra <strong>de</strong> prueba como pert<strong>en</strong>eci<strong>en</strong>te a la clase <strong>de</strong><br />

refer<strong>en</strong>cia.<br />

Po<strong>de</strong>mos t<strong>en</strong>er dos tipos <strong>de</strong> errores, bi<strong>en</strong> que una muestra auténtica sea rechazada, lo<br />

que llamaremos tasa <strong>de</strong> Falso Rechazo (FR), o que una muestra falsa sea aceptada, lo que<br />

llamaremos tasa <strong>de</strong> Falsa Aceptación (FA).<br />

El umbral es un valor que influye directam<strong>en</strong>te <strong>en</strong> la tasa <strong>de</strong> falsa aceptación y falso rechazo.<br />

Según se pue<strong>de</strong> ver <strong>en</strong> la Figura 4, un valor alto <strong>de</strong> umbral hace que pocas pruebas n<strong>on</strong>-target<br />

sean aceptadas y por lo tanto la FA <strong>de</strong>sc<strong>en</strong><strong>de</strong>rá, a costa <strong>de</strong> increm<strong>en</strong>tar la FR. Por el c<strong>on</strong>trario,<br />

un valor pequeño <strong>de</strong> umbral hace que aum<strong>en</strong>te la FA mant<strong>en</strong>i<strong>en</strong>do bajo la FR. Como vemos,<br />

existe un compromiso <strong>en</strong>tre FR y FA que se <strong>de</strong>be evaluar acor<strong>de</strong> a la aplicación a la que vaya<br />

dirigido nuestro sistema. Así, por ejemplo, <strong>en</strong> un c<strong>on</strong>trol <strong>de</strong> acceso <strong>de</strong> alta seguridad sería<br />

a<strong>de</strong>cuado trabajar c<strong>on</strong> un elevado valor <strong>de</strong> umbral impidi<strong>en</strong>do <strong>de</strong> este modo una tasa alta <strong>de</strong> FA.<br />

Se c<strong>on</strong>si<strong>de</strong>ra el valor <strong>de</strong> error igual, EER (Equal Error Rate), a aquel punto d<strong>on</strong><strong>de</strong> las curvas<br />

<strong>de</strong> falsa aceptación y falso rechazo se cruzan. Esta tasa se suele usar para comparar sistemas.<br />

Figura 5: Curvas ROC y DET.<br />

Otro forma <strong>de</strong> repres<strong>en</strong>tar gráficam<strong>en</strong>te el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong>l sistema es mediante las curvas <strong>de</strong><br />

la Figura 5. En ellas se <strong>en</strong>fr<strong>en</strong>ta la probabilidad <strong>de</strong> FA y FR <strong>en</strong> una gráfica. Así, po<strong>de</strong>mos ver<br />

que valores <strong>de</strong> probabilidad <strong>de</strong> FA y FR t<strong>en</strong>emos para cada umbral escogido. A esta curva se le<br />

llama curva ROC (Receiver Operating Curve). Otra alternativa s<strong>on</strong> las curvas DET (Detecti<strong>on</strong><br />

Error Tra<strong>de</strong>off), cuya única difer<strong>en</strong>cia c<strong>on</strong> las curvas ROC es un cambio <strong>de</strong> escala <strong>en</strong> los ejes<br />

[3]. Serán las curvas DET las que se usarán <strong>en</strong> la sección <strong>de</strong> experim<strong>en</strong>tos para mostrar los<br />

resultados <strong>de</strong> forma gráfica.<br />

Junto a cada una <strong>de</strong> estas curvas se incluirá una tabla c<strong>on</strong> tres valores importantes a la<br />

hora <strong>de</strong> evaluar un sistema. Estos valores serán: el DCF mínimo (Detecti<strong>on</strong> Cost Functi<strong>on</strong>),<br />

EER global (<strong>en</strong> %) y EER medio (<strong>en</strong> %).<br />

CAPÍTULO 2. SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE PATRONES 21


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

El EER medio se calcula como el valor medio <strong>de</strong> los EERs por mo<strong>de</strong>lo. Así, EER medio<br />

diferirá <strong>de</strong>l EER global cuando los mo<strong>de</strong>los no t<strong>en</strong>gan todos el mismo número <strong>de</strong> int<strong>en</strong>tos o<br />

puntuaci<strong>on</strong>es.<br />

La función <strong>de</strong> coste es otra forma habitual <strong>de</strong> medir el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> los sistemas. Se<br />

<strong>de</strong>fine como:<br />

C DET (i) = C Miss· P Miss|T arget · P T arget + C F alseAlarm · P F alseAlarm|N<strong>on</strong>T arget · (1 − P T arget )<br />

D<strong>on</strong><strong>de</strong> C Miss es el coste asociado a un falso rechazo, C F alseAlarm es el coste asociado a una<br />

falsa aceptación, P T arget es la probabilidad <strong>de</strong> que un fichero dado pert<strong>en</strong>ezca a la emoción<br />

<strong>en</strong> cuestión (establecida a priori), P Miss|T arget es el porc<strong>en</strong>taje <strong>de</strong> falsos rechazos (dado por el<br />

sistema) y P F alseAlarm|N<strong>on</strong>T arget es la probabilidad <strong>de</strong> una falsa aceptación (dada por el sistema).<br />

Los valores fijados para la evaluación <strong>de</strong> locutor NIST SRE 2006 s<strong>on</strong>: C miss =1,<br />

C F alseAlarm =10 y P T arget =0.01. Estos valores s<strong>on</strong> los que vamos a utilizar para nuestro trabajo<br />

pues se ajustan también a nuestra tarea <strong>de</strong> evaluación <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es.<br />

Una falsa aceptación se p<strong>en</strong>aliza 10 veces más que un falso rechazo. La probabilidad <strong>de</strong> que<br />

el locutor experim<strong>en</strong>ta una cierta emoción es <strong>de</strong> 0.01 pues lo habitual es <strong>en</strong>c<strong>on</strong>trarnos <strong>en</strong> un<br />

estado <strong>de</strong> excitación normal.<br />

De esta forma, c<strong>on</strong> el porc<strong>en</strong>taje <strong>de</strong> falsa aceptación y falso rechazo, P Miss|T arget y<br />

P F alseAlarm|N<strong>on</strong>T arget , obt<strong>en</strong>ido <strong>de</strong> nuestro sistema podremos evaluar la función <strong>de</strong> coste, obt<strong>en</strong>i<strong>en</strong>do<br />

lo que se c<strong>on</strong>oce como DCF. El DCF mínimo será el mínimo valor <strong>de</strong> la DCF.<br />

2.5. Normalización <strong>de</strong> Puntuaci<strong>on</strong>es<br />

Los sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> patr<strong>on</strong>es produc<strong>en</strong> como salida una serie <strong>de</strong><br />

puntuaci<strong>on</strong>es que evalúan la similitud <strong>en</strong>tre las muestras <strong>de</strong> test y las clases o mo<strong>de</strong>los.<br />

Mediante las normalizaci<strong>on</strong>es lo que se pret<strong>en</strong><strong>de</strong> es proyectar las puntuaci<strong>on</strong>es tanto <strong>de</strong><br />

pruebas target como n<strong>on</strong>-target sobre un espacio acotado <strong>de</strong> media cero y varianza unidad, <strong>de</strong><br />

tal modo que las puntuaci<strong>on</strong>es que<strong>de</strong>n acotadas.<br />

C<strong>on</strong> dicha proyección o escalado <strong>de</strong> las puntuaci<strong>on</strong>es, lo que se pret<strong>en</strong><strong>de</strong> es buscar un umbral<br />

global para la tarea <strong>de</strong> <strong>de</strong>cisión ya que pue<strong>de</strong> ocurrir que durante la fase <strong>de</strong> aut<strong>en</strong>ticación,<br />

las puntuaci<strong>on</strong>es <strong>de</strong> un <strong>de</strong>terminado usuario, tanto las <strong>de</strong>l propio usuarios como las <strong>de</strong> los<br />

impostores, estén <strong>en</strong> un rango <strong>de</strong> valores distinto al <strong>de</strong> otros usuarios. Este efecto se c<strong>on</strong>oce<br />

como <strong>de</strong>salineami<strong>en</strong>to. La normalización <strong>de</strong> puntuaci<strong>on</strong>es s<strong>on</strong> el c<strong>on</strong>junto <strong>de</strong> técnicas y<br />

algoritmos que permit<strong>en</strong> aum<strong>en</strong>tar el r<strong>en</strong>dimi<strong>en</strong>to y robustez <strong>de</strong>l sistemas comp<strong>en</strong>sando este<br />

<strong>de</strong>salineami<strong>en</strong>to.<br />

La normalización <strong>de</strong> puntuaci<strong>on</strong>es es también importante para la posterior fusión <strong>de</strong><br />

sistemas pues sitúa las puntuaci<strong>on</strong>es <strong>de</strong> sistemas individuales <strong>en</strong> rangos homólogos.<br />

Las técnicas más corri<strong>en</strong>tes <strong>de</strong> normalización <strong>de</strong> puntuaci<strong>on</strong>es s<strong>on</strong> la T-norm y la Z-norm.<br />

La T-norm (Test Normalizati<strong>on</strong>) [4] es una normalización <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> la muestra <strong>de</strong> test,<br />

mi<strong>en</strong>tras que la Z-norm (Zero Normalizati<strong>on</strong>) [4] es <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l mo<strong>de</strong>lo o usuario.<br />

22 CAPÍTULO 2. SISTEMA AUTOMÁTICO DE RECONOCIMIENTO DE PATRONES


3<br />

Estado <strong>de</strong>l arte <strong>en</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es<br />

El rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es es sin duda una tarea multidisciplinar que<br />

involucra difer<strong>en</strong>tes campos <strong>de</strong> investigación tales como psicología, lingüística, análisis <strong>de</strong> <strong>voz</strong>,<br />

análisis <strong>de</strong> imág<strong>en</strong>es y apr<strong>en</strong>dizaje automático. El progreso <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong><br />

emoci<strong>on</strong>es está c<strong>on</strong>dici<strong>on</strong>ado al progreso <strong>en</strong> cada uno <strong>de</strong> los campos.<br />

Por ello, un sistema rec<strong>on</strong>ocedor <strong>de</strong>bería <strong>de</strong> realizar un análisis multimodal <strong>en</strong> el cual<br />

interviniese información proce<strong>de</strong>nte <strong>de</strong> difer<strong>en</strong>tes s<strong>en</strong>sores. Hay muchas señales humanas a<br />

partir <strong>de</strong> las cuales se pue<strong>de</strong> sacar información sobre el estado emoci<strong>on</strong>al <strong>de</strong> la pers<strong>on</strong>a, como<br />

por ejemplo, la <strong>voz</strong>, la imag<strong>en</strong> facial, gestos y posturas, ritmo <strong>de</strong> respiración y latido <strong>de</strong>l corazón,<br />

etc. Las tareas más estudiadas actualm<strong>en</strong>te s<strong>on</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla y <strong>en</strong><br />

imág<strong>en</strong>es faciales. Si bi<strong>en</strong> este proyecto sólo analizará el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla.<br />

23


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

3.1. Introducción<br />

En la comunicación humana se pue<strong>de</strong> distinguir dos canales difer<strong>en</strong>ciados. Uno <strong>de</strong> ellos<br />

se <strong>en</strong>carga <strong>de</strong> transmitir el m<strong>en</strong>saje <strong>de</strong> forma explícita, es <strong>de</strong>cir, el c<strong>on</strong>t<strong>en</strong>ido meram<strong>en</strong>te<br />

semántico. El otro tipo <strong>de</strong> canal no explícito hace <strong>en</strong>riquecer la comunicación humano-humano<br />

y es el que transmite información implícita como edad, sexo, estado emoci<strong>on</strong>al <strong>de</strong>l usuario,<br />

etc. Es <strong>en</strong> éste <strong>en</strong> el que se c<strong>en</strong>tra el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es. La importancia<br />

<strong>de</strong> estudiar el rec<strong>on</strong>ocimi<strong>en</strong>to emoci<strong>on</strong>al y añadirlo a una interfaz automática es gran<strong>de</strong> ya<br />

que es la base <strong>de</strong> las relaci<strong>on</strong>es humanas, y se fundam<strong>en</strong>ta <strong>en</strong> la interpretación <strong>de</strong> las señales<br />

transmitidas <strong>de</strong> forma inc<strong>on</strong>sci<strong>en</strong>te y que no siempre s<strong>on</strong> verbales.<br />

El paradigma <strong>de</strong> la comunicación hombre-máquina sugiere que las interfaces futuras se<br />

<strong>de</strong>b<strong>en</strong> c<strong>en</strong>trar <strong>en</strong> el humano y ser capaces <strong>de</strong> anticiparse, como por ejemplo, t<strong>en</strong>i<strong>en</strong>do la habilidad<br />

<strong>de</strong> <strong>de</strong>tectar cambios <strong>en</strong> el comportami<strong>en</strong>to <strong>de</strong>l usuario, especialm<strong>en</strong>te su comportami<strong>en</strong>to<br />

emoci<strong>on</strong>al.<br />

3.2. Aplicaci<strong>on</strong>es<br />

Los sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es están ori<strong>en</strong>tados hacia una amplia<br />

gama <strong>de</strong> aplicaci<strong>on</strong>es. Se podría difer<strong>en</strong>ciar <strong>en</strong>tre dos tipos <strong>de</strong> campos <strong>de</strong> aplicaci<strong>on</strong>es; aquellas<br />

que mejoran la calidad <strong>de</strong> vida, y las que sirv<strong>en</strong> para mejorar investigaci<strong>on</strong>es relaci<strong>on</strong>adas c<strong>on</strong><br />

la emoción [5].<br />

Entre las aplicaci<strong>on</strong>es cuya finalidad es mejorar la calidad <strong>de</strong> vida t<strong>en</strong>emos servicios al<br />

cli<strong>en</strong>te s<strong>en</strong>sibles a la emoción, call c<strong>en</strong>ters, sistemas <strong>de</strong> automóviles intelig<strong>en</strong>te capaces <strong>de</strong> <strong>de</strong>tectar<br />

fatiga <strong>en</strong> el c<strong>on</strong>ductor, aplicaci<strong>on</strong>es ori<strong>en</strong>tadas a la industria <strong>de</strong>l juego y <strong>en</strong>tret<strong>en</strong>imi<strong>en</strong>to<br />

o sistemas <strong>de</strong> síntesis <strong>de</strong> habla emoci<strong>on</strong>al para discapacitados. Estos sistemas cambiarán la<br />

manera <strong>en</strong> que interacci<strong>on</strong>amos c<strong>on</strong> las máquinas. Por ejemplo, un servicio <strong>de</strong> call c<strong>en</strong>ter<br />

automático c<strong>on</strong> <strong>de</strong>tector <strong>de</strong> emoción sería capaz <strong>de</strong> producir una respuesta apropiada o pasar<br />

el c<strong>on</strong>trol a un operador humano. La mayoría <strong>de</strong> los sintetizadores <strong>de</strong> habla actuales ofrec<strong>en</strong><br />

<strong>voz</strong> neutra que resulta m<strong>on</strong>ót<strong>on</strong>a y rutinaria. El proveer a estos sistemas <strong>de</strong> <strong>voz</strong> pers<strong>on</strong>alizada<br />

sería <strong>de</strong> gran ayuda para pers<strong>on</strong>as disminuidas.<br />

El otro grupo importante <strong>de</strong> aplicaci<strong>on</strong>es está ori<strong>en</strong>tado a la mejora <strong>de</strong> investigaci<strong>on</strong>es (por<br />

ejemplo, <strong>en</strong> psicología, psiquiatría, comportami<strong>en</strong>to humano o neurología), d<strong>on</strong><strong>de</strong> este tipo<br />

<strong>de</strong> sistemas pue<strong>de</strong> mejorar la calidad <strong>de</strong> la investigación obt<strong>en</strong>i<strong>en</strong>do mayor fiabilidad <strong>en</strong> las<br />

medidas y mayor velocidad <strong>en</strong> tareas manuales <strong>de</strong> procesado <strong>de</strong> datos sobre el comportami<strong>en</strong>to<br />

emoci<strong>on</strong>al. Las áreas <strong>de</strong> investigación <strong>en</strong> las que se pue<strong>de</strong> obt<strong>en</strong>er un b<strong>en</strong>eficio sustancial s<strong>on</strong><br />

investigaci<strong>on</strong>es <strong>en</strong> la c<strong>on</strong>ducta social (como el grado <strong>de</strong> interés <strong>de</strong> un sujeto <strong>en</strong> la comunicación<br />

[6]) y emoci<strong>on</strong>al, la relación madre-hijo, trastornos psiquiátricos y el estudio <strong>de</strong> expresi<strong>on</strong>es<br />

afectivas (por ejemplo, <strong>de</strong>cepción).<br />

3.3. Naturaleza <strong>de</strong> las Emoci<strong>on</strong>es<br />

En cada instante experim<strong>en</strong>tamos algún tipo <strong>de</strong> emoción o s<strong>en</strong>timi<strong>en</strong>to. Nuestro estado<br />

emoci<strong>on</strong>al varía a lo largo <strong>de</strong>l día <strong>en</strong> función <strong>de</strong> lo que nos ocurre y <strong>de</strong> los estímulos que<br />

percibimos. Otra cosa es que t<strong>en</strong>gamos siempre c<strong>on</strong>ci<strong>en</strong>cia <strong>de</strong> ello, es <strong>de</strong>cir, que sepamos y<br />

podamos expresar c<strong>on</strong> claridad que emoción experim<strong>en</strong>tamos <strong>en</strong> un mom<strong>en</strong>to dado.<br />

Las emoci<strong>on</strong>es s<strong>on</strong> experi<strong>en</strong>cias muy complejas y para expresarlas utilizamos una gran<br />

variedad <strong>de</strong> términos, a<strong>de</strong>más <strong>de</strong> gestos y actitu<strong>de</strong>s. Debido a su complejidad sería imposible<br />

24<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

hacer una <strong>de</strong>scripción y clasificación <strong>de</strong> todas las emoci<strong>on</strong>es que po<strong>de</strong>mos experim<strong>en</strong>tar. Sin<br />

embargo, el vocabulario usual para <strong>de</strong>scribir las emoci<strong>on</strong>es es reducido y ello permite que las<br />

pers<strong>on</strong>as <strong>de</strong> un mismo <strong>en</strong>torno cultural puedan compartirlas.<br />

La complejidad c<strong>on</strong> la que po<strong>de</strong>mos expresar nuestras emoci<strong>on</strong>es nos hace p<strong>en</strong>sar que<br />

la emoción es un proceso multifactorial o multidim<strong>en</strong>si<strong>on</strong>al. Uno siempre ti<strong>en</strong>e la impresión<br />

<strong>de</strong> que le faltan palabras para <strong>de</strong>scribir c<strong>on</strong> precisión sus emoci<strong>on</strong>es. La emoción no es un<br />

f<strong>en</strong>óm<strong>en</strong>o simple, sino que muchos factores c<strong>on</strong>tribuy<strong>en</strong> a ello. Se experim<strong>en</strong>tan a veces cuando<br />

algo inesperado suce<strong>de</strong> y los efectos emoci<strong>on</strong>ales empiezan a t<strong>en</strong>er c<strong>on</strong>trol <strong>en</strong> esos mom<strong>en</strong>tos.<br />

Emoción y estado emoci<strong>on</strong>al s<strong>on</strong> c<strong>on</strong>ceptos difer<strong>en</strong>tes: mi<strong>en</strong>tras que las emoci<strong>on</strong>es surg<strong>en</strong><br />

rep<strong>en</strong>tinam<strong>en</strong>te <strong>en</strong> respuesta a un <strong>de</strong>terminado estímulo y duran unos segundos o minutos,<br />

los estados <strong>de</strong> ánimo s<strong>on</strong> más ambiguos <strong>en</strong> su naturaleza, perdurando durante horas o días.<br />

Las emoci<strong>on</strong>es pue<strong>de</strong>n ser c<strong>on</strong>si<strong>de</strong>radas más claram<strong>en</strong>te como algo cambiante y los estados <strong>de</strong><br />

ánimo s<strong>on</strong> más estables. Aunque el principio <strong>de</strong> una emoción pue<strong>de</strong> ser fácilm<strong>en</strong>te distinguible<br />

<strong>de</strong> un estado <strong>de</strong> ánimo, es imposible <strong>de</strong>finir cuando una emoción se c<strong>on</strong>vierte <strong>en</strong> un estado <strong>de</strong><br />

ánimo; posiblem<strong>en</strong>te por esta razón, el c<strong>on</strong>cepto <strong>de</strong> emoción es usado como un término g<strong>en</strong>eral<br />

que incluye al <strong>de</strong>l estado <strong>de</strong> ánimo.<br />

Como término más g<strong>en</strong>eral al <strong>de</strong> estado <strong>de</strong> ánimo y emoción, está el rasgo a largo plazo <strong>de</strong><br />

pers<strong>on</strong>alidad, que pue<strong>de</strong> <strong>de</strong>finirse como el t<strong>on</strong>o emoci<strong>on</strong>al característico <strong>de</strong> una pers<strong>on</strong>a a lo<br />

largo <strong>de</strong>l tiempo.<br />

Muchos <strong>de</strong> los términos utilizados para <strong>de</strong>scribir emoci<strong>on</strong>es y sus efectos s<strong>on</strong> necesariam<strong>en</strong>te<br />

difusos y no están claram<strong>en</strong>te <strong>de</strong>finidos. Esto es atribuible a la dificultad <strong>en</strong> expresar <strong>en</strong> palabras<br />

los c<strong>on</strong>ceptos abstractos <strong>de</strong> los s<strong>en</strong>timi<strong>en</strong>tos, que no pue<strong>de</strong>n ser cuantificados. Por ello, para<br />

<strong>de</strong>scribir características <strong>de</strong> las emoci<strong>on</strong>es se utilizan un c<strong>on</strong>junto <strong>de</strong> palabras emotivas, si<strong>en</strong>do<br />

selecci<strong>on</strong>adas la mayoría <strong>de</strong> ellas por elección pers<strong>on</strong>al <strong>en</strong> vez <strong>de</strong> comunicar un significado<br />

estándar.<br />

3.4. Emoci<strong>on</strong>es <strong>en</strong> el Habla<br />

La <strong>voz</strong> es el principal modo <strong>de</strong> comunicación <strong>en</strong>tre humanos y por c<strong>on</strong>sigui<strong>en</strong>te a lo largo<br />

<strong>de</strong> las últimas décadas se ha estudiado las maneras <strong>en</strong> que funci<strong>on</strong>a el tracto vocal a la hora <strong>de</strong><br />

producir <strong>voz</strong>. Durante este tiempo se ha investigado la manera <strong>de</strong> diseñar sistemas capaces <strong>de</strong><br />

sintetizar y rec<strong>on</strong>ocer <strong>voz</strong> electrónicam<strong>en</strong>te.<br />

Uno <strong>de</strong> los mayores problemas c<strong>on</strong> los que se ha <strong>en</strong>c<strong>on</strong>trado la comunidad ci<strong>en</strong>tífica a la<br />

hora <strong>de</strong> estudiar los mecanismos <strong>de</strong>l habla es la variabilidad <strong>de</strong> ésta. Muchos estudios han<br />

<strong>de</strong>mostrado que por medio <strong>de</strong> la <strong>voz</strong> se es capaz <strong>de</strong> rec<strong>on</strong>ocer varios aspectos <strong>de</strong>l estado físico,<br />

tales como la edad, sexo, apari<strong>en</strong>cia y <strong>de</strong>l estado emoci<strong>on</strong>al [7], [8]. Todo este c<strong>on</strong>junto <strong>de</strong><br />

factores, difer<strong>en</strong>tes para cada locutor, c<strong>on</strong>tribuy<strong>en</strong> a la variabilidad <strong>de</strong>l habla. El problema<br />

por ejemplo <strong>en</strong> los sintetizadores <strong>de</strong> habla es que no ofrec<strong>en</strong> esta variabilidad <strong>en</strong> el habla y<br />

produc<strong>en</strong> por lo tanto un habla no natural. La variabilidad <strong>en</strong> el habla sup<strong>on</strong>e también un<br />

problema <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla haci<strong>en</strong>do así que un c<strong>on</strong>t<strong>en</strong>ido semántico como por<br />

ejemplo una palabra pueda ser expresada <strong>de</strong> un número incalculable <strong>de</strong> maneras <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do<br />

<strong>de</strong> las c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> cada locutor, sexo, edad, estado emoci<strong>on</strong>al, etc.<br />

Para implem<strong>en</strong>tar c<strong>on</strong> éxito los rec<strong>on</strong>ocedores <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla hay que t<strong>en</strong>er<br />

<strong>en</strong> cu<strong>en</strong>ta dos factores fundam<strong>en</strong>tales: el c<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> como pue<strong>de</strong>n distinguirse las<br />

características emoci<strong>on</strong>ales <strong>de</strong> la <strong>voz</strong> y como pue<strong>de</strong>n <strong>de</strong>scribirse dichas características usando<br />

los métodos <strong>de</strong> procesado <strong>de</strong> <strong>voz</strong> c<strong>on</strong>v<strong>en</strong>ci<strong>on</strong>ales.<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 25


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Si c<strong>on</strong>si<strong>de</strong>ramos el c<strong>on</strong>junto <strong>de</strong> características <strong>de</strong>l habla que puedan ser analizadas <strong>en</strong><br />

habla emoci<strong>on</strong>ada (bajo estrés), la frecu<strong>en</strong>cia fundam<strong>en</strong>tal o pitch es una <strong>de</strong> las que más se ha<br />

estudiado históricam<strong>en</strong>te. Uno <strong>de</strong> los primeros y más amplios trabajos sobre el análisis <strong>de</strong> las características<br />

<strong>de</strong>l habla fue Williams y Stev<strong>en</strong>s [9], al cual le fuer<strong>on</strong> sucedi<strong>en</strong>do más c<strong>on</strong> el tiempo.<br />

Los efectos <strong>de</strong> las emoci<strong>on</strong>es <strong>en</strong> el habla han sido estudiados por investigadores acústicos<br />

que han analizado la señal <strong>de</strong> <strong>voz</strong>, por lingüistas que han estudiado los efectos léxicos y<br />

prosódicos y por psicólogos. Gracias a estos esfuerzos se ha c<strong>on</strong>seguido i<strong>de</strong>ntificar muchos <strong>de</strong> los<br />

comp<strong>on</strong><strong>en</strong>tes <strong>de</strong>l habla que se utilizan para expresar emoci<strong>on</strong>es, <strong>de</strong>ntro <strong>de</strong> los cuales se c<strong>on</strong>si<strong>de</strong>ran<br />

los más importantes: pitch, duración, calidad <strong>de</strong> <strong>voz</strong> y forma <strong>de</strong>l pulso glotal y tracto vocal.<br />

3.4.1. Pitch<br />

El pitch o frecu<strong>en</strong>cia fundam<strong>en</strong>tal es la frecu<strong>en</strong>cia a la que vibran las cuerdas vocales,<br />

también llamada frecu<strong>en</strong>cia fundam<strong>en</strong>tal o F0. Es uno <strong>de</strong> los parámetros que caracterizan la<br />

<strong>voz</strong> <strong>de</strong> un locutor. Se c<strong>on</strong>si<strong>de</strong>ra que las características <strong>de</strong>l pitch s<strong>on</strong> unas <strong>de</strong> las principales<br />

portadoras <strong>de</strong> la información emoci<strong>on</strong>al.<br />

Las características <strong>de</strong> la frecu<strong>en</strong>cia fundam<strong>en</strong>tal incluy<strong>en</strong> c<strong>on</strong>torno, media, variabilidad y<br />

distribución.<br />

• El valor medio <strong>de</strong>l pitch <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong>l locutor y expresa el nivel <strong>de</strong> excitación <strong>de</strong>l locutor.<br />

Po<strong>de</strong>mos afirmar que una media elevada <strong>de</strong> F0 indica un mayor grado <strong>de</strong> excitación.<br />

• El rango <strong>de</strong>l pitch es la distancia <strong>en</strong>tre el valor máximo y mínimo <strong>de</strong> la frecu<strong>en</strong>cia<br />

fundam<strong>en</strong>tal. Refleja también el grado <strong>de</strong> exaltación <strong>de</strong>l locutor. Un rango más ext<strong>en</strong>so que el<br />

normal refleja una excitación emoci<strong>on</strong>al o psicológica.<br />

• Las fluctuaci<strong>on</strong>es <strong>en</strong> el pitch <strong>de</strong>scritas como la velocidad <strong>de</strong> la fluctuaci<strong>on</strong>es <strong>en</strong>tre valores<br />

altos y bajos y si s<strong>on</strong> abruptas o suaves s<strong>on</strong> producidas psicológicam<strong>en</strong>te. En g<strong>en</strong>eral, la curva<br />

<strong>de</strong> t<strong>on</strong>o es disc<strong>on</strong>tinua para las emoci<strong>on</strong>es c<strong>on</strong>si<strong>de</strong>radas como negativas (miedo, <strong>en</strong>fado) y es<br />

suave para las emoci<strong>on</strong>es positivas (por ejemplo la alegría).<br />

Figura 6: Ejemplo <strong>de</strong> distribución <strong>de</strong> probabilidad <strong>de</strong> pitch para un locutor masculino.<br />

26<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

• La distribución <strong>de</strong> pitch <strong>de</strong>scribe el rango <strong>de</strong> valores <strong>de</strong> pitch así como la probabilidad<br />

<strong>de</strong> que un cierto valor esté <strong>de</strong>ntro <strong>de</strong> un subc<strong>on</strong>junto <strong>de</strong> dicho rango. Dicha distribución es<br />

precisam<strong>en</strong>te lo que mo<strong>de</strong>laremos posteriorm<strong>en</strong>te <strong>en</strong> nuestro sistema GMM-SVM. La Figura<br />

6 corresp<strong>on</strong><strong>de</strong> c<strong>on</strong> un ejemplo <strong>de</strong> distribución <strong>de</strong> pitch <strong>de</strong> un locutor masculino. Una <strong>de</strong> las<br />

maneras más fácil <strong>de</strong> distinguir <strong>en</strong>tre <strong>voz</strong> masculina y fem<strong>en</strong>ina es a través <strong>de</strong> la distribución<br />

<strong>de</strong>l pitch. Así, el género fem<strong>en</strong>ino posee una frecu<strong>en</strong>cia fundam<strong>en</strong>tal media aproximadam<strong>en</strong>te<br />

el doble a la <strong>de</strong>l hombre y una <strong>de</strong>sviación también mucho mayor [Figura 7], es <strong>de</strong>cir, existe<br />

mayor diversidad <strong>de</strong> t<strong>on</strong>o <strong>de</strong> <strong>voz</strong> <strong>en</strong> mujeres que <strong>en</strong> hombres.<br />

Figura 7: Distribución F0 hombre/mujer.<br />

3.4.2. Duración<br />

La duración es la comp<strong>on</strong><strong>en</strong>te <strong>de</strong> la prosodia <strong>de</strong>scrita por la velocidad <strong>de</strong>l habla y la<br />

situación <strong>de</strong> los ac<strong>en</strong>tos, y cuyos efectos s<strong>on</strong> el ritmo y la velocidad. El ritmo <strong>en</strong> el habla <strong>de</strong>riva<br />

<strong>de</strong> la situación <strong>de</strong> los ac<strong>en</strong>tos y <strong>de</strong> la combinación <strong>de</strong> las duraci<strong>on</strong>es <strong>de</strong> las pausas y <strong>de</strong> los<br />

f<strong>on</strong>emas.<br />

Para ciertas c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> estrés, la duración <strong>de</strong> las palabras o <strong>de</strong> los f<strong>on</strong>emas, los cambios<br />

<strong>en</strong>tre vocales fr<strong>en</strong>te a c<strong>on</strong>s<strong>on</strong>antes o la pres<strong>en</strong>cia <strong>de</strong> c<strong>on</strong>s<strong>on</strong>antes juegan un papel importante<br />

<strong>en</strong> la habilidad <strong>de</strong> los oy<strong>en</strong>tes a la hora <strong>de</strong> recibir la información <strong>de</strong>l locutor [10].<br />

Las emoci<strong>on</strong>es pue<strong>de</strong>n distinguirse por una serie <strong>de</strong> parámetros que c<strong>on</strong>ciern<strong>en</strong> a la<br />

duración, como s<strong>on</strong>:<br />

• velocidad <strong>de</strong> locución: g<strong>en</strong>eralm<strong>en</strong>te un locutor <strong>en</strong> estado <strong>de</strong> excitación acortará la<br />

duración <strong>de</strong> las sílabas, c<strong>on</strong> lo que la velocidad <strong>de</strong> locución medida <strong>en</strong> sílabas por segundo o <strong>en</strong><br />

palabras por minuto se increm<strong>en</strong>tará.<br />

• número <strong>de</strong> pausas y su duración: un locutor exaltado t<strong>en</strong><strong>de</strong>rá a hablar rápidam<strong>en</strong>te<br />

c<strong>on</strong> m<strong>en</strong>os pausas y más cortas, mi<strong>en</strong>tras que un locutor <strong>de</strong>primido hablará más l<strong>en</strong>tam<strong>en</strong>te,<br />

introduci<strong>en</strong>do pausas más largas.<br />

3.4.3. Calidad <strong>de</strong> Voz<br />

La calidad <strong>de</strong> <strong>voz</strong> pue<strong>de</strong> marcar la difer<strong>en</strong>cia <strong>en</strong>tre unas emoci<strong>on</strong>es y otras. Exist<strong>en</strong><br />

numerosas variables f<strong>on</strong>éticas relaci<strong>on</strong>adas c<strong>on</strong> la calidad <strong>de</strong> <strong>voz</strong>: coci<strong>en</strong>te <strong>de</strong> abertura <strong>de</strong><br />

las cuerdas vocales, timbre e irregularida<strong>de</strong>s <strong>de</strong> la <strong>voz</strong>, ruido, distribución <strong>de</strong> la <strong>en</strong>ergía<br />

(int<strong>en</strong>sidad), laringerización, etc.<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 27


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

3.4.4. Pulso Glotal y Tracto Vocal<br />

Las características espectrales producidas como respuesta al tracto vocal y glotal también<br />

se v<strong>en</strong> modificadas durante la producción <strong>de</strong> habla bajo estrés.<br />

Características <strong>de</strong> la forma <strong>de</strong>l pulso glotal como la p<strong>en</strong>di<strong>en</strong>te, c<strong>en</strong>tro <strong>de</strong> masas o nivel<br />

medio espectral, también han sido analizadas como pot<strong>en</strong>ciales rasgos acústicos correlados c<strong>on</strong><br />

el habla emoci<strong>on</strong>al. También han sido investigadas la media, varianza y la localización y ancho<br />

<strong>de</strong> banda <strong>de</strong> los formantes para estudiar el efecto <strong>de</strong>l habla bajo c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> estrés [11].<br />

La Tabla 1 pres<strong>en</strong>ta un resum<strong>en</strong> <strong>de</strong> las relaci<strong>on</strong>es <strong>en</strong>tre las emoci<strong>on</strong>es y los parámetros <strong>de</strong>l<br />

discurso. Como se pue<strong>de</strong> observar <strong>en</strong> la tabla únicam<strong>en</strong>te aparec<strong>en</strong> cinco emoci<strong>on</strong>es. Como<br />

veremos <strong>en</strong> la sección 3.5, éstas corresp<strong>on</strong><strong>de</strong>n c<strong>on</strong> las emoci<strong>on</strong>es primarias o básicas. El resto<br />

<strong>de</strong> emoci<strong>on</strong>es modifican y combinan estas emoci<strong>on</strong>es básicas y s<strong>on</strong> las que llamamos emoci<strong>on</strong>es<br />

secundarias.<br />

Ira Felicidad Tristeza Miedo Disgusto<br />

Veloc. Ligeram<strong>en</strong>te Acelerada o Pausada Muy Mucho más<br />

Habla acelerada retardada<br />

acelerada acelerada<br />

Calidad Proce<strong>de</strong>nte Estri<strong>de</strong>nte Res<strong>on</strong>ante Irregular Retumbante<br />

<strong>voz</strong><br />

<strong>de</strong>l pecho<br />

Int<strong>en</strong>sidad Alta Alta Baja Normal Baja<br />

Pulso<br />

glotal<br />

P<strong>en</strong>di<strong>en</strong>te<br />

fuerte y alto<br />

P<strong>en</strong>di<strong>en</strong>te<br />

fuerte<br />

P<strong>en</strong>di<strong>en</strong>te<br />

suave y<br />

P<strong>en</strong>di<strong>en</strong>te<br />

muy fuerte y<br />

P<strong>en</strong>di<strong>en</strong>te<br />

fuerte<br />

ancho banda<br />

ancho banda gran ancho<br />

estrecho. banda<br />

Tabla 1: Emoci<strong>on</strong>es y características <strong>de</strong>l habla.<br />

Existe <strong>en</strong> g<strong>en</strong>eral una relación c<strong>on</strong>ocida <strong>en</strong>tre el habla y las emoci<strong>on</strong>es primarias. Las<br />

medidas <strong>de</strong>l habla que parec<strong>en</strong> ser bu<strong>en</strong>as indicadoras <strong>de</strong> estas emoci<strong>on</strong>es s<strong>on</strong> medidas acústicas<br />

c<strong>on</strong>tinuas, tales como las relaci<strong>on</strong>adas c<strong>on</strong> la variación <strong>de</strong>l discurso, el rango, la int<strong>en</strong>sidad y<br />

la duración <strong>de</strong>l mismo. Sin embargo esta relación suele no ser sufici<strong>en</strong>te. Una <strong>de</strong> las líneas <strong>de</strong><br />

investigación <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es es la mejora <strong>de</strong> nuestra capacidad<br />

para i<strong>de</strong>ntificar la correlación <strong>en</strong>tre las señales acústicas <strong>en</strong> el discurso y el amplio rango <strong>de</strong><br />

emoci<strong>on</strong>es producidas por el hablante. Los sistemas diseñados para llevar a cabo esta tarea, por<br />

lo g<strong>en</strong>eral, s<strong>on</strong> extremadam<strong>en</strong>te s<strong>en</strong>sibles a la variabilidad introducida por el hablante. Esta<br />

variabilidad se <strong>de</strong>be, especialm<strong>en</strong>te a variaci<strong>on</strong>es <strong>en</strong> la <strong>voz</strong> y <strong>en</strong> estilo causadas por ejemplo por<br />

difer<strong>en</strong>tes estados <strong>de</strong> ánimo <strong>de</strong>l hablante [12].<br />

3.5. Clasificación <strong>de</strong> las Emoci<strong>on</strong>es<br />

En la mayoría <strong>de</strong> los casos, las emoci<strong>on</strong>es no s<strong>on</strong> g<strong>en</strong>uinas o protípicas, sino que se dan<br />

como mezcla <strong>de</strong> varias. Ésto provoca que la clasificación <strong>de</strong> las emoci<strong>on</strong>es sea una tarea ardua<br />

y totalm<strong>en</strong>te expuesta a las subjetividad. Sin embargo, la mayoría <strong>de</strong> los investigadores han<br />

tratado siempre c<strong>on</strong> emoci<strong>on</strong>es prototípicas o completas pues es la única manera <strong>de</strong> po<strong>de</strong>r<br />

discriminar <strong>en</strong>tre unas emoci<strong>on</strong>es y otras.<br />

Basánd<strong>on</strong>os <strong>en</strong> el grado <strong>en</strong> que las emoci<strong>on</strong>es afectan al comportami<strong>en</strong>to <strong>de</strong>l sujeto po<strong>de</strong>mos<br />

clasificar las emoci<strong>on</strong>es como positivas o negativas. Cada emoción expresa una cantidad o<br />

28<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

magnitud <strong>en</strong> una escala positivo/negativo. Así, experim<strong>en</strong>tamos emoci<strong>on</strong>es positivas y negativas<br />

<strong>en</strong> grados variables y <strong>de</strong> int<strong>en</strong>sidad diversa. Po<strong>de</strong>mos experim<strong>en</strong>tar cambios <strong>de</strong> int<strong>en</strong>sidad<br />

emoci<strong>on</strong>al bruscos o graduales, bi<strong>en</strong> hacia lo positivo o bi<strong>en</strong> hacia lo negativo. Es <strong>de</strong>cir, toda<br />

emoción repres<strong>en</strong>ta una magnitud o medida a lo largo <strong>de</strong> un c<strong>on</strong>tinuo, que pue<strong>de</strong> tomar valores<br />

positivos o negativos.<br />

En el l<strong>en</strong>guaje cotidiano, expresamos nuestras emoci<strong>on</strong>es <strong>de</strong>ntro <strong>de</strong> una escala positiv<strong>on</strong>egativo<br />

y <strong>en</strong> magnitu<strong>de</strong>s variables, como ”me si<strong>en</strong>to bi<strong>en</strong>”, ”me si<strong>en</strong>to muy bi<strong>en</strong>”, ”me si<strong>en</strong>to<br />

extraordinariam<strong>en</strong>te bi<strong>en</strong>”(int<strong>en</strong>sida<strong>de</strong>s o grados <strong>de</strong>l polo positivo) o ”me si<strong>en</strong>to mal”, ”me<br />

si<strong>en</strong>to muy mal”, ”me si<strong>en</strong>to extraordinariam<strong>en</strong>te mal”(int<strong>en</strong>sida<strong>de</strong>s o grados <strong>de</strong>l polo negativo).<br />

Según sea la situación que provoca la emoción, escogemos unas palabras u otras como<br />

’amor’, ’amistad’, ’temor’, ’incertidumbre’, ’respeto’, etc., que, a<strong>de</strong>más, señala su signo (positivo<br />

o negativo). Y según sea la int<strong>en</strong>sidad <strong>de</strong> la emoción escogemos palabras como ’nada’, ’poco’, ’<br />

bastante’, ’muy’, etc. y así, comp<strong>on</strong>emos la <strong>de</strong>scripción <strong>de</strong> una emoción. Decimos, por ejemplo,<br />

”me si<strong>en</strong>to muy compr<strong>en</strong>dido”(positiva) o ”me si<strong>en</strong>to un poco <strong>de</strong>fraudado”(negativa).<br />

En c<strong>on</strong>secu<strong>en</strong>cia, po<strong>de</strong>mos rec<strong>on</strong>ocer <strong>en</strong> toda emoción dos comp<strong>on</strong><strong>en</strong>tes bi<strong>en</strong> difer<strong>en</strong>ciados.<br />

Por un lado, un comp<strong>on</strong><strong>en</strong>te cualitativo que se expresa mediante la palabra que utilizamos<br />

para <strong>de</strong>scribir la emoción (amor, amistad, temor, inseguridad, etc.) y que <strong>de</strong>termina su signo<br />

positivo o negativo. Por otro lado, toda emoción posee un comp<strong>on</strong><strong>en</strong>te cuantitativo que se<br />

expresa mediante palabras <strong>de</strong> magnitud (poco, bastante, mucho, gran, algo, etc.), tanto para<br />

las emoci<strong>on</strong>es positivas como negativas.<br />

Otro tipo <strong>de</strong> clasificación es la que difer<strong>en</strong>cia <strong>en</strong>tre emoci<strong>on</strong>es primarias y emoci<strong>on</strong>es<br />

secundarias. Las primeras s<strong>on</strong> las emoci<strong>on</strong>es fundam<strong>en</strong>tales mi<strong>en</strong>tras que las secundarias s<strong>on</strong><br />

todas las <strong>de</strong>más que modifican y combinan estas emoci<strong>on</strong>es básicas. Sin embargo, no hay<br />

c<strong>on</strong>s<strong>en</strong>so sobre cuáles c<strong>on</strong>stituy<strong>en</strong> las emoci<strong>on</strong>es básicas.<br />

• Emoci<strong>on</strong>es primarias<br />

- Enfado: El <strong>en</strong>fado ha sido ampliam<strong>en</strong>te estudiado <strong>en</strong> la literatura sobre emoci<strong>on</strong>es. Hay<br />

c<strong>on</strong>tradicci<strong>on</strong>es <strong>en</strong>tre los efectos recogidos <strong>en</strong> estos escritos, aunque esto pue<strong>de</strong> ser <strong>de</strong>bido a<br />

que el <strong>en</strong>fado pue<strong>de</strong> ser expresado <strong>de</strong> varias maneras. El <strong>en</strong>fado se <strong>de</strong>fine como “la impresión<br />

<strong>de</strong>sagradable y molesta que se produce <strong>en</strong> el ánimo”. El <strong>en</strong>fado se caracteriza por un t<strong>on</strong>o<br />

medio alto (229 Hz), un amplio rango <strong>de</strong> t<strong>on</strong>o y una velocidad <strong>de</strong> locución rápida (190 palabras<br />

por minuto), c<strong>on</strong> un 32 % <strong>de</strong> pausas.<br />

- Alegría: Se manifiesta <strong>en</strong> un increm<strong>en</strong>to <strong>en</strong> el t<strong>on</strong>o medio y <strong>en</strong> su rango, así como un<br />

increm<strong>en</strong>to <strong>en</strong> la velocidad <strong>de</strong> locución y <strong>en</strong> la int<strong>en</strong>sidad.<br />

- Tristeza: El habla triste exhibe un t<strong>on</strong>o medio más bajo que el normal, un estrecho rango<br />

y una velocidad <strong>de</strong> locución l<strong>en</strong>ta.<br />

- Miedo: Comparando el t<strong>on</strong>o medio c<strong>on</strong> los otras cuatros emoci<strong>on</strong>es primarias estudiadas,<br />

se observó el t<strong>on</strong>o medio más elevado (254Hz), el rango mayor, un gran número <strong>de</strong> cambios <strong>en</strong><br />

la curva <strong>de</strong>l t<strong>on</strong>o y una velocidad <strong>de</strong> locución rápida (202 palabras por minuto).<br />

- Disgusto/odio: Se caracteriza por un t<strong>on</strong>o medio bajo, un rango amplio y la velocidad <strong>de</strong><br />

locución más baja, c<strong>on</strong> gran<strong>de</strong>s pausas.<br />

• Emoci<strong>on</strong>es secundarias<br />

- P<strong>en</strong>a: es una forma extrema <strong>de</strong> tristeza, g<strong>en</strong>eralm<strong>en</strong>te causada por una aflicción. Se<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 29


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

caracteriza por un bajo t<strong>on</strong>o medio, el rango <strong>de</strong> t<strong>on</strong>o más estrecho, la p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> la curva <strong>de</strong><br />

t<strong>on</strong>o más baja, una velocidad <strong>de</strong> locución baja y un alto porc<strong>en</strong>taje <strong>de</strong> pausas.<br />

- Ternura: se expresa c<strong>on</strong> un alto nivel <strong>de</strong> t<strong>on</strong>o que no fluctúa excesivam<strong>en</strong>te.<br />

- Ir<strong>on</strong>ía: caracterizada por una velocidad <strong>de</strong> locución baja y una ac<strong>en</strong>tuación muy marcada.<br />

- Sorpresa: c<strong>on</strong> un t<strong>on</strong>o medio mayor que la <strong>voz</strong> normal, una velocidad igual a la normal y<br />

un rango amplio.<br />

Otras emoci<strong>on</strong>es secundarias: como el temor, la queja, el anhelo, el aburrimi<strong>en</strong>to, la<br />

satisfacción, la impaci<strong>en</strong>cia, el <strong>en</strong>sueño, la coquetería han sido también objeto <strong>de</strong> estudio.<br />

Autores como J. Davitz, Osgood, Suci y Tannembaum clasificar<strong>on</strong> las emoci<strong>on</strong>es utilizando<br />

para ello tres dim<strong>en</strong>si<strong>on</strong>es <strong>de</strong>l espacio semántico: pot<strong>en</strong>cia, val<strong>en</strong>cia y actividad [13].<br />

• Pot<strong>en</strong>cia o fuerza: corresp<strong>on</strong><strong>de</strong> a la at<strong>en</strong>ción – rechazo. Ayuda a distinguir <strong>en</strong>tre<br />

emoci<strong>on</strong>es iniciadas por el sujeto a aquellas que surg<strong>en</strong> <strong>de</strong>l ambi<strong>en</strong>te (<strong>de</strong>s<strong>de</strong> el <strong>de</strong>sprecio al<br />

temor o la sorpresa). También se le ha llamado fuerza o dominio.<br />

• Val<strong>en</strong>cia, agrado o valoración: se refiere al grado <strong>de</strong> positividad o negatividad <strong>de</strong> la<br />

emoción (<strong>de</strong>s<strong>de</strong> la alegría hasta el <strong>en</strong>fado).<br />

• Actividad: corresp<strong>on</strong><strong>de</strong> al grado <strong>de</strong> int<strong>en</strong>sidad <strong>en</strong> la emoción. También se la c<strong>on</strong>oce<br />

como int<strong>en</strong>sidad o dim<strong>en</strong>sión <strong>de</strong> int<strong>en</strong>sidad.<br />

En varios estudios se ha <strong>de</strong>scubierto que se c<strong>on</strong>fun<strong>de</strong>n más <strong>en</strong>tre sí las emoci<strong>on</strong>es c<strong>on</strong> un<br />

nivel similar <strong>de</strong> actividad (como por ejemplo la alegría y el <strong>en</strong>fado) que las que pres<strong>en</strong>tan<br />

similitud <strong>en</strong> términos <strong>de</strong> val<strong>en</strong>cia o <strong>de</strong> fuerza. También están relaci<strong>on</strong>ados el ritmo y la val<strong>en</strong>cia<br />

<strong>de</strong> forma que los s<strong>en</strong>timi<strong>en</strong>tos “positivos” s<strong>on</strong> expresados c<strong>on</strong> un ritmo más regular que los<br />

s<strong>en</strong>timi<strong>en</strong>tos “negativos”. Esto lleva a la c<strong>on</strong>clusión que la dim<strong>en</strong>sión <strong>de</strong> la actividad está más<br />

correlaci<strong>on</strong>ada c<strong>on</strong> las variables auditivas relativam<strong>en</strong>te más simples <strong>de</strong> la <strong>voz</strong>, como pue<strong>de</strong>n<br />

ser el t<strong>on</strong>o y la int<strong>en</strong>sidad, mi<strong>en</strong>tras que la val<strong>en</strong>cia y la fuerza s<strong>on</strong> probablem<strong>en</strong>te comunicados<br />

por mo<strong>de</strong>los más sutiles y complejos.<br />

Algunos investigadores han utilizado otra clasificación, dividi<strong>en</strong>do las emoci<strong>on</strong>es <strong>en</strong>:<br />

• Pasivas: Se caracterizan por una velocidad <strong>de</strong> locución l<strong>en</strong>ta, un volum<strong>en</strong> bajo, un t<strong>on</strong>o<br />

bajo y un timbre más res<strong>on</strong>ante.<br />

• Activas: Caracterizadas por una velocidad <strong>de</strong> locución rápida, alto volum<strong>en</strong>, alto t<strong>on</strong>o y<br />

un timbre ”<strong>en</strong>c<strong>en</strong>dido”.<br />

3.6. Implicaci<strong>on</strong>es Jurídicas<br />

Exist<strong>en</strong> varias áreas d<strong>on</strong><strong>de</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es pue<strong>de</strong> influir <strong>en</strong> una s<strong>en</strong>t<strong>en</strong>cia<br />

legal. En lineas g<strong>en</strong>erales, estas áreas incluy<strong>en</strong> valoración <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> los <strong>de</strong>más, emoci<strong>on</strong>es<br />

y memoria (credibilidad <strong>de</strong> testigos), emoci<strong>on</strong>es y cultura (efectos <strong>en</strong> investigaci<strong>on</strong>es for<strong>en</strong>ses),<br />

y c<strong>on</strong>ocimi<strong>en</strong>to legal y emoci<strong>on</strong>es [14].<br />

•Valoración <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> los <strong>de</strong>más<br />

30<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

La capacidad <strong>de</strong> <strong>de</strong>tectar emoci<strong>on</strong>es y el grado <strong>de</strong> las mismas a través <strong>de</strong> rasgos acústicos<br />

<strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> pue<strong>de</strong> ser <strong>de</strong> gran utilidad <strong>en</strong> el sistema jurídico. Por ejemplo, las fuerzas<br />

<strong>de</strong> la ley se pue<strong>de</strong>n b<strong>en</strong>eficiar c<strong>on</strong>oci<strong>en</strong>do que emoci<strong>on</strong>es experim<strong>en</strong>ta un sospechoso <strong>en</strong> un<br />

interrogatorio para así evaluar su credibilidad. O un jurado pue<strong>de</strong> dar credibilidad o no a un<br />

testigo bajo el c<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> cambios <strong>en</strong> su habla.<br />

•Emoci<strong>on</strong>es y memoria<br />

Erróneam<strong>en</strong>te, los tribunales <strong>de</strong>positan <strong>de</strong>masiada c<strong>on</strong>fianza <strong>en</strong> los testigos visuales o<br />

auditivos. Para calcular <strong>de</strong> forma más acertada la fiabilidad <strong>de</strong> los testim<strong>on</strong>ios <strong>de</strong> los testigos,<br />

éstos <strong>de</strong>berían <strong>de</strong>berían ser analizados computaci<strong>on</strong>al, como por ejemplo, incluir una valoración<br />

<strong>de</strong>l estado emoci<strong>on</strong>al <strong>de</strong>l testigo. Se necesita <strong>de</strong> un mejor <strong>en</strong>t<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> las emoci<strong>on</strong>es pues<br />

éstas juegan un papel crucial <strong>en</strong> la memoria. Los psicólogos cognitivos suel<strong>en</strong> distinguir <strong>en</strong>tre<br />

formación, codificado, asociación y rec<strong>on</strong>strucción <strong>de</strong> la memoria. Todos estos procesos pue<strong>de</strong>n<br />

ser afectados por la emoción. Se pi<strong>en</strong>sa que por ejemplo, los sucesos emoci<strong>on</strong>ales c<strong>on</strong>llevan<br />

alguna prefer<strong>en</strong>cia <strong>en</strong> su procesado y por lo tanto s<strong>on</strong> más estables y los recordamos c<strong>on</strong> mayor<br />

precisión.<br />

•Emoci<strong>on</strong>es y cultura<br />

Las difer<strong>en</strong>cias <strong>en</strong>tre las emoci<strong>on</strong>es <strong>en</strong>tre culturas pue<strong>de</strong> sup<strong>on</strong>er un serio problema <strong>en</strong><br />

las investigaci<strong>on</strong>es for<strong>en</strong>ses. Por ejemplo, se ha visto que las interpretaci<strong>on</strong>es <strong>de</strong> una l<strong>en</strong>gua<br />

foránea <strong>en</strong> interrogatorios policiales g<strong>en</strong>eran problemas, especialm<strong>en</strong>te si el intérprete no ha<br />

sido <strong>en</strong>tr<strong>en</strong>ado correctam<strong>en</strong>te o si el policía actúa como intérprete. Las traducci<strong>on</strong>es literales<br />

<strong>de</strong> l<strong>en</strong>guas extrajeras <strong>de</strong>berían ser <strong>en</strong>fatizadas para dar un <strong>en</strong>t<strong>en</strong>dimi<strong>en</strong>to global <strong>de</strong> lo que se<br />

quiere comunicar. Sin embargo, no pue<strong>de</strong> ser <strong>de</strong>l todo posible <strong>de</strong>bido a la ambigüedad <strong>en</strong>tre el<br />

gran número <strong>de</strong> traducci<strong>on</strong>es hay <strong>en</strong>tre idiomas y culturas.<br />

•Emoci<strong>on</strong>es y c<strong>on</strong>ocimi<strong>en</strong>to legal<br />

El sistema judicial rec<strong>on</strong>oce a las emoci<strong>on</strong>es como una parte íntegra <strong>de</strong>l mismo. El propio<br />

sistema está basado <strong>en</strong> normas morales, las cuales, se basan <strong>en</strong> valores emoci<strong>on</strong>ales. Por<br />

ejemplo, los crím<strong>en</strong>es se castigan, a<strong>de</strong>más <strong>de</strong> por su carácter intrínseco, por la actitud <strong>de</strong>l<br />

culpable sobre la víctima. Así, el castigo se gradúa por las emoci<strong>on</strong>es que el culpable pa<strong>de</strong>ce<br />

<strong>en</strong> los mom<strong>en</strong>tos que ro<strong>de</strong>an al ac<strong>on</strong>tecimi<strong>en</strong>to. Por lo tanto, las emoci<strong>on</strong>es se <strong>en</strong>trelazan<br />

intrínsecam<strong>en</strong>te c<strong>on</strong> la ley.<br />

3.7. Técnicas <strong>de</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es<br />

En esta sección se van a mostrar las técnicas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla<br />

más importantes que se estudian <strong>en</strong> la actualidad. La mayoría <strong>de</strong> las técnicas usadas ahora<br />

para el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es anteriorm<strong>en</strong>te vi<strong>en</strong><strong>en</strong> <strong>de</strong> ofrecer bu<strong>en</strong>os resultados <strong>en</strong><br />

tareas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> tanto locutor como <strong>de</strong> idioma.<br />

3.7.1. GMM<br />

La técnica <strong>de</strong> Mo<strong>de</strong>los <strong>de</strong> Mezcla <strong>de</strong> Gaussianas (GMM o Gaussian Mixture Mo<strong>de</strong>ls)<br />

aplicada al rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> emoci<strong>on</strong>es [15] se basa <strong>en</strong> el principio <strong>de</strong> que las<br />

emoci<strong>on</strong>es ti<strong>en</strong><strong>en</strong> difer<strong>en</strong>tes s<strong>on</strong>idos y que la frecu<strong>en</strong>cia <strong>de</strong> aparición <strong>de</strong> los s<strong>on</strong>idos es difer<strong>en</strong>te<br />

<strong>de</strong> una emoción a otra. Los GMM mo<strong>de</strong>lan la distribución <strong>de</strong> probabilidad <strong>de</strong> los parámetros<br />

(⃗x) <strong>de</strong> un fragm<strong>en</strong>to <strong>de</strong> audio. Los parámetros que más se usan s<strong>on</strong> los MFCC (Mel Frequ<strong>en</strong>cy<br />

Cepstral Coeffici<strong>en</strong>ts) o SDC (Shifted Delta Cepstral) como parámetros acústicos y c<strong>on</strong>tornos<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 31


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

<strong>de</strong> <strong>en</strong>ergía y pitch para parámetros prosódicos.<br />

El mo<strong>de</strong>lado <strong>de</strong> la distribución <strong>de</strong> probabilidad <strong>de</strong> los parámetros se realiza a partir <strong>de</strong> un<br />

mo<strong>de</strong>lo <strong>de</strong> suma <strong>de</strong> M funci<strong>on</strong>es <strong>de</strong> <strong>de</strong>nsidad Gaussianas, p i (⃗x), cada una parametrizada por<br />

el vector <strong>de</strong> medias Dx1 , ⃗µ i , y una matriz <strong>de</strong> covarianzas DxD, σ i ;<br />

p(x|λ) =<br />

M∑<br />

w i p i (⃗x)<br />

i=1<br />

d<strong>on</strong><strong>de</strong> p i (⃗x) =<br />

1<br />

(2π) D/2 |σ i | 1/2<br />

x exp[− 1 2 (⃗x − µ i) T ∑ −1<br />

i<br />

(⃗x − ⃗µ i )].<br />

Los pesos <strong>de</strong> la mezcla, w i , satisfac<strong>en</strong> la limitación ∑ M<br />

i=1 w i = 1. El mo<strong>de</strong>lo se <strong>de</strong>fine como<br />

λ = {w i , ⃗µ i , σ i }, d<strong>on</strong><strong>de</strong> i = 1, ..., M.<br />

Normalm<strong>en</strong>te se suel<strong>en</strong> usar matrices <strong>de</strong> covarianza diag<strong>on</strong>ales por varias raz<strong>on</strong>es. Los<br />

GMMs c<strong>on</strong> M > 1 c<strong>on</strong> matrices <strong>de</strong> covarianza diag<strong>on</strong>ales mo<strong>de</strong>lan distribuci<strong>on</strong>es <strong>de</strong> vectores<br />

<strong>de</strong> características c<strong>on</strong> elem<strong>en</strong>tos correlados. También GMMs c<strong>on</strong> matrices diag<strong>on</strong>ales s<strong>on</strong><br />

computaci<strong>on</strong>alm<strong>en</strong>te más efici<strong>en</strong>tes que matrices <strong>de</strong> covarianza completas, las cuales requier<strong>en</strong><br />

<strong>de</strong> repetidas inversi<strong>on</strong>es <strong>de</strong> matrices DxD.<br />

Figura 8: GMM bidim<strong>en</strong>si<strong>on</strong>al <strong>de</strong> 4 Gaussianas.<br />

Dada una colección <strong>de</strong> vectores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, se estiman los parámetros <strong>de</strong> los mo<strong>de</strong>los<br />

usando el algoritmo iterativo <strong>de</strong> máxima-expectación (EM, Expectati<strong>on</strong>-Maximizati<strong>on</strong> <strong>en</strong><br />

inglés) [16] (EM, expectati<strong>on</strong>-maximizati<strong>on</strong> <strong>en</strong> inglés). Dicho algoritmo iterativam<strong>en</strong>te refina<br />

los parámetros <strong>de</strong>l GMM. Por ejemplo, para la iteración k y k + 1, p(X|λ k+1 ) > p(X|λ k ).<br />

Normalm<strong>en</strong>te c<strong>on</strong> 5 iteraci<strong>on</strong>es es sufici<strong>en</strong>te para la c<strong>on</strong>verg<strong>en</strong>cia <strong>de</strong> los parámetros.<br />

Para unos vectores <strong>de</strong> características <strong>de</strong>sc<strong>on</strong>ocidos ⃗ X = {⃗x 1 , ..., ⃗x T } (se asum<strong>en</strong> que s<strong>on</strong><br />

in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes), el mo<strong>de</strong>lo GMM asigna una puntuación relaci<strong>on</strong>ada c<strong>on</strong> su verosimilitud<br />

fr<strong>en</strong>te a un mo<strong>de</strong>lo λ que se calcula como:<br />

log p( X|λ) ⃗ T∑<br />

= log p(⃗x t |λ)<br />

t=1<br />

32<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Exist<strong>en</strong> dos hipótesis:<br />

H 0 : que el c<strong>on</strong>junto <strong>de</strong> vectores ⃗ X pert<strong>en</strong>ezca a la clase C.<br />

H 1 : que el c<strong>on</strong>junto <strong>de</strong> vectores ⃗ X no pert<strong>en</strong>ezca a la clase C.<br />

Así, basánd<strong>on</strong>os <strong>en</strong> el teorema <strong>de</strong> Bayes, la <strong>de</strong>cisión óptima se toma a partir <strong>de</strong>l coci<strong>en</strong>te <strong>de</strong><br />

las dos probabilida<strong>de</strong>s:<br />

p( ⃗ X|H 0 )<br />

p( ⃗ X|H 1 )<br />

D<strong>on</strong><strong>de</strong> p( ⃗ X|H 1 ) es la probabilidad <strong>de</strong> que la clase C no haya g<strong>en</strong>erado la muestra ⃗x, y sin<br />

embargo haya sido cualquier otra clase.<br />

Si dicho coci<strong>en</strong>te supera un umbral θ, <strong>en</strong>t<strong>on</strong>ces se acepta la hipótesis H 0 , sino se rechaza<br />

aceptando por lo tanto H 1 .<br />

Para estimar p(⃗x|H 1 ) se hace uso <strong>de</strong> los que se c<strong>on</strong>oce como mo<strong>de</strong>los UBM (Universal<br />

Background Mo<strong>de</strong>l). Un UBM es un mo<strong>de</strong>lo GMM estándar pero que ha sido <strong>en</strong>tr<strong>en</strong>ado a partir<br />

<strong>de</strong> observaci<strong>on</strong>es <strong>de</strong> todos las clases (o un c<strong>on</strong>junto repres<strong>en</strong>tativo <strong>de</strong> las mismas). Los UBM<br />

estiman la <strong>de</strong>nsidad <strong>de</strong> probabilidad <strong>de</strong> las observaci<strong>on</strong>es, sobre todas las clases exist<strong>en</strong>tes. Por<br />

tanto, la verosimilitud fr<strong>en</strong>te al UBM mi<strong>de</strong> la probabilidad <strong>de</strong> que la observación haya podido<br />

ser g<strong>en</strong>erada por una clase cualquiera.<br />

En el sistema GMM UBM, el mo<strong>de</strong>lo se calcula mediante la adaptación <strong>de</strong> los parámetros<br />

<strong>de</strong> UBM usando los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> cada clase y un tipo <strong>de</strong> adaptación Bayesiana<br />

llamada estimación <strong>de</strong> máximo a posteriori (MAP, maximum a posteriori).<br />

Los Mo<strong>de</strong>los <strong>de</strong> mezclas Gaussianas s<strong>on</strong> técnicas que originalm<strong>en</strong>te fuer<strong>on</strong> aplicadas al rec<strong>on</strong>ocimi<strong>en</strong>to<br />

automático <strong>de</strong> locutor e idioma. El que dichas técnicas se hayan ext<strong>en</strong>dido al<br />

rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es vi<strong>en</strong>e motivado por la similitud <strong>en</strong>tre el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoción<br />

e idioma y por los bu<strong>en</strong>os resultados que los GMMs lograr<strong>on</strong> <strong>en</strong> locutor e idioma. Así, se<br />

pue<strong>de</strong> <strong>en</strong>c<strong>on</strong>trar <strong>en</strong> la literatura gran cantidad <strong>de</strong> artículos que aplican el <strong>en</strong>foque estadístico<br />

(g<strong>en</strong>erativo) <strong>en</strong> el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla [15] [17] [18].<br />

3.7.2. SVM<br />

Las Maquinas <strong>de</strong> Vectores Soporte (SVM o Support Vector Machines) s<strong>on</strong> un tipo <strong>de</strong><br />

clasificador <strong>de</strong> patr<strong>on</strong>es binarios cuyo objetivo es asignar cada patrón a una clase [19]. A<br />

difer<strong>en</strong>cia <strong>de</strong> los métodos tradici<strong>on</strong>ales (g<strong>en</strong>erativos) los cuales mo<strong>de</strong>lan la probabilidad <strong>de</strong> una<br />

clase, los SVM s<strong>on</strong> técnicas discriminativas, cuyo objetivo es mo<strong>de</strong>lar el plano <strong>de</strong> separación<br />

<strong>en</strong>tre una clase y el c<strong>on</strong>junto <strong>de</strong> clases impostoras.<br />

Planteami<strong>en</strong>to <strong>de</strong>l problema <strong>de</strong> optimización<br />

El problema c<strong>on</strong>siste <strong>en</strong> c<strong>on</strong>struir un hiperplano <strong>de</strong> separación que divida el espacio R n<br />

<strong>en</strong> dos regi<strong>on</strong>es. Sup<strong>on</strong>gamos que t<strong>en</strong>emos dicho hiperplano, las muestras que caigan <strong>en</strong> una<br />

región pert<strong>en</strong>ecerán a clase -1 y las que caigan <strong>en</strong> la otra a la clase 1. A este hiperplano se le<br />

c<strong>on</strong>oce como hiperplano <strong>de</strong> separación.<br />

Los vectores ⃗x que pert<strong>en</strong>ec<strong>en</strong> al hiperplano <strong>de</strong> separación cumplirán la ecuación: ⃗w ·⃗x+d=0,<br />

d<strong>on</strong><strong>de</strong>:<br />

⃗w es un vector normal al hiperplano <strong>de</strong> separación.<br />

d es una c<strong>on</strong>stante.<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 33


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

La distancia<br />

|d|<br />

||w||<br />

es la distancia perp<strong>en</strong>dicular <strong>de</strong>s<strong>de</strong> el hiperplano al orig<strong>en</strong>. Llamaremos<br />

d + y d − a las distancias <strong>en</strong>tre el hiperplano <strong>de</strong> separación y las muestras más cercanas a la<br />

clase +1 y -1 respectivam<strong>en</strong>te. C<strong>on</strong> todo ello, el marg<strong>en</strong> <strong>de</strong>l hiperplano será la distancia <strong>en</strong>tre<br />

las muestras más cercanas <strong>de</strong> las clases:<br />

m = d + + d −<br />

Para el caso <strong>de</strong> datos linealm<strong>en</strong>te separables, el objetivo es <strong>en</strong>c<strong>on</strong>trar el hiperplano <strong>de</strong><br />

separación que hace máximo este marg<strong>en</strong>.<br />

A la hora <strong>de</strong> formular formalm<strong>en</strong>te el problema sup<strong>on</strong>dremos que todos los datos <strong>de</strong><br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to cumpl<strong>en</strong> una <strong>de</strong> las sigui<strong>en</strong>tes restricci<strong>on</strong>es:<br />

d<strong>on</strong><strong>de</strong>:<br />

⃗x i · ⃗w + d ≥+1 si y i = +1<br />

⃗x i · ⃗w + d ≤+1 si y i = −1<br />

y i = {1, −1} repres<strong>en</strong>ta la etiqueta <strong>de</strong> la clase a la que pert<strong>en</strong>ece cada vector.<br />

i = {1, ..., N}<br />

N es el número <strong>de</strong> vectores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />

Combinando estas dos restricci<strong>on</strong>es t<strong>en</strong>emos que:<br />

⃗y i (⃗x i · ⃗w+d)-1≥0 ∀i<br />

A los puntos más cercanos al hiperplano <strong>de</strong> separación se les c<strong>on</strong>oce como vectores soporte,<br />

y están c<strong>on</strong>t<strong>en</strong>idos <strong>en</strong> los dos planos:<br />

H1: ⃗x i · ⃗w+d=+1<br />

H2: ⃗x i · ⃗w+d=-1<br />

Ambos planos H1 y H2 s<strong>on</strong> pararelos <strong>en</strong>tre sí y a su vez paralelos al hiperplano <strong>de</strong><br />

separación. Por lo tanto su comp<strong>on</strong><strong>en</strong>te normal seguirá si<strong>en</strong>do ⃗w [ver Figura 9] y sus respectivas<br />

distancias al orig<strong>en</strong> serán:<br />

|1−b|<br />

||w||<br />

para H1<br />

|−1−b|<br />

||w||<br />

para H2<br />

Cumpli<strong>en</strong>do todas las restricci<strong>on</strong>es anteriores, las distancias d + y d − serán 1<br />

||w||<br />

por lo que<br />

el marg<strong>en</strong> m=d + +d − = 1<br />

||w|| + 1<br />

||w|| = 2<br />

||w||<br />

El objetivo <strong>de</strong> los SVM es <strong>en</strong>c<strong>on</strong>trar el hiperplano que maximice el marg<strong>en</strong> <strong>de</strong> separación.<br />

Por lo tanto el problema se reduce a minimizar || ⃗w|| sujeto a la restricción <strong>de</strong>:<br />

⃗y i (⃗x i · ⃗w + d) − 1 ≥0 ∀i.<br />

34<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 9: C<strong>on</strong>cepto <strong>de</strong> un SVM.<br />

Si los datos s<strong>on</strong> linealm<strong>en</strong>te separables, la resolución <strong>de</strong>l problema obti<strong>en</strong>e un mínimo<br />

global, sino, el problema no es resoluble. Exist<strong>en</strong> métodos computaci<strong>on</strong>alm<strong>en</strong>te efici<strong>en</strong>tes para<br />

resolver problemas cuadráticos c<strong>on</strong> múltiples restricci<strong>on</strong>es lineales. Uno <strong>de</strong> ellos es mediante la<br />

formulación <strong>de</strong> Lagrange.<br />

La formulación <strong>de</strong> Lagrange permite resolver un problema <strong>de</strong> optimización, como es nuestro<br />

caso, bajo una serie <strong>de</strong> restricci<strong>on</strong>es mediante la introducción <strong>de</strong> unas nuevas variables, los<br />

multiplicadores <strong>de</strong> Lagrange, α i . Pue<strong>de</strong> <strong>de</strong>mostrarse que es posible obt<strong>en</strong>er el hiperplano<br />

óptimo <strong>de</strong> separación, ⃗w, mediante una combinación lineal <strong>de</strong> los vectores soporte. El peso <strong>de</strong><br />

cada uno <strong>de</strong> estos vectores se obti<strong>en</strong>e mediante los multiplicadores <strong>de</strong> Lagrange.<br />

Como solución al problema se obti<strong>en</strong>e que el vector ⃗w se pue<strong>de</strong> escribir <strong>en</strong> función <strong>de</strong> los<br />

vectores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, ⃗x i como:<br />

⃗w =<br />

N∑<br />

α i y i ⃗x i<br />

i=1<br />

Cada vector <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to t<strong>en</strong>drá asociado un multiplicador <strong>de</strong> Lagrange, α i . Los<br />

vectores soporte t<strong>en</strong>drán un α i asociado ≥0, mi<strong>en</strong>tras que el resto <strong>de</strong> vectores que no ca<strong>en</strong><br />

<strong>en</strong> los hiperplanos H1 o H2 t<strong>en</strong>drán un α i =0 y por lo tanto no t<strong>en</strong>drán relevancia <strong>en</strong> el<br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />

Clasificación <strong>de</strong>l SVM<br />

Una vez t<strong>en</strong>emos <strong>de</strong>finido el hiperplano <strong>de</strong> separación <strong>en</strong>tre las 2 clases, lo sigui<strong>en</strong>te es <strong>en</strong>c<strong>on</strong>trar<br />

una función que clasifique las muestras <strong>de</strong> test ¯x t <strong>en</strong> su clase corresp<strong>on</strong>di<strong>en</strong>te. La función<br />

f(⃗x t ) = ⃗w · ⃗x t +d => f(⃗x t ) =<br />

N∑<br />

α i y i ⃗x i ⃗x t + d<br />

i=1<br />

calcula la distancia <strong>de</strong>l vector <strong>de</strong> test ⃗x t al hiperplano <strong>de</strong> separación. Dicha función<br />

tomará valores positivos para las muestras pert<strong>en</strong>eci<strong>en</strong>tes a la clase +1 y negativos para las <strong>de</strong><br />

la clase -1.<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 35


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Se pue<strong>de</strong> dar el caso <strong>en</strong> que algún vector (⃗x i ,y i ) viole la restricción<br />

⃗y i (⃗x i · ⃗w+d)-1≥0 ∀i.<br />

Para afr<strong>on</strong>tar este problema lo que se <strong>de</strong>be hacer es relajar la restricción. Para ello se<br />

introduce unos márg<strong>en</strong>es <strong>de</strong> error h i . i = {1, ..., N} c<strong>on</strong> h i ≥ 0 ∀i. La restricción será ahora<br />

y i (⃗x i · ⃗w + d) ≥ 1 − h i c<strong>on</strong> i = {1, ..., N} c<strong>on</strong> h i ≥ 0 ∀i.<br />

Así, si 0 ≤ h i ≤ 1 la clasificación será correcta pero si a su vez h i > 0, la muestra estará correctam<strong>en</strong>te<br />

clasificada pero c<strong>on</strong> un error asociado. Por otro lado, si h i ≥ 1, la clasificación<br />

será incorrecta.[Ver Figura 10]<br />

Figura 10: a) Muestras clasificadas incorrectam<strong>en</strong>te c<strong>on</strong> un valor h i asociado. b) Muestras<br />

clasificadas correctam<strong>en</strong>te pero c<strong>on</strong> un error h i .<br />

Al añadir esta nueva variable pasaremos <strong>de</strong> uno a dos criterios a la hora <strong>de</strong> <strong>en</strong>c<strong>on</strong>trar el<br />

hiperplano <strong>de</strong> separación:<br />

• Maximizar el marg<strong>en</strong> <strong>en</strong>tre clases (criterio que ya t<strong>en</strong>íamos anteriorm<strong>en</strong>te).<br />

• Minimizar la función <strong>de</strong> pérdidas que será proporci<strong>on</strong>al a las muestras incorrectam<strong>en</strong>te<br />

clasificadas.<br />

La relevancia <strong>de</strong> un criterio fr<strong>en</strong>te al otro se c<strong>on</strong>trola a través <strong>de</strong> una variable, a la que<br />

llamaremos coste, C. La variable coste será usada para dar más relevancia a un criterio fr<strong>en</strong>te<br />

al otro. Así, cuanto mayor sea el coste mayor importancia daremos a minimizar la función<br />

<strong>de</strong> pérdidas. Mi<strong>en</strong>tras que un valor pequeño <strong>de</strong> coste premiará <strong>en</strong> maximizar el marg<strong>en</strong> <strong>en</strong>tre<br />

clases. La variable coste será ajustada <strong>en</strong> la sección <strong>de</strong> pruebas para obt<strong>en</strong>er los mejores<br />

resultados.<br />

Hasta ahora hemos visto el funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> las Máquinas <strong>de</strong> Vectores Soporte <strong>en</strong> el modo<br />

<strong>de</strong> Clasificación (SVC) y para datos linealm<strong>en</strong>te separables. Pero, ¿qué ocurre si los datos no<br />

cumpl<strong>en</strong> esta premisa?<br />

Separación no lineal <strong>de</strong> los datos<br />

Un dato que hay que t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta es que, como se pue<strong>de</strong> ver <strong>en</strong> la Figura 11, los datos<br />

que a priori no s<strong>on</strong> separables <strong>en</strong> un espacio n-dim<strong>en</strong>si<strong>on</strong>al, sí pue<strong>de</strong>n serlo <strong>en</strong> un espacio <strong>de</strong><br />

mayor dim<strong>en</strong>sión n ′ . Así por lo tanto, <strong>de</strong>finiremos una función b(⃗x) que mapea el espacio <strong>de</strong><br />

36<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

<strong>en</strong>trada n-dim<strong>en</strong>si<strong>on</strong>al (d<strong>on</strong><strong>de</strong> se sitúa ⃗x) <strong>en</strong> un espacio <strong>de</strong> dim<strong>en</strong>sión expandida n ′<br />

b(¯x): R n → R n′<br />

Figura 11: Mapeo <strong>de</strong> los vectores ⃗x 2-dim<strong>en</strong>si<strong>on</strong>ales a b(⃗x) 3-dim<strong>en</strong>si<strong>on</strong>ales.<br />

Este es el mom<strong>en</strong>to <strong>de</strong> introducir la función kernel. Esta función nos permite calcular el<br />

producto interno <strong>de</strong> dos vectores sin necesidad <strong>de</strong> c<strong>on</strong>ocer explícitam<strong>en</strong>te el vector mapeo <strong>en</strong><br />

el espacio transformado.<br />

K(⃗x i , ⃗x j )=b(⃗x i )·b(⃗x j )<br />

A la hora <strong>de</strong> elegir la función kernel, ésta <strong>de</strong>be <strong>de</strong> satisfacer el teorema <strong>de</strong> Mercer. El<br />

teorema <strong>de</strong> Mercer nos dice si un kernel K(·, ·) cumple las propieda<strong>de</strong>s <strong>de</strong>l producto escalar y<br />

por lo tanto útil para un SVM. No nos dice sin embargo como c<strong>on</strong>struir dicha función K(·, ·).<br />

La elección <strong>de</strong> una bu<strong>en</strong>a función kernel <strong>de</strong>be satisfacer dos premisas. Debe ser tal, que<br />

dadas dos locuci<strong>on</strong>es ⃗x i y ⃗x j , obt<strong>en</strong>ga un valor <strong>de</strong> similitud <strong>en</strong>tre ambas. También <strong>de</strong>be <strong>de</strong> ser<br />

computaci<strong>on</strong>alm<strong>en</strong>te efici<strong>en</strong>te ya que durante el proceso <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test se van a llevar<br />

a cabo muchos productos internos.<br />

Las Máquinas <strong>de</strong> Vectores Soporte es una herrami<strong>en</strong>ta novedosa que ha aparecido <strong>en</strong> la<br />

última década <strong>en</strong> la clasificación automática <strong>de</strong> patr<strong>on</strong>es. Ha llegado a ser muy popular <strong>de</strong>bido<br />

a su capacidad <strong>de</strong> solv<strong>en</strong>tar muchos <strong>de</strong> los problemas <strong>de</strong> los ANNs (Artificial Neural Networks)<br />

y <strong>de</strong> los HMMs (Hid<strong>de</strong>n Markov Mo<strong>de</strong>ls) gracias a su efectiva capacidad <strong>de</strong> discriminación. En<br />

c<strong>on</strong>traposición c<strong>on</strong> los ANNs, ti<strong>en</strong><strong>en</strong> la v<strong>en</strong>taja <strong>de</strong> tratar c<strong>on</strong> muestras <strong>de</strong> muy alta dim<strong>en</strong>sión.<br />

Estas características han hecho a los SVMs muy populares y existosos <strong>en</strong> muchos campos <strong>de</strong><br />

aplicación. No obstante, exist<strong>en</strong> algunas limitaci<strong>on</strong>es a la hora <strong>de</strong> usar los SVMs. Una <strong>de</strong> estas<br />

limitaci<strong>on</strong>es es que los SVMs están restringidos a trabajar c<strong>on</strong> vectores <strong>de</strong> <strong>en</strong>trada <strong>de</strong> l<strong>on</strong>gitud<br />

fija. Otra limitación es que los SVMs sólo clasifican, pero no dan una medida fiable <strong>de</strong> la<br />

probabilidad <strong>de</strong> la correcta o incorrecta clasificación.<br />

Los SVMs pres<strong>en</strong>tan muy bu<strong>en</strong> r<strong>en</strong>dimi<strong>en</strong>to <strong>en</strong> tareas <strong>de</strong> procesado vocal como rec<strong>on</strong>ocimi<strong>en</strong>to<br />

<strong>de</strong> idioma y locutor. Es por eso por lo que también se usan para rec<strong>on</strong>ocimi<strong>en</strong>to<br />

automático <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla y como muestra <strong>de</strong> ello se pue<strong>de</strong>n ver [20], [17], [21] y [22]<br />

d<strong>on</strong><strong>de</strong> se usan los rasgos acústicos y prosódicos <strong>de</strong>l habla para mo<strong>de</strong>lar los SVMs.<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 37


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

3.7.3. SVMs basados <strong>en</strong> supervectores GMMs<br />

Los SVMs basados <strong>en</strong> supervectores GMMs s<strong>on</strong> técnicas <strong>de</strong> clasificación <strong>de</strong> patr<strong>on</strong>es que<br />

aunan las v<strong>en</strong>tajas <strong>de</strong> los sistemas g<strong>en</strong>erativos, como s<strong>on</strong> los GMMs, c<strong>on</strong> las <strong>de</strong> los sistemas<br />

discriminativos como s<strong>on</strong> los SVMs [23].<br />

Un supervector GMM se c<strong>on</strong>struye apilando los vectores medios d-dim<strong>en</strong>si<strong>on</strong>ales <strong>de</strong> las M<br />

comp<strong>on</strong><strong>en</strong>tes gaussianas. El supervector GMM pue<strong>de</strong> ser c<strong>on</strong>si<strong>de</strong>rado como una función kernel<br />

SV (⃗x) que mapea los vectores <strong>de</strong> características ⃗x <strong>en</strong> un vector <strong>de</strong> mayor dim<strong>en</strong>sión L = M ∗ d.<br />

En este espacio L-dim<strong>en</strong>si<strong>on</strong>al <strong>de</strong>l supervector es d<strong>on</strong><strong>de</strong> se <strong>en</strong>tr<strong>en</strong>a un SVM para así c<strong>on</strong>seguir<br />

un mo<strong>de</strong>lo ⃗w e . Para este caso, la función <strong>de</strong> puntuación s ′ ( ⃗w e , SV (x ⃗ test )) se <strong>de</strong>fine como:<br />

s ′ ( ⃗w e , SV (x ⃗ test )) = ⃗w e ∗ SV (x ⃗ test ) T<br />

Sup<strong>on</strong>emos que t<strong>en</strong>emos un mo<strong>de</strong>lo <strong>de</strong> UBM el cual es adaptado (MAP) a partir <strong>de</strong> los<br />

vectores <strong>de</strong> parámetros <strong>de</strong> una locución. Dicha adaptación c<strong>on</strong>forma un mo<strong>de</strong>lo <strong>de</strong> mezclas<br />

gaussianas <strong>de</strong>finido como:<br />

λ = {w i , µ i , σ i }, d<strong>on</strong><strong>de</strong> i = 1, ..., M c<strong>on</strong> M el número <strong>de</strong> mezclas unimodales Gaussianas. A<br />

partir <strong>de</strong> este mo<strong>de</strong>lo, se forma el supervector GMM. Este proceso se muestra <strong>en</strong> la Figura 12<br />

Figura 12: C<strong>on</strong>strucción <strong>de</strong> un supervector GMM a partir <strong>de</strong> una locución <strong>de</strong> <strong>voz</strong>.<br />

Como ejemplo <strong>de</strong> c<strong>on</strong>strucción <strong>de</strong> un supervector GMM po<strong>de</strong>mos ver la Figura 13 d<strong>on</strong><strong>de</strong><br />

d = 2, M = 3 y L = M ∗ d = 6. En este caso, vectores <strong>de</strong> parámetros bidim<strong>en</strong>si<strong>on</strong>ales mo<strong>de</strong>lan<br />

3 comp<strong>on</strong><strong>en</strong>tes gaussianas. Como se pue<strong>de</strong> ver, los vectores medios bidim<strong>en</strong>si<strong>on</strong>ales <strong>de</strong> las<br />

3 comp<strong>on</strong><strong>en</strong>tes gaussianas c<strong>on</strong>forman el supervector SV = [ ⃗µ 1 ⃗µ 2 ⃗µ 3 ] = [µ 11 µ 12 µ 21 µ 22 µ 31 µ 32 ]<br />

Se ha visto que esta técnica <strong>de</strong> SVM basados <strong>en</strong> supervectores GMM ha dado excel<strong>en</strong>tes<br />

resultados <strong>en</strong> tareas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> locutor [24] e idioma usando el nivel acústico <strong>de</strong>l habla.<br />

A parte <strong>de</strong>l rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> locutor e idioma, también se ha ext<strong>en</strong>dido al rec<strong>on</strong>ocimi<strong>en</strong>to<br />

<strong>de</strong> emoci<strong>on</strong>es. Así, [23] prop<strong>on</strong>e un SVM basado <strong>en</strong> supervectores GMMs a partir <strong>de</strong> rasgos<br />

espectrales mi<strong>en</strong>tras que <strong>en</strong> [25] lo prop<strong>on</strong>emos a partir <strong>de</strong> rasgos prosódicos <strong>de</strong>l habla para el<br />

rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es.<br />

3.7.4. Anchor Mo<strong>de</strong>ls<br />

El espacio <strong>de</strong> proyección <strong>de</strong> los Anchor Mo<strong>de</strong>ls es una función que mapea cada locución<br />

<strong>de</strong> habla <strong>de</strong>s<strong>de</strong> el espacio <strong>de</strong> características original <strong>en</strong> un nuevo espacio anchor mo<strong>de</strong>l. Las<br />

dim<strong>en</strong>si<strong>on</strong>es <strong>de</strong> este nuevo espacio s<strong>on</strong> puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong> cada locución fr<strong>en</strong>te a<br />

mo<strong>de</strong>los previam<strong>en</strong>te <strong>en</strong>tr<strong>en</strong>ados ⃗m = {m 1 ...m N }. Estos mo<strong>de</strong>los han sido <strong>en</strong>tr<strong>en</strong>ado mediante<br />

técnicas <strong>de</strong> clasificación como GMMs, SVMs, etc. Este espacio <strong>de</strong> similitud permite obt<strong>en</strong>er<br />

el comportami<strong>en</strong>to <strong>de</strong> una locución ⃗x fr<strong>en</strong>te a los mo<strong>de</strong>los ⃗m obt<strong>en</strong>i<strong>en</strong>do así un vector <strong>de</strong><br />

puntuaci<strong>on</strong>es <strong>de</strong> similitud:<br />

⃗S x = [s x,m1 ...s x,mN ]<br />

38<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 13: Ejemplo <strong>de</strong> c<strong>on</strong>strucción <strong>de</strong> un supervector GMM a partir <strong>de</strong> 3 mezclas gaussianas<br />

bidim<strong>en</strong>si<strong>on</strong>ales.<br />

d<strong>on</strong><strong>de</strong> se apilan las puntuaci<strong>on</strong>es individuales <strong>de</strong>l vector ⃗x fr<strong>en</strong>te a cada uno <strong>de</strong> los mo<strong>de</strong>los<br />

m i [Figura 14].<br />

A partir <strong>de</strong> <strong>en</strong>t<strong>on</strong>ces, se pue<strong>de</strong> c<strong>on</strong>si<strong>de</strong>rar el vector S ⃗ x,m como el vector <strong>de</strong> parámetros <strong>de</strong><br />

la locución ⃗x y un nuevo mo<strong>de</strong>lo m ′ i pue<strong>de</strong> ser g<strong>en</strong>erado <strong>en</strong> el espacio <strong>de</strong>l anchor mo<strong>de</strong>l usando<br />

técnicas <strong>de</strong> apr<strong>en</strong>dizaje como GMMs, SVMs, n-gramas, etc.<br />

Figura 14: ⃗ S x agrupa las puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong>l vector ⃗x fr<strong>en</strong>te a cada mo<strong>de</strong>lo m i .<br />

El valor <strong>de</strong> N <strong>de</strong>fine la dim<strong>en</strong>sión <strong>de</strong>l espacio <strong>de</strong> los anchor mo<strong>de</strong>ls y la puntuación <strong>de</strong>l<br />

vector ⃗x fr<strong>en</strong>te a cada mo<strong>de</strong>lo ⃗m i <strong>de</strong>fine la distancia a cada uno <strong>de</strong> los ejes <strong>de</strong> este nuevo<br />

espacio dim<strong>en</strong>si<strong>on</strong>al. De la teoría <strong>de</strong> Vapnik-Cherv<strong>on</strong><strong>en</strong>kis [26] se <strong>de</strong>duce que cuanto mayor sea<br />

el valor <strong>de</strong> N, mayor dim<strong>en</strong>sión será el espacio <strong>de</strong> características <strong>de</strong>l anchor mo<strong>de</strong>l y por ello más<br />

fácil será <strong>en</strong>c<strong>on</strong>trar un comportami<strong>en</strong>to característico <strong>de</strong> la locución ⃗x. En el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong><br />

emoci<strong>on</strong>es N estará limitada por el número <strong>de</strong> emoci<strong>on</strong>es disp<strong>on</strong>ibles.<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 39


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls<br />

La función <strong>de</strong> similitud o puntuación s x,mi nos ofrece una medida <strong>de</strong> similitud <strong>en</strong>tre el<br />

vector ⃗x y el mo<strong>de</strong>lo ⃗m i . Cada técnica usada para c<strong>on</strong>struir los mo<strong>de</strong>los usa una función <strong>de</strong><br />

similitud difer<strong>en</strong>te. Así, por ejemplo, los SVMs usan la distancia algebraica mi<strong>en</strong>tras que los<br />

GMMs, como ya hemos visto, usan un criterio <strong>de</strong> similitud estadística p( X|H ⃗ 0 )<br />

p( X|H ⃗ . Mediante el<br />

1 )<br />

uso <strong>de</strong> varias funci<strong>on</strong>es <strong>de</strong> similitud s x,mi , la información obt<strong>en</strong>ida pue<strong>de</strong> ser complem<strong>en</strong>taria y<br />

c<strong>on</strong> ello se pue<strong>de</strong> obt<strong>en</strong>er una mejora <strong>de</strong> los resultados.<br />

La fusión <strong>de</strong> anchor mo<strong>de</strong>ls (<strong>en</strong> inglés AMF, Anchor Mo<strong>de</strong>l Fusi<strong>on</strong>) es una técnica<br />

novedosa i<strong>de</strong>ada por el <strong>ATVS</strong> [27], [28] que ha logrado dar muy bu<strong>en</strong>os resultados pues obti<strong>en</strong>e<br />

información complem<strong>en</strong>taria proce<strong>de</strong>nte <strong>de</strong> varios subsistemas. C<strong>on</strong>siste <strong>en</strong> usar varias técnicas<br />

<strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (y c<strong>on</strong> ello varias funci<strong>on</strong>es <strong>de</strong> similitud) como pue<strong>de</strong>n ser los SVMs, GMMs,<br />

etc. para g<strong>en</strong>erar los mo<strong>de</strong>los ⃗m i .<br />

En el caso <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es, el vector ⃗m incluy<strong>en</strong> los n mo<strong>de</strong>los <strong>de</strong> emoci<strong>on</strong>es<br />

pre-<strong>en</strong>tr<strong>en</strong>adas por cada uno <strong>de</strong> los sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es a fusi<strong>on</strong>ar. Así,<br />

el vector <strong>de</strong> parámetros g<strong>en</strong>erado a partir <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> la locución ⃗x fr<strong>en</strong>te a cada<br />

mo<strong>de</strong>lo <strong>de</strong> ⃗m por cada uno <strong>de</strong> los N sist sistemas es:<br />

⃗S m,x = [ ⃗ S 1 m,x, ..., ⃗ S N sist<br />

m,x ]<br />

La Figura 15 muestra una versión esquemática <strong>de</strong> AMF. Para este caso, la dim<strong>en</strong>sión <strong>de</strong>l<br />

espacio <strong>de</strong> los anchor mo<strong>de</strong>ls es N = n ∗ N sist .<br />

3.7.5. Otras: LDA, HMM<br />

Análisis <strong>de</strong> Discriminación Lineal<br />

El Análisis <strong>de</strong> Discriminación Lineal (<strong>en</strong> inglés LDA, Linear discriminant analysis) y la<br />

discriminación lineal <strong>de</strong> Fisher relaci<strong>on</strong>ada s<strong>on</strong> métodos usados <strong>en</strong> estadística y <strong>en</strong> apr<strong>en</strong>dizaje<br />

automático cuyo objetivo es <strong>en</strong>c<strong>on</strong>trar la combinación lineal <strong>de</strong> características que mejor separa<br />

2 o más clases.<br />

LDA está muy relaci<strong>on</strong>ado c<strong>on</strong> ANOVA (análisis <strong>de</strong> varianza) y c<strong>on</strong> el análisis <strong>en</strong><br />

regresión, que también int<strong>en</strong>tan expresar una variable como combinación lineal <strong>de</strong> otros<br />

rasgos o características. Mi<strong>en</strong>tras que <strong>en</strong> estos dos últimos métodos la variable <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te se<br />

cuantifica numéricam<strong>en</strong>te, <strong>en</strong> LDA es una variables categórica (por ejemplo, la clase emoción 1 ).<br />

LDA ha sido usado satisfactoriam<strong>en</strong>te como técnica <strong>de</strong> reducción dim<strong>en</strong>si<strong>on</strong>al <strong>en</strong> muchos<br />

problemas <strong>de</strong> clasificación, como rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla, rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> cara o recuperación<br />

<strong>de</strong> información multimedia. En [20] se usa LDA como clasificador <strong>de</strong> emoci<strong>on</strong>es.<br />

El rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla es un pequeño ejemplo <strong>de</strong> las aplicaci<strong>on</strong>es <strong>en</strong><br />

las que se hace uso <strong>de</strong> la técnica LDA. Otra es el rec<strong>on</strong>ocimi<strong>en</strong>to facial. Cada cara se repres<strong>en</strong>ta<br />

por un gran número <strong>de</strong> valores <strong>de</strong> píxeles. En este caso se usa LDA para reducir el número <strong>de</strong><br />

características a un número más manejable antes <strong>de</strong> la clasificación. Cada dim<strong>en</strong>sión nueva es<br />

combinación lineal <strong>de</strong> los valores <strong>de</strong> los píxeles. [29]<br />

Éstos s<strong>on</strong> sólo dos ejemplos <strong>de</strong> las innumerables tareas <strong>en</strong> las que la aplicación <strong>de</strong> LDA<br />

pue<strong>de</strong> emplearse c<strong>on</strong> éxito.<br />

40<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 15: Diagrama <strong>de</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong>l AMF. El vector <strong>de</strong> parámetros final <strong>de</strong> la locución<br />

⃗x es la c<strong>on</strong>cat<strong>en</strong>ación <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong> ⃗x fr<strong>en</strong>te a cada mo<strong>de</strong>lo <strong>de</strong> emoción<br />

m i para cada uno <strong>de</strong> los N sist sistemas.<br />

Mo<strong>de</strong>los Ocultos <strong>de</strong> Markov<br />

Un HMM (<strong>en</strong> inglés, Hid<strong>de</strong>n Markov Mo<strong>de</strong>ls) o mo<strong>de</strong>lo oculto <strong>de</strong> Markov es un mo<strong>de</strong>lo<br />

estadístico <strong>en</strong> el que se asume que el sistema a mo<strong>de</strong>lar es un proceso <strong>de</strong> Markov <strong>de</strong> parámetros<br />

<strong>de</strong>sc<strong>on</strong>ocidos. El objetivo es <strong>de</strong>terminar los parámetros <strong>de</strong>sc<strong>on</strong>ocidos (u ocultos, <strong>de</strong> ahí el<br />

nombre) <strong>de</strong> dicha ca<strong>de</strong>na a partir <strong>de</strong> los parámetros observables. Los parámetros extraídos se<br />

pue<strong>de</strong>n emplear para llevar a cabo sucesivos análisis, por ejemplo <strong>en</strong> aplicaci<strong>on</strong>es <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to<br />

<strong>de</strong> patr<strong>on</strong>es. Un HMM se pue<strong>de</strong> c<strong>on</strong>si<strong>de</strong>rar como la red bayesiana dinámica más simple.<br />

En un mo<strong>de</strong>lo <strong>de</strong> Markov normal, el estado es visible directam<strong>en</strong>te para el observador, por<br />

lo que las probabilida<strong>de</strong>s <strong>de</strong> transición <strong>en</strong>tre estados s<strong>on</strong> los únicos parámetros. En un mo<strong>de</strong>lo<br />

oculto <strong>de</strong> Markov, el estado no es visible directam<strong>en</strong>te, sino que sólo lo s<strong>on</strong> las variables influidas<br />

por el estado. Cada estado ti<strong>en</strong>e una distribución <strong>de</strong> probabilidad sobre los posibles símbolos<br />

<strong>de</strong> salida. C<strong>on</strong>secu<strong>en</strong>tem<strong>en</strong>te, la secu<strong>en</strong>cia <strong>de</strong> símbolos g<strong>en</strong>erada por un HMM proporci<strong>on</strong>a<br />

cierta información acerca <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong> estados.<br />

Los mo<strong>de</strong>los ocultos <strong>de</strong> Markov s<strong>on</strong> especialm<strong>en</strong>te aplicados a rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> formas<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES 41


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

temporales, como rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong>l habla, <strong>de</strong> escritura manual, <strong>de</strong> gestos, etiquetado gramatical<br />

o <strong>en</strong> bioinformática.<br />

Dado el bu<strong>en</strong> funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> esta técnica <strong>en</strong> tareas como el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla,<br />

también se ha aplicado al rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es [20] combinado c<strong>on</strong> otras técnicas <strong>de</strong><br />

clasificación como los GMM o SVM [30].<br />

42<br />

CAPÍTULO 3. ESTADO DEL ARTE EN RECONOCIMIENTO DE EMOCIONES


4<br />

Diseño y Desarrollo<br />

Este capítulo comi<strong>en</strong>za haci<strong>en</strong>do un análisis <strong>de</strong> las bases <strong>de</strong> datos <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>al<br />

exist<strong>en</strong>tes <strong>en</strong> la literatura. A<strong>de</strong>más se <strong>de</strong>scrib<strong>en</strong> las que han sido utilizadas <strong>en</strong> este trabajo:<br />

SUSAS Simulated, SUSAS Actual y Ahumada III.<br />

También se <strong>de</strong>tallan los procedimi<strong>en</strong>tos seguido para la creación y evaluación <strong>de</strong> cada uno<br />

<strong>de</strong> los sistemas propuestos: parametrización <strong>de</strong>l audio, <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los y su<br />

posterior evaluación.<br />

43


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

4.1. Medios disp<strong>on</strong>ibles (BBDD, software, máquinas...)<br />

4.1.1. Bases <strong>de</strong> Datos Utilizadas<br />

Para po<strong>de</strong>r evaluar nuestros sistemas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla se<br />

necesitan bases <strong>de</strong> datos sobre las que testearlos. Cuanto mayor sea la diversidad <strong>de</strong> la base <strong>de</strong><br />

datos, más realísticos serán los resultados obt<strong>en</strong>idos.<br />

En la Tabla 2 aparece una colección <strong>de</strong> las principales bases <strong>de</strong> datos <strong>de</strong> habla emoci<strong>on</strong>al<br />

exist<strong>en</strong>tes para tareas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to y síntesis <strong>de</strong> emoci<strong>on</strong>es. En ella se <strong>de</strong>scribe información<br />

sobre cada base <strong>de</strong> datos como: idioma, locutores, emoci<strong>on</strong>es exist<strong>en</strong>tes, etc.<br />

Refer<strong>en</strong>cia Idioma Sujetos Otras Propósito<br />

Emoci<strong>on</strong>es Tipo <strong>de</strong><br />

señales<br />

datos<br />

Abelin and Sueco 1 Nativo – Rec<strong>on</strong>oc. Eo, Mo, Simulados<br />

Allwood<br />

Ag, Tz, Se,<br />

(2000)<br />

Dt, Dom,<br />

Tz<br />

Alpert et Inglés 22 Paci<strong>en</strong>tes<br />

– Rec<strong>on</strong>oc. Dn, Nl Natural<br />

al. (2001)<br />

19 sa-<br />

nos<br />

Alter et al. Alemán 1 Female EEG Rec<strong>on</strong>oc. Eo, Fd, Nl Simulados<br />

(2000)<br />

Ambrus Inglés, Eslovaco<br />

8 Actores LG Síntesis Eo, Dt, Simulados<br />

(2000)<br />

Interface<br />

Mo, Nl, Se<br />

Amir et al. Hebreo 40 Estudiantes<br />

LG,M,G,H Rec<strong>on</strong>oc. Eo, Dt, Natural<br />

(2000)<br />

Mo, Ag,<br />

Tz<br />

Ang et al. Inglés Muchos – Rec<strong>on</strong>oc. An, Dn, Natural<br />

(2002)<br />

Nl, Fd, Co<br />

Banse and Alemán 12 Actores V Rec<strong>on</strong>oc. C/F Eo, Simulados<br />

Scherer<br />

Fd, Tz,...<br />

(1996)<br />

Batliner et Alemán, 51 Niños – Rec<strong>on</strong>oc. Eo, Ao, Provocados<br />

al. (2004) Inglés<br />

Ag, Se<br />

Bulut et Inglés 1 Actress – Síntesis Eo, Fd, Nl, Simulados<br />

al. (2002)<br />

Tz<br />

Burkhardt Alemán 10 Actores V, LG Síntesis Eo, Mo, Simulados<br />

and S<strong>en</strong>dlmeier<br />

Ag, Nl,<br />

Tz, Ao, Dt<br />

(2000)<br />

Caldognetto Italiano 1 Nativo V, IR Síntesis Eo, Dt, Simulados<br />

et al.<br />

Mo, Ag,<br />

(2004)<br />

Tz, Se<br />

Choukri Holandés 238 Nativos<br />

LG Rec<strong>on</strong>oc. Desc<strong>on</strong>ocidasSimulados<br />

(2003),<br />

Gr<strong>on</strong>ing<strong>en</strong><br />

Chuang Chino 2 Actores – Rec<strong>on</strong>oc. Eo, Aa, Simulados<br />

and Wu<br />

Fd, Mo,<br />

(2002)<br />

Se, Tz<br />

Clavel et Inglés 18 <strong>de</strong> la – Rec<strong>on</strong>oc. Nl, niveles Simulados<br />

al. (2004)<br />

TV<br />

<strong>de</strong> Mo<br />

44<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Tabla 2 – c<strong>on</strong>tinúa <strong>de</strong> la página anterior<br />

Refer<strong>en</strong>cia Idioma Sujetos Otras Propósito<br />

Emoci<strong>on</strong>es Tipo <strong>de</strong><br />

señales<br />

datos<br />

Cole<br />

(2005),<br />

Kids’<br />

Speech<br />

Inglés 780 Niños V Rec<strong>on</strong>oc.,<br />

Síntesis<br />

Desc<strong>on</strong>ocidasNatural<br />

Cowie and<br />

Douglas-<br />

Cowie<br />

(1996),<br />

Belfast<br />

Structured<br />

Douglas-<br />

Cowie et<br />

al. (2003),<br />

Belfast<br />

Natural<br />

Edgingt<strong>on</strong><br />

(1997)<br />

V Rec<strong>on</strong>oc. Varias Seminatural<br />

Engberg<br />

and Hans<strong>en</strong><br />

(1996),<br />

DES<br />

Fernan<strong>de</strong>z<br />

and Picard<br />

(2003)<br />

Fischer<br />

(1999),<br />

Verbmobil<br />

France et<br />

al. (2000)<br />

G<strong>on</strong>zalez<br />

(1999)<br />

Hans<strong>en</strong><br />

(1996),<br />

SUSAS<br />

Hans<strong>en</strong><br />

(1996),<br />

SUSC-0<br />

Hans<strong>en</strong><br />

(1996),<br />

SUSC-1<br />

Hans<strong>en</strong><br />

(1996),<br />

DLP<br />

Hans<strong>en</strong><br />

(1996),<br />

DCIEM<br />

Inglés 40 Nativos – Rec<strong>on</strong>oc. Eo, Mo,<br />

Fd, Nl, Tz<br />

Inglés 125 <strong>de</strong> la<br />

TV<br />

Natural<br />

Inglés 1 Actor LG Síntesis Eo, Ao,<br />

Mo, Fd,<br />

Nl, Tz<br />

Danish 4 Actores – Síntesis Eo, Fd, Nl,<br />

Tz, Se<br />

Simulados<br />

Simulados<br />

Inglés 4 Drivers – Rec<strong>on</strong>oc. Nl, Ss Natural<br />

Alemán 58 Nativos – Rec<strong>on</strong>oc. Eo, Dn, Nl Natural<br />

Inglés<br />

70 Paci<strong>en</strong>tes,<br />

40 sanos<br />

– Rec<strong>on</strong>oc. Dn, Nl Natural<br />

Desc<strong>on</strong>ocidos– Rec<strong>on</strong>oc. Dn, Nl Provocados<br />

Inglés, Español<br />

Inglés 32 Varios – Rec<strong>on</strong>oc. Eo, Ld eff.,<br />

Ss, Tl<br />

Inglés<br />

18 No nativos<br />

Natural,<br />

simulated<br />

H,PS,R Rec<strong>on</strong>oc. Nl, Ss A-estrés<br />

Inglés 20 Nativos – Rec<strong>on</strong>oc. Nl, Ss P-estrés<br />

Inglés 15 Nativos – Rec<strong>on</strong>oc. Nl, Ss C-estrés<br />

Inglés Desc<strong>on</strong>ocidos– Rec<strong>on</strong>oc. Nl, privación<br />

<strong>de</strong><br />

sueño<br />

Provocados<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO 45


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Tabla 2 – c<strong>on</strong>tinúa <strong>de</strong> la página anterior<br />

Refer<strong>en</strong>cia Idioma Sujetos Otras Propósito<br />

Emoci<strong>on</strong>es Tipo <strong>de</strong><br />

señales<br />

datos<br />

Heuft et al. Alemán 3 Nativos – Síntesis Eo, Mo, Simulados,<br />

(1996)<br />

Ag, Tz,... provocados<br />

Iida et al. Jap<strong>on</strong>és 2 Nativos – Síntesis Eo, Ag, Tz Simulados<br />

(2000),<br />

ESC<br />

Iri<strong>on</strong>do et Español 8 Actores – Síntesis Mo, Ag, Simulados<br />

al. (2000)<br />

Tz, Se,...<br />

Kawanami Jap<strong>on</strong>és 2 Actores – Síntesis Eo, Fd, Nl, Simulados<br />

et al.<br />

Tz<br />

(2003)<br />

Lee and Inglés Desc<strong>on</strong>ocidos– Rec<strong>on</strong>oc. Negat.–Posit.Natural<br />

Narayanan<br />

(2005)<br />

Liberman Inglés Actores – Desc<strong>on</strong>ocido Ad, C/F Simulados<br />

(2005),<br />

Eo, Fd,<br />

Emoti<strong>on</strong>al<br />

Prosody<br />

Nl, Pc, Tz,<br />

Se,...<br />

Linnankoski Inglés 13 Nativos – Rec<strong>on</strong>oc. An, Eo, Provocados<br />

et al.<br />

Mo, Tz,...<br />

(2005)<br />

Lloyd Inglés 1 Nativo – Rec<strong>on</strong>oc. Stress Simulados<br />

(1999)<br />

f<strong>on</strong>ológico<br />

Makarova Ruso 61 Nativos – Rec<strong>on</strong>oc. Eo, Fd, Se, Simulados<br />

and Petrushin<br />

Tz, Mo, Nl<br />

(2002),<br />

RUSSLA-<br />

NA<br />

Martins et Portugués 10 Nativos – Rec<strong>on</strong>oc. Eo, Dt, Simulados<br />

al. (1998),<br />

BDFALA<br />

Fd, Iy<br />

McMah<strong>on</strong> Inglés 29 Nativos – Rec<strong>on</strong>oc. Ma, Sk, Ss Provocados<br />

et al.<br />

(2003),<br />

ORES-<br />

TEIA<br />

M<strong>on</strong>tanari Inglés 15 Niños V Rec<strong>on</strong>oc. Desc<strong>on</strong>ocidasNatural<br />

et al.<br />

(2004)<br />

M<strong>on</strong>tero et Español 1 Actor – Síntesis Eo, Dt, Simulados<br />

al. (1999),<br />

SES<br />

Fd, Tz<br />

Mozzic<strong>on</strong>acci Holandés 3 Nativos – Rec<strong>on</strong>oc. Eo, Ao, Simulados<br />

and Hermes<br />

Mo, Ag,<br />

(1997)<br />

Iy, Nl, Tz<br />

Niimi et al.<br />

(2001)<br />

Jap<strong>on</strong>és 1 Male – Síntesis Eo, Ag, Tz Simulados<br />

46<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Tabla 2 – c<strong>on</strong>tinúa <strong>de</strong> la página anterior<br />

Refer<strong>en</strong>cia Idioma Sujetos Otras Propósito<br />

Emoci<strong>on</strong>es Tipo <strong>de</strong><br />

señales<br />

datos<br />

Nordstrand Sueco 1 Nativo V, IR Síntesis Fd, Nl Simulados<br />

et al.<br />

(2004)<br />

Nwe et al. Chino 12 Nativos – Rec<strong>on</strong>oc. Eo, Mo, Simulados<br />

(2003)<br />

Dt, Ag,...<br />

Pereira Inglés 2 Actores – Rec<strong>on</strong>oc. C/F Eo, Simulados<br />

(2000)<br />

Fd, Nl, Tz<br />

Petrushin Inglés 30 Nativos – Rec<strong>on</strong>oc. Eo, Mo, Simulados,<br />

(1999)<br />

Fd, Nl, Tz Natural<br />

Polzin and Inglés Desc<strong>on</strong>ocidos– Rec<strong>on</strong>oc. Eo, Mo, Simulados<br />

Waibel<br />

(2000)<br />

Nl, Tz<br />

5 estudiantes<br />

<strong>de</strong> drama<br />

Polzin and<br />

Waibel<br />

(1998)<br />

Rahurkar<br />

and Hans<strong>en</strong><br />

(2002),<br />

SOQ<br />

Scherer<br />

(2000b),<br />

Lost Luggage<br />

Scherer<br />

(2000a)<br />

Scherer et<br />

al. (2002)<br />

Schiel et<br />

al. (2002),<br />

SmartKom<br />

Schro<strong>de</strong>r<br />

and Grice<br />

(2003)<br />

Schro<strong>de</strong>r<br />

(2000)<br />

Slaney and<br />

McRoberts<br />

(2003),<br />

Babyears<br />

Stibbard<br />

(2000),<br />

Leeds<br />

Tato<br />

(2002),<br />

AIBO<br />

Tolkmitt<br />

and Scherer<br />

(1986)<br />

Inglés<br />

Inglés 6 soldados H, R, PS,<br />

ES<br />

Varios 109 Pass<strong>en</strong>gers<br />

LG Rec<strong>on</strong>oc. Eo, Mo,<br />

Fd, Nl, Tz<br />

Rec<strong>on</strong>oc. 5 niveles<br />

<strong>de</strong> estreś<br />

V Rec<strong>on</strong>oc. Eo, Hr, Ie,<br />

Tz, Ss<br />

Simulados<br />

Natural<br />

Natural<br />

Alemán 4 Actores – Ecological Eo, Dt, Simulados<br />

Mo, Ag,<br />

Tz<br />

Inglés, 100 Nativos<br />

– Rec<strong>on</strong>oc. 2 Tl, 2 Ss Natural<br />

Alemán<br />

Alemán 45 Nativos V Rec<strong>on</strong>oc. Eo, In, Nl Natural<br />

Alemán 1 Male – Síntesis Soft, modal,<br />

loud<br />

Alemán 6 Nativos – Rec<strong>on</strong>oc. Eo, Ao,<br />

Dt, Pn,...<br />

Inglés 12 Nativos – Rec<strong>on</strong>oc. An, An,<br />

Pn<br />

Inglés Desc<strong>on</strong>ocidos– Rec<strong>on</strong>oc. Amplio<br />

rango<br />

Alemán 14 Nativos – Síntesis Eo, Ao,<br />

Fd, Nl, Tz<br />

Alemán 60 Nativos – Rec<strong>on</strong>oc. Cognitive<br />

Ss<br />

Simulados<br />

Simulados<br />

Natural<br />

Natural,<br />

elicited<br />

Provocados<br />

Provocados<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO 47


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Tabla 2 – c<strong>on</strong>tinúa <strong>de</strong> la página anterior<br />

Refer<strong>en</strong>cia Idioma Sujetos Otras Propósito<br />

Emoci<strong>on</strong>es Tipo <strong>de</strong><br />

señales<br />

datos<br />

W<strong>en</strong>dt and Alemán 2 Actores – Rec<strong>on</strong>oc. Eo, Dt, Simulados<br />

Scheich<br />

Mo, Fd,<br />

(2002),<br />

Mag<strong>de</strong>burger<br />

Tz<br />

Yildirim et Inglés 1 Actriz – Rec<strong>on</strong>oc. Eo, Fd, Nl, Simulados<br />

al. (2004)<br />

Tz<br />

Yu et al. Chino Nativos – Rec<strong>on</strong>oc. Eo, Fd, Nl, Simulados<br />

(2001)<br />

Tz<br />

Yuan Chino 9 Nativos – Rec<strong>on</strong>oc. Eo, Mo, Provocados<br />

(2002)<br />

Ag, Nl, Tz<br />

Tabla 2: Recopilación <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong> habla emoci<strong>on</strong>al.<br />

Tabla adaptada <strong>de</strong> [2]. Abreviaturas <strong>de</strong> emoci<strong>on</strong>es: Dn: Diversión,<br />

Aa: Antipatía, Eo: Enfado, Ma: Molestia, An: Aprobación,<br />

An: At<strong>en</strong>ción, Ad: Ansiedad, Ao: Aburrimi<strong>en</strong>to, In:<br />

Insatisfación, Dom: Dominio, Dn: Depresión, Dt: Disgusto,<br />

Fd: Frustración, Mo: Miedo, Fd: Felicidad, Ie: Indifer<strong>en</strong>cia,<br />

Iy: Ir<strong>on</strong>ía, Ag: Alegría, Nl: Neutra, Pc: Pánico, Pn: Prohibición,<br />

Se: Sorpresa, Tz: Tristeza, Ss: Estrés, Tz: Timi<strong>de</strong>z,<br />

Sk: Shock, Co: Cansancio, Tl: Tarea c<strong>on</strong> carga <strong>de</strong> estrés, Pn:<br />

Preocupación. Abreviaturas para otras señales: PS: Presión<br />

sanguínea, ES: Examinación <strong>de</strong> sangrue, EEG: Electro<strong>en</strong>cefalograma,<br />

G: Respuesta cutánea galvánica, H: Tasa latido<br />

corazón, IR: Cámara infrarroja, LG: Laringógrafo, M: Miograma<br />

<strong>de</strong> la cara, R: Respiración, V: Vi<strong>de</strong>o. Otras abreviaturas:<br />

C/F: Cali<strong>en</strong>te/Frio, Ld eff.: efecto Lombard, A-stress,<br />

P-stress, C-stress: stress Real, Físico y Cognitivo, respectivam<strong>en</strong>te,<br />

Sim.: Simulado, Prov.:Provocado, N/A: No disp<strong>on</strong>ible.<br />

Para el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los y su posterior evaluación haremos uso <strong>de</strong> 2 bases <strong>de</strong><br />

datos disp<strong>on</strong>ibles <strong>en</strong> el <strong>ATVS</strong> (c<strong>on</strong>tacto: atvs@uam.es) como s<strong>on</strong> SUSAS (<strong>en</strong> inglés, Speech<br />

Un<strong>de</strong>r Simulated and Actual Stress) y Ahumada III.<br />

SUSAS: Speech Un<strong>de</strong>r Simulated and Actual Stress<br />

Speech Un<strong>de</strong>r Simulated and Actual Stress (SUSAS) [31] es una base <strong>de</strong> datos <strong>en</strong> inglés que<br />

ha sido empleada c<strong>on</strong> frecu<strong>en</strong>cia <strong>en</strong> el estudio <strong>de</strong> la síntesis y rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla bajo<br />

c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> estrés [20]. Esta base <strong>de</strong> datos fue originalm<strong>en</strong>te diseñada por John H.L. Hans<strong>en</strong><br />

<strong>en</strong> 1998 para tareas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla bajo estrés. En el grupo <strong>ATVS</strong> esta base <strong>de</strong><br />

datos ha sido obt<strong>en</strong>ida <strong>de</strong>l LDC (Linguistic Data C<strong>on</strong>sortium) [32].<br />

Se ha elegido la base <strong>de</strong> datos SUSAS por las sigui<strong>en</strong>tes raz<strong>on</strong>es:<br />

• c<strong>on</strong>ti<strong>en</strong>e un gran número <strong>de</strong> emoci<strong>on</strong>es.<br />

• permite hacer comparaci<strong>on</strong>es c<strong>on</strong> anteriores trabajos.<br />

• se disp<strong>on</strong>e <strong>de</strong> los IDs <strong>de</strong> los locutores.<br />

• exist<strong>en</strong> datos <strong>de</strong> tanto habla real como simulada.<br />

48<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Bu<strong>en</strong>a parte <strong>de</strong> la literatura exist<strong>en</strong>te sobre el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla usa<br />

la base <strong>de</strong> datos SUSAS para llevar a cabo sus experim<strong>en</strong>tos [17] [10] [30]. Todos los ficheros <strong>de</strong><br />

<strong>voz</strong> <strong>de</strong> SUSAS están muestreados a 8KHz y c<strong>on</strong> 16 bits por muestra. La base <strong>de</strong> datos c<strong>on</strong>sta<br />

<strong>de</strong> dos tipos <strong>de</strong> datos según éstos sean simulados o reales. Así, t<strong>en</strong>emos una parte llamada<br />

SUSAS Simulated y otro llamada SUSAS Actual respectivam<strong>en</strong>te.<br />

SUSAS Simulated c<strong>on</strong>ti<strong>en</strong>e habla simulada <strong>de</strong> 9 locutores (todos hombres) y 11 estilos <strong>de</strong><br />

habla. Los 9 locutores se distribuy<strong>en</strong> <strong>en</strong> 3 grupos c<strong>on</strong> (i) ac<strong>en</strong>to g<strong>en</strong>eral <strong>de</strong> USA (g1, g2, g3 ), (ii)<br />

ac<strong>en</strong>to <strong>de</strong> Nueva Inglaterra/Bost<strong>on</strong> (b1, b2, b3 ), y (iii) ac<strong>en</strong>to <strong>de</strong> la ciudad <strong>de</strong> Nueva York (n1,<br />

n2, n3 ). Los datos incluy<strong>en</strong> 8 estilos: angry (a), clear (c), fast (f), loud (l), neutral (n), questi<strong>on</strong><br />

(q), slow (s), soft (w) y otros 3 estilos bajo difer<strong>en</strong>te grado <strong>de</strong> estrés: lombard (lom), c<strong>on</strong>d70<br />

(c70), c<strong>on</strong>d50 (c50). angry corresp<strong>on</strong><strong>de</strong> a un estilo <strong>de</strong> habla <strong>en</strong>fadado, clear a habla c<strong>on</strong> una<br />

clara pr<strong>on</strong>unciación, fast a habla rápida, loud es habla <strong>en</strong>érgica, neutral es un estilo <strong>de</strong> habla<br />

normal o neutra, questi<strong>on</strong> corresp<strong>on</strong><strong>de</strong> a habla c<strong>on</strong> <strong>en</strong>t<strong>on</strong>ación interrogativa, slow es habla l<strong>en</strong>ta<br />

y soft habla suave o poco <strong>en</strong>érgica. El estilo <strong>de</strong> habla lombard se produce como c<strong>on</strong>secu<strong>en</strong>cia<br />

<strong>de</strong>l efecto Lombard que c<strong>on</strong>siste <strong>en</strong> la t<strong>en</strong><strong>de</strong>ncia involuntaria <strong>de</strong> los locutores <strong>en</strong> elevar la<br />

int<strong>en</strong>sidad <strong>de</strong> <strong>voz</strong> cuando se <strong>en</strong>cu<strong>en</strong>tran <strong>en</strong> un ambi<strong>en</strong>te altam<strong>en</strong>te ruidoso para mejorar su<br />

audibilidad. Las c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> estrés c<strong>on</strong>d50 y c<strong>on</strong>d70 corresp<strong>on</strong><strong>de</strong>n a habla producida por<br />

locutores mi<strong>en</strong>tras realizan una tarea estresante c<strong>on</strong> un joy-stic <strong>en</strong> un or<strong>de</strong>nador. Según el<br />

grado <strong>de</strong> dificultad, bajo o alto, t<strong>en</strong>dremos los estilos <strong>de</strong> habla c<strong>on</strong>d50 y c<strong>on</strong>d70 respectivam<strong>en</strong>te.<br />

SUSAS Actual c<strong>on</strong>ti<strong>en</strong>e habla real <strong>de</strong> 7 locutores (3 mujeres y 4 hombres) y 5 c<strong>on</strong>dici<strong>on</strong>es<br />

<strong>de</strong> estrés: neutral (n), medst (m), hist (h), freefall (f), scream (s). Los 4 locutores masculinos se<br />

<strong>de</strong>notan como m1, m2, m3 y m4, mi<strong>en</strong>tras que los 3 fem<strong>en</strong>inos como f1, f2 y f3. La c<strong>on</strong>dici<strong>on</strong>es<br />

<strong>de</strong> haba bajo estrés medst y hist corresp<strong>on</strong><strong>de</strong>n a habla <strong>en</strong> c<strong>on</strong>dici<strong>on</strong>es <strong>en</strong> que los locutores<br />

están realizando una tarea que les sup<strong>on</strong>e un estrés. Dep<strong>en</strong>di<strong>en</strong>do <strong>de</strong> si el grado <strong>de</strong> estrés<br />

es mo<strong>de</strong>rado (mo<strong>de</strong>rate) o alto (high) t<strong>en</strong>dremos los estilos medst y hist respectivam<strong>en</strong>te.<br />

Por otra parte, los estilos <strong>de</strong> habla freefall, scream y neutral se obti<strong>en</strong><strong>en</strong> <strong>de</strong> locutores m<strong>on</strong>tados<br />

<strong>en</strong> atracci<strong>on</strong>es <strong>de</strong> un parque temático. freefall se c<strong>on</strong>sigue recogi<strong>en</strong>do <strong>voz</strong> mi<strong>en</strong>tras los<br />

locutores se m<strong>on</strong>tan <strong>en</strong> una m<strong>on</strong>taña rusa y scream mi<strong>en</strong>tras lo hac<strong>en</strong> <strong>en</strong> una atracción <strong>de</strong> miedo.<br />

Los datos <strong>de</strong> Simulated y Actual c<strong>on</strong>sist<strong>en</strong> <strong>en</strong> locuci<strong>on</strong>es <strong>de</strong> palabras pert<strong>en</strong>eci<strong>en</strong>tes a un<br />

c<strong>on</strong>junto <strong>de</strong> 35 palabras (break, change, ...). Cada palabra disp<strong>on</strong>e <strong>de</strong> 2 realizaci<strong>on</strong>es por<br />

locutor y emoción.<br />

Un ejemplo <strong>de</strong> la primera <strong>de</strong> las dos repetici<strong>on</strong>es <strong>de</strong> una locución <strong>de</strong> la base <strong>de</strong> datos<br />

SUSAS Simulated <strong>de</strong> la palabra break bajo el estilo <strong>de</strong> habla angry <strong>de</strong>l locutor b2 lo t<strong>en</strong>emos<br />

<strong>en</strong> la Figura 16.<br />

Figura 16: Ejemplo <strong>de</strong> una locución <strong>de</strong> la base <strong>de</strong> datos SUSAS Simulated.<br />

Ahumada III (Ah3R1 )<br />

Ahumada III es una base <strong>de</strong> datos <strong>de</strong> habla <strong>en</strong> español <strong>de</strong>scrita <strong>en</strong> [33] recogida <strong>de</strong> casos<br />

for<strong>en</strong>ses reales por el Departam<strong>en</strong>to <strong>de</strong> Procesado <strong>de</strong> Audio e Imag<strong>en</strong> <strong>de</strong> la Guardia Civil<br />

Española. Su versión actual, Ahumada III Release 1 (Ah3R1 ) incluye habla <strong>de</strong> casos for<strong>en</strong>ses<br />

obt<strong>en</strong>idos usando el sistema típico <strong>de</strong> grabación <strong>de</strong> la Guardia Civil, cintas analógicas magnéticas<br />

c<strong>on</strong> grabaci<strong>on</strong>es GSM. Tambí<strong>en</strong> usando SITEL, un sistema español <strong>de</strong> interceptación legal<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO 49


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

<strong>de</strong> las telecomunicaci<strong>on</strong>es. Este sistema graba c<strong>on</strong>versaci<strong>on</strong>es telefónicas digitales c<strong>on</strong>ectado<br />

directam<strong>en</strong>te a todos los operadores telefónicos.<br />

Ah3R1 incluye gran variabilidad <strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es, como ruido, características <strong>de</strong>l <strong>en</strong>torno,<br />

estado anímico, país, región <strong>de</strong> orig<strong>en</strong> y dialecto <strong>de</strong> los locutores, etc.<br />

En la última década, la Guardia Civil ha ido creando una serie <strong>de</strong> base <strong>de</strong> datos c<strong>on</strong> el<br />

propósito <strong>de</strong> hacer sistemas más robustos mediante la ampliación <strong>de</strong> la variabilidad <strong>de</strong> las<br />

c<strong>on</strong>dici<strong>on</strong>es. Como ejemplos <strong>de</strong> dichas bases <strong>de</strong> datos t<strong>en</strong>emos: Ahumada I [34], Gaudi (2001),<br />

Baeza (2004-2006) o Ahumada II.<br />

El tamaño esperado <strong>de</strong> Ah3R1 es muy gran<strong>de</strong> tanto <strong>en</strong> el número <strong>de</strong> llamadas disp<strong>on</strong>ibles<br />

como <strong>en</strong> el número <strong>de</strong> locutores. Sin embargo, como las c<strong>on</strong>dici<strong>on</strong>es no s<strong>on</strong> uniformes y las<br />

grabaci<strong>on</strong>es <strong>de</strong> <strong>voz</strong> ti<strong>en</strong><strong>en</strong> que estar autorizadas una por una, se espera que progresivam<strong>en</strong>te<br />

vayan estando disp<strong>on</strong>ibles difer<strong>en</strong>tes versi<strong>on</strong>es <strong>de</strong> la base <strong>de</strong> datos.<br />

Ah3R1 c<strong>on</strong>ti<strong>en</strong>e datos <strong>de</strong> 69 locutores sacados <strong>de</strong> casos reales <strong>en</strong> llamadas GSM BDRA <strong>en</strong><br />

España c<strong>on</strong> variedad <strong>en</strong> el país <strong>de</strong> orig<strong>en</strong> <strong>de</strong> los locutores, <strong>de</strong>l estado emoci<strong>on</strong>al, c<strong>on</strong>dici<strong>on</strong>es<br />

acústicas y dialectos. En el único caso <strong>en</strong> que no hay variabilidad es <strong>en</strong> el género, pues los<br />

69 locutores s<strong>on</strong> hombres. Para cada locutor exist<strong>en</strong> dos minutos <strong>de</strong> habla disp<strong>on</strong>ibles, los<br />

cuales se usan para el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los que caracteric<strong>en</strong> el habla <strong>de</strong> dicho locutor.<br />

A<strong>de</strong>más, para tareas <strong>de</strong> evaluación se disp<strong>on</strong>e <strong>de</strong> 10 segm<strong>en</strong>tos <strong>de</strong> habla para los 31 primeros<br />

locutores y cinco para los 38 restantes, cada uno <strong>de</strong> difer<strong>en</strong>tes llamadas telefónicas. Dichos<br />

fragm<strong>en</strong>tos c<strong>on</strong>stan <strong>de</strong> <strong>en</strong>tre 7 y 25 segundos <strong>de</strong> habla, c<strong>on</strong> una duración media <strong>de</strong> 13 segundos.<br />

Los estilos <strong>de</strong> habla c<strong>on</strong>t<strong>en</strong>idos <strong>en</strong> Ah3R1 s<strong>on</strong> neutro-bajo, neutro, neutro-exaltado y exaltado.<br />

En la Figura 17 vemos un ejemplo <strong>de</strong> un par <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong> Ah3R1 pert<strong>en</strong>eci<strong>en</strong>te al locutor 23.<br />

Un ejemplo <strong>de</strong> dos locuci<strong>on</strong>es <strong>de</strong> Ah3R1, una <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y otra <strong>de</strong> test se pue<strong>de</strong> ver<br />

<strong>en</strong> la Figura 17.<br />

Figura 17: a) Locución <strong>de</strong> Ah3R1 <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (120sg) <strong>de</strong>l locutor 23 y emoción neutroexaltado.<br />

b) Locución número 4 <strong>de</strong> test <strong>de</strong> Ah3R1 <strong>de</strong>l locutor 23 y emoción neutro.<br />

Los datos <strong>de</strong> Ah3R1 s<strong>on</strong> públicos y su acceso está disp<strong>on</strong>ible para proyectos <strong>de</strong> investigación<br />

mediante una lic<strong>en</strong>cia que <strong>de</strong>be ser firmada por la Guardia Civil. (c<strong>on</strong>tacto:<br />

crim-acustica@guardiacivil.es). Varias muestras <strong>de</strong> segm<strong>en</strong>tos <strong>de</strong> habla se pue<strong>de</strong> escuchar<br />

directam<strong>en</strong>te <strong>en</strong> la página web <strong>de</strong>l <strong>ATVS</strong> (http://atvs.ii.uam.es/) para así percibir la calidad y<br />

variedad <strong>de</strong> las grabaci<strong>on</strong>es <strong>de</strong> Ah3R1.<br />

4.1.2. Software y Máquinas<br />

El hardware utilizado para el <strong>de</strong>sarrollo <strong>de</strong> este proyecto ha sido un or<strong>de</strong>nador <strong>de</strong> uso pers<strong>on</strong>al<br />

c<strong>on</strong> procesador Intel P<strong>en</strong>tium IV y SO Debian y distribución Ubuntu. También he t<strong>en</strong>ido acceso<br />

a los or<strong>de</strong>nadores <strong>de</strong>l resto <strong>de</strong> grupo <strong>de</strong> trabajo y al rack <strong>de</strong> servidores para lanzar las pruebas.<br />

50<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Todos estos medios fuer<strong>on</strong> suministrados por el grupo <strong>ATVS</strong> <strong>de</strong> la <strong>Universidad</strong> <strong>Autónoma</strong> <strong>de</strong><br />

Madrid (UAM).<br />

4.2. Diseño<br />

4.2.1. Parametrización <strong>de</strong>l audio<br />

El primer paso a la hora <strong>de</strong> implem<strong>en</strong>tar un sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla es la<br />

extracción <strong>de</strong> los rasgos característicos <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong> que la i<strong>de</strong>ntifiqu<strong>en</strong> fr<strong>en</strong>te al resto. A<br />

esto proceso se le llama parametrización y su variedad es muy ext<strong>en</strong>sa <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> la tarea<br />

que se pret<strong>en</strong>da realizar. Así, según el nivel <strong>de</strong> la <strong>voz</strong> <strong>en</strong> que trabaj<strong>en</strong>, t<strong>en</strong>emos la parametrización<br />

acústica y la parametrización prosódica que s<strong>on</strong> dos <strong>de</strong> las mas importante y utilizadas.<br />

La extracción <strong>de</strong> rasgos <strong>de</strong> bajo nivel como s<strong>on</strong> los rasgos acústicos se utiliza normalm<strong>en</strong>te<br />

para mo<strong>de</strong>lar el comportami<strong>en</strong>to <strong>de</strong>l locutor. Este tipo <strong>de</strong> rasgos se suele utilizar para aut<strong>en</strong>tificación<br />

<strong>de</strong> locutor porque los locutores ti<strong>en</strong><strong>en</strong> m<strong>en</strong>os c<strong>on</strong>trol sobre los <strong>de</strong>talles espectrales <strong>de</strong>l<br />

habla que sobre rasgos <strong>de</strong> alto nivel como el pitch. Como ejemplo <strong>de</strong> parametrización acústica<br />

están los MFCC (Mel Frequ<strong>en</strong>cy Cepstral Coeffici<strong>en</strong>ts), SDC (Shifted Delta Cepstral) o LFPC<br />

(Low frecu<strong>en</strong>cy power coeffici<strong>en</strong>ts).<br />

La prosodia es una rama <strong>de</strong> la lingüística que analiza y repres<strong>en</strong>ta formalm<strong>en</strong>te aquellos<br />

elem<strong>en</strong>tos <strong>de</strong> la expresión oral, tales como el ac<strong>en</strong>to, los t<strong>on</strong>os y la <strong>en</strong>t<strong>on</strong>ación. Su manifestación<br />

c<strong>on</strong>creta <strong>en</strong> la producción <strong>de</strong> la palabra se asocia <strong>de</strong> este modo a las variaci<strong>on</strong>es <strong>de</strong> la frecu<strong>en</strong>cia<br />

fundam<strong>en</strong>tal, <strong>de</strong> la duración y <strong>de</strong> la int<strong>en</strong>sidad que c<strong>on</strong>stituy<strong>en</strong> los parámetros prosódicos físicos.<br />

Parametrización prosódica<br />

En la literatura exist<strong>en</strong> muchos trabajos que han <strong>en</strong>c<strong>on</strong>trado relación <strong>en</strong>tre las variaci<strong>on</strong>es<br />

<strong>de</strong> la prosodia <strong>de</strong>l locutor y la información <strong>de</strong> su estado emoci<strong>on</strong>al [10], [35]. Muchos sistemas<br />

<strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es utilizan los rasgos prosódicos <strong>de</strong>l habla como señal <strong>de</strong> <strong>en</strong>trada.<br />

Los rasgos prosódicos más comúnm<strong>en</strong>te utilizados s<strong>on</strong> la frecu<strong>en</strong>cia fundam<strong>en</strong>tal o pitch (F0),<br />

la <strong>en</strong>ergía y sus corresp<strong>on</strong>di<strong>en</strong>tes velocida<strong>de</strong>s, también c<strong>on</strong>ocidas como rasgos ∆ y la duración.<br />

Se va a hacer uso <strong>de</strong> la parametrización prosódica para la realización <strong>de</strong> nuestros sistemas.<br />

En c<strong>on</strong>creto, la señal <strong>de</strong> audio es <strong>en</strong>v<strong>en</strong>tanada cada 10 ms usando una v<strong>en</strong>tana <strong>de</strong> Hamming <strong>de</strong><br />

40 ms [Figura 18]. Mediante la herrami<strong>en</strong>ta Praat [36] se extrae por cada v<strong>en</strong>tana la <strong>en</strong>ergía y<br />

el log F0 obt<strong>en</strong>i<strong>en</strong>do un vector <strong>de</strong> <strong>en</strong>ergías ⃗e = [e 1 , e 2 , ..., e T ] y otro <strong>de</strong> valores logarítmicos <strong>de</strong>l<br />

pitch ⃗p = [p 1 , p 2 , ..., p T ] d<strong>on</strong><strong>de</strong> T es el número <strong>de</strong> v<strong>en</strong>tanas <strong>de</strong> la locución <strong>de</strong> <strong>voz</strong>. La eliminación<br />

<strong>de</strong> los segm<strong>en</strong>tos que no s<strong>on</strong> <strong>voz</strong> se c<strong>on</strong>sigue mediante el uso <strong>de</strong> un Detector <strong>de</strong> Actividad Vocal<br />

(VAD), aceptando únicam<strong>en</strong>te aquellas v<strong>en</strong>tanas c<strong>on</strong> valor <strong>de</strong> pitch y <strong>en</strong>ergía mayores que un<br />

umbral θ. El umbral elegido θ es:<br />

θ = min{⃗e} + MD<br />

10<br />

d<strong>on</strong><strong>de</strong> MD es el Marg<strong>en</strong> Dinámico <strong>de</strong> la <strong>en</strong>ergía, MD = max{⃗e} − min{⃗e}<br />

Para obt<strong>en</strong>er información <strong>de</strong> la velocidad <strong>de</strong> los vectores <strong>de</strong> <strong>en</strong>ergías ⃗e y pitch ⃗p, los valores<br />

∆ se obti<strong>en</strong><strong>en</strong> como la difer<strong>en</strong>cia <strong>en</strong>tre v<strong>en</strong>tanas c<strong>on</strong>secutivas. Así, ∆ ek = e k+1 − e k .<br />

Como refleja la Figura 19, por cada locución <strong>de</strong> <strong>voz</strong> u, la parametrización prosódica c<strong>on</strong>siste<br />

<strong>en</strong> un c<strong>on</strong>junto <strong>de</strong> d = 4 vectores <strong>de</strong> características o tramas (<strong>en</strong>ergía, pitch y sus valores ∆).<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO 51


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 18: a) V<strong>en</strong>tanas temporales más utilizadas para el <strong>en</strong>v<strong>en</strong>tanado <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>. b)<br />

Env<strong>en</strong>tanado y vectores <strong>de</strong> <strong>en</strong>ergía ⃗e y pitch ⃗p <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>.<br />

⃗u p = {⃗e, ⃗p, ⃗ ∆ e , ⃗ ∆ p }<br />

Es posible normalizar cada una <strong>de</strong> las 4 tramas restándole su valor medio. En el capítulo 5<br />

<strong>de</strong> Pruebas y Resultados se indicará que tipo <strong>de</strong> normalización se ha llevado a cabo según el<br />

sistema o el tipo <strong>de</strong> prueba realizada, para optimizar resultados.<br />

Figura 19: Diagrama <strong>de</strong> bloques <strong>de</strong> la extracción <strong>de</strong> parámetros prosódicos <strong>de</strong> la señal <strong>de</strong> <strong>voz</strong>.<br />

4.2.2. Subsistemas fr<strong>on</strong>t-<strong>en</strong>d (SVM c<strong>on</strong> estadísticos y GMM-SVM)<br />

Un sistema <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> <strong>voz</strong> fr<strong>on</strong>t-<strong>en</strong>d es todo aquel que utiliza como <strong>en</strong>trada la<br />

propia señal <strong>de</strong> <strong>voz</strong> y obti<strong>en</strong>e a la salida una serie <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>de</strong> dicha señal<br />

<strong>de</strong> <strong>voz</strong> fr<strong>en</strong>te a un c<strong>on</strong>junto <strong>de</strong> mo<strong>de</strong>los previam<strong>en</strong>te <strong>en</strong>tr<strong>en</strong>ados.<br />

Para la tarea que nos ocupa se han diseñado dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d.<br />

• Un sistema <strong>de</strong> SVM cuyo vector <strong>de</strong> <strong>en</strong>trada es un c<strong>on</strong>junto <strong>de</strong> estadísticos globales <strong>de</strong><br />

las características prosódicas.<br />

• Otro sistema <strong>de</strong> SVM que utiliza los valores <strong>de</strong> las medias <strong>de</strong> los GMMs para c<strong>on</strong>figurar el<br />

supervector <strong>de</strong> <strong>en</strong>trada.<br />

52<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

A partir <strong>de</strong> ahora al primero le llamaremos SVM c<strong>on</strong> estadísticos y al segundo GMM-<br />

SVM.<br />

En la sigui<strong>en</strong>te sección se <strong>de</strong>scrib<strong>en</strong> los procesos <strong>de</strong> mo<strong>de</strong>lado y evaluación <strong>de</strong> los subsistemas<br />

y la fusión <strong>de</strong> los resultados obt<strong>en</strong>idos por ambos.<br />

Creación y evaluación <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong>l subsistema SVM basado <strong>en</strong> estadísticos<br />

globales<br />

Este tipo <strong>de</strong> mo<strong>de</strong>lado SVM utiliza como vector <strong>de</strong> <strong>en</strong>trada un vector formado por la<br />

c<strong>on</strong>cat<strong>en</strong>ación <strong>de</strong> n = 9 valores estadísticos <strong>de</strong> cada uno <strong>de</strong> las d = 4 tramas prosódicas (⃗e, ⃗ ∆ e ,<br />

⃗p y ⃗ ∆ p ). Estos 9 coefici<strong>en</strong>tes estadísticos aparec<strong>en</strong> <strong>en</strong> la Tabla 3.<br />

Coefici<strong>en</strong>tes<br />

Máximo<br />

Mínimo<br />

Medio<br />

Desviación estándar<br />

Mediana<br />

Primer cuartil<br />

Tercer cuartil<br />

Skewness<br />

Kurtosis<br />

Tabla 3: Coefici<strong>en</strong>tes estadísticos calculados por cada trama prosódica.<br />

Por lo tanto, por cada locución <strong>de</strong> <strong>voz</strong> se obti<strong>en</strong>e un vector <strong>de</strong> l<strong>on</strong>gitud fija <strong>de</strong><br />

L = d ∗ n = 4 ∗ 9 = 36 valores. En este nuevo espacio <strong>de</strong> características L-dim<strong>en</strong>si<strong>on</strong>al<br />

es d<strong>on</strong><strong>de</strong> se mo<strong>de</strong>lan las emoci<strong>on</strong>es usando un SVM lineal. Como pue<strong>de</strong> verse <strong>en</strong> la Figura<br />

20 el vector <strong>de</strong> rasgos L-dim<strong>en</strong>si<strong>on</strong>al se pue<strong>de</strong> ver como el resultado <strong>de</strong> la función kernel<br />

[37] l(⃗u p ) que mapea las tramas prosódicas <strong>de</strong> ⃗u p <strong>en</strong> un espacio <strong>de</strong> características L-dim<strong>en</strong>si<strong>on</strong>al.<br />

C<strong>on</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se crean los mo<strong>de</strong>los por cada emoción. Dado un mo<strong>de</strong>lo<br />

SVM ⃗w e <strong>de</strong> una emoción e, la función <strong>de</strong> puntuación o scoring s( ⃗w, l(⃗u)) por cada locución<br />

<strong>de</strong> test ⃗u ptest es simplem<strong>en</strong>te un producto escalar calculado <strong>de</strong> la sigui<strong>en</strong>te forma [Ver Figura 20]:<br />

s( ⃗w e , l(⃗u ptest )) = ⃗w e * l(⃗u ptest ) T<br />

Figura 20: Diagrama <strong>de</strong> bloques <strong>de</strong>l clasificador SVM utilizando estadísticos globales.<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO 53


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Como resultado <strong>de</strong> dicha función <strong>de</strong> scoring se ti<strong>en</strong><strong>en</strong> una puntuación Λ que dará una<br />

medida <strong>de</strong> la similitud <strong>en</strong>tre la locución <strong>de</strong> test ⃗u ptest y el mo<strong>de</strong>lo ⃗w e .<br />

La Figura 21 repres<strong>en</strong>ta un esquema <strong>de</strong>l funci<strong>on</strong>ami<strong>en</strong>to <strong>de</strong> un SVM <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista<br />

<strong>de</strong> la distribución <strong>de</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. Por cada emoción e1, e2 y e3 exist<strong>en</strong> N e1 , N e2<br />

y N e3 locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to respectivam<strong>en</strong>te. Así, para <strong>en</strong>tr<strong>en</strong>ar el mo<strong>de</strong>lo ⃗w e1 se usan<br />

como datos target (clase +1) las locuci<strong>on</strong>es l(⃗u ptrain ) pert<strong>en</strong>eci<strong>en</strong>tes a la emoción e1 y como<br />

datos n<strong>on</strong>-target (clase -1) a los pert<strong>en</strong>eci<strong>en</strong>tes al resto <strong>de</strong> clases o emoci<strong>on</strong>es, <strong>en</strong> el ejemplo a<br />

las emoci<strong>on</strong>es e2 y e3.<br />

Figura 21: Esquema <strong>de</strong> distribución <strong>de</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>en</strong> un clasificador SVM para<br />

vectores <strong>de</strong> <strong>en</strong>trada l(⃗u ptrain ).<br />

Creación y evaluación <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong>l subsistema GMM-SVM<br />

Como ya se ha explicado <strong>en</strong> el capítulo <strong>de</strong> Técnicas <strong>de</strong> Rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> Emoci<strong>on</strong>es<br />

[3.7], la técnica <strong>de</strong> SVMs basados <strong>en</strong> supervectores GMMs c<strong>on</strong>siste <strong>en</strong> <strong>en</strong>tr<strong>en</strong>ar los mo<strong>de</strong>los<br />

SVM c<strong>on</strong> supervectores L ′ -dim<strong>en</strong>si<strong>on</strong>ales creados mediante la apilación <strong>de</strong> los vectores medios<br />

d-dim<strong>en</strong>si<strong>on</strong>ales <strong>de</strong> las M comp<strong>on</strong><strong>en</strong>tes Gaussianas, d<strong>on</strong><strong>de</strong> L ′ = M * d.<br />

Se pue<strong>de</strong> c<strong>on</strong>si<strong>de</strong>rar al supervector GMM como resultado <strong>de</strong> una función SV (⃗u p ) que mapea<br />

los vectores prosódicos ⃗u p <strong>en</strong> un vector <strong>de</strong> mayor dim<strong>en</strong>sión L ′<br />

= M * d [Ver Figura 22]. En<br />

este espacio L ′ -dim<strong>en</strong>si<strong>on</strong>al es d<strong>on</strong><strong>de</strong> se mo<strong>de</strong>la el SVM para obt<strong>en</strong>er un mo<strong>de</strong>lo final ⃗w e <strong>de</strong> la<br />

emoción e.<br />

En nuestro caso la parametrización prosódica ⃗u p c<strong>on</strong>siste <strong>en</strong> 4 vectores (⃗e, ⃗p, ⃗ ∆ e , ⃗ ∆ p ) por lo<br />

54<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

tanto el vector medio <strong>de</strong> cada mezcla GMM serán 4-dim<strong>en</strong>si<strong>on</strong>ales [Ver Figura 22]. Tomando<br />

por ejemplo un número <strong>de</strong> Gaussianas <strong>de</strong> 256 (M = 256), el supervector GMM SV (⃗u p ) que<br />

servirá como <strong>en</strong>trada al SVM t<strong>en</strong>drá una dim<strong>en</strong>sión <strong>de</strong> L ′ = 256 * 4 = 1024.<br />

Figura 22: Diagrama <strong>de</strong> bloques <strong>de</strong>l clasificador GMM-SVM.<br />

Para este caso la función <strong>de</strong> scoring también c<strong>on</strong>sistirá <strong>en</strong> un producto escalar <strong>en</strong>tre el<br />

mo<strong>de</strong>lo ⃗w e y el supervector GMM <strong>de</strong> test SV (⃗u ptest ) si<strong>en</strong>do ésta:<br />

s ′ ( ⃗w e , SV (⃗u ptest )) = ⃗w e * SV (⃗u ptest ) T<br />

La manera <strong>en</strong> que el SVM funci<strong>on</strong>a a la hora <strong>de</strong> clasificar aparece <strong>en</strong> la Figura 23. El<br />

funci<strong>on</strong>ami<strong>en</strong>to es el mismo al <strong>de</strong> la Figura 21 excepto por el hecho <strong>de</strong> que los vectores <strong>de</strong><br />

<strong>en</strong>tradas <strong>de</strong>l SVM s<strong>on</strong> supervectores GMM <strong>de</strong> la forma SV (⃗u ptrain ).<br />

Fusión suma <strong>de</strong> los resultados <strong>de</strong> los subsistemas<br />

Tanto el sistema <strong>de</strong> SVMs c<strong>on</strong> estadísticos globales como el <strong>de</strong> supervectores GMM ofrec<strong>en</strong><br />

a la salida unas puntuaci<strong>on</strong>es <strong>de</strong> similitud <strong>en</strong>tre la muestra <strong>de</strong> test ⃗u ptest y el mo<strong>de</strong>lo ⃗w e :<br />

respectivam<strong>en</strong>te.<br />

s( ⃗w e , l(⃗u ptest )) = ⃗w e * l(⃗u ptest ) T<br />

s ′ ( ⃗w e , SV (⃗u ptest )) = ⃗w e * SV (⃗u ptest ) T<br />

Mediante la combinación <strong>de</strong> dichas puntuaci<strong>on</strong>es se c<strong>on</strong>sigue una nueva puntuación<br />

final S( ⃗w e , ⃗u ptest )) que pue<strong>de</strong> ofrecer mejores resultados si los subsistemas fusi<strong>on</strong>ados dan<br />

información complem<strong>en</strong>taria.<br />

La combinación se realiza como una fusión suma (sum fusi<strong>on</strong> <strong>en</strong> inglés) precedida <strong>de</strong> una<br />

T-norm (test normalizati<strong>on</strong>) [capítulo 2.5] que hace que los rangos <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> ambos<br />

sistemas sean similares. El c<strong>on</strong>junto cohorte <strong>de</strong> la T-norm está formado por todo el c<strong>on</strong>junto <strong>de</strong><br />

emoci<strong>on</strong>es ⃗w e para e = 1, ..., N emoci<strong>on</strong>es . La puntuación final fusi<strong>on</strong>ada S( ⃗w e , ⃗u ptest )) se calcula<br />

como:<br />

S( ⃗w e , ⃗u ptest ) = s′ ( ⃗w e , SV (⃗u ptest )) − µ ′<br />

std ′ + s( ⃗w e, l(⃗u ptest )) − µ<br />

std<br />

D<strong>on</strong><strong>de</strong> µ ′ y µ s<strong>on</strong> las medias <strong>de</strong> las puntuaci<strong>on</strong>es cohorte, y std ′ y std s<strong>on</strong> sus respectivas<br />

<strong>de</strong>sviaci<strong>on</strong>es estándares.<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO 55


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 23: Esquema <strong>de</strong> distribución <strong>de</strong> los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>en</strong> un clasificador SVM para<br />

supervectores <strong>de</strong> <strong>en</strong>trada SV (⃗u ptrain ).<br />

4.2.3. Sistema back-<strong>en</strong>d (Fusi<strong>on</strong> Anchor Mo<strong>de</strong>ls)<br />

Por c<strong>on</strong>traposición a los sistemas fr<strong>on</strong>t-<strong>en</strong>d, t<strong>en</strong>emos los sistemas back-<strong>en</strong>d. Como ejemplo<br />

<strong>de</strong> este tipo <strong>de</strong> técnicas, t<strong>en</strong>emos la fusión <strong>de</strong> los anchor mo<strong>de</strong>ls (Anchor Mo<strong>de</strong>l Fusi<strong>on</strong>, AMF)<br />

que ya vimos <strong>en</strong> el capítulo 3.7.4.<br />

Esta técnica novedosa es original <strong>de</strong>l <strong>ATVS</strong> y fue pres<strong>en</strong>tada <strong>en</strong> el c<strong>on</strong>greso internaci<strong>on</strong>al<br />

Interspeech 2008 para rec<strong>on</strong>ocimi<strong>en</strong>to automático <strong>de</strong> idioma [27]. La aplicación a tareas <strong>de</strong><br />

rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es la pres<strong>en</strong>tamos <strong>en</strong> [28] y está aceptada y p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> pres<strong>en</strong>tar<br />

<strong>en</strong> Interspeech 2009.<br />

Creación <strong>de</strong> mo<strong>de</strong>los SVM a partir <strong>de</strong> los resultados <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d<br />

Este tipo <strong>de</strong> técnicas usa las puntuaci<strong>on</strong>es obt<strong>en</strong>idas previam<strong>en</strong>te por otros subsistemas<br />

y las utiliza para formar el vector <strong>de</strong> parámetros <strong>de</strong> <strong>en</strong>trada para el nuevo sistema que<br />

producirá las puntuaci<strong>on</strong>es finales. En la Figura 15 se vio como una locución <strong>de</strong> test ⃗x se<br />

<strong>en</strong>fr<strong>en</strong>taba a n mo<strong>de</strong>los <strong>de</strong> N sist subsistemas para así c<strong>on</strong>formar el vector <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong><br />

dim<strong>en</strong>sión N = n ∗ N sist <strong>de</strong>notado como ⃗ S x,m . Este vector <strong>de</strong> puntuaci<strong>on</strong>es es el que pasa a ser<br />

el vector <strong>de</strong> parámetros <strong>de</strong> la locución ⃗x para el sistema back-<strong>en</strong>d.<br />

En nuestro caso, el número <strong>de</strong> subsistemas N sist es <strong>de</strong> 2, el sistema GMM-SVM y el <strong>de</strong><br />

SVM c<strong>on</strong> estadísticos. Por otro lado, el número <strong>de</strong> mo<strong>de</strong>los n a <strong>en</strong>fr<strong>en</strong>tar <strong>de</strong>p<strong>en</strong><strong>de</strong>rá <strong>de</strong> la<br />

base <strong>de</strong> datos que usemos. Así, por ejemplo para SUSAS Simulated <strong>en</strong> un sistema in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te<br />

<strong>de</strong> locutor t<strong>en</strong>dremos 11 mo<strong>de</strong>los, uno por cada emoción y por lo tanto n = 11. [Figura 24]<br />

56<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 24: Uso <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> dos sistemas fr<strong>on</strong>t-<strong>en</strong>d para c<strong>on</strong>formar el sistema back-<strong>en</strong>d<br />

para la base <strong>de</strong> datos SUSAS Simulated.<br />

Una vez se ha obt<strong>en</strong>ido el nuevo vector <strong>de</strong> parámetros ⃗ S x,m para cada locución ⃗x, el sigui<strong>en</strong>te<br />

paso es <strong>en</strong>tr<strong>en</strong>ar un clasificador back-<strong>en</strong>d c<strong>on</strong> esta nueva parametrización. El nuevo clasificador<br />

back-<strong>en</strong>d va a ser un SVM. El <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los SVM se hará <strong>de</strong> la misma forma<br />

que vimos <strong>en</strong> la sección 4.2.2. Los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (pert<strong>en</strong>eci<strong>en</strong>tes al espacio <strong>de</strong> anchor<br />

mo<strong>de</strong>ls) serán los <strong>en</strong>cargados <strong>de</strong> mo<strong>de</strong>las los nuevos mo<strong>de</strong>los w ′ e y los datos <strong>de</strong> test (también<br />

pert<strong>en</strong>eci<strong>en</strong>tes al espacio <strong>de</strong> anchor mo<strong>de</strong>ls) los evaluarán obt<strong>en</strong>i<strong>en</strong>do una puntuación final ⃗ S ′ x<br />

[Ver Figura 24].<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO 57


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

58<br />

CAPÍTULO 4. DISEÑO Y DESARROLLO


5<br />

Pruebas y Resultados<br />

En este trabajo se distigu<strong>en</strong> dos tipos <strong>de</strong> experim<strong>en</strong>tos: in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes y <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong><br />

locutor. Se lleva a cabo dicha división c<strong>on</strong> el objetivo <strong>de</strong> analizar la variabilidad introducida<br />

por los distintos usuarios.<br />

En aplicaci<strong>on</strong>es d<strong>on</strong><strong>de</strong> no exist<strong>en</strong> datos específicos por cada locutor es preferible usar<br />

sistemas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor. Mi<strong>en</strong>tras que si sí están disp<strong>on</strong>ibles datos <strong>de</strong> cada locutor<br />

es mejor adaptar los mo<strong>de</strong>los a cada uno <strong>de</strong> ellos eliminando la variabilidad inter-locutor y<br />

así presumiblem<strong>en</strong>te c<strong>on</strong>seguiremos reducir la tasar <strong>de</strong> error.<br />

La v<strong>en</strong>taja <strong>de</strong> los sistemas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor es que no es necesario el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

<strong>de</strong> mo<strong>de</strong>los específicos para cada usuario. Por ello, existe un compromiso <strong>en</strong>tre<br />

ambos tipos <strong>de</strong> sistemas. Los in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor ofrec<strong>en</strong> una mayor rapi<strong>de</strong>z y comodidad<br />

para el usuario mi<strong>en</strong>tras que los <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor c<strong>on</strong>sigu<strong>en</strong> m<strong>en</strong>ores tasas <strong>de</strong> error.<br />

Para cada uno <strong>de</strong> estos dos tipos <strong>de</strong> experim<strong>en</strong>tos y para cada base <strong>de</strong> datos se van a<br />

pres<strong>en</strong>tar y analizar los resultados obt<strong>en</strong>idos mediante los dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d y su fusión<br />

suma, al igual que para el sistema back-<strong>en</strong>d <strong>de</strong> AMF.<br />

C<strong>on</strong> el objetivo <strong>de</strong> lograr sistemas más robustos se ajustarán una serie <strong>de</strong> variables como el<br />

coste asociado al <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to SVM o el número <strong>de</strong> mezclas Gaussianas <strong>de</strong> los GMM, a<strong>de</strong>más<br />

<strong>de</strong> la normalización <strong>de</strong> tanto los vectores <strong>de</strong> parámetros prosódicos como <strong>de</strong> las puntuaci<strong>on</strong>es<br />

resultantes.<br />

59


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

5.1. Pruebas y Resultados in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor<br />

Para evaluar los sistemas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor se han hecho dos tipos <strong>de</strong> pruebas.<br />

En las primeras, se evalúan los mo<strong>de</strong>los <strong>de</strong> cada base <strong>de</strong> datos (SUSAS Simulated, SUSAS<br />

Actual y Ah3R1 ) fr<strong>en</strong>te a datos <strong>de</strong> test <strong>de</strong> la misma base <strong>de</strong> datos. Por ejemplo, las locuci<strong>on</strong>es<br />

<strong>de</strong> test <strong>de</strong> Ah3R1 se evaluarán únicam<strong>en</strong>te fr<strong>en</strong>te a los mo<strong>de</strong>los creados a partir <strong>de</strong> la base <strong>de</strong><br />

datos Ah3R1. A este tipo <strong>de</strong> experim<strong>en</strong>tos los llamaremos experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos.<br />

En el otro tipo <strong>de</strong> pruebas se evalúan las locuci<strong>on</strong>es <strong>de</strong> test <strong>de</strong> cada base <strong>de</strong> datos fr<strong>en</strong>te<br />

a todos los mo<strong>de</strong>los creados por todas las bases <strong>de</strong> datos. Es <strong>de</strong>cir, por ejemplo, los datos <strong>de</strong><br />

test <strong>de</strong> Ah3R1 se evalúan fr<strong>en</strong>te a los mo<strong>de</strong>los <strong>de</strong> SUSAS Simulated, SUSAS Actual y Ah3R1.<br />

Serán llamados por lo tanto experim<strong>en</strong>tos Inter-Base <strong>de</strong> datos.<br />

5.1.1. Experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos: Evaluación <strong>de</strong> cada Base <strong>de</strong> Datos<br />

fr<strong>en</strong>te a mo<strong>de</strong>los <strong>de</strong> la misma Base <strong>de</strong> Datos<br />

SUSAS Simulated<br />

En este apartado se van a <strong>de</strong>scribir los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor realizados<br />

sobre la base <strong>de</strong> datos SUSAS Simulated. Como se vio <strong>en</strong> el capítulo 4.1.1, se ti<strong>en</strong>e 9 locutores<br />

los cuales se divi<strong>de</strong>n <strong>en</strong> 3 grupos según la etapa (<strong>de</strong>velopm<strong>en</strong>t, <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test) a la que se<br />

<strong>de</strong>diqu<strong>en</strong> [Ver Tabla 4]. Los datos <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t serán utilizados para g<strong>en</strong>erar el mo<strong>de</strong>lo UBM.<br />

Etapa<br />

Developm<strong>en</strong>t<br />

Entr<strong>en</strong>ami<strong>en</strong>to<br />

Test<br />

Locutores<br />

g1,b1,n1<br />

g2,b2,n2<br />

g3,b3,n3<br />

Tabla 4: Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />

Simulated.<br />

• SUSAS Simulated - SVM c<strong>on</strong> estadísticos<br />

Como aparece <strong>en</strong> la Figura 25, se <strong>en</strong>tr<strong>en</strong>an 11 mo<strong>de</strong>los ( ⃗w SV M angry , ⃗w SV M clear ,<br />

⃗w SV M c<strong>on</strong>d50 , ⃗w SV M c<strong>on</strong>d70 , ⃗w SV M fast , ⃗w SV M lombard , ⃗w SV M loud , ⃗w SV M neutral , ⃗w SV M questi<strong>on</strong> ,<br />

⃗w SV M slow y ⃗w SV M soft ), uno por cada emoción utilizando los locutores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (g2,<br />

b2, n2 ). El número <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to por cada emoción es <strong>de</strong>:<br />

35 palabras * 2 repetici<strong>on</strong>es/palabra * 3 locutores = 210 locuci<strong>on</strong>es/emoción.<br />

Para este caso <strong>en</strong> que no intervi<strong>en</strong>e la técnica GMM, no se <strong>en</strong>tr<strong>en</strong>a un UBM y por lo tanto no<br />

se usan los datos <strong>de</strong> los locutores g1, b1, n1.<br />

Una vez se ti<strong>en</strong>e un mo<strong>de</strong>lo por cada emoción se pasa a la etapa <strong>de</strong> evaluación <strong>de</strong> los<br />

mismos. Se usan los datos <strong>de</strong> test <strong>de</strong> los locutores g3, b3, n3. Se <strong>en</strong>fr<strong>en</strong>tan todos las locuci<strong>on</strong>es<br />

<strong>de</strong> test fr<strong>en</strong>te a los 11 mo<strong>de</strong>los.<br />

El número <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong> test es <strong>de</strong>:<br />

35 palabras * 2 repetici<strong>on</strong>es/palabra * 3 locutores * 11 emoci<strong>on</strong>es = 2310 locuci<strong>on</strong>es.<br />

Por lo tanto, como cada locución <strong>de</strong> test se <strong>en</strong>fr<strong>en</strong>ta a los 11 mo<strong>de</strong>los, el número <strong>de</strong> puntuaci<strong>on</strong>es<br />

será <strong>de</strong>:<br />

60<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 25: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para el sistema ’SUSAS Simulated<br />

- SVM c<strong>on</strong> estadísticos’.<br />

11 mo<strong>de</strong>los * 2310 locuci<strong>on</strong>es = 25410 puntuaci<strong>on</strong>es.<br />

Para este subsistema se van a llevar a cabo las sigui<strong>en</strong>tes tareas para optimizar los resultados:<br />

• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />

• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

• Selección <strong>de</strong> parámetros<br />

• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />

Como se com<strong>en</strong>tó <strong>en</strong> el capítulo 4.2.1, es posible realizar una normalización <strong>de</strong> cada una<br />

<strong>de</strong> las 4 tramas <strong>de</strong> vectores prosódicos (⃗e, ⃗p, ⃗ ∆ e y ⃗ ∆ p ) restándole su valor medio. Para estos<br />

experim<strong>en</strong>tos se ha realizado la normalización <strong>de</strong>l vector ⃗e pues es la opción que mejores<br />

resultados c<strong>on</strong>sigue. C<strong>on</strong>secu<strong>en</strong>tem<strong>en</strong>te los vectores prosódicos s<strong>on</strong>:<br />

⃗u p = {⃗e − E(⃗e), ⃗p, ⃗ ∆ e , ⃗ ∆ p }<br />

d<strong>on</strong><strong>de</strong> E(⃗e) es la esperanza matemática o valor medio <strong>de</strong>l vector <strong>de</strong> <strong>en</strong>ergías ⃗e.<br />

Otra <strong>de</strong> las variables que se van a ajustar es el coste <strong>de</strong>l clasificador SVM. El coste <strong>en</strong><br />

el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to SVM (ver sección 3.7.2) es una variable mediante la cual c<strong>on</strong>trolamos la<br />

p<strong>en</strong>alización aplicada a una muestra incorrectam<strong>en</strong>te clasificada a la hora <strong>de</strong> establecer el<br />

hiperplano <strong>de</strong> separación <strong>en</strong>tre las clases.<br />

Los resultados para varios valores <strong>de</strong> coste se muestran <strong>en</strong> la Figura 26 <strong>en</strong> forma <strong>de</strong> curva<br />

DET y <strong>en</strong> la Tabla 5 c<strong>on</strong> valores numéricos.<br />

Una c<strong>on</strong>clusión que se pue<strong>de</strong> sacar aunque no se refleja <strong>en</strong> los resultados anteriores, es que<br />

cuanto mayor es el coste, mayor tiempo se emplea <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los. Por esa<br />

razón interesa el m<strong>en</strong>or valor <strong>de</strong> coste posible. Según se ve <strong>en</strong> los resultados, éstos s<strong>on</strong> mejores<br />

c<strong>on</strong> un valor <strong>de</strong> coste <strong>de</strong> 10. Por lo tanto, y dado que dicho valor no hace que el tiempo <strong>de</strong><br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se dispare, se eligirá 10 como valor <strong>de</strong> coste.<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 61


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 26: Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />

costes <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />

Coste EER global( %) DCF min EER medio ( %)<br />

0.01 39.85 0.099 37.20<br />

0.1 38.18 0.098 36.11<br />

1 39.85 0.099 37.20<br />

10 38.07 0.095 35.74<br />

100 40.40 0.098 36.52<br />

Tabla 5: Resultados ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong> la<br />

variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />

El último tipo <strong>de</strong> optimización que se ha realizado sobre este tipo <strong>de</strong> experim<strong>en</strong>tos es<br />

la selección <strong>de</strong> los mejores coefici<strong>en</strong>tes estadísticos <strong>de</strong> la Tabla 3, eliminando aquellas que<br />

ofrec<strong>en</strong> información redundante. La técnica usada para la selección es backward-eliminati<strong>on</strong><br />

que c<strong>on</strong>siste <strong>en</strong> a partir <strong>de</strong> todos los parámetros ir secu<strong>en</strong>cialm<strong>en</strong>te eliminando áquel que más<br />

<strong>de</strong>crem<strong>en</strong>ta o m<strong>en</strong>os increm<strong>en</strong>ta el porc<strong>en</strong>taje <strong>de</strong> clasificación.<br />

El proceso <strong>de</strong> selección <strong>de</strong> características backward-eliminati<strong>on</strong> nos ha llevado a c<strong>on</strong>cluir<br />

que la mejor c<strong>on</strong>figuración se obti<strong>en</strong>e eliminando el coefici<strong>en</strong>te <strong>de</strong> kurtosis, la mediana y la<br />

media <strong>de</strong>l vector <strong>de</strong> <strong>en</strong>ergías ⃗e.<br />

Una vez llevada a cabo la selección <strong>de</strong> características y tras hacer T-normalización <strong>de</strong> los<br />

resultados, llegamos a obt<strong>en</strong>er los resultados <strong>de</strong> la Tabla 6:<br />

Norm. ⃗u p Coste Backward<br />

eliminati<strong>on</strong><br />

⃗e 10 kurtosis<br />

mediana y<br />

media <strong>de</strong> ⃗e<br />

T-norm EER global DCF min EER medio<br />

sí 35.11 0.096 34.47<br />

Tabla 6: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’.<br />

• SUSAS Simulated - GMM-SVM<br />

Para la técnica <strong>de</strong> GMM-SVM, se usan los datos <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t (g1, b1, n1) para <strong>en</strong>tr<strong>en</strong>ar<br />

el mo<strong>de</strong>lo UBM que nos servirá como base para la adaptación a los mo<strong>de</strong>los GMM. El número<br />

62<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

<strong>de</strong> datos <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t es <strong>de</strong>:<br />

35 palabras * 2 repetici<strong>on</strong>es/palabra * 3 locutores * 11emoci<strong>on</strong>es = 2310 locuci<strong>on</strong>es.<br />

Los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (g2,b2,n2) adaptaran dicho UBM g<strong>en</strong>erando así un mo<strong>de</strong>lo<br />

GMM por cada locución. [Ver Figura 27]<br />

Como ya se explicó <strong>en</strong> el capítulo 3.7.3, por cada locución <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test<br />

se c<strong>on</strong>cat<strong>en</strong>an los vectores <strong>de</strong> medias 4-dim<strong>en</strong>si<strong>on</strong>ales <strong>de</strong> las M comp<strong>on</strong><strong>en</strong>tes gaussianas<br />

c<strong>on</strong>formando así el supervector <strong>de</strong> <strong>en</strong>trada al clasificador SVM. El valor M será ajustado para<br />

obt<strong>en</strong>er los mejores resultados. Como se aprecia <strong>en</strong> la Figura 27, mediante los clasificadores<br />

SVM se <strong>en</strong>tr<strong>en</strong>an 11 mo<strong>de</strong>los, uno por emoción ( ⃗w GMM−SV M angry , ⃗w GMM−SV M clear ,<br />

⃗w GMM−SV M c<strong>on</strong>d50 , ⃗w GMM−SV M c<strong>on</strong>d70 , ⃗w GMM−SV M fast , ⃗w GMM−SV M lombard ,<br />

⃗w GMM−SV M loud , ⃗w GMM−SV M neutral , ⃗w GMM−SV M questi<strong>on</strong> , ⃗w GMM−SV M slow y<br />

⃗w GMM−SV M soft ). Al igual que el sistema <strong>de</strong> SVM c<strong>on</strong> coefici<strong>en</strong>tes estadísticos, se disp<strong>on</strong>e<br />

<strong>de</strong> 210 locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to por emoción.<br />

Figura 27: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated - GMM-<br />

SVM’.<br />

En este sistema las tareas que se van a realizar para optimizar resultados s<strong>on</strong>:<br />

• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />

• Optimización variable M número <strong>de</strong> gaussianas<br />

• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />

Tras una serie <strong>de</strong> pruebas realizadas normalizando cada uno <strong>de</strong> los vectores <strong>de</strong> parámetros<br />

prosódicos <strong>de</strong> ⃗u p se ha llegado a la c<strong>on</strong>clusión que la c<strong>on</strong>figuración que ofrece m<strong>en</strong>or tasa <strong>de</strong><br />

error es mediante la normalización <strong>de</strong> tanto el vector <strong>de</strong> <strong>en</strong>ergías ⃗e como el <strong>de</strong> su velocidad ⃗ ∆ e<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 63


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

quedando la parametrización prosódica <strong>de</strong> la sigui<strong>en</strong>te manera:<br />

⃗u p = {⃗e − E(⃗e), ⃗p, ⃗ ∆ e − E( ⃗ ∆ e ), ⃗ ∆ p }<br />

El sigui<strong>en</strong>te valor a ajustar es M, el número <strong>de</strong> comp<strong>on</strong><strong>en</strong>tes gaussianas <strong>de</strong> los GMM. La<br />

v<strong>en</strong>taja <strong>de</strong> mo<strong>de</strong>lar c<strong>on</strong> un número alto <strong>de</strong> gaussianas es que se logra una mejor adaptación<br />

<strong>de</strong> las mezclas a los datos <strong>de</strong>l problema. La <strong>de</strong>sv<strong>en</strong>taja es que se necesita disp<strong>on</strong>er <strong>de</strong> gran<br />

cantidad <strong>de</strong> datos. Para un valor <strong>de</strong> M bajo se produce una peor adaptación al problema pero<br />

por el c<strong>on</strong>trario no requiere <strong>de</strong> muchos datos.<br />

Los resultados <strong>de</strong> esta optimización se muestran <strong>en</strong> la Figura 28 <strong>en</strong> forma <strong>de</strong> curva DET y<br />

<strong>en</strong> la Tabla 7 mediante valores numéricos.<br />

Figura 28: Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - GMM-SVM’ para varios números <strong>de</strong><br />

Gaussianas.<br />

M EER global( %) DCF min EER medio ( %)<br />

128 31.09 0.0901 29.80<br />

256 30.83 0.0903 29.62<br />

512 32.43 0.0911 31.98<br />

Tabla 7: Resultados para ’SUSAS Simulated - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l número <strong>de</strong> gaussianas<br />

M.<br />

Analizando los resultados <strong>de</strong> la Tabla 7 se opta por un valor <strong>de</strong> M <strong>de</strong> 256 gaussianas pues<br />

aunque no es la que mejor DCF min ofrece, sí es la que m<strong>en</strong>or tasa <strong>de</strong> error c<strong>on</strong>sigue, tanto<br />

global como media.<br />

A c<strong>on</strong>tinuación se ajustará la variable coste mant<strong>en</strong>i<strong>en</strong>do fijo el número <strong>de</strong> gaussianas a 256.<br />

La Figura 29 refleja los resultados para distintos valores <strong>de</strong> coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, mi<strong>en</strong>tras<br />

que la Tabla 8 los muestra numéricam<strong>en</strong>te.<br />

Como vemos <strong>en</strong> la Tabla 8 hay discordancia <strong>en</strong>tre el valor <strong>de</strong> coste que hace optimizar cada<br />

una <strong>de</strong> las 3 medidas <strong>de</strong> resultados. Aunque c<strong>on</strong> un coste <strong>de</strong> 100 se obti<strong>en</strong>e el mejor resultado<br />

<strong>de</strong> DCF min , no se optará por dicha opción pues necesita un tiempo <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to mayor.<br />

C<strong>on</strong> un coste <strong>de</strong> 0.01 se obti<strong>en</strong>e la mejor tasa <strong>de</strong> EER medio . Sin embargo, este coste tampoco<br />

será escogido. La mejor opción es tomar un coste <strong>de</strong> 1. De esta manera únicam<strong>en</strong>te se empeora<br />

64<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 29: Curvas DET para varios valores <strong>de</strong> coste <strong>en</strong> ’SUSAS Simulated - GMM-SVM’.<br />

Coste EER global( %) DCF min EER medio ( %)<br />

0.01 31.05 0.0904 29.60<br />

0.1 31.02 0.0903 29.63<br />

1 30.83 0.0903 29.62<br />

10 31 0.0902 29.84<br />

100 30.92 0.0901 29.87<br />

Tabla 8: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Simulated - GMM-SVM’.<br />

2 c<strong>en</strong>tésimas el EER medio c<strong>on</strong> respecto al <strong>de</strong> coste 0.01 y la EER global se ve mejorada <strong>en</strong> casi 2<br />

décimas.<br />

Tras haber optimizado tanto el valor <strong>de</strong> coste como el <strong>de</strong> M, la última tarea es realizar una<br />

T-normalización <strong>de</strong> los resultados utilizando la c<strong>on</strong>figuración <strong>de</strong> la Tabla 9.<br />

Norm. ⃗u p M coste T-norm EER global DCF min EER medio<br />

⃗e y ∆ ⃗ e 256 10 sí 29.44 0.0903 30.44<br />

Tabla 9: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - GMM-SVM’.<br />

• SUSAS Simulated - Fusión suma SVM estadísticos + GMM-SVM<br />

El capítulo 4.2.2 <strong>de</strong>scribió <strong>en</strong> que c<strong>on</strong>sistía la fusión suma. Dicha fusión se ha <strong>de</strong> realizar<br />

previa T-normalización <strong>de</strong> las puntuaci<strong>on</strong>es para que los rangos <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> tanto el<br />

subsistema GMM-SVM como el <strong>de</strong> SVM c<strong>on</strong> estadísticos sean similares.<br />

A la hora <strong>de</strong> realizar la fusión se toma para cada uno <strong>de</strong> los dos sistemas la c<strong>on</strong>figuración<br />

que ofrece mejores resultados [Tabla 6 y 9]. En la Figura 30 se repres<strong>en</strong>ta la curva DET para<br />

cada sistema y para la fusión <strong>de</strong> ambos.<br />

Los valores <strong>de</strong> EER global <strong>de</strong> GMM-SVM, SVM c<strong>on</strong> estadísticos y la fusión suma s<strong>on</strong><br />

29.44 %, 35.11 % y 31.62 % respectivam<strong>en</strong>te. Para este caso la fusión suma no c<strong>on</strong>sigue mejorar<br />

los resultados <strong>de</strong>l mejor <strong>de</strong> los dos subsistemas pues el otro obti<strong>en</strong>e resultados bastante peores.<br />

• SUSAS Simulated - Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls (AMF)<br />

Como vimos <strong>en</strong> el capítulo 4.2.3, para esta nueva técnica se utilizan las puntuaci<strong>on</strong>es <strong>de</strong> cada<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 65


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 30: Curvas DET <strong>de</strong> ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />

suma’.<br />

locución <strong>de</strong> test obt<strong>en</strong>idas tras evaluarla fr<strong>en</strong>te a los 11 mo<strong>de</strong>los <strong>de</strong> cada uno <strong>de</strong> los subsistemas<br />

GMM-SVM y SVM c<strong>on</strong> estadísticos para c<strong>on</strong>formar un nuevo vector <strong>de</strong> parámetros. Dichas<br />

puntuaci<strong>on</strong>es serán las corresp<strong>on</strong>di<strong>en</strong>tes a la c<strong>on</strong>figuración que <strong>en</strong> cada caso ha dado los mejores<br />

resultados [Tabla 6 y 9]. Dicho vector ⃗ S locuci<strong>on</strong> test t<strong>en</strong>drá 22 valores [Ver Figura 31].<br />

Figura 31: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated - AMF’.<br />

Una vez se ti<strong>en</strong>e por cada locución <strong>de</strong> test ⃗x un nuevo vector <strong>de</strong> parámetros ⃗ S x , éstos se<br />

utilizan como <strong>en</strong>trada a un clasificador SVM. Para mant<strong>en</strong>er los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes<br />

<strong>de</strong> locutor, se cogerán iterativam<strong>en</strong>te los datos <strong>de</strong> cada uno <strong>de</strong> los tres locutores g3,b3,n3 y se<br />

utilizarán para evaluación mi<strong>en</strong>tras que los datos <strong>de</strong> los otros dos restantes se utilizarán para<br />

<strong>en</strong>tr<strong>en</strong>ar los mo<strong>de</strong>los SVM, uno por emoción. A esta práctica se la c<strong>on</strong>oce como leave-<strong>on</strong>e-<br />

66<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

locutor-out que es un tipo <strong>de</strong> validación cruzada (cross-validati<strong>on</strong>). Así se c<strong>on</strong>sigue que datos<br />

<strong>de</strong> un mismo locutor no se utilic<strong>en</strong> para <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test simultáneam<strong>en</strong>te. A esta técnica<br />

se la c<strong>on</strong>oce como validación cruzada (cross validati<strong>on</strong>) [38].<br />

En la Figura 32 se repres<strong>en</strong>tan un c<strong>on</strong>junto <strong>de</strong> curvas DET para varios valores <strong>de</strong> la variable<br />

coste <strong>de</strong>l clasificador back-<strong>en</strong>d SVM. Y <strong>en</strong> la Tabla 10 valores numéricos <strong>de</strong> tasas <strong>de</strong> error y<br />

DCF min . La mejor c<strong>on</strong>figuración se logra cuando el coste toma valor 1. Aunque para un coste<br />

<strong>de</strong> 10 se reduce <strong>en</strong> 2 milésimas el DCF min , ésto sup<strong>on</strong>e un mayor tiempo <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y<br />

peores tasas <strong>de</strong> error.<br />

Figura 32: Curvas DET <strong>de</strong> ’SUSAS Simulated - AMF’ para varios valores <strong>de</strong> coste.<br />

Coste EER global( %) DCF min EER medio ( %)<br />

0.01 25.92 0.0922 26.94<br />

0.1 25.24 0.0923 26.25<br />

1 24.18 0.0852 26<br />

10 24.62 0.0834 26.2<br />

100 25.54 0.0839 27.35<br />

200 26.25 0.0842 27.72<br />

Tabla 10: Resultados para varios costes para ’SUSAS Simulated - AMF’.<br />

Si se comparan los resultados <strong>de</strong> los sistemas fr<strong>on</strong>t-<strong>en</strong>d fr<strong>en</strong>te al sistema back-<strong>en</strong>d <strong>de</strong> AMF<br />

[Tabla 11], lo primero que pue<strong>de</strong> apreciarse es un increm<strong>en</strong>to <strong>en</strong> el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> éste sistema<br />

fr<strong>en</strong>te a los primeros. C<strong>on</strong> AMF se c<strong>on</strong>sigue una EER media <strong>de</strong> 26 % mi<strong>en</strong>tras que la fusión <strong>de</strong><br />

los sistemas fr<strong>on</strong>t-<strong>en</strong>d [Tabla 11] obti<strong>en</strong>e un 30.46 %. Es <strong>de</strong>cir, se reduce casi 4 puntos las tasas<br />

<strong>de</strong> error.<br />

Se c<strong>on</strong>stata por lo tanto que nuestro nuevo sistema pres<strong>en</strong>tado <strong>en</strong> [28] logra mejorar los<br />

resultados <strong>de</strong>l sistema GMM-SVM, SVM c<strong>on</strong> estadísticos y la fusión suma.<br />

En la Figura 33 se repres<strong>en</strong>ta la curva DET para la fusión suma <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d<br />

y la curva DET para el sistema <strong>de</strong> AMF.<br />

Por último, la Tabla 11 analiza los EER medio por emoción <strong>de</strong> tanto la fusión suma <strong>de</strong> los<br />

dos sistemas fr<strong>on</strong>t-<strong>en</strong>d como <strong>de</strong>l sistema back-<strong>en</strong>d <strong>de</strong> AMF. La última columna corresp<strong>on</strong><strong>de</strong><br />

c<strong>on</strong> la mejora relativa (M.R. <strong>en</strong> %) <strong>de</strong> éste último sistema c<strong>on</strong> respecto al primero.<br />

De la Tabla 11 es importante resaltar la gran difer<strong>en</strong>cia <strong>de</strong> tasas <strong>de</strong> error <strong>en</strong>tre emoci<strong>on</strong>es.<br />

Así, estilos <strong>de</strong> habla como c<strong>on</strong>d50 o c<strong>on</strong>d70 ti<strong>en</strong><strong>en</strong> una tasa <strong>de</strong> error <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to muy<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 67


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 33: Curvas DET <strong>de</strong> la ’SUSAS Simulated - fusión suma y AMF’.<br />

Emoción EER ( %) fusión suma EER ( %) AMF M.R. ( %)<br />

angry 19.93 21.88 +9.78<br />

clear 34.85 34.84 -0.03<br />

c<strong>on</strong>d50 39.49 41.14 +4.18<br />

c<strong>on</strong>d70 45.30 33.41 -26.25<br />

fast 33.84 22.10 -34.69<br />

lombard 31.99 31.02 -3.03<br />

loud 31.90 41.80 +31.03<br />

neutral 40.43 10.05 -75.14<br />

questi<strong>on</strong> 3.38 3.43 +1.48<br />

slow 24.36 24.35 -0.04<br />

soft 29.61 21.97 -25.8<br />

EER medio 30.46 26 -14.64<br />

Tabla 11: EER ( %) por emoción para ’SUSAS Simulated - fusión suma y AMF’.<br />

alta mi<strong>en</strong>tras que otros como questi<strong>on</strong> la ti<strong>en</strong>e muy baja.<br />

Una c<strong>on</strong>clusión que se obti<strong>en</strong>e es que <strong>en</strong> emoci<strong>on</strong>es <strong>en</strong> las cuales hay una alta variación <strong>de</strong><br />

la int<strong>en</strong>sidad <strong>de</strong> habla, como angry, o una gran variación <strong>de</strong> la frecu<strong>en</strong>cia fundam<strong>en</strong>tal, como<br />

questi<strong>on</strong>, se c<strong>on</strong>sigu<strong>en</strong> tasas <strong>de</strong> error relativam<strong>en</strong>te bajas c<strong>on</strong> respecto a la tasa media. Esto es<br />

<strong>de</strong>bido a que justam<strong>en</strong>te <strong>en</strong> nuestra parametrización hemos utilizado tanto la <strong>en</strong>ergía <strong>de</strong> habla<br />

como el pitch y sus corresp<strong>on</strong>di<strong>en</strong>tes variaci<strong>on</strong>es. Por lo tanto, si se quiere obt<strong>en</strong>er mejores<br />

tasas <strong>de</strong> error <strong>en</strong> emoci<strong>on</strong>es <strong>en</strong> las que c<strong>on</strong> la parametrización actual no se c<strong>on</strong>sigu<strong>en</strong> habría<br />

primero que analizar las propieda<strong>de</strong>s prosódicas o acústicas que caracterizan a cada una <strong>de</strong><br />

ellas y obt<strong>en</strong>er un nuevo tipo <strong>de</strong> parametrización.<br />

Otra c<strong>on</strong>clusión que se pue<strong>de</strong> sacar <strong>de</strong> la Tabla 11 es que aunque AMF mejora el r<strong>en</strong>dimi<strong>en</strong>to<br />

sobre casi todas las emoci<strong>on</strong>es, para loud (+31 %) y angry (+9.78 %), que s<strong>on</strong> justam<strong>en</strong>te los<br />

estilos c<strong>on</strong> alta int<strong>en</strong>sidad <strong>de</strong> habla, se produce un empeorami<strong>en</strong>to relativo c<strong>on</strong> respecto a la<br />

fusión suma. La mayor mejora relativa ocurre <strong>en</strong> la emoción neutral, la cual pasa <strong>de</strong> un 40.43 %<br />

a un 10.05 %. Esto quiere <strong>de</strong>cir que <strong>en</strong> el nuevo espacio <strong>de</strong> dim<strong>en</strong>si<strong>on</strong>es <strong>de</strong> Anchor Mo<strong>de</strong>ls se<br />

c<strong>on</strong>sigue mo<strong>de</strong>lar mejor dicha emoción que <strong>en</strong> el espacio <strong>de</strong> parámetros inicial.<br />

68<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

SUSAS Actual<br />

Aquí vamos a ver los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor realizados sobre la base <strong>de</strong><br />

datos SUSAS Actual. Como ya sabemos, esta base <strong>de</strong> datos ti<strong>en</strong>e 7 locutores los cuales se van a<br />

dividir también <strong>en</strong> 3 grupos según a que etapa (<strong>de</strong>velopm<strong>en</strong>t, <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test) se <strong>de</strong>diqu<strong>en</strong><br />

[Ver Tabla 12].<br />

Etapa<br />

Developm<strong>en</strong>t<br />

Entr<strong>en</strong>ami<strong>en</strong>to<br />

Test<br />

Locutores<br />

f1,m1<br />

f2,m2<br />

f3,m3,m4<br />

Tabla 12: Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS<br />

Actual .<br />

• SUSAS Actual - SVM c<strong>on</strong> estadísticos<br />

Como se ve <strong>en</strong> la Figura 34, se <strong>en</strong>tr<strong>en</strong>an 5 mo<strong>de</strong>los ( ⃗w SV M neutral , ⃗w SV M medst , ⃗w SV M hist ,<br />

⃗w SV M scream y ⃗w SV M freefall ), uno por cada emoción utilizando para ello los locutores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

(f2, m2 ). El número <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to por cada emoción es <strong>de</strong>:<br />

35 palabras * 2 repetici<strong>on</strong>es/palabra * 2locutores = 140 locuci<strong>on</strong>es/emoción.<br />

Para este caso <strong>en</strong> que no se <strong>en</strong>tr<strong>en</strong>a un UBM no se usa los datos <strong>de</strong> los locutores f1,m1.<br />

Una vez se ti<strong>en</strong>e un mo<strong>de</strong>lo por cada emoción pasamos a la evaluación <strong>de</strong> los mismos. Para<br />

ello se usa los datos <strong>de</strong> test <strong>de</strong> los locutores f3,m3,m4. Se <strong>en</strong>fr<strong>en</strong>tan todas las locuci<strong>on</strong>es <strong>de</strong> test<br />

fr<strong>en</strong>te a los 5 mo<strong>de</strong>los.<br />

Figura 34: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - SVM c<strong>on</strong><br />

estadísticos’.<br />

El número <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong> test es <strong>de</strong>:<br />

35 palabras * 2 repetici<strong>on</strong>es/palabra * 3 locutores * 5 emoci<strong>on</strong>es = 1050 locuci<strong>on</strong>es.<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 69


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Por lo tanto, como cada locución <strong>de</strong> test se <strong>en</strong>fr<strong>en</strong>ta a los 5 mo<strong>de</strong>los, t<strong>en</strong>dremos:<br />

5 mo<strong>de</strong>los * 1050 locuci<strong>on</strong>es = 5250 puntuaci<strong>on</strong>es.<br />

Para este sistema se van a llevar a cabo las sigui<strong>en</strong>tes tareas para optimizar los resultados:<br />

• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />

• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />

Para este tipo <strong>de</strong> experim<strong>en</strong>tos y <strong>de</strong>spués <strong>de</strong> realizar varias pruebas c<strong>on</strong> distintas normalizaci<strong>on</strong>es<br />

<strong>de</strong> los parámetros prosódicos, se opta por no normalizar ningún vector <strong>de</strong> ⃗u p pues es la<br />

opción que mejores resultados c<strong>on</strong>sigue. Por lo tanto se manti<strong>en</strong><strong>en</strong> los vectores <strong>de</strong> parámetros<br />

originales ⃗u p :<br />

⃗u p = {⃗e, ⃗p, ⃗ ∆ e , ⃗ ∆ p }<br />

Como ya se hizo para SUSAS Simulated, se ajustará la variable coste <strong>de</strong>l clasificador SVM.<br />

Los resultados ya T-normalizados se muestran <strong>en</strong> la Figura 35 <strong>en</strong> forma <strong>de</strong> curvas DET y<br />

<strong>en</strong> la Tabla 13 c<strong>on</strong> valores numéricos.<br />

Figura 35: Curvas DET <strong>de</strong>l sistema ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />

costes.<br />

Coste EER global DCF min EER medio<br />

0.01 29.92 0.1 39.47<br />

0.1 26.64 0.1 29.45<br />

1 26.45 0.0996 28.89<br />

10 26.54 0.0999 27.93<br />

100 28.96 0.0998 27.93<br />

Tabla 13: Resultados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste.<br />

Analizando la Tabla 13 se opta por un valor <strong>de</strong> coste 1 pues aunque c<strong>on</strong> costes superiores<br />

se alcanza mejor EER medio , ésto sup<strong>on</strong>e bastante mayor tiempo <strong>en</strong> <strong>en</strong>tr<strong>en</strong>ar los mo<strong>de</strong>los SVM.<br />

La c<strong>on</strong>figuración final para este tipo <strong>de</strong> pruebas se pue<strong>de</strong> ver <strong>en</strong> la Tabla 14:<br />

70<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Normalización ⃗u p Coste T-norm EER global DCF min EER medio<br />

no 1 sí 26.45 0.0996 28.89<br />

Tabla 14: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’.<br />

• SUSAS Actual - GMM-SVM<br />

Para el subsistema GMM-SVM, se usan los datos <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t (f1, m1) para <strong>en</strong>tr<strong>en</strong>ar el<br />

mo<strong>de</strong>lo UBM que nos servirá como base para la posterior adaptación a los mo<strong>de</strong>los GMM. El<br />

número <strong>de</strong> datos <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t es <strong>de</strong>:<br />

35 palabras * 2repetici<strong>on</strong>es/palabra * 2 locutores * 5emoci<strong>on</strong>es = 700 locuci<strong>on</strong>es.<br />

Los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to (f2,m2 ) adaptaran dicho UBM g<strong>en</strong>erando así un mo<strong>de</strong>lo GMM<br />

por cada locución. [Ver Figura 36]<br />

Figura 36: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - GMM-<br />

SVM’.<br />

Como se ve <strong>en</strong> la Figura 36, mediante los clasificadores SVM se <strong>en</strong>tr<strong>en</strong>an 5 mo<strong>de</strong>los, uno<br />

por emoción ( ⃗w GMM−SV M neutral , ⃗w GMM−SV M medst , ⃗w GMM−SV M hist , ⃗w GMM−SV M scream y<br />

⃗w GMM−SV M freefall ). Al igual que el sistema <strong>de</strong> SVM c<strong>on</strong> coefici<strong>en</strong>tes estadísticos, se disp<strong>on</strong>e<br />

<strong>de</strong> 140 locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to por emoción.<br />

En este sistema las tareas que se van a realizar para optimizar resultados s<strong>on</strong>:<br />

• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />

• Optimización variable M número <strong>de</strong> gaussianas<br />

• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />

Tras una serie <strong>de</strong> pruebas realizadas normalizando cada uno <strong>de</strong> los vectores <strong>de</strong> parámetros<br />

prosódicos <strong>de</strong> ⃗u p , la c<strong>on</strong>figuración que ofrece mejores resultados es mediante la normalización<br />

<strong>de</strong> tanto el vector <strong>de</strong> <strong>en</strong>ergías ⃗e como el <strong>de</strong> su velocidad ⃗ ∆ e . Por lo tanto ⃗u p queda:<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 71


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

⃗u p = {⃗e − E(⃗e), ⃗p, ⃗ ∆ e − E( ⃗ ∆ e ), ⃗ ∆ p }<br />

Para optimizar la variable M, se han lanzado también una serie <strong>de</strong> pruebas para finalm<strong>en</strong>te<br />

elegir un valor <strong>de</strong> M <strong>de</strong> 32 gaussianas. C<strong>on</strong>trasta que este valor sea mucho m<strong>en</strong>or que las 256<br />

gaussianas <strong>en</strong> este mismo tipo <strong>de</strong> experim<strong>en</strong>tos para la base <strong>de</strong> datos SUSAS Simulated. Esto<br />

es <strong>de</strong>bido a que al haber m<strong>en</strong>os locutores para SUSAS Actual, la cantidad <strong>de</strong> datos es m<strong>en</strong>or y<br />

por ello no se c<strong>on</strong>sigue mo<strong>de</strong>lar correctam<strong>en</strong>te un número mezclas tan alto como s<strong>on</strong> 256.<br />

A c<strong>on</strong>tinuación vamos a ajustar la variable coste mant<strong>en</strong>i<strong>en</strong>do fijo el número <strong>de</strong> gaussianas<br />

a 32. La Figura 37 refleja los resultados para distintos valores <strong>de</strong> coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to,<br />

mi<strong>en</strong>tras que la Tabla 15 los muestra numéricam<strong>en</strong>te.<br />

Figura 37: Curvas DET <strong>de</strong>l sistema ’SUSAS Actual - GMM-SVM’ para difer<strong>en</strong>tes costes.<br />

Coste EER global( %) DCF min EER medio ( %)<br />

0.01 29.45 0.0998 36.5<br />

0.1 29.82 0.0999 37.3<br />

1 31.09 0.1 37.8<br />

Tabla 15: Resultados <strong>de</strong>l sistema ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste.<br />

Según los resultados <strong>de</strong> la Tabla 15, cuanto m<strong>en</strong>or es el valor <strong>de</strong> la variable coste, mejores<br />

resultados se c<strong>on</strong>sigu<strong>en</strong>. Como ya se vio <strong>en</strong> el capítulo 3.7.2, un valor <strong>de</strong> coste muy pequeño<br />

hace priorizar la c<strong>on</strong>dición <strong>de</strong> maximizar el marg<strong>en</strong> <strong>en</strong>tre clases <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to SVM. En<br />

la Tabla 16 aparece la c<strong>on</strong>figuración óptima para el subsistema GMM-SVM in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong><br />

locutor c<strong>on</strong> la base <strong>de</strong> datos SUSAS Actual .<br />

Norm. ⃗u p M coste T-norm EER global DCF min EER medio<br />

⃗e y ∆ ⃗ e 32 0.01 sí 29.45 0.0998 36.5<br />

Tabla 16: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - GMM-SVM’.<br />

• SUSAS Actual - Fusión suma SVM estadísticos + GMM-SVM<br />

Para realizar la fusión suma <strong>de</strong> los resultados obt<strong>en</strong>idos mediante los dos subsistemas,<br />

GMM-SVM y SVM c<strong>on</strong> estadísticos, se han utilizado las respectivas c<strong>on</strong>figuraci<strong>on</strong>es <strong>de</strong> las<br />

Tablas 14 y 16 que ofrec<strong>en</strong> mejores resultados. Las curvas DET <strong>de</strong> tanto la fusión suma como<br />

72<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

<strong>de</strong> los dos subsistemas aparec<strong>en</strong> <strong>en</strong> la Figura 38.<br />

Figura 38: Curvas DET para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />

suma’.<br />

Los valores <strong>de</strong> EER global <strong>de</strong> GMM-SVM, SVM c<strong>on</strong> estadísticos y la fusión suma s<strong>on</strong><br />

29.45 %, 26.45 % y 26.66 % respectivam<strong>en</strong>te. Para este caso la fusión suma c<strong>on</strong>sigue resultados<br />

prácticam<strong>en</strong>te iguales a los <strong>de</strong>l mejor subsistema.<br />

• SUSAS Actual - Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls (AMF)<br />

Cada locución <strong>de</strong> test se <strong>en</strong>fr<strong>en</strong>ta c<strong>on</strong> los 5 mo<strong>de</strong>los <strong>de</strong> cada uno <strong>de</strong> los subsistemas GMM-<br />

SVM y SVM c<strong>on</strong> estadísticos para c<strong>on</strong>formar un nuevo vector <strong>de</strong> parámetros <strong>de</strong> dim<strong>en</strong>sión 10<br />

( ⃗ S locuci<strong>on</strong> test ) [Ver Figura 39].<br />

Figura 39: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Actual - AMF’.<br />

Los nuevos vectores <strong>de</strong> parámetros <strong>en</strong> el espacio <strong>de</strong> los Anchor Mo<strong>de</strong>ls ⃗ S x se utilizan como<br />

<strong>en</strong>trada a un clasificador SVM. Igual se hizo para SUSAS Simulated, se aplica la técnica <strong>de</strong><br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 73


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

leave-<strong>on</strong>e-locutor-out. Es <strong>de</strong>cir, se selecci<strong>on</strong>arán iterativam<strong>en</strong>te los datos <strong>de</strong> cada uno <strong>de</strong> los<br />

tres locutores f3,m3,m4 y se utilizarán para evaluación mi<strong>en</strong>tras que los datos <strong>de</strong> los otros dos<br />

restantes se utilizarán para <strong>en</strong>tr<strong>en</strong>ar un mo<strong>de</strong>lo SVM por emoción.<br />

En la Figura 40 se repres<strong>en</strong>tan un c<strong>on</strong>junto <strong>de</strong> curvas DET para varios valores <strong>de</strong> la variable<br />

coste <strong>de</strong>l clasificador back-<strong>en</strong>d SVM. Y <strong>en</strong> la Tabla 17 valores numéricos <strong>de</strong> tasas <strong>de</strong> error y<br />

DCF min . Como se pue<strong>de</strong> ver <strong>en</strong> dicha tabla, el valor <strong>de</strong> coste que optimiza los resultados es <strong>de</strong><br />

1 si se opta por el mejor valor <strong>de</strong> EER global o 0.1 si se <strong>de</strong>sea el valor óptimo <strong>de</strong> EER medio .<br />

.<br />

Figura 40: Curvas DET para ’SUSAS Actual - AMF’ para varios valores <strong>de</strong> coste.<br />

Coste EER global( %) DCF min EER medio ( %)<br />

0.01 35.41 0.099 33.11<br />

0.1 33.37 0.0987 32.46<br />

1 33.03 0.0988 35.70<br />

10 34.05 0.0991 37.20<br />

100 34.39 0.0995 37.80<br />

Tabla 17: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste ’SUSAS Actual - AMF’.<br />

En SUSAS Actual , a difer<strong>en</strong>cia <strong>de</strong> lo que ocurría <strong>en</strong> SUSAS Simulated, el sistema back-<strong>en</strong>d<br />

<strong>de</strong> AMF empeora c<strong>on</strong> respecto a los subsistemas. C<strong>on</strong> AMF se c<strong>on</strong>sigue una EER media <strong>de</strong><br />

35.7 % mi<strong>en</strong>tras que la fusión <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d [Tabla 18] obt<strong>en</strong>ía un 29.9 %. Es<br />

<strong>de</strong>cir, AMF empeora <strong>en</strong> casi 6 puntos la EER media . En la Figura 41 se repres<strong>en</strong>tan la curva<br />

DET para la fusión suma <strong>de</strong>l sistema SVM <strong>de</strong> estadísticos c<strong>on</strong> el sistema GMM-SVM y la<br />

curva DET para el sistema <strong>de</strong> AMF.<br />

Por último, la Tabla 18 analiza los EER medio por emoción <strong>de</strong> tanto la fusión suma <strong>de</strong> los<br />

dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d como <strong>de</strong>l sistema back-<strong>en</strong>d <strong>de</strong> AMF. Al igual que <strong>en</strong> la Tabla 33,<br />

la cuarta columna muestra la mejora relativa (M.R. <strong>en</strong> %) que ofrece AMF fr<strong>en</strong>te a la fusión<br />

suma fr<strong>on</strong>t-<strong>en</strong>d<br />

Una c<strong>on</strong>clusión que se obti<strong>en</strong>e <strong>de</strong> la Tabla 18 es que a difer<strong>en</strong>cia <strong>de</strong> lo que ocurría para la<br />

base <strong>de</strong> datos SUSAS Simulated, AMF no hace mejorar los resultados alcanzados por la fusión<br />

suma para SUSAS Actual.<br />

Al igual que <strong>en</strong> SUSAS Simulated, hay estilos <strong>de</strong> habla o emoci<strong>on</strong>es que obti<strong>en</strong><strong>en</strong> mejores<br />

tasas <strong>de</strong> error. Este es el caso <strong>de</strong>l estilo scream. Las locuci<strong>on</strong>es <strong>de</strong> dicho estilo <strong>de</strong> habla se<br />

caracterizan por t<strong>en</strong>er una alta int<strong>en</strong>sidad <strong>de</strong> <strong>voz</strong> (o <strong>en</strong>ergía) y gran variabilidad <strong>de</strong> la misma.<br />

74<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 41: Curvas DET para ’SUSAS Actual - fusión suma y AMF’.<br />

Emoción EER ( %) fusión suma EER ( %) AMF M.R. ( %)<br />

neutral 33.23 40.42 +21,64<br />

medst 41.51 43.95 +5,88<br />

hist 35.83 44.83 +25,12<br />

freefall 31.29 37.57 +20,07<br />

scream 7.64 11.72 +53,4<br />

EER medio 29.9 35.7 +19,4<br />

Tabla 18: EER ( %) por emoción para ’SUSAS Actual - fusión suma y AMF’.<br />

Es <strong>de</strong>cir, los vectores prosódicos ⃗e y ⃗ ∆ e van a caracterizar bi<strong>en</strong> dicha clase.<br />

Ah3R1<br />

En este apartado se van a <strong>de</strong>scribir los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor realizados<br />

sobre la base <strong>de</strong> datos Ah3R1. Como se vio <strong>en</strong> el capítulo 4.1.1, esta base <strong>de</strong> datos disp<strong>on</strong>e <strong>de</strong><br />

69 locutores. Cada uno ellos ti<strong>en</strong>e un c<strong>on</strong>junto <strong>de</strong> locuci<strong>on</strong>es para <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to/<strong>de</strong>velopm<strong>en</strong>t<br />

y otro para evaluación.<br />

• Ah3R1 - SVM c<strong>on</strong> estadísticos<br />

Para las dos bases <strong>de</strong> datos <strong>de</strong> SUSAS se dividían los locutores según la tarea a la que se<br />

emplearan sus locuci<strong>on</strong>es.<br />

Por el c<strong>on</strong>trario, para Ah3R1 los 69 locutores se van a emplear tanto para tareas <strong>de</strong> <strong>de</strong>velopm<strong>en</strong>t/<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

como <strong>de</strong> test. Así, la manera <strong>de</strong> g<strong>en</strong>erar los mo<strong>de</strong>los SVM es la sigui<strong>en</strong>te<br />

y es la que aparece <strong>en</strong> la Figura 42. Se van a <strong>en</strong>tr<strong>en</strong>ar mo<strong>de</strong>los <strong>de</strong> la forma ⃗w SV M notLocX emoc .<br />

Dichos mo<strong>de</strong>los serán <strong>en</strong>tr<strong>en</strong>ados c<strong>on</strong> datos <strong>de</strong> la emoción emoc (neutro-bajo, neutro, neutroexaltado,<br />

exaltado) utilizando locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> todos los locutores m<strong>en</strong>os el locutor<br />

X. Por lo tanto el número <strong>de</strong> mo<strong>de</strong>los que serán <strong>en</strong>tr<strong>en</strong>ados es <strong>de</strong>:<br />

4 emoci<strong>on</strong>es * 69 locutores = 276 mo<strong>de</strong>los.<br />

Una vez se ha g<strong>en</strong>erado un mo<strong>de</strong>lo por cada emoción se pasa a la etapa <strong>de</strong> evaluación <strong>de</strong> los<br />

mismos. Para ello se usa los datos <strong>de</strong> test <strong>de</strong> cada locutor. El procedimi<strong>en</strong>to es el sigui<strong>en</strong>te. Se<br />

evalúan las locuci<strong>on</strong>es <strong>de</strong> test <strong>de</strong>l locutor X fr<strong>en</strong>te a los mo<strong>de</strong>los <strong>de</strong> la forma ⃗w SV M notLocX emoc ,<br />

d<strong>on</strong><strong>de</strong> emoc es cada una <strong>de</strong> las 4 emoci<strong>on</strong>es <strong>de</strong> Ah3R1. De esta manera se realizan pruebas<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 75


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor d<strong>on</strong><strong>de</strong> los datos <strong>de</strong> test <strong>de</strong> un locutor no se usan para evaluar<br />

mo<strong>de</strong>los <strong>en</strong>tr<strong>en</strong>ados por ese mismo locutor.<br />

Figura 42: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’.<br />

Como ya vimos <strong>en</strong> 4.1.1, no todos los locutores ti<strong>en</strong><strong>en</strong> el mismo número <strong>de</strong> locuci<strong>on</strong>es <strong>de</strong><br />

test. Así, los 31 primeros ti<strong>en</strong><strong>en</strong> 10 y los 38 restantes únicam<strong>en</strong>te 5. Por lo tanto, el número <strong>de</strong><br />

locuci<strong>on</strong>es <strong>de</strong> test es <strong>de</strong>:<br />

31 locutores * 10 locuci<strong>on</strong>es/locutor + 38 locutores * 5 locuci<strong>on</strong>es/locutor = 500 locuci<strong>on</strong>es.<br />

Como cada locución <strong>de</strong> test se <strong>en</strong>fr<strong>en</strong>ta a cada uno <strong>de</strong> los 276 mo<strong>de</strong>los, el número <strong>de</strong> puntuaci<strong>on</strong>es<br />

será <strong>de</strong>:<br />

276 mo<strong>de</strong>los * 500 locuci<strong>on</strong>es = 138000 puntuaci<strong>on</strong>es.<br />

Para este sistema se van a llevar a cabo las sigui<strong>en</strong>tes tareas para optimizar los resultados:<br />

• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />

• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />

El primer valor a ajustar es la variable coste <strong>de</strong>l <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to SVM. Para ello mant<strong>en</strong>emos<br />

los vectores <strong>de</strong> parámetros prosódicos sin ningún tipo <strong>de</strong> normalización. Los resultados para<br />

varios valores <strong>de</strong> coste se repres<strong>en</strong>tan <strong>en</strong> la Figura 43 y <strong>en</strong> la Tabla 19<br />

76<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 43: Curvas DET <strong>de</strong>l sistema ’Ah3R1 - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes costes.<br />

Coste EER global( %) DCF min EER medio ( %)<br />

0.001 27.64 0.1 46.97<br />

0.01 27.23 0.0997 44.56<br />

0.1 29.28 0.0993 43.05<br />

1 28.25 0.0997 37.32<br />

10 30.51 0.0997 36.97<br />

100 33.99 0.0997 37.79<br />

Tabla 19: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong>l coste para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’.<br />

A la vista <strong>de</strong> los resultados <strong>de</strong> la Tabla 19, el valor <strong>de</strong>l coste que hace minimizar el EER<br />

global no coinci<strong>de</strong> c<strong>on</strong> el que minimiza el EER medio. Ambas tasas <strong>de</strong> error únicam<strong>en</strong>te<br />

coinci<strong>de</strong>n cuando el número <strong>de</strong> <strong>en</strong>fr<strong>en</strong>tami<strong>en</strong>tos fr<strong>en</strong>te a cada mo<strong>de</strong>lo es el mismo. El que <strong>en</strong><br />

Ah3R1 ambas tasas difieran tanto es <strong>de</strong>bido a la <strong>de</strong>scomp<strong>en</strong>sación <strong>de</strong>l número <strong>de</strong> locuci<strong>on</strong>es<br />

según para que emoción. Así, exist<strong>en</strong> muchas más locuci<strong>on</strong>es <strong>de</strong> test <strong>de</strong> la emoción neutro que<br />

<strong>de</strong> neutro-bajo o exaltado.<br />

Para un valor <strong>de</strong> coste muy pequeño como es 0.01 se c<strong>on</strong>sigue la mejor tasa <strong>de</strong> EER global<br />

<strong>de</strong> 27.23 % pero sin embargo el EER medio aum<strong>en</strong>ta hasta el 44.46 %. Por otro lado, si se toma<br />

como coste el valor 10 se obti<strong>en</strong>e el mínimo EER medio <strong>de</strong> 36.97 % pero el EER global alcanza<br />

el 30.51 %. Por lo tanto, nos vamos a <strong>de</strong>cantar por una opción intermedia como es coste 1, pues<br />

únicam<strong>en</strong>te es 1 punto más alto que el mejor EER global logrando también uno <strong>de</strong> los mejores<br />

EER medio.<br />

Una vez se ha ajustado el valor <strong>de</strong>l coste a 1, lo sigui<strong>en</strong>te es la normalización <strong>de</strong> los vectores<br />

prosódicos. En la Tabla 20 aparec<strong>en</strong> los resultados <strong>de</strong> varios experim<strong>en</strong>tos según el vector o<br />

vectores prosódicos normalizados, mant<strong>en</strong>i<strong>en</strong>do el valor <strong>de</strong> coste fijo a 1.<br />

Según los resultados <strong>de</strong> la Tabla 20, se opta por elegir la opción <strong>de</strong> normalizar tanto el vector<br />

<strong>de</strong> <strong>en</strong>ergías ⃗e como el <strong>de</strong> su velocidad ⃗ ∆ e pues c<strong>on</strong>sigue reducir tanto la EER global como la<br />

media.<br />

Tras los ajustes anteriores y la posterior T-normalización <strong>de</strong> las puntuaci<strong>on</strong>es se obiti<strong>en</strong><strong>en</strong><br />

los resultados <strong>de</strong> la Tabla 21:<br />

• Ah3R1 - GMM-SVM<br />

Para la técnica <strong>de</strong> GMM-SVM, se usan todos los datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to para <strong>en</strong>tr<strong>en</strong>ar el<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 77


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Normalización ⃗u p EER global( %) DCF min EER medio ( %)<br />

no 28.25 0.0997 37.32<br />

⃗e 28.25 0.0997 34.16<br />

⃗e y ∆ ⃗ e 27.78 0.1 34.24<br />

⃗p 31.60 0.0997 40.76<br />

⃗p y ∆ ⃗ p 31.87 0.0997 40.41<br />

⃗e, ∆ ⃗ e , ⃗p y ∆ ⃗ p 30.71 0.0997 37.22<br />

⃗e, ∆ ⃗ e , y ∆ ⃗ p 28.25 0.1 34.55<br />

Tabla 20: Resultados para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong><br />

parámetros prosódicos normalizados.<br />

Norm. ⃗u p Coste T-norm EER global DCF min EER medio<br />

⃗e y ∆ ⃗ e y 1 sí 27.44 0.0991 32.95<br />

400<br />

Tabla 21: C<strong>on</strong>figuración y resultados optimizados para ’Ah3R1 - SVM c<strong>on</strong> estadísticos’.<br />

mo<strong>de</strong>lo UBM. Cada locución <strong>de</strong> <strong>en</strong>treami<strong>en</strong>to lo adaptará para así g<strong>en</strong>erar un mo<strong>de</strong>lo GMM<br />

por cada locución. [Ver Figura 44]<br />

La manera <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ar los mo<strong>de</strong>los [Ver Figura 42] es la misma que para el caso anterior<br />

<strong>de</strong> SVM c<strong>on</strong> estadísticos. Se <strong>en</strong>tr<strong>en</strong>an mo<strong>de</strong>los <strong>de</strong> la forma ⃗w GMM−SV M notLocX emoc . Dichos<br />

mo<strong>de</strong>los serán <strong>en</strong>tr<strong>en</strong>ados c<strong>on</strong> datos <strong>de</strong> la emoción emoc (neutro-bajo, neutro, neutro-exaltado,<br />

exaltado) utilizando locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> todos los locutores m<strong>en</strong>os el locutor X.<br />

En la etapa <strong>de</strong> evaluación se testean las locuci<strong>on</strong>es <strong>de</strong> test <strong>de</strong>l locutor X fr<strong>en</strong>te a los mo<strong>de</strong>los<br />

<strong>de</strong> la forma ⃗w GMM−SV M notLocX emoc , d<strong>on</strong><strong>de</strong> emoc es cada una <strong>de</strong> las 4 emoci<strong>on</strong>es <strong>de</strong> Ah3R1.<br />

Se va a optimizar sobre los sigui<strong>en</strong>tes parámetros:<br />

• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />

• Optimización variable M número <strong>de</strong> gaussianas<br />

• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />

El primer ajuste que se realizará es el <strong>de</strong>l número <strong>de</strong> gaussianas M. Para ello se mant<strong>en</strong>i<strong>en</strong>e<br />

fijo el valor <strong>de</strong>l coste a 0.1 y vamos variando M c<strong>on</strong> valores pot<strong>en</strong>cia <strong>de</strong> 2.<br />

Los resultados <strong>de</strong> esta optimización se muestran <strong>en</strong> la Tabla 22.<br />

M EER global( %) DCF min EER medio ( %)<br />

64 24.03 0.0963 36.74<br />

128 23.89 0.0938 32.65<br />

256 23.95 0.0943 35.28<br />

512 24.98 0.0935 33.96<br />

Tabla 22: Resultados para ’Ah3R1 - GMM-SVM’ variando el número <strong>de</strong> gaussinas.<br />

A la vista <strong>de</strong> los resultados, resulta evi<strong>de</strong>nte que el número <strong>de</strong> gaussianas que hace que se<br />

obt<strong>en</strong>gan mejores resultados es <strong>de</strong> 128, valor para el cual se minimizan tanto el EER global,<br />

como el DCF min como el EER medio.<br />

78<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 44: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - GMM-SVM’.<br />

La sigui<strong>en</strong>te variable a ajustar es el coste. Para ello se manti<strong>en</strong>e fijo el valor <strong>de</strong> M a 128 y<br />

se va variando el coste. La Figura 45 y la Tabla 23 muestran dichos resultados.<br />

Coste EER global( %) DCF min EER medio ( %)<br />

0.001 27.84 0.0945 38.76<br />

0.01 23.89 0.0948 40.44<br />

0.1 23.89 0.0938 32.65<br />

1 25.32 0.0961 34.10<br />

10 27.78 0.0997 35.24<br />

Tabla 23: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’Ah3R1 - GMM-SVM’.<br />

El valor <strong>de</strong> coste óptimo es <strong>de</strong> 0.1 pues minimiza tanto el EER medio, como el EER global,<br />

como el DCF min .<br />

Por último, los resultados terminan <strong>de</strong> <strong>de</strong> ser ajustados mediante la normalización o no <strong>de</strong><br />

cada uno <strong>de</strong> los 4 vectores <strong>de</strong> parámetros prosódicos ⃗e, ⃗ ∆ e , ⃗p y ⃗ ∆ p . Los resultados, para un<br />

valor fijo <strong>de</strong> coste y M <strong>de</strong> 0.1 y 128 respectivam<strong>en</strong>te, <strong>de</strong> dichas normalizaci<strong>on</strong>es aparec<strong>en</strong> <strong>en</strong> la<br />

Figura 46 y <strong>en</strong> la Tabla 24.<br />

A partir <strong>de</strong> la Tabla 24, la c<strong>on</strong>figuración que logra optimizar los resultados es mediante la<br />

normalización <strong>de</strong> los vectores <strong>de</strong> <strong>en</strong>ergía ⃗e y su velocidad ⃗ ∆ e .<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 79


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 45: Curvas DET para varios costes para ’Ah3R1 - GMM-SVM’.<br />

Figura 46: Curvas DET para ’Ah3R1 - GMM-SVM’ según la normalización <strong>de</strong> los vectores <strong>de</strong><br />

parámetros prosódicos.<br />

Tras haber optimizado tanto el valor <strong>de</strong> coste, como el <strong>de</strong> M, como la normalización <strong>de</strong> los<br />

vectores prosódicos, la última tarea es la T-normalización <strong>de</strong> los resultados utilizando la mejor<br />

c<strong>on</strong>figuración [Ver Tabla 25].<br />

Aquí, a difer<strong>en</strong>cia <strong>de</strong> lo que ocurría <strong>en</strong> los casos anteriores, las tasas <strong>de</strong> error empeoran<br />

cuando se lleva a cabo la T-normalización <strong>de</strong> puntuaci<strong>on</strong>es.<br />

• Ahumada III - Fusión suma SVM estadísticos + GMM-SVM<br />

Normalización ⃗u p EER global( %) DCF min EER medio ( %)<br />

no 23.89 0.0938 32.65<br />

⃗e 21.63 0.0943 30.99<br />

⃗e y ∆ ⃗ e 21.63 0.0943 30.88<br />

⃗p 25.59 0.0993 43.54<br />

⃗p y ∆ ⃗ p 25.18 0.0993 41.92<br />

Tabla 24: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos normalizados para<br />

’Ah3R1 - GMM-SVM’.<br />

80<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Norm. ⃗u p M coste T-norm EER global DCF min EER medio<br />

⃗e y ∆ ⃗ e 128 0.1 sí 25.52 0.0933 33.92<br />

Tabla 25: C<strong>on</strong>figuración y resultados optimizados para ’Ah3R1 - GMM-SVM’.<br />

Se toman los resultados <strong>de</strong> las Tablas 21 y 25 como los resultados óptimos para los subsistemas<br />

fr<strong>on</strong>t-<strong>en</strong>d <strong>de</strong> SVM c<strong>on</strong> estadísticos y GMM-SVM respectivam<strong>en</strong>te. Dichos resultados<br />

están T-normalizados para que los rangos <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> ambos subsistemas sean parecidos.<br />

Figura 47: Curvas DET <strong>de</strong> ’Ah3R1 - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión suma’.<br />

Las tasas <strong>de</strong> EER global <strong>de</strong> tanto el subsistema SVM c<strong>on</strong> estadísticos como el <strong>de</strong> GMM-SVM<br />

como la fusión suma <strong>de</strong> ambos s<strong>on</strong> <strong>de</strong> 27.44 %, 25.52 % y 22.59 % respectivam<strong>en</strong>te. Como se<br />

v<strong>en</strong> claram<strong>en</strong>te <strong>en</strong> la Figura 47, la fusión suma c<strong>on</strong>sigue reducir notablem<strong>en</strong>te las tasas <strong>de</strong> error<br />

<strong>de</strong> los subsistemas.<br />

• Ah3R1 - Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls (AMF)<br />

Cada locución <strong>de</strong> test se <strong>en</strong>fr<strong>en</strong>ta c<strong>on</strong> los 4 mo<strong>de</strong>los <strong>de</strong> cada uno <strong>de</strong> los subsistemas<br />

GMM-SVM y SVM c<strong>on</strong> estadísticos que no han sido <strong>en</strong>tr<strong>en</strong>ados c<strong>on</strong> datos <strong>de</strong> ese mismo locutor.<br />

Así, se forma un nuevo vector <strong>de</strong> parámetros <strong>de</strong> dim<strong>en</strong>sión 8 ( ⃗ S locuci<strong>on</strong> test ) [Ver Figura 48].<br />

El nuevo vector <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> dim<strong>en</strong>sión 8 corresp<strong>on</strong><strong>de</strong> c<strong>on</strong> nuestro nuevo vector<br />

<strong>de</strong> parámetros. Dicho vector será nuestro supervector que servirá para mo<strong>de</strong>lar un nuevo<br />

clasificador SVM. En Ah3R1, al igual que hicimos <strong>en</strong> AMF para la base <strong>de</strong> datos SUSAS, se<br />

aplicará la validación cruzada leave-<strong>on</strong>e-locutor-out. Se cogerán iterativam<strong>en</strong>te los datos <strong>de</strong><br />

cada uno <strong>de</strong> los 69 locutores Loc01,...,Loc69 y se utilizarán para evaluación mi<strong>en</strong>tras que los<br />

datos <strong>de</strong> los 68 restantes se utilizarán para <strong>en</strong>tr<strong>en</strong>ar un mo<strong>de</strong>lo SVM por emoción.<br />

En la Figura 49 se repres<strong>en</strong>tan curvas DET para varios valores <strong>de</strong> la variable coste <strong>de</strong>l<br />

clasificador back-<strong>en</strong>d SVM. Y <strong>en</strong> la Tabla 26 valores numéricos <strong>de</strong> tasas <strong>de</strong> error y DCF min .<br />

.<br />

T<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cu<strong>en</strong>ta el EER global podríamos <strong>de</strong>cir que el valor <strong>de</strong> coste óptimo es <strong>de</strong><br />

0.1 pues alcanza un 21.17 % cosa que otro valor <strong>de</strong> coste no lo alcanza. Sin embargo, se<br />

aprecia que c<strong>on</strong> un coste <strong>de</strong> 10 ap<strong>en</strong>as empeora el EER global mejorando 3 puntos el EER<br />

medio. Por esa razón elegimos dicho valor <strong>de</strong> coste aunque el tiempo <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to sea mayor.<br />

A t<strong>en</strong>or <strong>de</strong> los resultados anteriores se pue<strong>de</strong> <strong>de</strong>cir que para la base <strong>de</strong> datos Ah3R1 la<br />

técnica back-<strong>en</strong>d <strong>de</strong> AMF ap<strong>en</strong>as c<strong>on</strong>sigue mejorar los resultados que ofrece la fusión <strong>de</strong> los<br />

dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d. En c<strong>on</strong>creto la fusión suma obti<strong>en</strong>e un EER global <strong>de</strong> 22.59 %<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 81


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 48: Esquema <strong>de</strong> las pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’Ah3R1 - AMF’.<br />

Coste EER global( %) DCF min EER medio ( %)<br />

0.01 22.21 0.0995 36.48<br />

0.1 21.17 0.0985 34.62<br />

1 22.83 0.099 35.57<br />

10 22.83 0.0987 31.65<br />

100 23.04 0.0994 32.45<br />

Tabla 26: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’Ah3R1 - AMF’.<br />

por un 22.83 % <strong>de</strong> AMF. Si se mi<strong>de</strong> <strong>en</strong> EER medio se pasa <strong>de</strong> un 34.01 % a un 31.65 % c<strong>on</strong> AMF.<br />

En la Figura 50 se repres<strong>en</strong>ta la curva DET <strong>de</strong> la fusión suma y <strong>de</strong> AMF. Mi<strong>en</strong>tras que<br />

<strong>en</strong> la Tabla 27 se analizan los EER medios por emoción para ambas técnicas. También se<br />

muestran las mejoras relativas (M.R. <strong>en</strong> %) que ofrece AMF fr<strong>en</strong>te a la fusión suma.<br />

Según la Tabla 27, AMF ofrece una mejora <strong>en</strong> el EER medio que no llega a los 3 puntos<br />

c<strong>on</strong> respecto a la fusión suma. Esto sup<strong>on</strong>e una mejora relativa <strong>de</strong>l -6.94 % puntos. La mejora<br />

relativa que se c<strong>on</strong>seguía para las bases <strong>de</strong> datos SUSAS Simulated y SUSAS Actual era <strong>de</strong>l<br />

-14.64 % y +19,4 %. Es <strong>de</strong>cir, mi<strong>en</strong>tras que para tanto SUSAS Simulated como Ah3R1 la<br />

técnica <strong>de</strong> AMF mejora c<strong>on</strong> respecto a los sistemas fr<strong>on</strong>t-<strong>en</strong>d, <strong>en</strong> SUSAS Actual empeora<br />

c<strong>on</strong>si<strong>de</strong>rablem<strong>en</strong>te.<br />

Entre los resultados <strong>de</strong> Ah3R1 y los <strong>de</strong> SUSAS se aprecia una difer<strong>en</strong>cia. Para los primeros<br />

no hay tanta difer<strong>en</strong>cia <strong>en</strong>tre emoci<strong>on</strong>es mi<strong>en</strong>tras que <strong>en</strong> SUSAS había emoci<strong>on</strong>es como angry,<br />

questi<strong>on</strong> o scream c<strong>on</strong> las que se obt<strong>en</strong>ían mucho mejores tasas <strong>de</strong> error que para el resto.<br />

Posiblem<strong>en</strong>te esto es <strong>de</strong>bio a que <strong>en</strong> Ah3R1 las emoci<strong>on</strong>es o estilos <strong>de</strong> habla (neutro-bajo,<br />

82<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 49: Curvas DET <strong>de</strong>l sistema ’Ah3R1 - AMF’ según la variable coste.<br />

Figura 50: Curvas DET para ’Ah3R1 - fusión suma y AMF’.<br />

neutro, neutro-exaltado y exaltado) están mucho m<strong>en</strong>os <strong>de</strong>finidas o cubr<strong>en</strong> un rango más<br />

amplio que las <strong>de</strong> las bases <strong>de</strong> datos <strong>de</strong> SUSAS. Aún c<strong>on</strong> eso, <strong>en</strong> Ah3R1 se pue<strong>de</strong>n apreciar<br />

ligeras difer<strong>en</strong>cias <strong>de</strong> tasas errores según la emoción. Así, la emoción exaltado es la que mejores<br />

resultados ofrece llegando a un EER <strong>de</strong>l 25.05 % para la fusión suma o el 31.65 % para AMF.<br />

Lo que es común para las 3 bases <strong>de</strong> datos es que los estilos <strong>de</strong> habla que se caracterizan por<br />

una alta int<strong>en</strong>sidad <strong>de</strong> habla o <strong>de</strong> frecu<strong>en</strong>cia (angry o questi<strong>on</strong> <strong>en</strong> SUSAS Simulated, scream o<br />

freefall <strong>en</strong> SUSAS Actual y exaltado <strong>en</strong> Ah3R1 ) funci<strong>on</strong>an mucho mejor que el resto. Por algo<br />

nuestros vectores paramétricos incluy<strong>en</strong> la <strong>en</strong>ergía y la frecu<strong>en</strong>cia fundam<strong>en</strong>tal.<br />

Una vez se han visto los resultados para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor, se van<br />

Emoción EER ( %) fusión suma EER ( %) AMF M.R. ( %)<br />

neutro-bajo 38.87 27.86 -28.33<br />

neutro 34.82 33.48 -3.85<br />

neutro-exaltado 37.30 34.28 -8.1<br />

exaltado 25.05 30.97 +23.63<br />

EER medio 34.01 31.65 -6.94<br />

Tabla 27: EER ( %) por emoción para ’Ah3R1 - fusión suma y AMF’.<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 83


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

a comparar según la base <strong>de</strong> datos. Así, <strong>en</strong> la Tabla 28 nos muestra el EER medio para las 3<br />

bases <strong>de</strong> datos.<br />

base <strong>de</strong> datos fr<strong>on</strong>t-<strong>en</strong>d/back-<strong>en</strong>d EER medio ( %)<br />

SUSAS Simulated<br />

fr<strong>on</strong>t-<strong>en</strong>d(fusión suma) 30.46<br />

back-<strong>en</strong>d (AMF) 26.00<br />

SUSAS Actual<br />

fr<strong>on</strong>t-<strong>en</strong>d(fusión suma) 29.90<br />

back-<strong>en</strong>d (AMF) 35.70<br />

Ah3R1<br />

fr<strong>on</strong>t-<strong>en</strong>d(fusión suma) 34.01<br />

back-<strong>en</strong>d (AMF) 31.65<br />

Tabla 28: EER medio ( %) para las 3 bases <strong>de</strong> datos para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor.<br />

Vi<strong>en</strong>do la Tabla 28 <strong>de</strong> resum<strong>en</strong>, la base <strong>de</strong> datos <strong>en</strong> que la técnica <strong>de</strong> AMF c<strong>on</strong>sigue mejoras<br />

c<strong>on</strong>si<strong>de</strong>rables c<strong>on</strong> respecto a la fusión suma es SUSAS Simulated. Posiblem<strong>en</strong>te eso sea <strong>de</strong>bido<br />

a que dicha base <strong>de</strong> datos está formada por locuci<strong>on</strong>es <strong>de</strong> habla <strong>de</strong> emoci<strong>on</strong>es simuladas,<br />

posiblem<strong>en</strong>te exageradas. Así el espacio <strong>de</strong> Anchor Mo<strong>de</strong>ls <strong>en</strong> el que trabaja AMF es mucho<br />

más discriminativo para esta base <strong>de</strong> datos.<br />

Por otro lado, la base <strong>de</strong> datos sobre la que se han obt<strong>en</strong>ido mejores resultados, tanto <strong>de</strong><br />

AMF como <strong>de</strong> la fusión suma, es también SUSAS Simulated. La razón es la misma, aunque<br />

es la que más emoci<strong>on</strong>es ti<strong>en</strong>e, las emoci<strong>on</strong>es están exageradas y claram<strong>en</strong>te difer<strong>en</strong>ciadas<br />

unas <strong>de</strong> otras. Así, se pue<strong>de</strong> c<strong>on</strong>cluir que nuestros sistemas para tareas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong><br />

locutor discriminan mejor sobre un c<strong>on</strong>junto amplio <strong>de</strong> clases o emoci<strong>on</strong>es bi<strong>en</strong> difer<strong>en</strong>ciadas o<br />

exageradas que sobre un c<strong>on</strong>junto más pequeño pero más c<strong>on</strong>fusas.<br />

5.1.2. Experim<strong>en</strong>tos Inter-Base <strong>de</strong> datos: Evaluación <strong>de</strong> cada Base <strong>de</strong> Datos<br />

fr<strong>en</strong>te a mo<strong>de</strong>los <strong>de</strong> todas las Bases <strong>de</strong> Datos<br />

Este capítulo trata <strong>de</strong>, <strong>en</strong> vez <strong>de</strong> evaluar cada base <strong>de</strong> datos c<strong>on</strong> mo<strong>de</strong>los creados c<strong>on</strong> datos<br />

<strong>de</strong> la misma base <strong>de</strong> datos, evaluar cada una c<strong>on</strong> mo<strong>de</strong>los <strong>de</strong> todas las bases <strong>de</strong> datos. Así,<br />

por ejemplo, las locuci<strong>on</strong>es <strong>de</strong> test <strong>de</strong> SUSAS Simulated se <strong>en</strong>fr<strong>en</strong>tará c<strong>on</strong> mo<strong>de</strong>los <strong>de</strong> tanto<br />

SUSAS Simulated, como <strong>de</strong> SUSAS Actual como <strong>de</strong> Ah3R1.<br />

Para las bases <strong>de</strong> datos SUSAS Simulated y SUSAS Actual se han <strong>en</strong>tr<strong>en</strong>ado un mo<strong>de</strong>lo<br />

por cada emoción. S<strong>on</strong> 11 (angry, clear, c<strong>on</strong>d50, c<strong>on</strong>d70, fast, lombard, loud, neutral, questi<strong>on</strong>,<br />

slow y soft) para la bases <strong>de</strong> datos SUSAS Simulated y 5 (neutral, medst, hist, freefall y<br />

scream) para la bases <strong>de</strong> datos SUSAS Actual. Sin embargo, para la base <strong>de</strong> datos Ah3R1 al<br />

haber hecho cross validati<strong>on</strong> no t<strong>en</strong>emos un mo<strong>de</strong>lo por cada emoción, sino un mo<strong>de</strong>lo por<br />

cada emoción y locutor. Por lo tanto exist<strong>en</strong> 276 mo<strong>de</strong>los ( 276 = 4 emoci<strong>on</strong>es * 69 locutores).<br />

Se podría tomar los 276 mo<strong>de</strong>los <strong>de</strong> Ah3R1 pero se hiciese habría una gran <strong>de</strong>scomp<strong>en</strong>sación<br />

<strong>en</strong>tre el número <strong>de</strong> mo<strong>de</strong>los por cada base <strong>de</strong> datos. Por lo tanto se toman 4 mo<strong>de</strong>los cualquiera<br />

<strong>de</strong> los 276 <strong>de</strong> Ah3R1. Uno <strong>de</strong> cada emoción (neutro-bajo, neutro, neutro-exaltado y exaltado).<br />

Entre las tres bases <strong>de</strong> datos se disp<strong>on</strong>e por lo tanto <strong>de</strong> 20 mo<strong>de</strong>los por cada subsistema<br />

fr<strong>on</strong>t-<strong>en</strong>d (11 <strong>de</strong> SUSAS Simulated, 5 <strong>de</strong> SUSAS Actual y 4 <strong>de</strong> Ah3R1 ). La Figura 51 muestra<br />

la forma <strong>en</strong> que se va a evaluar cada uno <strong>de</strong> estos mo<strong>de</strong>los.<br />

La parte <strong>de</strong> datos <strong>de</strong> cada base <strong>de</strong> datos reservada para test se usa para evaluar dichos<br />

mo<strong>de</strong>los. Para SUSAS Simulated se reservan los locutores g3, b3 y n3 para dicha tarea. Para<br />

SUSAS Actual los locutores f3, m3 y m4. Y para Ah3R1 se usan las locuci<strong>on</strong>es <strong>de</strong> test que<br />

84<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 51: Esquema <strong>de</strong> evaluación <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> las 3 bases <strong>de</strong> datos.<br />

hay para cada uno <strong>de</strong> los 69 locutores. En c<strong>on</strong>creto, exist<strong>en</strong> 10 locuci<strong>on</strong>es <strong>de</strong> test para los 31<br />

primeros locutores y 5 para los 38 restantes.<br />

Una vez se ti<strong>en</strong>e claro el número <strong>de</strong> mo<strong>de</strong>los que se van a tomar por cada base <strong>de</strong> datos, lo<br />

sigui<strong>en</strong>te es <strong>de</strong>cidir la c<strong>on</strong>figuración a establecer para <strong>en</strong>tr<strong>en</strong>ar dichos mo<strong>de</strong>los. Es <strong>de</strong>cir, valores<br />

<strong>de</strong> coste, M, tipo <strong>de</strong> normalización <strong>de</strong> los vectores prosódicos, etc. A priori se podrían tomar<br />

aquellas c<strong>on</strong>figuraci<strong>on</strong>es que han dado mejores resultados. Sin embargo, si se hiciese eso, los<br />

mo<strong>de</strong>los <strong>de</strong> distintas bases y datos y subsistemas t<strong>en</strong>drían distinta c<strong>on</strong>figuración y por lo tanto<br />

habría incompet<strong>en</strong>cia <strong>en</strong>tre mo<strong>de</strong>los. Por ello, <strong>de</strong>cidimos por <strong>en</strong>tr<strong>en</strong>ar todos los mo<strong>de</strong>los c<strong>on</strong> la<br />

sigui<strong>en</strong>te c<strong>on</strong>figuración:<br />

· Normalización vectores parámetros prosódicos: no<br />

· M, número <strong>de</strong> Gaussianas: 256<br />

· coste: 1.<br />

Una vez se ha sacado los resultados T-normalizados para los dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d se<br />

hace la fusión suma.<br />

Por último se realiza AMF. Cada locución <strong>de</strong> test <strong>de</strong> las 3 bases <strong>de</strong> datos se <strong>en</strong>fr<strong>en</strong>ta c<strong>on</strong><br />

los 20 mo<strong>de</strong>los <strong>de</strong> cada uno <strong>de</strong> los subsistemas GMM-SVM y SVM c<strong>on</strong> estadísticos. Así, se<br />

forma un nuevo vector <strong>de</strong> parámetros <strong>de</strong> dim<strong>en</strong>sión 40.<br />

El nuevo vector <strong>de</strong> puntuaci<strong>on</strong>es <strong>de</strong> dim<strong>en</strong>sión 40 será nuestro nuevo vector <strong>de</strong> parámetros.<br />

Dicho vector será nuestro supervector que servirá para mo<strong>de</strong>lar un nuevo clasificador SVM al<br />

cual se le ajustará el coste. Se cogerán iterativam<strong>en</strong>te los datos <strong>de</strong> cada locutor y se utilizarán<br />

para evaluación mi<strong>en</strong>tras que los datos <strong>de</strong> los restantes locutores se utilizarán para <strong>en</strong>tr<strong>en</strong>ar los<br />

mo<strong>de</strong>los SVM.<br />

La Tabla 29 nos ofrece los resultados <strong>de</strong> tanto los subsistemas fr<strong>on</strong>t-<strong>en</strong>d, como <strong>de</strong> la fusión<br />

suma <strong>de</strong> ambos, como <strong>de</strong> AMF.<br />

Como se dijo anteriorm<strong>en</strong>te, se ha ajustado la variable coste para el clasificador SVM <strong>de</strong>l<br />

sistema back-<strong>en</strong>d. Tras realizar los experim<strong>en</strong>tos se ha visto que para un valor <strong>de</strong> coste 1 se<br />

optimizan los resultados.<br />

Se pue<strong>de</strong> ver <strong>en</strong> la Tabla 29 que para estos tipos <strong>de</strong> experim<strong>en</strong>tos Inter-Base <strong>de</strong> datos, la<br />

técnica <strong>de</strong> AMF c<strong>on</strong>sigue mejorar <strong>en</strong> todos los casos los resultados <strong>de</strong> la fusión suma. Este<br />

hecho refleja que los AMF funci<strong>on</strong>an mejor cuanto mayor dim<strong>en</strong>sión <strong>de</strong>l espacio Anchor Mo<strong>de</strong>l<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 85


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

SVM estadísticos GMM-SVM fusión suma AMF<br />

EER glob EER med EER glob EER med EER glob EER med EER glob EER med<br />

Simulat. 39.39 34.78 36.79 29.44 39.15 31.01 27.74 28.80<br />

Actual 29.62 32.46 37.06 51.10 25.43 32.61 22.45 23.46<br />

Ah3R1 31.64 46.88 16.79 35.45 17.41 37.70 21.62 30.30<br />

Tabla 29: EERs ( %) <strong>de</strong> los sistemas fr<strong>on</strong>t-<strong>en</strong>d y back-<strong>en</strong>d para experim<strong>en</strong>tos inter-Base <strong>de</strong><br />

Datos.<br />

se ti<strong>en</strong>e. Así, <strong>en</strong> nuestro caso <strong>de</strong> ahora, los vectores <strong>de</strong> parámetros <strong>de</strong>l sistema back-<strong>en</strong>d ti<strong>en</strong><strong>en</strong><br />

40 valores. O <strong>en</strong> otras palabras, el espacio <strong>de</strong> los Anchor Mo<strong>de</strong>ls es <strong>de</strong> <strong>de</strong> dim<strong>en</strong>sión 40.<br />

Cuando se realizaban experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos, el espacio <strong>de</strong> dim<strong>en</strong>sión <strong>de</strong> los<br />

Anchor Mo<strong>de</strong>ls era <strong>de</strong> 22, 10 y 8 para cada base <strong>de</strong> datos SUSAS Simulated, SUSAS Actual y<br />

Ah3R1 respectivam<strong>en</strong>te.<br />

Como ya se vio <strong>en</strong> el capítulo 3.7.4, AMF crea un nuevo vector <strong>de</strong> parámetros a partir <strong>de</strong><br />

los resultados <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d SVM c<strong>on</strong> estadísticos y GMM-SVM. Cuanto mayor<br />

número <strong>de</strong> subsistemas se fusi<strong>on</strong><strong>en</strong> para crear este nuevo vector <strong>de</strong> parámetros mayor será la<br />

dim<strong>en</strong>sión <strong>de</strong>l mismo y por lo tanto según lo visto antes, mejores resultados obt<strong>en</strong>drá. Así, se<br />

va a realizar un nuevo AMF a partir <strong>de</strong> los resultados <strong>de</strong> SVM c<strong>on</strong> estadísticos, GMM-SVM y<br />

a<strong>de</strong>más la fusión suma <strong>de</strong> ambos como se ve <strong>en</strong> la Figura 52. El nuevo vector <strong>de</strong> parámetros<br />

⃗S x,m está formado c<strong>on</strong> las puntuaci<strong>on</strong>es <strong>de</strong> los 3 subsistemas t<strong>en</strong>drá 60 coefici<strong>en</strong>tes.<br />

Figura 52: Uso <strong>de</strong> las puntuaci<strong>on</strong>es <strong>de</strong> dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d y <strong>de</strong> la fusión suma para<br />

c<strong>on</strong>formar el nuevo sistema back-<strong>en</strong>d <strong>de</strong> AMF.<br />

Los resultados <strong>de</strong> este nuevo AMF formado por la fusión <strong>de</strong> 3 subsistemas aparec<strong>en</strong> <strong>en</strong> la<br />

Tabla 30 al igual que los <strong>de</strong>l anterior AMF <strong>en</strong> lo que se fusi<strong>on</strong>aban 2 subsistemas.<br />

Como se ve <strong>en</strong> la Tabla 30, la nueva AMF c<strong>on</strong>sigue mejorar ligeram<strong>en</strong>te los resultados para<br />

86<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

AMF (fusión 2 subsistemas) AMF (fusión 3 subsistemas)<br />

EER global EER medio EER global EER medio<br />

Simulated 27.74 28.80 25.96 26.29<br />

Actual 22.45 23.46 21.89 23.01<br />

Ah3R1 21.62 30.30 21.76 30.72<br />

Tabla 30: EERs ( %) para los dos tipos <strong>de</strong> sistemas AMF.<br />

SUSAS Simulated y SUSAS Actual , pero no para Ah3R1 <strong>en</strong> los que empeoran un poco.<br />

Añadi<strong>en</strong>do la fusión suma a los AMF no se c<strong>on</strong>sigu<strong>en</strong> mejorar c<strong>on</strong>si<strong>de</strong>rablem<strong>en</strong>te los<br />

resultados. Esto es <strong>de</strong>bido a que los resultados <strong>de</strong> la fusión suma s<strong>on</strong> combinación <strong>de</strong> los otros<br />

dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d <strong>de</strong> SVM c<strong>on</strong> estadísticos y GMM-SVM, y por lo tanto no se aña<strong>de</strong><br />

mucha más información.<br />

5.2. Pruebas y Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor<br />

C<strong>on</strong> experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor eliminamos la variabilidad inter locutor pues los<br />

mo<strong>de</strong>los serán <strong>en</strong>tr<strong>en</strong>ados c<strong>on</strong> datos <strong>de</strong> un sólo locutor.<br />

Se van a pres<strong>en</strong>tar y analizar los resultados para SUSAS Simulated y Actual obt<strong>en</strong>idos para<br />

los dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d y su fusión suma y para el sistema back-<strong>en</strong>d <strong>de</strong> AMF.<br />

Parte <strong>de</strong> los resultados <strong>de</strong> estos experim<strong>en</strong>tos han sido recogidos <strong>en</strong> [25] y aceptados para el<br />

c<strong>on</strong>greso internaci<strong>on</strong>al Interspeech 2009.<br />

SUSAS Simulated<br />

Para la base <strong>de</strong> datos SUSAS Simulated la distribución <strong>de</strong> los locutores es la que aparece<br />

<strong>en</strong> la Tabla 31:<br />

Etapa<br />

Developm<strong>en</strong>t<br />

Entr<strong>en</strong>ami<strong>en</strong>to y Test<br />

Locutores<br />

g1,b1,n1<br />

g2,b2,n2,g3,b3,n3<br />

Tabla 31: Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS Simulated.<br />

No se separan unos locutores para <strong>en</strong>tr<strong>en</strong>ar los mo<strong>de</strong>los y otros para evaluar, sino que datos<br />

<strong>de</strong> un mismo locutor los usamos tanto para <strong>en</strong>tr<strong>en</strong>ar mo<strong>de</strong>los como para evaluarlos.<br />

• SUSAS Simulated - Sistemas fr<strong>on</strong>t-<strong>en</strong>d: SVM c<strong>on</strong> estadísticos, GMM-SVM y<br />

fusión suma<br />

Se <strong>en</strong>tr<strong>en</strong>an mo<strong>de</strong>los por cada emoción y locutor. A<strong>de</strong>más se hace cross validati<strong>on</strong>, es<br />

<strong>de</strong>cir, se <strong>en</strong>tr<strong>en</strong>an mo<strong>de</strong>los <strong>de</strong> la forma ⃗w loc emoc notW ordX d<strong>on</strong><strong>de</strong> loc es cada uno <strong>de</strong> los 6<br />

locutores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, emoc es cada una <strong>de</strong> las 11 emoci<strong>on</strong>es <strong>de</strong> SUSAS Simulated y<br />

notWordX significa que dicho mo<strong>de</strong>lo es <strong>en</strong>tr<strong>en</strong>ado c<strong>on</strong> locuci<strong>on</strong>es <strong>de</strong> <strong>en</strong>tre el c<strong>on</strong>junto <strong>de</strong> las<br />

35 palabras m<strong>en</strong>os la palabra WordX. Así, por ejemplo, el mo<strong>de</strong>lo ⃗w f2 a notBreak será <strong>en</strong>tr<strong>en</strong>ado<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 87


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

c<strong>on</strong> locuci<strong>on</strong>es <strong>de</strong>l locutor f2, <strong>de</strong> la emoción a (angry) y c<strong>on</strong> todas m<strong>en</strong>os la palabra break.<br />

Por lo tanto, el número <strong>de</strong> mo<strong>de</strong>los para SUSAS Simulated para cada subsistema fr<strong>on</strong>t-<strong>en</strong>d<br />

(SVM c<strong>on</strong> estadísticos y GMM-SVM) es <strong>de</strong> 11 emoci<strong>on</strong>es * 6 locutores * 35 palabras = 2310<br />

mo<strong>de</strong>los.<br />

Una vez se han <strong>en</strong>tr<strong>en</strong>ado los 2310 mo<strong>de</strong>los pasamos a la tarea <strong>de</strong> evaluación. Así, una<br />

locución <strong>de</strong> test como por ejemplo break1.n2c5 se evalúa fr<strong>en</strong>te a los sigui<strong>en</strong>tes 11 mo<strong>de</strong>los:<br />

⃗w n2 emoc notBreak d<strong>on</strong><strong>de</strong> emoc es cada una <strong>de</strong> las 11 emoci<strong>on</strong>es. C<strong>on</strong> validación cruzada (cross<br />

validati<strong>on</strong>) se c<strong>on</strong>sigue <strong>en</strong>t<strong>on</strong>ces que no se utilic<strong>en</strong> las mismas locuci<strong>on</strong>es para <strong>en</strong>tr<strong>en</strong>ar y evaluar.<br />

La Figura 53 muestra un esquema <strong>de</strong> la manera <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ar y evaluar <strong>de</strong>scrita anteriorm<strong>en</strong>te<br />

para el sistemas fr<strong>on</strong>t-<strong>en</strong>d <strong>de</strong> SVM c<strong>on</strong> estadísticos. La mecánica para el sistema GMM-SVM<br />

es la misma pero por cada locución <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test se crea un mo<strong>de</strong>lo GMM mediante<br />

la adaptación <strong>de</strong>l UBM g<strong>en</strong>erado c<strong>on</strong> los datos <strong>de</strong> los locutores g1,b1 y n1.<br />

Figura 53: Esquema <strong>de</strong> la evaluación <strong>de</strong> las pruebas <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS<br />

Simulated - SVM c<strong>on</strong> estadísticos’.<br />

Para ambos subsistemas se van a ajustar los sigui<strong>en</strong>tes parámetros:<br />

• Optimización variable M número <strong>de</strong> gaussianas (sólo subsistema GMM-SVM)<br />

• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

• T-normalización <strong>de</strong> puntuaci<strong>on</strong>es<br />

No se ha incluido la normalización <strong>de</strong> los parámetros prosódicos como una tarea a ajustar<br />

ya que se va a usar la c<strong>on</strong>figuración que mejores resultados dio para los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes<br />

<strong>de</strong> locutor. Así, para el subsistema <strong>de</strong> SVM c<strong>on</strong> estadísticos se normalizará únicam<strong>en</strong>te<br />

el vector <strong>de</strong> <strong>en</strong>ergía ⃗e mi<strong>en</strong>tras que para el <strong>de</strong> GMM-SVM se normalizará tanto el vector <strong>de</strong><br />

<strong>en</strong>ergía ⃗e como el <strong>de</strong> su velocidad ⃗ ∆ e .<br />

En primer lugar se ajusta el valor <strong>de</strong>l coste <strong>de</strong>l clasificador SVM para ambos subsistemas.<br />

La Tabla 32 y la Figura 54 ofrec<strong>en</strong> los resultados <strong>en</strong> forma <strong>de</strong> tasas <strong>de</strong> error y DCF min para<br />

varios valores <strong>de</strong> coste para el subsistema <strong>de</strong> SVM c<strong>on</strong> estadísticos.<br />

Según la Tabla 32, se aprecia que a medida que aum<strong>en</strong>ta el coste se obti<strong>en</strong><strong>en</strong> m<strong>en</strong>ores tasas<br />

<strong>de</strong> error, sin embargo no es apropiado establecer un valor <strong>de</strong> coste muy alto pues el tiempo <strong>de</strong><br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se dispara. Es por eso por lo que no hemos realizado la prueba para un valor<br />

88<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 54: Curvas DET <strong>de</strong>l sistema ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’ para difer<strong>en</strong>tes<br />

costes <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />

Coste EER global( %) DCF min EER medio ( %)<br />

0.1 24.99 0.0887 21.22<br />

1 22.80 0.0830 19.20<br />

10 21.40 0.0805 17.99<br />

100 20.69 0.0797 17.30<br />

Tabla 32: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l valor <strong>de</strong>l coste para ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos’.<br />

<strong>de</strong> 1000. Por lo tanto, nos quedamos c<strong>on</strong> un coste <strong>de</strong> 100 como valor óptimo. La Figura 54<br />

también <strong>de</strong>ja claro que ésta es la mejor opción.<br />

Para el subsistema <strong>de</strong> GMM-SVM se optimiza el número <strong>de</strong> gaussianas M. Tras varias<br />

pruebas probando c<strong>on</strong> valores pot<strong>en</strong>cia <strong>de</strong> 2 se tomó el caso <strong>de</strong> 256 gaussianas pues es el que<br />

mejor resultados obt<strong>en</strong>ía para un valor <strong>de</strong> coste fijo.<br />

Figura 55: Curvas DET para ’SUSAS Simulated - GMM-SVM’ variando el coste.<br />

Ahora se ajustan el coste para el subsistema GMM-SVM mant<strong>en</strong>i<strong>en</strong>do fijo M a 256. Los<br />

resultados aparec<strong>en</strong> <strong>en</strong> forma gráfica <strong>en</strong> la Figura 55 y numéricam<strong>en</strong>te <strong>en</strong> la Tabla 33.<br />

Al igual que para el subsistema <strong>de</strong> SVM c<strong>on</strong> estadísticos, a medida que el coste es mayor, se<br />

obti<strong>en</strong><strong>en</strong> mejores resultados. Así, se elege el valor <strong>de</strong> coste <strong>de</strong> 100 pues es la opción que ofrece<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 89


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Coste EER global( %) DCF min EER medio ( %)<br />

1 20.86 0.0857 17.32<br />

10 20.94 0.0848 17.28<br />

100 20.50 0.0755 17.17<br />

Tabla 33: Resultados para ’SUSAS Simulated - GMM-SVM’ para varios costes.<br />

mejores resultados sin que el tiempo <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se dispare.<br />

La Tabla 34 es la c<strong>on</strong>figuración final <strong>de</strong> tanto el subsistema SVM c<strong>on</strong> estadísticos como <strong>de</strong>l<br />

GMM-SVM una vez se ha hecho T-normalización <strong>de</strong> las puntuaci<strong>on</strong>es finales.<br />

SVM c<strong>on</strong><br />

estadísticos<br />

GMM-<br />

SVM<br />

Norm<br />

⃗u p<br />

M coste T-norm EER glob DCF min EER med<br />

⃗e - 100 sí 20.84 0.0820 16.13<br />

⃗e y ∆ ⃗ e 256 100 sí 18.24 0.0733 15.29<br />

fusión suma 15.63 0.068 12.15<br />

Tabla 34: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos<br />

y GMM-SVM’.<br />

Las curvas DET <strong>de</strong> tanto los 2 subsistemas por separado como la <strong>de</strong> la fusión suma aparec<strong>en</strong><br />

<strong>en</strong> la Figura 56. Como dicha fusión suma se ha <strong>de</strong> realizar sobre resultados T-normalizados,<br />

tomaremos los datos <strong>de</strong> la Tabla 34 como c<strong>on</strong>figuración <strong>de</strong> nuestros sistemas.<br />

Figura 56: Curva DET <strong>de</strong> ’SUSAS Simulated - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />

suma’.<br />

• SUSAS Simulated - Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls (AMF)<br />

Las puntuaci<strong>on</strong>es <strong>de</strong> cada locución <strong>de</strong> test (ejemplo: break1.n2c5 ) obt<strong>en</strong>idas tras evaluarla<br />

fr<strong>en</strong>te a los 11 mo<strong>de</strong>los <strong>de</strong> la forma ⃗w n2emoc notBreak <strong>de</strong> cada uno <strong>de</strong> los subsistemas GMM-SVM<br />

y SVM c<strong>on</strong> estadísticos se c<strong>on</strong>cat<strong>en</strong>an para c<strong>on</strong>formar un nuevo vector <strong>de</strong> parámetros. Dichas<br />

puntuaci<strong>on</strong>es serán las corresp<strong>on</strong>di<strong>en</strong>tes a la c<strong>on</strong>figuración que <strong>en</strong> cada caso ha dado los mejores<br />

resultados [Tabla 34]. Dicho vector ⃗ S break1.n2c5 t<strong>en</strong>drá 22 valores [Ver Figura 57].<br />

90<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 57: Esquema <strong>de</strong> las pruebas <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para ’SUSAS Simulated - AMF’.<br />

Una vez se ti<strong>en</strong>e por cada locución <strong>de</strong> test ⃗x un nuevo vector <strong>de</strong> parámetros ⃗ S x , éstos se<br />

utilizan como vectores <strong>de</strong> <strong>en</strong>trada a un clasificador SVM.<br />

Estos nuevos mo<strong>de</strong>los <strong>de</strong> la forma ⃗w ′ loc emoc notW ordX<br />

<strong>de</strong>l sistema back-<strong>en</strong>d se crean <strong>de</strong> igual<br />

manera que se crear<strong>on</strong> <strong>en</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d. Es <strong>de</strong>cir, se crean c<strong>on</strong> datos <strong>de</strong>l locutor loc<br />

y emoción emoc y c<strong>on</strong> todas la palabras m<strong>en</strong>os la WordX. Y se evalúan c<strong>on</strong> las locuci<strong>on</strong>es <strong>de</strong><br />

ese mismo locutor y que sean <strong>de</strong> la palabra WordX.<br />

En la Figura 58 se repres<strong>en</strong>tan un c<strong>on</strong>junto <strong>de</strong> curvas DET para varios valores <strong>de</strong> la variable<br />

coste <strong>de</strong>l clasificador back-<strong>en</strong>d SVM. Y <strong>en</strong> la Tabla 35 valores numéricos <strong>de</strong> tasas <strong>de</strong> error y<br />

DCF min .<br />

Figura 58: Curvas DET para ’SUSAS Simulated - AMF’ y varios costes.<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 91


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Coste EER global( %) DCF min EER medio ( %)<br />

0.01 13.99 0.0751 9.30<br />

0.1 13.82 0.0725 9.67<br />

1 13.12 0.0583 9.02<br />

10 12.72 0.0508 8.56<br />

20 12.50 0.0499 8.26<br />

30 12.50 0.0493 8.58<br />

Tabla 35: Resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Simulated - AMF’.<br />

Tanto para coste 20 como 30 se alcanza la más baja y mínima tasa <strong>de</strong> error global. Sin<br />

embargo la que optimiza los resultados es el coste 20 pues logra una tasa <strong>de</strong> error media 3<br />

décimas inferior.<br />

Una vez vistos los resultados para AMF, se compararán dichos resultados c<strong>on</strong> los <strong>de</strong> la<br />

fusión suma <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d.<br />

Figura 59: Curvas DET para ’SUSAS Simulated - fusión suma y AMF’.<br />

C<strong>on</strong> AMF se c<strong>on</strong>sigue una EER global <strong>de</strong> 12.50 % mi<strong>en</strong>tras que la fusión <strong>de</strong> los sistemas<br />

fr<strong>on</strong>t-<strong>en</strong>d obt<strong>en</strong>ía un 15.63 %. Es <strong>de</strong>cir, se reduce <strong>en</strong> más <strong>de</strong> 3 puntos la tasa <strong>de</strong> error media. En<br />

la Figura 59 se repres<strong>en</strong>ta la curva DET para la fusión suma <strong>de</strong>l sistema SVM <strong>de</strong> estadísticos<br />

c<strong>on</strong> el sistema GMM-SVM y la curva DET para el sistema <strong>de</strong> AMF.<br />

Por último, la Tabla 36 analiza los EER medio por emoción <strong>de</strong> tanto la fusión suma <strong>de</strong><br />

los dos sistemas fr<strong>on</strong>t-<strong>en</strong>d como <strong>de</strong>l sistema back-<strong>en</strong>d <strong>de</strong> AMF. La última columna corresp<strong>on</strong><strong>de</strong><br />

c<strong>on</strong> la mejora relativa (M.R. <strong>en</strong> %) que ofrece éste último sistema c<strong>on</strong> respecto al primero.<br />

En la Figura 60 aparec<strong>en</strong> las curvas DET para cada una <strong>de</strong> las emoci<strong>on</strong>es <strong>de</strong> SUSAS<br />

Simulated para la fusión suma <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d.<br />

Mi<strong>en</strong>tras que <strong>en</strong> la Figura 61 repres<strong>en</strong>ta las curvas DET para cada una <strong>de</strong> las emoci<strong>on</strong>es <strong>de</strong><br />

SUSAS Simulated para AMF.<br />

El rasgo más llamativo <strong>de</strong> la Tabla 36 es el estilo <strong>de</strong> habla questi<strong>on</strong> pues alcanza unas tasas<br />

<strong>de</strong> error muy bajas tanto para la fusión suma (2.2 %) como para AMF (1.08 %). Igualm<strong>en</strong>te,<br />

los estilos angry y loud también obti<strong>en</strong><strong>en</strong> porc<strong>en</strong>tajes <strong>de</strong> error muy reducidos, por <strong>de</strong>bajo <strong>de</strong>l<br />

10 %. Como vi<strong>en</strong>e si<strong>en</strong>do habitual, los estilos que ofrec<strong>en</strong> peores resultados s<strong>on</strong> c<strong>on</strong>d50 y c<strong>on</strong>d70.<br />

92<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Emoción EER ( %) fusión suma EER ( %) AMF M.R. ( %)<br />

angry 9.16 7.41 -19.1<br />

clear 25.84 14.29 -44.7<br />

c<strong>on</strong>d50 23.40 20.90 -10.68<br />

c<strong>on</strong>d70 21.12 20.48 -3.03<br />

fast 15.62 14.80 -5.25<br />

lombard 14.13 9.92 -29.79<br />

loud 10.09 4.88 -51.64<br />

neutral 25.90 23.56 -9.03<br />

questi<strong>on</strong> 2.22 1.08 -51.35<br />

slow 13.53 12.96 -4.21<br />

soft 10.39 7.73 -25.6<br />

Tabla 36: EER ( %) por emoción para ’SUSAS Simulated - fusión suma y AMF’.<br />

Figura 60: Curva DET para la fusión suma por emoción.<br />

Como se vio <strong>en</strong> la Tabla 11, <strong>en</strong> los experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor el sistema <strong>de</strong><br />

AMF parecía funci<strong>on</strong>ar relativam<strong>en</strong>te bi<strong>en</strong> excepto para los estilos <strong>de</strong> habla angry y loud. Sin<br />

embargo estos s<strong>on</strong> dos <strong>de</strong> los estilos <strong>de</strong> habla para los que AMF funci<strong>on</strong>a mejor <strong>en</strong> experim<strong>en</strong>tos<br />

<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor [Ver Tabla 36].<br />

En las Figuras 60 y 61 se repres<strong>en</strong>tan gráficam<strong>en</strong>te las curvas DET para la fusión suma<br />

y AMF por emoción respectivam<strong>en</strong>te. Llama la at<strong>en</strong>ción la similitud <strong>en</strong>tre ambas gráficas <strong>en</strong><br />

cuanto al r<strong>en</strong>dimi<strong>en</strong>to relativo por emoción. Esto implica que ambas técnicas ofrec<strong>en</strong> resultados<br />

relativos y globales similares. Así, la curva <strong>de</strong> la emoción questi<strong>on</strong> (azul disc<strong>on</strong>tinua) es la que<br />

mejores tasas c<strong>on</strong>sigue y por ello más cercana al orig<strong>en</strong> se <strong>en</strong>cu<strong>en</strong>tra. La sigu<strong>en</strong> las curvas<br />

<strong>de</strong> angry (negra), loud (negra disc<strong>on</strong>tinua) y soft (ver<strong>de</strong> disc<strong>on</strong>tinúa). También para ambas<br />

gráficas las curvas más alejadas <strong>de</strong>l orig<strong>en</strong> y por lo tanto las <strong>de</strong> peores resultados s<strong>on</strong> las <strong>de</strong> los<br />

estilos clear (roja), c<strong>on</strong>d50 (azul) y c<strong>on</strong>d70 (rosa).<br />

SUSAS Actual<br />

La distribución <strong>de</strong> los locutores aparece <strong>en</strong> la Tabla 37.<br />

• SUSAS Actual - Sistemas fr<strong>on</strong>t-<strong>en</strong>d: SVM c<strong>on</strong> estadísticos, GMM-SVM y<br />

fusión suma<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 93


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 61: Curvas DET por emoción para ’SUSAS Simulated - AMF’.<br />

Etapa<br />

Developm<strong>en</strong>t<br />

Entr<strong>en</strong>ami<strong>en</strong>to y Test<br />

Locutores<br />

f1,m1<br />

f2,m2,f3,m3,m4<br />

Tabla 37: Distribución <strong>de</strong> locutores para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor <strong>en</strong> SUSAS Actual<br />

.<br />

Al igual que <strong>en</strong> SUSAS Simulated, se <strong>en</strong>tr<strong>en</strong>an mo<strong>de</strong>los por locutor y emoción y a<strong>de</strong>más se<br />

implem<strong>en</strong>ta Leave-One-Word-Out. Los mo<strong>de</strong>los s<strong>on</strong> <strong>de</strong> la forma ⃗w loc emoc notW ordX d<strong>on</strong><strong>de</strong> loc es<br />

cada uno <strong>de</strong> los 5 locutores <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, emoc es cada una <strong>de</strong> las 5 emoci<strong>on</strong>es <strong>de</strong> SUSAS<br />

Actual y WordX es la palabra que no se usará para el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> ese mo<strong>de</strong>lo. Por<br />

ejemplo, el mo<strong>de</strong>lo ⃗w m4 f notHello será <strong>en</strong>tr<strong>en</strong>ado c<strong>on</strong> locuci<strong>on</strong>es <strong>de</strong>l locutor m4, <strong>de</strong> la emoción<br />

f (freefall) y c<strong>on</strong> todas m<strong>en</strong>os la palabra hello. El número <strong>de</strong> mo<strong>de</strong>los para SUSAS Actual por<br />

cada subsistema fr<strong>on</strong>t-<strong>en</strong>d (SVM c<strong>on</strong> estadísticos y GMM-SVM) es 5 emoci<strong>on</strong>es * 5 locutores<br />

* 35 palabras = 875mo<strong>de</strong>los.<br />

Una locución <strong>de</strong> test como por ejemplo hello2.m4f se evalúa fr<strong>en</strong>te a los sigui<strong>en</strong>tes 5<br />

mo<strong>de</strong>los: ⃗w m4emoc notHello d<strong>on</strong><strong>de</strong> emoc es cada una <strong>de</strong> las 5 emoci<strong>on</strong>es.<br />

Los datos <strong>de</strong> los locutores f1 y m1 se usan para g<strong>en</strong>erar el mo<strong>de</strong>lo UBM para el subsistema<br />

GMM-SVM.<br />

Para ambos subsistemas fr<strong>on</strong>t-<strong>en</strong>d (SVM c<strong>on</strong> estadísticos y GMM-SVM) se van a optimizar<br />

los sigui<strong>en</strong>tes parámetros:<br />

• Optimización variable M número <strong>de</strong> gaussianas (sólo subsistema GMM-SVM)<br />

• Optimización variable coste <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />

• Normalización <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos<br />

Todos los resultados que aparec<strong>en</strong> para estos tipos <strong>de</strong> experim<strong>en</strong>tos serán tras haber hecho T-<br />

normalización <strong>de</strong> puntuaci<strong>on</strong>es pues se ha visto que siempre sup<strong>on</strong>e una mejora sobre el sistema.<br />

Los parámetros <strong>de</strong>l subsistema GMM-SVM serán los primeros <strong>en</strong> ser ajustados. Se empieza<br />

c<strong>on</strong> la normalización <strong>de</strong> los vectores prosódicos mant<strong>en</strong>i<strong>en</strong>do fijo el número <strong>de</strong> gaussianas M a<br />

32 y valor <strong>de</strong> coste <strong>de</strong> 1. C<strong>on</strong> ello, se obti<strong>en</strong><strong>en</strong> los valores <strong>de</strong> EER global <strong>de</strong> la Tabla 38.<br />

94<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Normalización ⃗u p EER global( %)<br />

no 19.20<br />

⃗e 20.30<br />

⃗e y ∆ ⃗ e 20.20<br />

⃗p 21.55<br />

⃗p y ∆ ⃗ p 23.68<br />

⃗e, ∆ ⃗ e , ⃗p y ∆ ⃗ p 23.78<br />

Tabla 38: EER global <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> los vectores <strong>de</strong> parámetros prosódicos normalizados para<br />

’SUSAS Actual - GMM-SVM’.<br />

El valor <strong>de</strong> M es el sigui<strong>en</strong>te <strong>en</strong> ser ajustado. Para esta tarea se manti<strong>en</strong><strong>en</strong> los vectores<br />

<strong>de</strong> parámetros prosódicos originales, es <strong>de</strong>cir, sin normalizar pues según la Tabla 38 es<br />

la que mejores resultados ofrece. La Tabla 39 ti<strong>en</strong>e los EER globales para distintos valores <strong>de</strong> M.<br />

M EER global( %)<br />

8 52.50<br />

16 17.27<br />

32 19.20<br />

64 22.70<br />

Tabla 39: EER global para ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l número <strong>de</strong> gaussinas.<br />

Por último, se varía la variable coste <strong>de</strong>l clasificador SVM habi<strong>en</strong>do usado 16 gaussianas y<br />

no normalización <strong>de</strong> los vectores <strong>de</strong> parámetros. Es <strong>de</strong>cir la c<strong>on</strong>figuración que ofrece mejores<br />

resultados. Estos resultados los po<strong>de</strong>mos ver <strong>en</strong> la Tabla 40. Los resultados se optimizan c<strong>on</strong><br />

un valor <strong>de</strong> coste <strong>de</strong> 10.<br />

Coste EER global( %)<br />

1 17.27<br />

10 15.9<br />

100 15.96<br />

Tabla 40: EER global para ’SUSAS Actual - GMM-SVM’ <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste.<br />

Una vez ajustado el subsistema <strong>de</strong> GMM-SVM es el turno <strong>de</strong> optimizar el <strong>de</strong> SVM c<strong>on</strong><br />

estadísticos. Para este subsistema únicam<strong>en</strong>te ajustaremos las variables <strong>de</strong> coste y normalización<br />

<strong>de</strong> los vectores prosódicos. Así, <strong>en</strong> la Tabla 41 aparec<strong>en</strong> los EER globales para varias<br />

normalizaci<strong>on</strong>es.<br />

Normalizando únicam<strong>en</strong>te el vector ⃗e <strong>de</strong> <strong>en</strong>ergías se c<strong>on</strong>sigu<strong>en</strong> los mejores tasas <strong>de</strong> error.<br />

[Ver Tabla 41].<br />

La Tabla 42 ofrece los resultados para varios valores <strong>de</strong> coste habiénd<strong>on</strong>os normalizado<br />

anteriorm<strong>en</strong>te el vector prosódico <strong>de</strong> <strong>en</strong>ergías. El valor <strong>de</strong> 100 <strong>de</strong> coste es el que ofrece mejores<br />

resultados <strong>de</strong> <strong>en</strong>tre los tres que hemos probado. No se han probado valores más altos pues<br />

retardaban <strong>en</strong> exceso los tiempos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los.<br />

C<strong>on</strong> todo esto, la Tabla 43 es la c<strong>on</strong>figuración final <strong>de</strong> tanto el subsistema SVM c<strong>on</strong> estadísticos<br />

como <strong>de</strong>l GMM-SVM una vez se ha hecho T-normalización <strong>de</strong> las puntuaci<strong>on</strong>es finales:<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 95


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Normalización ⃗u p EER global( %)<br />

no 21.86<br />

⃗e 19.86<br />

⃗e y ∆ ⃗ e 19.97<br />

⃗p 21.04<br />

⃗p y ∆ ⃗ p 21.80<br />

⃗e, ∆ ⃗ e , ⃗p y ∆ ⃗ p 26.45<br />

Tabla 41: EER global para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’ según los vectores prosódicos<br />

normalizados.<br />

Coste EER global( %)<br />

1 20.9<br />

10 19.86<br />

100 18.64<br />

Tabla 42: EER global <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l coste para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos’.<br />

Las curvas DET <strong>de</strong> tanto los 2 subsistemas por separado como la <strong>de</strong> la fusión suma aparec<strong>en</strong><br />

<strong>en</strong> la Figura 62.<br />

Como suele suce<strong>de</strong>r, la fusión suma c<strong>on</strong>sigue mejorar los resultados <strong>de</strong> los subsistemas<br />

individuales. Este caso <strong>en</strong> c<strong>on</strong>creto, c<strong>on</strong>sigue bajar <strong>en</strong> torno a 1 punto las tasas <strong>de</strong> error <strong>de</strong>l<br />

subsistema GMM-SVM que es el mejor <strong>de</strong> los 2.<br />

• SUSAS Actual - Fusión <strong>de</strong> Anchor Mo<strong>de</strong>ls (AMF)<br />

Las puntuaci<strong>on</strong>es <strong>de</strong> cada locución <strong>de</strong> test (ejemplo: hello2.m4f ) obt<strong>en</strong>idas tras evaluarla<br />

fr<strong>en</strong>te a los 5 mo<strong>de</strong>los <strong>de</strong> la forma ⃗w m4emoc notHello <strong>de</strong> cada uno <strong>de</strong> los subsistemas GMM-SVM<br />

y SVM c<strong>on</strong> estadísticos para c<strong>on</strong>formar un nuevo vector <strong>de</strong> parámetros. Este vector ⃗ S hello2.m4f<br />

t<strong>en</strong>drá 10 valores. Como siempre, estos nuevos vectores <strong>de</strong> parámetros ⃗ S x se usan como <strong>en</strong>trada<br />

a un clasificador SVM.<br />

Estos nuevos mo<strong>de</strong>los <strong>de</strong> la forma ⃗w ′ loc emoc notW ordX<br />

<strong>de</strong>l sistema back-<strong>en</strong>d se crean c<strong>on</strong> datos<br />

<strong>de</strong>l locutor loc y emoción emoc y c<strong>on</strong> todas la palabras m<strong>en</strong>os la WordX. Y se evalúan c<strong>on</strong> las<br />

locuci<strong>on</strong>es <strong>de</strong> ese mismo locutor y que sean <strong>de</strong> la palabra WordX.<br />

La Figura 63 c<strong>on</strong>ti<strong>en</strong>e una serie <strong>de</strong> curvas DET para varios valores <strong>de</strong> la variable coste<br />

<strong>de</strong>l clasificador back-<strong>en</strong>d SVM. Y <strong>en</strong> la Tabla 44 valores numéricos <strong>de</strong> tasas <strong>de</strong> error y DCF min .<br />

SVM<br />

estadísticos<br />

GMM-<br />

SVM<br />

Norm<br />

⃗u p<br />

M coste T-norm EER global DCF min EER medio<br />

⃗e - 100 sí 18.64 0.0902 17.05<br />

no 16 10 sí 15.90 0.0816 11.64<br />

fusión suma 15.02 0.0746 10.29<br />

Tabla 43: C<strong>on</strong>figuración y resultados optimizados para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos<br />

y GMM-SVM’.<br />

96<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 62: Curvas DET para ’SUSAS Actual - SVM c<strong>on</strong> estadísticos, GMM-SVM y fusión<br />

suma’.<br />

Figura 63: Curvas DET para ’SUSAS Actual - AMF’ y varios costes.<br />

Coste EER global( %) DCF min EER medio ( %)<br />

0.001 14.44 0.0730 13.18<br />

0.01 14.47 0.0729 12.17<br />

0.1 14.39 0.0669 11.99<br />

1 14.89 0.0725 12.38<br />

10 15.17 0.0739 12.38<br />

Tabla 44: Resultados para varios costes para ’SUSAS Actual - AMF’.<br />

Se elige el valor <strong>de</strong> coste que mejores resultados ofrece, es <strong>de</strong>cir, el <strong>de</strong> 0.1.<br />

Una vez vistos los resultados para AMF, se comparan dichos resultados c<strong>on</strong> los <strong>de</strong> la fusión<br />

suma <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d [Ver Figura 64].<br />

C<strong>on</strong> AMF se c<strong>on</strong>sigue una EER global <strong>de</strong> 14.39 % mi<strong>en</strong>tras que la fusión <strong>de</strong> los sistemas<br />

fr<strong>on</strong>t-<strong>en</strong>d obt<strong>en</strong>ía un 15.02 %. Ent<strong>on</strong>ces, AMF reduce <strong>en</strong> unas décimas la tasa <strong>de</strong> error global.<br />

Sin embargo si ahora se analizan los valores <strong>de</strong> EER medio se aprecia que AMF alcanza un<br />

11.99 % por un 10.29 % <strong>de</strong> la fusión. Es <strong>de</strong>cir, ahora AMF no mejora los resultados que ofrece la<br />

fusión suma. Se c<strong>on</strong>cluye que para SUSAS Actual el comportami<strong>en</strong>to <strong>de</strong> los sistemas fr<strong>on</strong>t-<strong>en</strong>d<br />

es muy similar al sistema back-<strong>en</strong>d <strong>de</strong> AMF.<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 97


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 64: Curvas DET para ’SUSAS Actual - fusión suma y AMF’.<br />

Por último, la Tabla 45 analiza los EER medio por emoción <strong>de</strong> tanto la fusión suma <strong>de</strong> los<br />

dos sistemas fr<strong>on</strong>t-<strong>en</strong>d, como <strong>de</strong>l sistema back-<strong>en</strong>d <strong>de</strong> AMF, como <strong>de</strong> la mejora relativa <strong>de</strong> este<br />

último sobre el primero.<br />

Emoción EER ( %) fusión suma EER ( %) AMF M.R. ( %)<br />

neutral 15.23 19.74 +29.61<br />

medst 22.79 17.42 -23.56<br />

hist 19.85 19.34 -2.08<br />

freefall 20.97 18.43 -12.11<br />

scream 5.72 6.37 +11.36<br />

Tabla 45: EER ( %) por emoción para ’SUSAS Actual - fusión suma y AMF’.<br />

En la Figura 65 aparec<strong>en</strong> las curvas DET para cada una <strong>de</strong> las emoci<strong>on</strong>es <strong>de</strong> SUSAS Actual<br />

para la fusión suma <strong>de</strong> los subsistemas fr<strong>on</strong>t-<strong>en</strong>d.<br />

Figura 65: Curvas DET por emoción para ’SUSAS Actual - fusión suma’.<br />

Mi<strong>en</strong>tras que <strong>en</strong> la Figura 66 repres<strong>en</strong>ta las curvas DET para cada una <strong>de</strong> las emoci<strong>on</strong>es <strong>de</strong><br />

SUSAS Actual para AMF.<br />

El estilo <strong>de</strong> habla que c<strong>on</strong> difer<strong>en</strong>cia ofrece mejores resultados para SUSAS Actual es según<br />

98<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

Figura 66: Curvas DET por emoción para ’SUSAS Actual - AMF’.<br />

la Tabla 45, scream. Alcanza unas tasas <strong>de</strong> error muy bajas tanto para la fusión suma (5.72 %)<br />

como para AMF (6.37 %). Los <strong>de</strong>más (neutra, medst, hist y freefall) obti<strong>en</strong><strong>en</strong> resultados<br />

similares <strong>en</strong> torno al 15 %.<br />

El sistema <strong>de</strong> AMF parece funci<strong>on</strong>ar mejor para aquellas emoci<strong>on</strong>es que peor resultados<br />

obti<strong>en</strong><strong>en</strong>. Así, para medst, hist y freefall la técnica <strong>de</strong> AMF mejora c<strong>on</strong> respecto a la fusión<br />

suma, sobre todo para el estilo medst [Ver Tabla 45].<br />

En las Figuras 65 y 66 se repres<strong>en</strong>tan gráficam<strong>en</strong>te las curvas DET para la fusión suma y<br />

AMF por emoción respectivam<strong>en</strong>te. Lo que más llama la at<strong>en</strong>ció a primera vista para ambas<br />

gráficas es que la emoción scream es c<strong>on</strong> difer<strong>en</strong>cia la que m<strong>en</strong>ores tasas <strong>de</strong> error produce.<br />

Tras analizar los resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor, se pres<strong>en</strong>ta <strong>en</strong> la Tabla 46 una<br />

recopilación <strong>de</strong> los mejores EER medio para SUSAS Simulated y Actual.<br />

base <strong>de</strong> datos fr<strong>on</strong>t-<strong>en</strong>d/back-<strong>en</strong>d EER medio ( %)<br />

SUSAS Simulated<br />

fr<strong>on</strong>t-<strong>en</strong>d(fusión suma) 12.15<br />

back-<strong>en</strong>d (AMF) 8.26<br />

SUSAS Actual<br />

fr<strong>on</strong>t-<strong>en</strong>d(fusión suma) 10.29<br />

back-<strong>en</strong>d (AMF) 11.99<br />

Tabla 46: EER medio ( %) para las 3 bases <strong>de</strong> datos para experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor.<br />

Vi<strong>en</strong>do la Tabla 28 <strong>de</strong> resum<strong>en</strong>, el sistema <strong>de</strong> fusión suma es más robusto para la base <strong>de</strong><br />

datos SUSAS Actual mi<strong>en</strong>tras que AMF lo es para SUSAS Simulated.<br />

Ah3R1<br />

En un principio se int<strong>en</strong>tar<strong>on</strong> realizar experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para la base<br />

<strong>de</strong> datos Ah3R1. Sin embargo los resultados obt<strong>en</strong>idos fuer<strong>on</strong> mucho peores al <strong>de</strong>l resto <strong>de</strong><br />

bases <strong>de</strong> datos para este mismo tipo <strong>de</strong> experim<strong>en</strong>tos. La razón <strong>de</strong> dichos malos resultados<br />

posiblem<strong>en</strong>te sea que dada la escasez <strong>de</strong> datos <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to por cada locutor y emoción<br />

que ofrece Ah3R1, no se c<strong>on</strong>sigue <strong>en</strong>tr<strong>en</strong>ar mo<strong>de</strong>los correctam<strong>en</strong>te adaptados a cada locutor.<br />

Se espera que progresivam<strong>en</strong>te vayan estando disp<strong>on</strong>ibles difer<strong>en</strong>tes versi<strong>on</strong>es <strong>de</strong> esta base <strong>de</strong><br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS 99


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

datos ofreci<strong>en</strong>do así más volum<strong>en</strong> <strong>de</strong> información por locutor. Si así suce<strong>de</strong>, se c<strong>on</strong>seguirá más<br />

robustez <strong>en</strong> experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor para esta base <strong>de</strong> datos.<br />

100<br />

CAPÍTULO 5. PRUEBAS Y RESULTADOS


6<br />

C<strong>on</strong>clusi<strong>on</strong>es y Trabajo futuro<br />

101


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

6.1. C<strong>on</strong>clusi<strong>on</strong>es<br />

Este trabajo se ha focalizado <strong>en</strong> la evaluación y <strong>de</strong>sarrollo <strong>de</strong> sistemas para el rec<strong>on</strong>ocimi<strong>en</strong>to<br />

automático <strong>de</strong> emoci<strong>on</strong>es <strong>en</strong> el habla. Nuestros resultados s<strong>on</strong> similares a los obt<strong>en</strong>idos <strong>en</strong> el<br />

estado <strong>de</strong>l arte, incluso <strong>en</strong> algunos casos s<strong>on</strong> c<strong>on</strong>si<strong>de</strong>rablem<strong>en</strong>te mejores.<br />

Parte <strong>de</strong> esta evaluación c<strong>on</strong>sistió <strong>en</strong> la realización <strong>de</strong> experim<strong>en</strong>tos <strong>en</strong> los que se examinó<br />

<strong>de</strong>s<strong>de</strong> la influ<strong>en</strong>cia <strong>de</strong> ciertas variables <strong>en</strong> el comportami<strong>en</strong>to <strong>de</strong>l sistema, hasta su<br />

r<strong>en</strong>dimi<strong>en</strong>to tras la implem<strong>en</strong>tación <strong>de</strong> distintos tipos <strong>de</strong> normalizaci<strong>on</strong>es <strong>de</strong> tanto los vectores<br />

paramétricos como <strong>de</strong> las puntuaci<strong>on</strong>es.<br />

Las variables ajustadas fuer<strong>on</strong> por un lado el coste <strong>de</strong>l <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y el número <strong>de</strong> mezclas<br />

gaussianas M. El coste no ha seguido un comportami<strong>en</strong>to regular <strong>en</strong> cuanto a los resultados, la<br />

única influ<strong>en</strong>cia ha sido sobre el tiempo empleado <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los. Aunque<br />

la elección <strong>de</strong> un valor alto <strong>de</strong> M implica una mejor adaptación a los resultados, no siempre<br />

ha sido posible por la escasez <strong>de</strong> datos disp<strong>on</strong>ibles. Por otro lado, se realizar<strong>on</strong> dos tipos <strong>de</strong><br />

normalizaci<strong>on</strong>es. Una, la T-norm, sobre las puntuaci<strong>on</strong>es, la cual mostró siempre una leve<br />

mejora <strong>en</strong> el comportami<strong>en</strong>to <strong>de</strong>l sistema. La otra, sobre los vectores <strong>de</strong> parámetros prosódicos,<br />

comprueba que los únicos vectores sobre los que su normalización logra mejorar los resultados<br />

s<strong>on</strong> el vector <strong>de</strong> <strong>en</strong>ergías ⃗e y su velocidad ⃗ ∆ e .<br />

Para experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos, la nueva técnica <strong>de</strong> AMF logra mejorar los<br />

resultados <strong>de</strong> la fusión suma <strong>en</strong> todos los casos m<strong>en</strong>os para experim<strong>en</strong>tos in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes<br />

<strong>de</strong> locutor sobre la base <strong>de</strong> datos SUSAS Actual. Mi<strong>en</strong>tras que <strong>en</strong> experim<strong>en</strong>tos Inter-Base<br />

<strong>de</strong> datos AMF siempre supera a la fusión suma. Para estos últimos experim<strong>en</strong>tos existe un<br />

mayor número <strong>de</strong> mo<strong>de</strong>los Cohorte y por lo tanto la dim<strong>en</strong>sión <strong>de</strong> los Anchor Mo<strong>de</strong>ls es<br />

mayor. Una mayor dim<strong>en</strong>sión implica que sea más probable la discriminación <strong>en</strong>tre emoci<strong>on</strong>es<br />

que para un número pequeño <strong>de</strong> emoci<strong>on</strong>es como ocurre <strong>en</strong> los experim<strong>en</strong>tos Intra-Base <strong>de</strong> datos.<br />

La teoría anterior se vuelve a comprobar si comparamos los resultados para el sistema<br />

AMF formado a partir <strong>de</strong> los resultados <strong>de</strong> los dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d y el otro, formado a<br />

partir <strong>de</strong> los dos subsistemas fr<strong>on</strong>t-<strong>en</strong>d a<strong>de</strong>más <strong>de</strong> su fusión suma. Este último AMF, al t<strong>en</strong>er<br />

vectores <strong>de</strong> mayor dim<strong>en</strong>sión obti<strong>en</strong>e inferiores tasas <strong>de</strong> error que el primero. Por ejemplo para<br />

la base <strong>de</strong> datos SUSAS Simulated se pasa <strong>de</strong> un 28.8 % <strong>de</strong> EER medio a un 26.29 %.<br />

Las mejoras relativas más importantes <strong>de</strong> AMF sobre la fusión suma se logran <strong>en</strong> la base <strong>de</strong><br />

datos SUSAS Simulated pues al t<strong>en</strong>er más emoci<strong>on</strong>es que el resto <strong>de</strong> bases <strong>de</strong> datos, es d<strong>on</strong><strong>de</strong><br />

más dim<strong>en</strong>si<strong>on</strong>es <strong>de</strong> los Anchor Mo<strong>de</strong>ls se ti<strong>en</strong>e.<br />

No todas las emoci<strong>on</strong>es se comportan <strong>de</strong> igual manera. Así, <strong>en</strong> pruebas in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes<br />

<strong>de</strong> locutor, AMF mejora m<strong>en</strong>os o empeora más c<strong>on</strong> respecto a la fusión suma <strong>en</strong> aquellas<br />

emoci<strong>on</strong>es que se caracterizan por t<strong>en</strong>er valores altos <strong>de</strong> <strong>en</strong>ergía y <strong>de</strong> su variación como s<strong>on</strong><br />

angry, loud para SUSAS Simulated, scream para SUSAS Actual y exaltado para Ah3R1.<br />

También, las emoci<strong>on</strong>es que m<strong>en</strong>ores tasas <strong>de</strong> error ofrec<strong>en</strong> s<strong>on</strong> aquellas que se caracterizan<br />

por gran<strong>de</strong>s variaci<strong>on</strong>es <strong>de</strong> <strong>en</strong>ergía y pitch ya que s<strong>on</strong> justam<strong>en</strong>te estos dos parámetros c<strong>on</strong> los<br />

que hemos caracterizado la señal <strong>de</strong> <strong>voz</strong>. Éstas s<strong>on</strong>: angry y questi<strong>on</strong> <strong>en</strong> SUSAS Simulated,<br />

scream <strong>en</strong> SUSAS Actual y exaltado <strong>en</strong> Ah3R1. Así, por ejemplo, la emoción scream pres<strong>en</strong>ta<br />

un EER cercano al 5 % o mejor aún, la emoción questi<strong>on</strong> llega a alcanzar el 1.08 % <strong>en</strong><br />

experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor.<br />

Cabe <strong>de</strong>stacar los resultados <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor alcanzados mediante la fusión <strong>de</strong>l<br />

sistema SVM c<strong>on</strong> estadísticos y el sistema híbrido GMM-SVM y mediante la fusión <strong>de</strong> Anchor<br />

Mo<strong>de</strong>ls para la base <strong>de</strong> datos SUSAS Simulated. Los resultados pres<strong>en</strong>tan un EER medio <strong>de</strong>l<br />

102<br />

CAPÍTULO 6. CONCLUSIONES Y TRABAJO FUTURO


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

12.15 % y 8.26 % respectivam<strong>en</strong>te. Estos resultados sitúan a nuestros sistemas <strong>en</strong> una muy<br />

bu<strong>en</strong>a posición <strong>en</strong> el estado <strong>de</strong>l arte actual.<br />

Los resultados <strong>de</strong> los experim<strong>en</strong>tos <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor s<strong>on</strong> c<strong>on</strong>si<strong>de</strong>rablem<strong>en</strong>te mejores<br />

que los in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> locutor pues eliminan la variabilidad <strong>de</strong> locutor. De esta manera,<br />

al tratar c<strong>on</strong> datos <strong>de</strong> un solo locutor, éstos abarcan mucha m<strong>en</strong>os diversidad <strong>de</strong> habla que si<br />

manéjasemos datos <strong>de</strong> todos los locutores.<br />

La base <strong>de</strong> datos que ofrece mejores resultados es SUSAS Simulated pues, aunque éstos<br />

s<strong>on</strong> similares a los obt<strong>en</strong>idos sobre SUSAS Actual, se compr<strong>en</strong><strong>de</strong> <strong>de</strong> 11 emoci<strong>on</strong>es por solo 5 <strong>de</strong><br />

SUSAS Actual y por lo tanto la tarea <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es se hace más difícil. Sin<br />

embargo, los resultados más realísticos serían los obt<strong>en</strong>idos sobre SUSAS Actual y Ah3R1 pues<br />

c<strong>on</strong>ti<strong>en</strong><strong>en</strong> datos reales y esp<strong>on</strong>táneas mi<strong>en</strong>tras que los SUSAS Simulated están posiblem<strong>en</strong>te<br />

exagerados.<br />

Por lo g<strong>en</strong>eral los resultados s<strong>on</strong> muy satisfactorios si los comparamos c<strong>on</strong> el estado <strong>de</strong>l<br />

arte actual, más aún si t<strong>en</strong>emos <strong>en</strong> cu<strong>en</strong>ta que el rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es es un campo<br />

nuevo <strong>en</strong> el grupo <strong>ATVS</strong>.<br />

Los resultados obt<strong>en</strong>idos <strong>en</strong> este proyecto han dado lugar a dos publicaci<strong>on</strong>es aceptadas y<br />

a la espera <strong>de</strong> ser publicadas <strong>en</strong> c<strong>on</strong>gresos internaci<strong>on</strong>ales:<br />

• Lopez-Mor<strong>en</strong>o, I., Ortego-Resa C., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>n<br />

emoti<strong>on</strong> recogniti<strong>on</strong> using prosodic supervectors”, 2009.<br />

• Ortego-Resa C., Lopez-Mor<strong>en</strong>o, I., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Anchor mo<strong>de</strong>l<br />

fusi<strong>on</strong> for emoti<strong>on</strong> recogniti<strong>on</strong> in speech”, 2009.<br />

CAPÍTULO 6. CONCLUSIONES Y TRABAJO FUTURO 103


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

6.2. Trabajo futuro<br />

A partir <strong>de</strong>l pres<strong>en</strong>te trabajo, exist<strong>en</strong> varias líneas <strong>de</strong> investigación <strong>en</strong> el campo <strong>de</strong> las<br />

emoci<strong>on</strong>es <strong>en</strong> el habla. Una <strong>de</strong> ellas sería buscar el tipo <strong>de</strong> parametrización óptima para la<br />

discriminación <strong>en</strong>tre emoci<strong>on</strong>es. Un primer paso sería la combinación <strong>de</strong> parámetros prosódicos<br />

y acústicos así como añadir rasgos <strong>de</strong> acceleración a los vectores prosódicos <strong>de</strong> <strong>en</strong>ergía y pitch.<br />

También resulta interesante aplicar las técnicas <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> emoci<strong>on</strong>es para tareas<br />

<strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> locutor a través <strong>de</strong> <strong>voz</strong> emoci<strong>on</strong>al o rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> habla emoci<strong>on</strong>al.<br />

Estas tareas aunque no c<strong>on</strong>sist<strong>en</strong> explícitam<strong>en</strong>te <strong>en</strong> clasificar emoci<strong>on</strong>es, sí requier<strong>en</strong> el uso <strong>de</strong><br />

sus técnicas.<br />

Por último, otra línea futura <strong>de</strong> trabajo sería añadir el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los SVM<br />

basados <strong>en</strong> regresión, épsil<strong>on</strong>-SVR. Esta es una <strong>de</strong> las investigaci<strong>on</strong>es más importantes llevadas<br />

a cabo <strong>en</strong> el campo <strong>de</strong> rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong> locutor y que podría migrar a rec<strong>on</strong>ocimi<strong>en</strong>to <strong>de</strong><br />

emoci<strong>on</strong>es logrando bu<strong>en</strong>os resultados.<br />

104<br />

CAPÍTULO 6. CONCLUSIONES Y TRABAJO FUTURO


Bibliografía<br />

[1] Anil K. Jain and David Malt<strong>on</strong>i, Handbook of Fingerprint Recogniti<strong>on</strong>, Springer-Verlag<br />

New York, Inc., Secaucus, NJ, USA, 2003.<br />

[2] Dimitrios Ververidis and C<strong>on</strong>stantine Kotropoulos, “Emoti<strong>on</strong>al speech recogniti<strong>on</strong>: Resources,<br />

features, and methods”, Speech Communicati<strong>on</strong>, vol. 48, no. 9, pp. 1162 – 1181,<br />

2006.<br />

[3] Alvin Martin, George Doddingt<strong>on</strong>, Terri Kamm, Mark Ordowski, and Mark Przybocki,<br />

“The <strong>de</strong>t curve in assessm<strong>en</strong>t of <strong>de</strong>tecti<strong>on</strong> task performance”, in Proc. Eurospeech ’97,<br />

Rho<strong>de</strong>s, Greece, 1997, pp. 1895–1898.<br />

[4] Roland Auck<strong>en</strong>thaler, Michael Carey, and Harvey Lloyd-Thomas, “Score normalizati<strong>on</strong> for<br />

text-in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt speaker verificati<strong>on</strong> systems”, Digital Signal Processing, vol. 10, no. 1-3,<br />

pp. 42 – 54, 2000.<br />

[5] Zhih<strong>on</strong>g Z<strong>en</strong>g, M. Pantic, G. I. Roisman, and T. S. Huang, “A survey of affect recogniti<strong>on</strong><br />

methods: Audio, visual, and sp<strong>on</strong>taneous expressi<strong>on</strong>s”, Pattern Analysis and Machine<br />

Intellig<strong>en</strong>ce, IEEE Transacti<strong>on</strong>s <strong>on</strong>, vol. 31, no. 1, pp. 39–58, 2009.<br />

[6] Bjöern Schuller, R<strong>on</strong>ald Müeller, B<strong>en</strong>edikt Höernler, Anja Höethker, Hitoshi K<strong>on</strong>osu, and<br />

Gerhard Rigoll, “Audiovisual recogniti<strong>on</strong> of sp<strong>on</strong>taneous interest within c<strong>on</strong>versati<strong>on</strong>s”, in<br />

ICMI ’07: Proceedings of the 9th internati<strong>on</strong>al c<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong> Multimodal interfaces, New<br />

York, NY, USA, 2007, pp. 30–37, ACM.<br />

[7] D. G. Chil<strong>de</strong>rs and Ke Wu, “G<strong>en</strong><strong>de</strong>r recogniti<strong>on</strong> from speech. part ii: Fine analysis”, The<br />

Journal of the Acoustical Society of America, vol. 90, no. 4, pp. 1841–1856, 1991.<br />

[8] T. Bocklet, A. Maier, J.G. Bauer, F. Burkhardt, and E.Ñoth, “Age and g<strong>en</strong><strong>de</strong>r recogniti<strong>on</strong><br />

for teleph<strong>on</strong>e applicati<strong>on</strong>s based <strong>on</strong> gmm supervectors and support vector machines”, in<br />

Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce<br />

<strong>on</strong>, 31 2008-April 4 2008, pp. 1605–1608.<br />

[9] Carl E. Williams and K<strong>en</strong>nethÑ. Stev<strong>en</strong>s, “Emoti<strong>on</strong>s and speech: Some acoustical correlates”,<br />

The Journal of the Acoustical Society of America, vol. 52, no. 4B, pp. 1238–1250,<br />

1972.<br />

[10] J.H.L. Hans<strong>en</strong> and S. Patil, “Speech un<strong>de</strong>r stress: Analysis, mo<strong>de</strong>ling and recogniti<strong>on</strong>”,<br />

in Speaker Classificati<strong>on</strong> (1). 2007, vol. 4343 of Lecture Notes in Computer Sci<strong>en</strong>ce, pp.<br />

108–137, Springer.<br />

[11] J.H.L. Hans<strong>en</strong>, “Evaluati<strong>on</strong> of acoustic correlates of speech un<strong>de</strong>r stress for robust speech<br />

recogniti<strong>on</strong>”, Mar 1989, pp. 31–32.<br />

[12] B. Schuller, G. Rigoll, and M. Lang, “Speech emoti<strong>on</strong> recogniti<strong>on</strong> combining acoustic<br />

features and linguistic informati<strong>on</strong> in a hybrid support vector machine-belief network architecture”,<br />

in Acoustics, Speech, and Signal Processing, 2004. Proceedings. (ICASSP ’04).<br />

IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong>, May 2004, vol. 1, pp. I–577–80 vol.1.<br />

[13] C. Pereira, “Dim<strong>en</strong>si<strong>on</strong>s of emoti<strong>on</strong>al meaning in speech”, 2000.<br />

105


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

[14] Rodman R.D. Erikss<strong>on</strong>, E.J. and R.C. Hubal, “Emoti<strong>on</strong>s in speech: Juristic implicati<strong>on</strong>s”,<br />

in Speaker Classificati<strong>on</strong> (1). 2007, vol. 4343 of Lecture Notes in Computer Sci<strong>en</strong>ce, pp.<br />

152–173, Springer.<br />

[15] Daniel Neiberg1, Kjell El<strong>en</strong>ius, and Kornel Laskowski, “Emoti<strong>on</strong> recogniti<strong>on</strong> in sp<strong>on</strong>taneous<br />

speech using gmms”, in Interspeech 2006, 2006.<br />

[16] A. P. Dempster, N. M. Laird, and D. B. Rubin, “Maximum likelihood from incomplete data<br />

via the em algorithm”, Journal of the Royal Statistical Society. Series B (Methodological),<br />

vol. 39, no. 1, pp. 1–38, 1977.<br />

[17] Bogdan Vlas<strong>en</strong>ko, “Combining frame and turn-level informati<strong>on</strong> for robust recogniti<strong>on</strong> of<br />

emoti<strong>on</strong>s within speech”, in Interspeech 2007.<br />

[18] Navas E. Hernáez I. Lu<strong>en</strong>go, I. and J. Sánchez, “Automatic emoti<strong>on</strong> recogniti<strong>on</strong> using<br />

prosodic parameters”, in Interspeech 2005.<br />

[19] Vladimir Vapnik, The nature of statistical learning theory, Springer-Verlag New York, Inc.,<br />

New York, NY, USA, 1995.<br />

[20] Oh-Wook Kw<strong>on</strong>, Kwokleung Chan, Jiucang Hao, and Te-W<strong>on</strong> Lee, “Emoti<strong>on</strong> recogniti<strong>on</strong><br />

by speech signals”, in EUROSPEECH-2003, 2003, pp. 125–128.<br />

[21] Iker Lu<strong>en</strong>go, Eva Navas, Inmaculada Hernáez, and J<strong>on</strong> Sánchez, “Automatic emoti<strong>on</strong><br />

recogniti<strong>on</strong> using prosodic parameters”, in EUROSPEECH 2005.<br />

[22] Björn Schuller, Ant<strong>on</strong> Batliner, Dino Seppi, Stefan Steidl, Thurid Vogt, Johannes Wagner,<br />

Laur<strong>en</strong>ce Devillers, Laur<strong>en</strong>ce Vidrascu, Noam Amir, Loic Kessous, and Vered Ahar<strong>on</strong>s<strong>on</strong>,<br />

“The relevance of feature type for the automatic classificati<strong>on</strong> of emoti<strong>on</strong>al user states:<br />

Low level <strong>de</strong>scriptors and functi<strong>on</strong>als”, in Proceedings of Interspeech, Antwerp, Belgium,<br />

August 2007.<br />

[23] Hao Hu, Ming-Xing Xu, and Wei Wu, “Gmm supervector based svm with spectral features<br />

for speech emoti<strong>on</strong> recogniti<strong>on</strong>”, in Acoustics, Speech and Signal Processing, 2007. ICASSP<br />

2007. IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong>, 2007, vol. 4, pp. IV–413–IV–416.<br />

[24] W.M. Campbell, D.E. Sturim, D.A. Reynolds, and A. Solom<strong>on</strong>off, “Svm based speaker<br />

verificati<strong>on</strong> using a gmm supervector kernel and nap variability comp<strong>en</strong>sati<strong>on</strong>”, May 2006,<br />

vol. 1, pp. I–I.<br />

[25] Ortego-Resa C. G<strong>on</strong>zalez-Rodriguez J. Ramos D. Lopez-Mor<strong>en</strong>o, I., “Speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />

emoti<strong>on</strong> recogniti<strong>on</strong> using prosodic supervectors”, 2009.<br />

[26]<br />

V.Ñ. Vapnik and A. Ya. Cherv<strong>on</strong><strong>en</strong>kis, “On the uniform c<strong>on</strong>verg<strong>en</strong>ce of relative frequ<strong>en</strong>cies<br />

of ev<strong>en</strong>ts to their probabilities”, Theory of Probability and its Applicati<strong>on</strong>s, vol. 16, no. 2,<br />

pp. 264–280, 1971.<br />

[27] I. Lopez-Mor<strong>en</strong>o, D. Ramos, J. G<strong>on</strong>zalez-Rodriguez, and D. T. Toledano, “Anchor-mo<strong>de</strong>l<br />

fusi<strong>on</strong> for language recogniti<strong>on</strong>”, in Proceedings of Interspeech 2008, September 2008.<br />

[28] Lopez-Mor<strong>en</strong>o I. G<strong>on</strong>zalez-Rodriguez J. Ramos D. Ortego-Resa, C., “Anchor mo<strong>de</strong>l fusi<strong>on</strong><br />

for emoti<strong>on</strong> recogniti<strong>on</strong> in speech”, 2009.<br />

[29] Hua Yu and Jie Yang, “A direct lda algorithm for high-dim<strong>en</strong>si<strong>on</strong>al data – with applicati<strong>on</strong><br />

to face recogniti<strong>on</strong>”, Pattern Recogniti<strong>on</strong>, vol. 34, no. 10, pp. 2067 – 2070, 2001.<br />

[30] Tin Lay Nwe, Say Wei Foo, and L.C. De Silva, “Classificati<strong>on</strong> of stress in speech using<br />

linear and n<strong>on</strong>linear features”, April 2003, vol. 2, pp. II–9–12 vol.2.<br />

[31] J.H.L. Hans<strong>en</strong> and S.E. Bou-Ghazale, “Getting started with susas: a speech un<strong>de</strong>r simulated<br />

and actual stress database”, in EUROSPEECH-1997, 1997, pp. 1743–1746.<br />

106 BIBLIOGRAFÍA


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

[32] John H. L. Hans<strong>en</strong>, SUSAS, Linguistic Data C<strong>on</strong>sortium, 1999.<br />

[33] D. Ramos, J. G<strong>on</strong>zalez-Rodriguez, J. G<strong>on</strong>zalez-Dominguez, and J. J. Luc<strong>en</strong>a-Molina, “Addressing<br />

database mismatch in for<strong>en</strong>sic speaker recogniti<strong>on</strong> with ahumada iii: a public<br />

real-case database in spanish”, in Proceedings of Interspeech 2008, September 2008, pp.<br />

1493–1496.<br />

[34] J. Ortega-Garcia, J. G<strong>on</strong>zalez-Rodriguez, and V. Marrero-Aguiar, “Ahumada: a large<br />

speech corpus in spanish for speaker characterizati<strong>on</strong> and i<strong>de</strong>ntificati<strong>on</strong>”, Speech Communicati<strong>on</strong>,<br />

vol. 31, pp. 255–264, June 2000.<br />

[35] M. Grimm, K. Kroschel, and S.Ñarayanan, “Support vector regressi<strong>on</strong> for automatic recogniti<strong>on</strong><br />

of sp<strong>on</strong>taneous emoti<strong>on</strong>s in speech”, in Acoustics, Speech and Signal Processing,<br />

2007. ICASSP 2007. IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong>, 2007, vol. 4, pp. IV–1085–IV–<br />

1088.<br />

[36] P. Boersma and D. We<strong>en</strong>ink, “Praat: doing ph<strong>on</strong>etics by computer (versi<strong>on</strong> 5.1.04) [computer<br />

program]”, Ap 2009, http://www.praat.org/.<br />

[37] Nello Cristianini, “Kernel methods for pattern analysis”, in ICTAI ’03: Proceedings of the<br />

15th IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong> Tools with Artificial Intellig<strong>en</strong>ce, Washingt<strong>on</strong>, DC,<br />

USA, 2003, p. .21, IEEE Computer Society.<br />

[38] R<strong>on</strong> Kohavi, “A study of cross-validati<strong>on</strong> and bootstrap for accuracy estimati<strong>on</strong> and mo<strong>de</strong>l<br />

selecti<strong>on</strong>”, 1995, pp. 1137–1143, Morgan Kaufmann.<br />

BIBLIOGRAFÍA 107


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

108 BIBLIOGRAFÍA


Glosario <strong>de</strong> acrónimos<br />

AMF: Anchor Mo<strong>de</strong>l Fusi<strong>on</strong><br />

ANN: Artificial Neural Networks<br />

DCF: Detecti<strong>on</strong> Cost Functi<strong>on</strong><br />

EER: Equal Error Rate<br />

EM: Expectati<strong>on</strong>-Maximizati<strong>on</strong><br />

FA: Falsa Aceptación<br />

FR: Falso Rechazo<br />

GMM: Gaussian Mixture Mo<strong>de</strong>l<br />

HMM: Hid<strong>de</strong>n Markov Mo<strong>de</strong>l<br />

LDA: Linear discriminant analysis<br />

LDC: Linguistic Data C<strong>on</strong>sortium<br />

LFPC: Low Frecu<strong>en</strong>cy Power Coeffici<strong>en</strong>ts<br />

MAP: Maximum A Posteriori<br />

MFCC: Mel-Frequ<strong>en</strong>cy Cepstral Coeffici<strong>en</strong>ts<br />

NIST: Nati<strong>on</strong>al Institute of Standards and Technology<br />

ROC: Receiver Operating Curve<br />

SDC: Shifted Delta Cepstral<br />

SRE: Speaker Recogniti<strong>on</strong> Evaluati<strong>on</strong><br />

SUSAS: Speech Un<strong>de</strong>r Simulated and Actual Stress<br />

SVM: Support Vector Machine<br />

T-norm: Test Normalizati<strong>on</strong><br />

UBM: Universal Background Mo<strong>de</strong>l<br />

VAD: Voice Activity Detector<br />

Z-norm: Zero Normalizati<strong>on</strong><br />

109


A<br />

Anexo: publicaci<strong>on</strong>es<br />

Publicaci<strong>on</strong>es <strong>en</strong> c<strong>on</strong>gresos internaci<strong>on</strong>ales (aceptadas y a la espera <strong>de</strong> ser<br />

publicadas)<br />

• Lopez-Mor<strong>en</strong>o, I., Ortego-Resa C., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />

emoti<strong>on</strong> recogniti<strong>on</strong> using prosodic supervectors”, 2009.<br />

• Ortego-Resa C., Lopez-Mor<strong>en</strong>o, I., G<strong>on</strong>zalez-Rodriguez J., Ramos D. , “Anchor mo<strong>de</strong>l<br />

fusi<strong>on</strong> for emoti<strong>on</strong> recogniti<strong>on</strong> in speech”, 2009.<br />

111


Speaker Dep<strong>en</strong><strong>de</strong>nt Emoti<strong>on</strong> Recogniti<strong>on</strong> Using Prosodic Supervectors<br />

Ignacio Lopez-Mor<strong>en</strong>o, Carlos Ortego-Resa, Joaquin G<strong>on</strong>zalez-Rodriguez and Daniel Ramos<br />

<strong>ATVS</strong> Biometric Recogniti<strong>on</strong> Group, <strong>Universidad</strong> Aut<strong>on</strong>oma <strong>de</strong> Madrid, Spain<br />

ignacio.lopez@uam.es<br />

Abstract<br />

This work pres<strong>en</strong>ts a novel approach for <strong>de</strong>tecti<strong>on</strong> of emoti<strong>on</strong>s<br />

embed<strong>de</strong>d in the speech signal. The proposed approach works<br />

at the prosodic level, and mo<strong>de</strong>ls the statistical distributi<strong>on</strong> of<br />

the prosodic features with Gaussian Mixture Mo<strong>de</strong>ls (GMM)<br />

mean-adapted from a Universal Background Mo<strong>de</strong>l (UBM).<br />

This allows the use of GMM-mean supervectors, which are<br />

classified by a Support Vector Machine (SVM). Our proposal is<br />

compared to a popular baseline, which classifies with an SVM a<br />

set of selected prosodic features from the whole speech signal.<br />

In or<strong>de</strong>r to measure the speaker inter-variability, which is a factor<br />

of <strong>de</strong>gradati<strong>on</strong> in this task, speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt and speaker<br />

in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt frameworks have be<strong>en</strong> c<strong>on</strong>si<strong>de</strong>red. Experim<strong>en</strong>ts<br />

have be<strong>en</strong> carried out un<strong>de</strong>r the SUSAS subcorpus, including<br />

real and simulated emoti<strong>on</strong>s. Results shows that in a speaker<br />

<strong>de</strong>p<strong>en</strong><strong>de</strong>nt framework our proposed approach achieves a relative<br />

improvem<strong>en</strong>t greater than 14% in Equal Error Rate (EER)<br />

with respect to the baseline approach. The relative improvem<strong>en</strong>t<br />

is greater than 17% wh<strong>en</strong> both approaches are combined<br />

together by fusi<strong>on</strong> with respect to the baseline.<br />

In<strong>de</strong>x Terms: emoti<strong>on</strong> recogniti<strong>on</strong>, speaker inter-variability,<br />

supervectors, SVMs<br />

1. Introducti<strong>on</strong><br />

Emoti<strong>on</strong> recogniti<strong>on</strong> from the speech signal is an increasingly<br />

interesting task in human-machine interacti<strong>on</strong>, with diverse applicati<strong>on</strong>s<br />

in the speech technologies field such as call c<strong>en</strong>tres,<br />

intellig<strong>en</strong>t auto-mobile systems, speaker intra-variability comp<strong>en</strong>sati<strong>on</strong><br />

or <strong>en</strong>tertainm<strong>en</strong>t industry [1]. Emoti<strong>on</strong> recogniti<strong>on</strong> is<br />

g<strong>en</strong>erally stated as a multiclass classificati<strong>on</strong> problem, where a<br />

giv<strong>en</strong> speech utterance is classified am<strong>on</strong>g n emoti<strong>on</strong>s (classes).<br />

However, it is of interest to <strong>de</strong>tect a giv<strong>en</strong> emoti<strong>on</strong> in a speech<br />

segm<strong>en</strong>t, which justifies the use of a verificati<strong>on</strong> or <strong>de</strong>tecti<strong>on</strong><br />

approach <strong>de</strong>scribed as follows: giv<strong>en</strong> a speech utterance and a<br />

target emoti<strong>on</strong>al state e from the whole n emoti<strong>on</strong>s set, the objective<br />

is to <strong>de</strong>termine whether the dominant emoti<strong>on</strong> that affect<br />

the speaker in the utterance is e or not. Thus, emoti<strong>on</strong> <strong>de</strong>tecti<strong>on</strong><br />

is ess<strong>en</strong>tially a two-class problem, where the target class is<br />

true wh<strong>en</strong> e is the dominant emoti<strong>on</strong> in the test utterance and<br />

the n<strong>on</strong>-target class is true wh<strong>en</strong> it is not. The standard architecture<br />

in such scheme is to compute a similarity measure (a<br />

score) am<strong>on</strong>g an emoti<strong>on</strong> mo<strong>de</strong>l of e and the emoti<strong>on</strong> in the test<br />

utteranace, which will be further compared to a threshold for<br />

<strong>de</strong>tecti<strong>on</strong>.<br />

Recognizing emoti<strong>on</strong>s from speech is ess<strong>en</strong>tially motivated<br />

from their nature: affective states caused by subjective judgem<strong>en</strong>ts,<br />

memories and s<strong>en</strong>sati<strong>on</strong>s frequ<strong>en</strong>tly accompanied of<br />

physical and psychological changes of the well-being s<strong>en</strong>sati<strong>on</strong>.<br />

Thus humans can recognize emoti<strong>on</strong>s by the study of those<br />

changes of the neutral states, including the semantic level of the<br />

speech, n<strong>on</strong> usual behaviours and <strong>de</strong>cisi<strong>on</strong>s, as well as other not<br />

so high cognitive levels, comm<strong>on</strong>ly more capable to be learned<br />

by machines [2].<br />

Unluckily, emoti<strong>on</strong> recogniti<strong>on</strong> from speech is a difficult<br />

task, mainly because of two reas<strong>on</strong>s. First, emoti<strong>on</strong>s does not<br />

manifest in the same way in differ<strong>en</strong>t speakers, and therefore,<br />

inter-variability of speakers seriously affects the recogniti<strong>on</strong><br />

process. Sec<strong>on</strong>d, it is difficult to <strong>de</strong>fine the target emoti<strong>on</strong>s set<br />

because the limits am<strong>on</strong>g differ<strong>en</strong>t emoti<strong>on</strong>s may not be clear<br />

for list<strong>en</strong>ers in g<strong>en</strong>eral, and several emoti<strong>on</strong>s from the c<strong>on</strong>si<strong>de</strong>red<br />

set can be simultaneously in the same utterance, or ev<strong>en</strong><br />

at the same mom<strong>en</strong>t in time. Despite the difficulty of the chall<strong>en</strong>ge,<br />

the research in the area has experim<strong>en</strong>ted an increase in<br />

the last years, which has motivated the availability of emoti<strong>on</strong>al<br />

labeled speech corpora. Most popular <strong>on</strong>es are FAU AIBO<br />

Emoti<strong>on</strong> Corpus [3], SUSAS, EMO-DB, ISL meeting corpus,<br />

Danish Emoti<strong>on</strong>al Speech Database [4] and rec<strong>en</strong>tly Ahumada<br />

III [5].<br />

In this work, we pres<strong>en</strong>t a novel method for emoti<strong>on</strong>s <strong>de</strong>tecti<strong>on</strong><br />

based <strong>on</strong> Gaussian Mixture Mo<strong>de</strong>ls (GMM) of short-term<br />

prosodic features, whose supervectors are further classified with<br />

Support Vector Machines (SVM). Moreover, we pres<strong>en</strong>t results<br />

of the fusi<strong>on</strong> of the proposed system with a baseline, based <strong>on</strong><br />

a popular approach of mo<strong>de</strong>lling utterance-level prosodic features<br />

with SVM. We show that the proposed approach, namely<br />

prosodic SVM-GMM, mo<strong>de</strong>ls distances am<strong>on</strong>g complete join<br />

probability distributi<strong>on</strong>s of the prosodic features, and not <strong>on</strong>ly<br />

with some significant values, as happ<strong>en</strong> with the baseline system.<br />

Moreover, the fusi<strong>on</strong> of both systems significantly improves<br />

the performance of proposed approach, which indicates<br />

uncorrelated informati<strong>on</strong> am<strong>on</strong>g both methods. We evaluate<br />

the proposed system in a speaker-<strong>de</strong>p<strong>en</strong><strong>de</strong>nt and a speakerin<strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />

sc<strong>en</strong>ario. Experim<strong>en</strong>ts are pres<strong>en</strong>ted using the<br />

SUSAS database [6].<br />

This work is organised as follows. The role of prosody and<br />

the proposed prosodic parametrizati<strong>on</strong> is <strong>de</strong>scribed in Secti<strong>on</strong><br />

2. In Secti<strong>on</strong> 3, the proposed system is <strong>de</strong>scribed in <strong>de</strong>tail, as<br />

well as the baseline and the approach for fusi<strong>on</strong> of both systems.<br />

Secti<strong>on</strong> 4 <strong>de</strong>scribes the experim<strong>en</strong>tal work which shows<br />

the a<strong>de</strong>quacy of the approach. Finally, c<strong>on</strong>clusi<strong>on</strong>s are drawn in<br />

Secti<strong>on</strong> 5.<br />

2. Prosodic features for emoti<strong>on</strong> recognit<strong>on</strong><br />

Many works had shown the relati<strong>on</strong> betwe<strong>en</strong> the variati<strong>on</strong> of<br />

speaker prosody and the informati<strong>on</strong> of their emoti<strong>on</strong>al states<br />

[7]. Therefore prosodic features are oft<strong>en</strong> c<strong>on</strong>si<strong>de</strong>red as input<br />

signals in many emoti<strong>on</strong> recogniti<strong>on</strong> systems. Frequ<strong>en</strong>t<br />

prosodic features are the fundam<strong>en</strong>tal frequ<strong>en</strong>cy (pitch), the <strong>en</strong>ergy<br />

and their velocity, also known as ∆ features [8].<br />

The proposed GMM-SVM approach in this work uses a<br />

prosodic feature extracti<strong>on</strong> scheme in the following way: the<br />

audio signal is windowed every 10ms using a 40ms Hamming


window. For every window, <strong>en</strong>ergy and log pitch values are extracted<br />

(Fig.1) using Praat [9] toolbox. In vocal segm<strong>en</strong>ts, velocity<br />

informati<strong>on</strong> is obtained as a differ<strong>en</strong>ce betwe<strong>en</strong> two c<strong>on</strong>secutive<br />

windows. Using a voice activity <strong>de</strong>tector (VAD), n<strong>on</strong>voiced<br />

segm<strong>en</strong>ts are erased by accepting <strong>on</strong>ly those windows<br />

with pitch and <strong>en</strong>ergy values higher than a threshold. As a c<strong>on</strong>sequ<strong>en</strong>ce,<br />

for every utterance u, the feature vector set c<strong>on</strong>sist<br />

of a set of d = 4 dim<strong>en</strong>si<strong>on</strong>al feature vectors, or streams ( <strong>en</strong>ergy,<br />

pitch and their ∆ features). It is possible to normalize each<br />

stream by subtracting its mean value. Energy and <strong>de</strong>lta-<strong>en</strong>ergy<br />

normalizati<strong>on</strong> have be<strong>en</strong> applied to the proposed GMM-SVM<br />

approach while <strong>on</strong>ly <strong>en</strong>ergy normalizati<strong>on</strong> for the baseline.<br />

Figure 2: Block diagram of the GMM Supervector based SVM.<br />

3.2. Baseline approach<br />

The baseline system is based <strong>on</strong> a popular scheme pres<strong>en</strong>ted<br />

in [8]. For every utterance u, the statistical distributi<strong>on</strong> of the<br />

prosodic vectors is characterized by computing n = 9 values<br />

for each <strong>on</strong>e of the prosodic streams (table 1). Thus, we obtain<br />

a L = d ∗ n fixed-l<strong>en</strong>gth feature vector per utterance. This<br />

new <strong>de</strong>rived L-dim<strong>en</strong>si<strong>on</strong>al feature space is where emoti<strong>on</strong>s are<br />

mo<strong>de</strong>led by using a <strong>on</strong>e-versus-all linear SVM (Figure 3. Note<br />

that this L-dim<strong>en</strong>si<strong>on</strong>al feature vector can be se<strong>en</strong> as the result<br />

of a kernel functi<strong>on</strong> l(u), that maps the d-dim<strong>en</strong>si<strong>on</strong>al prosodic<br />

vectors of u into a L-dim<strong>en</strong>si<strong>on</strong>al feature space.<br />

Figure 1: Block diagram of the prosodic feature extracti<strong>on</strong> module.<br />

3. A prosodic GMM-SVM approach for<br />

emoti<strong>on</strong> <strong>de</strong>tecti<strong>on</strong><br />

This secti<strong>on</strong> <strong>de</strong>tails the novel prosodic GMM-SVM system proposed<br />

in this paper, the baseline mo<strong>de</strong>lling scheme and the fusi<strong>on</strong><br />

approach for combining informati<strong>on</strong> from both systems.<br />

3.1. Proposed approach<br />

SVM-GMM supervectors have be<strong>en</strong> previously used for emoti<strong>on</strong><br />

recogniti<strong>on</strong> at the spectral level of the speech in [10]. This<br />

technique also shows an excell<strong>en</strong>t performance in speaker and<br />

language recogniti<strong>on</strong>. The main advantage of this proposed<br />

technique is that it is capable to summarize the whole probability<br />

<strong>de</strong>nsity functi<strong>on</strong> (pdf) of the feature vectors in utterance u,<br />

into a single high-dim<strong>en</strong>si<strong>on</strong>ality vector known as a GMM supervector.<br />

This supervector is obtained by the c<strong>on</strong>cat<strong>en</strong>ati<strong>on</strong> of<br />

the vectors of means of a d-dim<strong>en</strong>si<strong>on</strong>al GMM mo<strong>de</strong>l obtained<br />

from all the d-dim<strong>en</strong>si<strong>on</strong>al prosodic vectors in the utterance (<br />

Figure 2 ). The M-mixture GMM, is calculated as a Maximum<br />

a Posteriori Adaptati<strong>on</strong> (MAP) from a Universal background<br />

Mo<strong>de</strong>l (UBM), which is an standard M-mixtures GMM mo<strong>de</strong>l,<br />

trained with a large amount of <strong>de</strong>velopm<strong>en</strong>t data from all the<br />

emoti<strong>on</strong>al states available. Thus, the UBM aims at repres<strong>en</strong>ting<br />

the emoti<strong>on</strong>-in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt statistical distributi<strong>on</strong> of the features.<br />

The GMM supervector can be c<strong>on</strong>si<strong>de</strong>red as a kernel functi<strong>on</strong><br />

sv(u) that maps the prosodic features of u in a highdim<strong>en</strong>si<strong>on</strong>al<br />

vector of size L ′ = M ∗ d. This L ′ -dim<strong>en</strong>si<strong>on</strong>al<br />

supervector space is where an SVM is used to obtain a final<br />

mo<strong>de</strong>l ⃗w e of the target emoti<strong>on</strong> e. In this case the scoring functi<strong>on</strong><br />

s ′ (w e, sv(u test)) for every testing utterance u test is <strong>de</strong>fined<br />

as follows<br />

s ′ ( ⃗w e, sv(u⃗<br />

test)) = ⃗w e ∗<br />

sv(u⃗<br />

test) T<br />

Figure 3: Block diagram of the Baseline Classifier.<br />

Giv<strong>en</strong> an SVM mo<strong>de</strong>l ⃗w e of an emoti<strong>on</strong> e, the scoring functi<strong>on</strong><br />

s( ⃗w, l(u)) ⃗ for every test utterance u test is a simple dot<br />

product computed as follows:<br />

s( ⃗w e, l(u⃗<br />

test)) = ⃗w e ∗<br />

l(u⃗<br />

test) T<br />

Table 1: Statistical coeffici<strong>en</strong>ts extracted for every prosodic<br />

stream in the Baseline approach.<br />

Coeffici<strong>en</strong>ts<br />

Maximum<br />

Minimum<br />

Mean<br />

Standard <strong>de</strong>viati<strong>on</strong><br />

Median<br />

First quartile<br />

Third quartile<br />

Skewness<br />

Kurtosis<br />

On the <strong>on</strong>e hand, the similarities betwe<strong>en</strong> the proposed<br />

prosodic GMM-SVM system and the baseline are: i) Previous<br />

d-dim<strong>en</strong>si<strong>on</strong>al prosodic features vectors are used as inputs, ii)<br />

The mo<strong>de</strong>ling of their l<strong>on</strong>g-term statistical distributi<strong>on</strong> (pdf)<br />

of the vectors in u by using linear SVMs and iii) Both cases<br />

are an attempt to characterize pdf. Nevertheless, the method<br />

used to characterize pdf’s differs betwe<strong>en</strong> both pres<strong>en</strong>ted subsystem.<br />

As a c<strong>on</strong>sequ<strong>en</strong>ce, not <strong>on</strong>ly performances differ, also


uncorrelated scores are g<strong>en</strong>erated. This fact motivates a posterior<br />

subsystem fusi<strong>on</strong> in or<strong>de</strong>r to increase the final performance<br />

achieved. On the other hand, the baseline <strong>on</strong>ly uses a small set<br />

of well performing values to characterize the pdf of the vectors<br />

in every u, but probably they are not seizing the whole informati<strong>on</strong><br />

embed<strong>de</strong>d in it. Note for example that the baseline subsystem<br />

compute the n statistical values stream by stream, not using<br />

the correlated informati<strong>on</strong> am<strong>on</strong>g them.<br />

3.3. Subsystem fusin<br />

Final scores g<strong>en</strong>erated by the system are combinati<strong>on</strong>s of<br />

s ′ ( ⃗w e, sv(u test)) and s( ⃗w e, sv(u test)). Combinati<strong>on</strong> is performed<br />

as a sum fusi<strong>on</strong> prece<strong>de</strong>d of a test normalizati<strong>on</strong> (Tnorm<br />

[ref]) stage, which fosters a similar range of the scores of both<br />

subsystems. Tnrom cohort is form by the whole set of emoti<strong>on</strong>s<br />

mo<strong>de</strong>ls w e, for e = 1...N emoti<strong>on</strong>s. The final combined score<br />

S( ⃗w e, u test) is computed as follows<br />

S( ⃗w e, u test) = s′ ( ⃗w e, sv(u test)) − µ ′ s( ⃗we, sv(utest)) − µ<br />

+<br />

std ′ std<br />

Where µ ′ and µ are the means of the cohort scores, and std ′<br />

and std the standard <strong>de</strong>viati<strong>on</strong>s. Referred to the Proposed and<br />

Baseline systems respectively.<br />

4.1. Databases<br />

4. Experim<strong>en</strong>ts<br />

The proposed emoti<strong>on</strong> recogniti<strong>on</strong> system has be<strong>en</strong> tested over<br />

the English SUSAS database ( Speech Un<strong>de</strong>r Simulated And<br />

Actual Stress ). SUSAS has be<strong>en</strong> employed frequ<strong>en</strong>tly in the<br />

study of the effects of speech producti<strong>on</strong> and recogniti<strong>on</strong>, wh<strong>en</strong><br />

speaking un<strong>de</strong>r stressed c<strong>on</strong>diti<strong>on</strong>s [8]. This database was <strong>de</strong>signed<br />

originally by John H.L. Hans<strong>en</strong>, et al. in 1998 for speech<br />

recogniti<strong>on</strong> un<strong>de</strong>r stress. All speech files from SUSAS database<br />

were sampled at 8kHz, and 16-bit integers. SUSAS Simulated<br />

subcorpora c<strong>on</strong>tains speech from 9 speakers and 11 speaking<br />

styles. They inclu<strong>de</strong> 7 simulated styles (slow, fast, soft,<br />

questi<strong>on</strong>, clear <strong>en</strong>unciati<strong>on</strong>, angry) and four other styles<br />

un<strong>de</strong>r differ<strong>en</strong>t workload c<strong>on</strong>diti<strong>on</strong>s (high, c<strong>on</strong>d70, c<strong>on</strong>d50,<br />

mo<strong>de</strong>rate). SUSAS Actual speech c<strong>on</strong>tains speech from 11<br />

speakers, and 5 differ<strong>en</strong>t and real stress c<strong>on</strong>diti<strong>on</strong>s (neutral,<br />

medst, hist, freefall, scream). Actual and Simulated subcorpora<br />

c<strong>on</strong>tains 35 spok<strong>en</strong> words with 2 realisati<strong>on</strong> of each,<br />

for every speaker and speaking style. The SUSAS database has<br />

be<strong>en</strong> selected for the following reas<strong>on</strong>s: i) pres<strong>en</strong>ts a large set<br />

of target emoti<strong>on</strong>s; ii) allows comparis<strong>on</strong>s with previous work<br />

in the literature; iii) speaker IDs are available; and iv) there<br />

exist simulated and actual emoti<strong>on</strong>al states. These two last subcorpora,<br />

namely Simulated and Actual, have characteristics differ<strong>en</strong>t<br />

<strong>en</strong>ough to c<strong>on</strong>si<strong>de</strong>r them as differ<strong>en</strong>t databases.<br />

4.2. Results<br />

Speaker inter-variability can cause that differ<strong>en</strong>t emoti<strong>on</strong>s and<br />

differ<strong>en</strong>t speakers may be located in the same regi<strong>on</strong> in the feature<br />

space. This drawback can be comp<strong>en</strong>sated by using speaker<br />

in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt emoti<strong>on</strong> mo<strong>de</strong>ls. To compare the performance improvem<strong>en</strong>t<br />

betwe<strong>en</strong> both sc<strong>en</strong>arios, we carried out speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />

and speaker in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts. Experim<strong>en</strong>ts are<br />

performed for both SUSAS subcorporas, Simulated and Actual.<br />

Both subcorpus have be<strong>en</strong> divi<strong>de</strong>d in three n<strong>on</strong>-overlapped sets<br />

with equival<strong>en</strong>t amount of data: training set, testing set, and a<br />

<strong>de</strong>velopm<strong>en</strong>t set used for UBM training.<br />

Any mo<strong>de</strong>l w e(spk) or w ′ e(spk), for the baseline and the<br />

proposed prosodic GMM-SVM subsystems respectively, will<br />

be <strong>de</strong>noted as w e(spk) for simplicity. Performance results will<br />

be measured in terms of equal error rate (EER), which is a popular<br />

performance measure for any <strong>de</strong>tecti<strong>on</strong> task.<br />

4.2.1. Speaker In<strong>de</strong>p<strong>en</strong><strong>de</strong>nt Experim<strong>en</strong>ts<br />

For <strong>de</strong>tecti<strong>on</strong> of target emoti<strong>on</strong> e, every mo<strong>de</strong>l w e is trained using<br />

data bel<strong>on</strong>ging to e as the target class, and any other emoti<strong>on</strong><br />

as the n<strong>on</strong>-target class. Therefore we will obtain 11 emoti<strong>on</strong><br />

mo<strong>de</strong>ls for Simulated speech and 5 mo<strong>de</strong>ls for Actual speech.<br />

In or<strong>de</strong>r to obtain results not affected by speaker overfitting,<br />

training, testing, and <strong>de</strong>velopm<strong>en</strong>t sets, each experim<strong>en</strong>tal subset<br />

of SUSAS will be built with differ<strong>en</strong>t speakers.<br />

Table 2: EER(%) in Speaker In<strong>de</strong>p<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts for<br />

SUSAS Simulated speech. R.I. <strong>de</strong>notes the relative improvem<strong>en</strong>t<br />

of Combine in respect of Baseline.<br />

Emoti<strong>on</strong> Baseline Proposed Combined R.I. %<br />

angry 18.16 20.47 16.73 +7.87<br />

clear 42.68 31.04 31.99 +25.05<br />

c<strong>on</strong>d50 40.76 39.84 38.22 +6.23<br />

c<strong>on</strong>d70 42.28 40.21 40.43 +4.37<br />

fast 24.31 27.23 20.63 +15.13<br />

lombard 51.24 42.06 42.55 +16.96<br />

loud 23.03 24.57 21.03 +8.68<br />

neutral 36.29 35.33 34.38 +5.26<br />

questi<strong>on</strong> 12.44 4.38 4.38 +64.79<br />

slow 19.60 26.10 22.46 -14.59<br />

soft 20.65 38.19 22.26 -7.79<br />

Avg. EER 30.13 29.94 26.82 +10.37<br />

Table 3: EER(%) in Speaker In<strong>de</strong>p<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts for<br />

SUSAS Actual speech.<br />

Emoti<strong>on</strong> Baseline Proposed Combined R.I. %<br />

neutral 35.12 34.61 33.31 +5.15<br />

medst 40.99 42.21 41.51 -1.26<br />

hist 36.82 38.97 35.75 +2.9<br />

freefall 25.07 54.75 31.29 -24.81<br />

scream 6.46 11.68 7.6 -17.64<br />

Avg. EER 28.89 36.04 29.78 -3.08<br />

Results in tables 2 and 3 shows better performance for Actual<br />

subcorpus than for Simulated <strong>on</strong>e. This fact is probably<br />

cuased by the less number of target classes, which makes the<br />

performance of the <strong>de</strong>tecti<strong>on</strong> of a target emoti<strong>on</strong> with respect to<br />

the rest easier. Also note that the EER for similar classes such<br />

as c<strong>on</strong>d50, c<strong>on</strong>d70 and lombard is higher than for other more<br />

differ<strong>en</strong>tiable emoti<strong>on</strong>s such as questi<strong>on</strong> and angry. This emphasizes<br />

the str<strong>on</strong>g <strong>de</strong>p<strong>en</strong><strong>de</strong>nce of the performance <strong>on</strong> the emoti<strong>on</strong><br />

set.<br />

4.2.2. Speaker Dep<strong>en</strong><strong>de</strong>nt Experim<strong>en</strong>ts<br />

For a speaker spk and a target emoti<strong>on</strong> e, every mo<strong>de</strong>l w e(spk)<br />

is trained using all the utterances bel<strong>on</strong>ging to simultaneously<br />

spk and e for the target mo<strong>de</strong>l. N<strong>on</strong>-target mo<strong>de</strong>l is trained in<br />

this sc<strong>en</strong>ario using data from all speakers and emoti<strong>on</strong>s except<br />

those inclu<strong>de</strong>d in the target mo<strong>de</strong>l training set.


Table 4: EER(%) in Speaker Dep<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts for SUSAS<br />

Simulated speech.<br />

Emoti<strong>on</strong> Baseline Proposed Combined R.I. %<br />

angry 11.07 12.00 9.04 +18.33<br />

clear 37.51 26.31 26.34 +29.77<br />

c<strong>on</strong>d50 37.40 33.61 32.38 +13.42<br />

c<strong>on</strong>d70 37.17 33.52 33.14 +10.84<br />

fast 20.18 19.71 15.62 +22.59<br />

lombard 31.14 29.02 26.63 +14.48<br />

loud 15.56 11.27 10.17 +34.64<br />

neutral 32.22 27.31 26.04 +19.18<br />

questi<strong>on</strong> 5.80 3.19 1.98 +65.86<br />

slow 16.66 15.08 13.17 +20.94<br />

soft 10.13 15.67 10.18 -0.49<br />

Avg. EER 23.16 19.70 18.60 +19.68<br />

Table 5: EER(%) in Speaker Dep<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts for SUSAS<br />

Actual speech.<br />

Emoti<strong>on</strong> Baseline Proposed Combined R.I. %<br />

neutral 18.23 17.21 15.23 +16.45<br />

medst 27.06 24.29 22.79 +15.77<br />

hist 23.35 21.53 19.85 +14.98<br />

freefall 25.40 19.27 20.97 +17.44<br />

scream 8.31 5.72 5.72 +31.16<br />

Avg. EER 20.47 17.60 16.91 +17.39<br />

Results in tables 4 and 5 shows that by combining individual<br />

classifiers in a speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt framework, we can<br />

achieve better performance than for any of them separately. Relative<br />

improvem<strong>en</strong>ts of the combined approach respect to the<br />

baseline are about 17.4% or 19.7% in Actual and Simulated<br />

speech respectively. Table 6 also shows that class overlapping<br />

is remarkable reduced betwe<strong>en</strong> speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt and in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />

schemes. Note that the Combined system achieves a relative<br />

improvem<strong>en</strong>t about 30.64% wh<strong>en</strong> it is evaluated in Actual<br />

subcorpus. Relative improvem<strong>en</strong>t is about 43.21% for Simulated<br />

subcorpus.<br />

5. C<strong>on</strong>clusi<strong>on</strong>s<br />

This work introduces a novel approach for emoti<strong>on</strong> recogniti<strong>on</strong><br />

using prosodic features. The porposed approaches mo<strong>de</strong>ls<br />

the statistical distributi<strong>on</strong> of short-term pitch, <strong>en</strong>ergy and<br />

their velocities by a GMM, and the a SVM classificati<strong>on</strong> of in<br />

the mean-supervector space of the mo<strong>de</strong>ls gives the final score<br />

for <strong>de</strong>tecti<strong>on</strong>. We compare this prosodic GMM-SVM system<br />

with a baseline implem<strong>en</strong>ting a popular approach also at the<br />

prosodic level. Moreover, we explore a combinati<strong>on</strong> (fusi<strong>on</strong>)<br />

approach with a baseline system, which further increases performance.<br />

The task is pres<strong>en</strong>ted as a verificati<strong>on</strong> or <strong>de</strong>tecti<strong>on</strong><br />

problem measured in terms of EER. The experim<strong>en</strong>tal set-up<br />

is based <strong>on</strong> two subcorpus of the SUSAS database, as well as<br />

in two differ<strong>en</strong>t experim<strong>en</strong>tal frameworks: speaker-in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt<br />

and speaker-<strong>de</strong>p<strong>en</strong><strong>de</strong>nt. According to results we c<strong>on</strong>clu<strong>de</strong> that<br />

the proposed approach achieved equal or better results than the<br />

baseline. Remarkably <strong>en</strong>ough, the fusi<strong>on</strong> of both approaches in<br />

a speaker-<strong>de</strong>p<strong>en</strong><strong>de</strong>nt framework yields performance improvem<strong>en</strong>ts<br />

by a factor of 17.4% or 19.7% respectively for Actual<br />

and Simulated subcorpus. We also c<strong>on</strong>clu<strong>de</strong> that by removing<br />

Table 6: Comparati<strong>on</strong> betwe<strong>en</strong> speaker in<strong>de</strong>p<strong>en</strong><strong>de</strong>nt and<br />

speaker <strong>de</strong>p<strong>en</strong><strong>de</strong>nt experim<strong>en</strong>ts<br />

Subcorpus Approach Spk. Ind. Spk. Dep. R.I.%<br />

Baseline 30.13 23.16 +23.13<br />

Actual Proposed 29.94 19.70 +34.20<br />

Combined 26.82 18.60 +30.64<br />

Baseline 28.89 20.47 +29.14<br />

Simulated Proposed 36.04 17.0 +52.83<br />

Combined 29.78 16.91 +43.21<br />

speaker inter-variability the system performance significantly<br />

improves. The relative improvem<strong>en</strong>t is about 30.64% wh<strong>en</strong> it is<br />

evaluated in Actual subcorpus and about 43.21% for Simulated<br />

subcorpus.<br />

The use of new improved c<strong>on</strong>figurati<strong>on</strong>s for pitch c<strong>on</strong>tinuous<br />

estimati<strong>on</strong> will be addressed in future work as well as the<br />

combinati<strong>on</strong> of prosodic and acoustic level of features.<br />

6. Refer<strong>en</strong>ces<br />

[1] Rosalind W. Picard, Affective Computing, The MIT Press,<br />

September 1997.<br />

[2] L.C. De Silva, T. Miyasato, and R. Nakatsu, “Facial<br />

emoti<strong>on</strong> recogniti<strong>on</strong> using multi-modal informati<strong>on</strong>”, Sep<br />

1997, vol. 1, pp. 397–401 vol.1.<br />

[3] Björn Schuller, Stefan Steidl, and Ant<strong>on</strong> Batliner, “The<br />

interspeech 2009 emoti<strong>on</strong> chall<strong>en</strong>ge”, 2009.<br />

[4] Zhih<strong>on</strong>g Z<strong>en</strong>g, M. Pantic, G. I. Roisman, and T. S. Huang,<br />

“A survey of affect recogniti<strong>on</strong> methods: Audio, visual,<br />

and sp<strong>on</strong>taneous expressi<strong>on</strong>s”, Pattern Analysis and Machine<br />

Intellig<strong>en</strong>ce, IEEE Transacti<strong>on</strong>s <strong>on</strong>, vol. 31, no. 1,<br />

pp. 39–58, 2009.<br />

[5] D. Ramos, J. G<strong>on</strong>zalez-Rodriguez, J. G<strong>on</strong>zalez-<br />

Dominguez, and J. J. Luc<strong>en</strong>a-Molina, “Addressing<br />

database mismatch in for<strong>en</strong>sic speaker recogniti<strong>on</strong> with<br />

ahumada iii: a public real-case database in spanish”, in<br />

Proceedings of Interspeech 2008, September 2008, pp.<br />

1493–1496.<br />

[6] J.H.L. Hans<strong>en</strong> and S.E. Bou-Ghazale, “Getting started<br />

with susas: a speech un<strong>de</strong>r simulated and actual stress<br />

database”, in EUROSPEECH-1997, 1997, pp. 1743–<br />

1746.<br />

[7] J.H.L. Hans<strong>en</strong> and S. Patil, “Speech un<strong>de</strong>r stress: Analysis,<br />

mo<strong>de</strong>ling and recogniti<strong>on</strong>”, in Speaker Classificati<strong>on</strong><br />

(1). 2007, vol. 4343 of Lecture Notes in Computer Sci<strong>en</strong>ce,<br />

pp. 108–137, Springer.<br />

[8] Oh-Wook Kw<strong>on</strong>, Kwokleung Chan, Jiucang Hao, and Te-<br />

W<strong>on</strong> Lee, “Emoti<strong>on</strong> recogniti<strong>on</strong> by speech signals”, in<br />

EUROSPEECH-2003, 2003, pp. 125–128.<br />

[9] P. Boersma and D. We<strong>en</strong>ink, “Praat: doing ph<strong>on</strong>etics by<br />

computer (versi<strong>on</strong> 5.1.04) [computer program]”, Ap 2009,<br />

http://www.praat.org/.<br />

[10] Hao Hu, Ming-Xing Xu, and Wei Wu, “Gmm supervector<br />

based svm with spectral features for speech emoti<strong>on</strong><br />

recogniti<strong>on</strong>”, in Acoustics, Speech and Signal Processing,<br />

2007. ICASSP 2007. IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong>,<br />

2007, vol. 4, pp. IV–413–IV–416.


Anchor Mo<strong>de</strong>l Fusi<strong>on</strong> for Emoti<strong>on</strong> Recogniti<strong>on</strong><br />

in Speech<br />

Carlos Ortego-Resa, Ignacio Lopez-Mor<strong>en</strong>o<br />

, Joaquin G<strong>on</strong>zalez-Rodriguez, and Daniel Ramos<br />

<strong>ATVS</strong> Biometric Recogniti<strong>on</strong> Group, <strong>Universidad</strong> Aut<strong>on</strong>oma <strong>de</strong> Madrid, Spain<br />

carlos.ortego@estudiantes.uam.es,<br />

http://atvs.ii.uam.es/<br />

Abstract. Key words: emoti<strong>on</strong> recogniti<strong>on</strong>, anchor mo<strong>de</strong>ls, back<strong>en</strong>d,<br />

prosody, GMM supervectors, SVM.<br />

1 Introducti<strong>on</strong><br />

Automatic emoti<strong>on</strong> recogniti<strong>on</strong> in speech is ganing a str<strong>on</strong>g support in the sci<strong>en</strong>tific<br />

community due to its applicati<strong>on</strong>s to human-machine interacti<strong>on</strong> industry<br />

[1]. As a result new methodologies focused <strong>on</strong> a wi<strong>de</strong> range of informati<strong>on</strong> sources<br />

and classificati<strong>on</strong> schemes have emerged. This fact motivates the use of fusi<strong>on</strong><br />

schemes that seizes uncorrelated informati<strong>on</strong> of each scheme.<br />

It is comm<strong>on</strong> for this task to be stated as a multiclass classificati<strong>on</strong> problem.<br />

However, emoti<strong>on</strong> recogniti<strong>on</strong> can also be hea<strong>de</strong>d as a verificati<strong>on</strong> or <strong>de</strong>tecti<strong>on</strong><br />

problem. In such case, giv<strong>en</strong> an utterance x and a target emoti<strong>on</strong>al state e, from<br />

a N fe emoti<strong>on</strong>s set, the objective is to <strong>de</strong>termine whether the dominant emoti<strong>on</strong><br />

that affect the speaker in the utterance is e (target class) or not (n<strong>on</strong>-target<br />

class). In such squeme any mo<strong>de</strong>l m e , and utterance x, can compute a similarity<br />

score <strong>de</strong>noted as s x,me . Classificati<strong>on</strong> is performance by comparing s x,me to a<br />

giv<strong>en</strong> threshold. In this work mo<strong>de</strong>ls M = [m j ], j ∈ {1, .., N fe } are <strong>de</strong>noted as<br />

fr<strong>on</strong>t-<strong>en</strong>d mo<strong>de</strong>ls in opositi<strong>on</strong> to back-<strong>en</strong>d mo<strong>de</strong>ls which are trained in advance<br />

using scores, such as s x,mj , as feature vectors.<br />

C<strong>on</strong>si<strong>de</strong>r that limits am<strong>on</strong>g emoti<strong>on</strong>s may not be clear and oft<strong>en</strong> overlaped,<br />

moreover wh<strong>en</strong> differ<strong>en</strong>t databases and differ<strong>en</strong>t target emoti<strong>on</strong>s are tak<strong>en</strong> into<br />

account. This fact leads, for mo<strong>de</strong>ls of differ<strong>en</strong>t emoti<strong>on</strong>s, to characteristicaly<br />

rate wh<strong>en</strong> they are compare to utterances of any emoti<strong>on</strong> e. And not <strong>on</strong>ly wh<strong>en</strong><br />

they are compare with the target mo<strong>de</strong>l. We expect for mo<strong>de</strong>ls in M to offer<br />

additi<strong>on</strong>al informati<strong>on</strong> that back-<strong>en</strong>d emoti<strong>on</strong> mo<strong>de</strong>ls can learn.<br />

This work propuses a novel back-<strong>en</strong>d approach that combines outputs from<br />

N sys differ<strong>en</strong>t classificati<strong>on</strong> schemes. It is based <strong>on</strong> anchor mo<strong>de</strong>ls [2] and supports<br />

the final <strong>de</strong>cissi<strong>on</strong> not <strong>on</strong>ly <strong>on</strong> the target emoti<strong>on</strong> mo<strong>de</strong>l but also <strong>on</strong> the<br />

relati<strong>on</strong>ship am<strong>on</strong>g all the avaible mo<strong>de</strong>ls in M.<br />

In or<strong>de</strong>r to show the viability of this novelty technique in various embirom<strong>en</strong>ts,<br />

three emoti<strong>on</strong>al labeled corporas have be<strong>en</strong> used: Ahumada III [3]., SUSAS<br />

Simulated and SUSAS Actual [4]. AMF have be<strong>en</strong> used to combine scores from


2 Authors Suppressed Due to Excessive L<strong>en</strong>gth<br />

two prosidic emoti<strong>on</strong> recogniti<strong>on</strong> systems <strong>de</strong>noted as GMM-SVM and statistics-<br />

SVM. Performance results will be measured in terms of equal error rate (EER),<br />

average EER and relative improvem<strong>en</strong>t in the EER, which are popular performance<br />

measures for any <strong>de</strong>tecti<strong>on</strong> task.<br />

This work is organised as follows. The role of anchor mo<strong>de</strong>ls <strong>de</strong>scribed in<br />

Secti<strong>on</strong> 2. In Secti<strong>on</strong> 3, the proposed AMF system is <strong>de</strong>scribed in <strong>de</strong>tail. Secti<strong>on</strong> 4<br />

<strong>de</strong>scribes fr<strong>on</strong>t-<strong>en</strong>d systems implem<strong>en</strong>ted as well as the prosodic parametrizatin.<br />

The experim<strong>en</strong>tal work which shows the a<strong>de</strong>quacy of the approach is shown in<br />

5.2. Finally, c<strong>on</strong>clusi<strong>on</strong>s are drawn in Secti<strong>on</strong> 6.<br />

2 Anchor mo<strong>de</strong>ls<br />

Giv<strong>en</strong> a speech utterance x from a unknown spok<strong>en</strong> emoti<strong>on</strong>, and a fr<strong>on</strong>t-<strong>en</strong>d<br />

emoti<strong>on</strong> recogti<strong>on</strong> system that mo<strong>de</strong>ls N fe target emoti<strong>on</strong>s M = [m j ], j ∈<br />

{1, .., N fe }. A similarity score s x,mj , can be obtain as a result of comparing x<br />

against any emoti<strong>on</strong> mo<strong>de</strong>l m j .<br />

C<strong>on</strong>si<strong>de</strong>r that m j is replaced by all the mo<strong>de</strong>ls in M. In this case, for every<br />

utterance x we obtain a N fe dim<strong>en</strong>si<strong>on</strong>al vector ¯S x,M that stacks all posible<br />

values of s mj,x, j ∈ {1, .., N fe }.<br />

¯S x,M = [s x,m1 · · · s x,mN ] (1)<br />

This scheme <strong>de</strong>fines a <strong>de</strong>rived similarity feature space known as anchor mo<strong>de</strong>l<br />

space in which every utterance x can be projected. The anchor mo<strong>de</strong>l projecti<strong>on</strong><br />

allows for back-<strong>en</strong>d data driv<strong>en</strong> classifiers, to train in advance new emoti<strong>on</strong><br />

mo<strong>de</strong>ls M ′ = [m ′ j ], j ∈ {1, .., N be}, by learning the realative behavior of the<br />

speech utterance x with respect to M. This relative behaviour is shown in figure<br />

1 where utterances from four emoti<strong>on</strong>s (angry, questi<strong>on</strong>, neutral, extressed,) are<br />

compared with two differ<strong>en</strong>t cohorts M of anchor mo<strong>de</strong>ls.<br />

Notice that the N fe fr<strong>on</strong>t-<strong>en</strong>d mo<strong>de</strong>ls in M do not need to match with the N be<br />

target mo<strong>de</strong>ls in the back-<strong>en</strong>d stage, <strong>de</strong>noted as M ′ . However, feature vectors<br />

from the target emoti<strong>on</strong>s mo<strong>de</strong>ls in the back-<strong>en</strong>d stage M ′ require to behave<br />

distinguishably with respect to mo<strong>de</strong>ls in M.<br />

3 Anchor Mo<strong>de</strong>l Fusi<strong>on</strong> (AMF) back-<strong>en</strong>d<br />

AMF is a data-driv<strong>en</strong> approach that have shown an excel<strong>en</strong>t performance wh<strong>en</strong> it<br />

is applied in language rec<strong>on</strong>gniti<strong>on</strong> ph<strong>on</strong>e-SVM mo<strong>de</strong>ls [5]. In AMF, the cohort of<br />

mo<strong>de</strong>ls M is built by including all the available mo<strong>de</strong>ls from the N sys emoti<strong>on</strong><br />

recogniti<strong>on</strong> systems in the fr<strong>on</strong>t-<strong>en</strong>d. Resulting AMF similaritie vector of the<br />

utterance x, <strong>de</strong>noted as S AM , stacks the N sys values of S j x,M<br />

over all emoti<strong>on</strong><br />

recogniti<strong>on</strong> system j in the fr<strong>on</strong>t-<strong>en</strong>d.<br />

S AM<br />

¯ (x, M) = [ ¯S1 x,m , · · · ¯S N ]<br />

sys<br />

x,m<br />

(2)


Anchor Mo<strong>de</strong>l Fusi<strong>on</strong> for Emoti<strong>on</strong> Recogniti<strong>on</strong> in Speech 3<br />

target emoti<strong>on</strong>: Angry<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

target emoti<strong>on</strong>: Questi<strong>on</strong><br />

Values<br />

0<br />

−0.2<br />

c7 fast lomb loud neutr quest slow soft<br />

−0.4<br />

−0.6<br />

−0.8<br />

−1<br />

angry clear c5 c7 fast lomb loud neutr quest slow soft<br />

target emoti<strong>on</strong>: Neutral<br />

30<br />

target emoti<strong>on</strong>: Extressed<br />

25<br />

20<br />

15<br />

Values<br />

10<br />

5<br />

0<br />

−5<br />

neutr−low neutr−extressed neutr<br />

−10<br />

extressed neutr−low neutr−extressed neutr<br />

Fig. 1. Up. Relative range of angry (left) and questi<strong>on</strong> (right) utterances over the a<br />

set M form by the emoti<strong>on</strong> mo<strong>de</strong>ls in SUSAS Simulated speech. Down. Relative range<br />

of neutral (left) and extressed (right) utterances over the a set M form by the emoti<strong>on</strong><br />

mo<strong>de</strong>ls in Ahumada III<br />

.<br />

Fig. 2 ilutrate the process in which S AM (x, M) is obtained by projecting x<br />

into the AMF space <strong>de</strong>fined by M.<br />

H<strong>en</strong>ce, the number of dim<strong>en</strong>si<strong>on</strong>s of AMF space is d = ∑ N sys<br />

j=1 N j, where N j<br />

is the number of mo<strong>de</strong>ls in the fr<strong>on</strong>t-<strong>en</strong>d system j. At this point, the objective is<br />

to boost the probability of finding a characteristic behavior of the speech pattern<br />

in the anchor mo<strong>de</strong>l space, by increasing d. This objective can be achieved by<br />

differ<strong>en</strong>t and complem<strong>en</strong>tary approaches: i) Including in M fr<strong>on</strong>t-<strong>en</strong>d mo<strong>de</strong>ls of<br />

the back-<strong>en</strong>d target emoti<strong>on</strong>s (M ′ ∈ M). ii) Including in M mo<strong>de</strong>ls from differ<strong>en</strong>t<br />

databases, and techniques, such as Gaussian Mixture Mo<strong>de</strong>ls (GMM), SVM, n-<br />

grams, etc [6]. iii) Including in M hierarchy emoti<strong>on</strong> mo<strong>de</strong>ls. The following<br />

example ilustrate this situati<strong>on</strong>. C<strong>on</strong>si<strong>de</strong>r that our goal is to separate betwe<strong>en</strong><br />

extressed and n<strong>on</strong> − extressed speakers, by uncluding in M mo<strong>de</strong>ls of emoti<strong>on</strong>s<br />

such as happy, anxious or angry back-<strong>en</strong>d results will be supported by the<br />

behavior of extressed and n<strong>on</strong> − extressed utterances over these hierarchily<br />

lower, emoti<strong>on</strong> mo<strong>de</strong>ls.<br />

Once every training and testing utterance is projected over the AMF space,<br />

any classifier can be used for training any back-<strong>en</strong>d emoti<strong>on</strong> in M ′ . In this


4 Authors Suppressed Due to Excessive L<strong>en</strong>gth<br />

Fig. 2. Diagram of g<strong>en</strong>erati<strong>on</strong> of features in the AMF space. ¯SAM (x, M) stacks the<br />

similarities of x i over the set of mo<strong>de</strong>ls m l j, for language j and subsystem l<br />

.<br />

work, SVM were applied due to its robustness while the dim<strong>en</strong>si<strong>on</strong> of the AMF<br />

increases.<br />

4 Emoti<strong>on</strong> recogniti<strong>on</strong> systems fr<strong>on</strong>-<strong>en</strong>d<br />

This secti<strong>on</strong> <strong>de</strong>tails the prosodic parametres extracted from the audio signal,<br />

and used as input vectors for both fr<strong>on</strong>t-<strong>en</strong>d systems implem<strong>en</strong>ted. Subsecti<strong>on</strong>s<br />

4.2 and 4.3 <strong>de</strong>scrives in more <strong>de</strong>tail their implem<strong>en</strong>tati<strong>on</strong>.<br />

4.1 Prosodic features for emoti<strong>on</strong> recognit<strong>on</strong><br />

Prosodic features are oft<strong>en</strong> c<strong>on</strong>si<strong>de</strong>red as input signals for emoti<strong>on</strong> recogniti<strong>on</strong><br />

systems due to their relati<strong>on</strong> with the emoti<strong>on</strong>al state informati<strong>on</strong> [4]. In this<br />

work prosodic features c<strong>on</strong>sist of a set of d = 4 dim<strong>en</strong>si<strong>on</strong>al vectors with the<br />

sort-term coeffici<strong>en</strong>ts of <strong>en</strong>ergy, the logarithm of the pitch and their velocity<br />

coeffici<strong>en</strong>ts, also known as ∆ features. These coeffici<strong>en</strong>ts are extracted <strong>on</strong>ly from<br />

voiced segm<strong>en</strong>ts with an <strong>en</strong>ergy value higher than the 90% of the dinamic range.<br />

Mean normalizati<strong>on</strong> have be<strong>en</strong> used for <strong>en</strong>ergy and ∆-<strong>en</strong>ergy coeffici<strong>en</strong>ts. Pitch<br />

and <strong>en</strong>ergy have be<strong>en</strong> computed by using Praat [7].


Anchor Mo<strong>de</strong>l Fusi<strong>on</strong> for Emoti<strong>on</strong> Recogniti<strong>on</strong> in Speech 5<br />

4.2 prosodic GMM-SVM<br />

Previous works have shown the excelet performance of SVM-GMM supervectors<br />

in the tasks of language and speaker recogniti<strong>on</strong>, while the applicati<strong>on</strong> of this<br />

technique to the prosodic level of the speech were firstly introduced in [8].<br />

This technique can be se<strong>en</strong> as a sec<strong>on</strong>dary parametrizati<strong>on</strong> capable to summarize<br />

the distributi<strong>on</strong> of the feature vectors in x, into a single high-dim<strong>en</strong>si<strong>on</strong>ality<br />

vector. This high-dim<strong>en</strong>si<strong>on</strong>ality vector is known as a GMM supervector. In or<strong>de</strong>r<br />

to build the GMM supervector, first the prosodic vectors of x are used to<br />

train a M-mixtures GMM mo<strong>de</strong>l λ x , as a Maximun A Posteriori (AMP) adaptai<strong>on</strong><br />

of means from a g<strong>en</strong>eral GMM mo<strong>de</strong>l λ UBM . The GMM supervector of<br />

the utterance x is the c<strong>on</strong>cat<strong>en</strong>ati<strong>on</strong> of the M vectors of means in λ x .<br />

GMM supervector are oft<strong>en</strong> c<strong>on</strong>si<strong>de</strong>red as kernel functi<strong>on</strong>s µ(x) that maps<br />

prosodic features from dim<strong>en</strong>si<strong>on</strong> of d into a high-dim<strong>en</strong>si<strong>on</strong>al feature space of<br />

size L ′ = M ∗ d. Once every utterance is mapped into this L ′ -dim<strong>en</strong>si<strong>on</strong>al supervector<br />

space, linear SVM mo<strong>de</strong>ls are used to train the fr<strong>on</strong>t-<strong>en</strong>d emoti<strong>on</strong> mo<strong>de</strong>ls.<br />

Therefore, any m j is a L ′ -dim<strong>en</strong>si<strong>on</strong>al vector that repres<strong>en</strong>t an hiperplane that<br />

optimally, separate supervectors of utterances form the target emoti<strong>on</strong> j with<br />

respect to supervectors from other emoti<strong>on</strong>s.<br />

4.3 prosodic statistics-SVM<br />

This scheme is based <strong>on</strong> a previous work pres<strong>en</strong>ted in [9]. It c<strong>on</strong>sist <strong>on</strong> a statistical<br />

analisys of each prosodic coeffici<strong>en</strong>t followed by a SVM. The distriduti<strong>on</strong> of the<br />

prosodic values is charaztericed by computing n = 9 statistical coeffici<strong>en</strong>ts per<br />

feature (table 1). Once every utterance is mapped into this <strong>de</strong>rived feature space<br />

of dim<strong>en</strong>si<strong>on</strong> L = d ∗ n, fr<strong>on</strong>t-<strong>en</strong>d emoti<strong>on</strong>s mo<strong>de</strong>ls are obtained as linear <strong>on</strong>evs-all<br />

SVM mo<strong>de</strong>ls.<br />

Table 1. Statistical coeffici<strong>en</strong>ts extracted for every prosodic stream in the statistics-<br />

SVM approach.<br />

Coeffici<strong>en</strong>ts<br />

Maximum<br />

Minimum<br />

Mean<br />

Standard <strong>de</strong>viati<strong>on</strong><br />

Median<br />

First quartile<br />

Third quartile<br />

Skewness<br />

Kurtosis<br />

It is comm<strong>on</strong> for systems pres<strong>en</strong>ted in secti<strong>on</strong>s 4.3 and 4.2 to g<strong>en</strong>erate scores<br />

in differ<strong>en</strong>t ranks. This fact motivates the use of a posterior score normalizati<strong>on</strong>


6 Authors Suppressed Due to Excessive L<strong>en</strong>gth<br />

technique before they are used to built AMF feature vectors. Test normalizati<strong>on</strong><br />

(Tnorm [ref]) have be<strong>en</strong> used for this purpose. Tnorm estimate the scores distributi<strong>on</strong><br />

for every testing utterance x t by comparing x t over a cohort of mo<strong>de</strong>ls.<br />

The values of mean and variance of this distributi<strong>on</strong> are th<strong>en</strong> used to normalise<br />

the similarity scores of x t over any mo<strong>de</strong>l m j . In this work M have also be<strong>en</strong><br />

used as Tnorm cohort.<br />

5 Experim<strong>en</strong>ts<br />

5.1 Databases<br />

The proposed emoti<strong>on</strong> recogniti<strong>on</strong> system has be<strong>en</strong> tested over Ahumada III<br />

and SUSAS ( Speech Un<strong>de</strong>r Simulated And Actual Stress ) databases. Ahumada<br />

III is form by real for<strong>en</strong>sics cases recor<strong>de</strong>d by the spanish police forces<br />

(Guardia Civil). It inclu<strong>de</strong>s speech from 69 speakers and 4 emoti<strong>on</strong>al states<br />

(neutral, neutral-low, neutral-extressed, extressed) with 150 sec<strong>on</strong>ds training utterances<br />

while testing utterances are 10 and 5 sec<strong>on</strong>ds l<strong>en</strong>ght. SUSAS database<br />

is divi<strong>de</strong>d in two subcorpora from simulated and real spok<strong>en</strong> emoti<strong>on</strong>s. SUSAS<br />

Simulated subcorpora c<strong>on</strong>tains speech from 9 speakers and 11 speaking styles.<br />

They inclu<strong>de</strong> 7 simulated styles (slow, fast, soft, questi<strong>on</strong>, clear <strong>en</strong>unciati<strong>on</strong>,<br />

angry) and four other styles un<strong>de</strong>r differ<strong>en</strong>t workload c<strong>on</strong>diti<strong>on</strong>s (high, c<strong>on</strong>d70,<br />

c<strong>on</strong>d50, mo<strong>de</strong>rate). SUSAS Actual speech c<strong>on</strong>tains speech from 11 speakers, and<br />

5 differ<strong>en</strong>t and real stress c<strong>on</strong>diti<strong>on</strong>s (neutral, medst, hist, freefall, scream).<br />

Actual and Simulated subcorpora c<strong>on</strong>tains 35 spok<strong>en</strong> words with 2 realisati<strong>on</strong><br />

of each, for every speaker and speaking style.<br />

5.2 Results<br />

Experim<strong>en</strong>ts were carry out over corpora pres<strong>en</strong>ted in secti<strong>on</strong> 5.1 and systems<br />

pres<strong>en</strong>ted in secti<strong>on</strong>s 4.2 and 4.3.<br />

The GMM-SVM fr<strong>on</strong>t-<strong>en</strong>d system requires a set of <strong>de</strong>velopm<strong>en</strong>t data for<br />

building the mo<strong>de</strong>l λ UBM . Therefore every database were splited in two differ<strong>en</strong>t<br />

and n<strong>on</strong> overlaped sets. The first <strong>on</strong>e have be<strong>en</strong> used for training a M=256<br />

mixtures GMM mo<strong>de</strong>l (λ UBM ). For this purpose we used Expecteati<strong>on</strong> Maximizati<strong>on</strong><br />

(EM) algorithm. The sec<strong>on</strong>d set were used for implem<strong>en</strong>eting two stages<br />

of boot straping. A first stage is used for training and testing fr<strong>on</strong>t-<strong>en</strong>d mo<strong>de</strong>ls,<br />

while back-<strong>en</strong>d mo<strong>de</strong>ls are trained and tested during the sec<strong>on</strong>d stage. These two<br />

stages of boot straping repectively used a 90% and 10% of the available data for<br />

training and testing purposes.<br />

AMF cohort M is form with mo<strong>de</strong>ls from all databases and systems. Therefore<br />

for each <strong>on</strong>e of both fr<strong>on</strong>t-<strong>en</strong>d system we obatined 4 mo<strong>de</strong>ls from Ahumada<br />

corpus, 11 mo<strong>de</strong>ls from SUSAS Simulated corpus and 5 mo<strong>de</strong>ls from SUSAS<br />

Actual corpus. M inclu<strong>de</strong>s mo<strong>de</strong>ls for both systems as well as their sum fusi<strong>on</strong>,<br />

this scheme leads to a AMF space of (4 + 11 + 5) × 3 = 60 dim<strong>en</strong>si<strong>on</strong>s.<br />

In or<strong>de</strong>r to compare AMF with a baseline fusi<strong>on</strong> technique we performed<br />

a standard sum fusi<strong>on</strong> betwe<strong>en</strong> the scores of GMM-SVM and statistics-SVM


Anchor Mo<strong>de</strong>l Fusi<strong>on</strong> for Emoti<strong>on</strong> Recogniti<strong>on</strong> in Speech 7<br />

systems. Notice that sum fusi<strong>on</strong> outcomes the results obtained from any of both<br />

system individaualy.<br />

Table 2. Comparati<strong>on</strong> betwe<strong>en</strong> AMF and sum fusi<strong>on</strong> both implem<strong>en</strong>ted emoti<strong>on</strong> recogniti<strong>on</strong><br />

systems. Results in terms of EER(%) and relative improvem<strong>en</strong>t (R.I.) for<br />

SUSAS Simulated, SUSAS Simulated and Ahumada III<br />

SUSAS Simulated<br />

Emoti<strong>on</strong> Baseline AMF R.I. %<br />

angry 22.93 32.76 42.87<br />

clear 42.91 41.89 -2.38<br />

c<strong>on</strong>d50 41.01 33.57 -18.14<br />

c<strong>on</strong>d70 48.3 30.55 -36.75<br />

fast 30.21 16.81 -44.36<br />

lombard 34.85 38.65 10.9<br />

loud 27.65 13.2 -52.26<br />

neutral 40.53 35.31 -12.88<br />

questi<strong>on</strong> 3.86 3.52 -8.81<br />

slow 26.75 20.35 -23.93<br />

soft 22.07 22.54 2.13<br />

Avg. EER 31.01 26.29 -15.22<br />

SUSAS Actual<br />

Emoti<strong>on</strong> Baseline AMF R.I. %<br />

neutral 36.54 35.26 -3.5<br />

medst 46.95 50.08 6.67<br />

hist 42.57 39.14 -8.06<br />

freefall 25.86 24.66 -4.64<br />

scream 11.15 14.6 30.94<br />

Avg. EER 32.61 32.75 0.43<br />

AhumadaIII<br />

Emoti<strong>on</strong> Baseline AMF R.I. %<br />

neutral-low 50.21 30.02 -40.21<br />

neutral 33.77 33.92 0.44<br />

neutral-extressed 38.12 33.22 -12.85<br />

extressed 28.69 25.7 -10.42<br />

Avg. EER 37.7 30.72 -18.51<br />

Obtained results over Ahumada III and SUSAS Simulated (table 2 ) shows<br />

an average improvem<strong>en</strong>t larger than a 15%. Remarkable good results are obtained<br />

for neutral-low, loud and fast emoti<strong>on</strong> mo<strong>de</strong>ls while for mo<strong>de</strong>ls scream<br />

and angry a significant loss of performance is obtained, probably due to n<strong>on</strong><br />

mo<strong>de</strong>led variablity factors such as the speaker i<strong>de</strong>ntity.


8 Authors Suppressed Due to Excessive L<strong>en</strong>gth<br />

6 C<strong>on</strong>clusi<strong>on</strong>s<br />

This work introduces a novel approach for combining outputs from N sys emoti<strong>on</strong><br />

recogniti<strong>on</strong> systems in a robust way. The approach is based <strong>on</strong> the anchor<br />

mo<strong>de</strong>l space which <strong>de</strong>fines a <strong>de</strong>rived feature space where new back-<strong>en</strong>d mo<strong>de</strong>ls<br />

can be trained in advance. Wh<strong>en</strong> anchor mo<strong>de</strong>ls are used for fusing a set<br />

of fr<strong>on</strong>t-<strong>en</strong>d systems, similarities over a all their mo<strong>de</strong>ls are used as features.<br />

Therefore back-<strong>en</strong>d emoti<strong>on</strong> mo<strong>de</strong>ls m ′ are supported over the set of fr<strong>on</strong>t-<strong>en</strong>d<br />

mo<strong>de</strong>ls M trained with differ<strong>en</strong>t emoti<strong>on</strong>s, databases, recording c<strong>on</strong>diti<strong>on</strong>s, etc.<br />

In this work the proposed AMF approach have be<strong>en</strong> used for fusing two differ<strong>en</strong>t<br />

prosodic emoti<strong>on</strong> recogniti<strong>on</strong> systems as well as a third <strong>on</strong>e obtained as<br />

the result of the sum fusi<strong>on</strong> of both systems. Thus M have be<strong>en</strong> built with 3<br />

systems and 20 fr<strong>on</strong>t-<strong>en</strong>d mo<strong>de</strong>ls which leads to a 60-dim<strong>en</strong>si<strong>on</strong>s AMF space.<br />

Experim<strong>en</strong>ts have be<strong>en</strong> carry out over three corpora (Ahumada III, SUSAS Simulated<br />

and SUSAS Actual) with simutated and real emoti<strong>on</strong>s, differ<strong>en</strong>t languges<br />

and recordin c<strong>on</strong>diti<strong>on</strong>s. Resuts are compared with the sum fusi<strong>on</strong> of both fr<strong>on</strong>t<strong>en</strong>d<br />

systems. They show a performance improvem<strong>en</strong>t larger than the 15% for<br />

Ahumada III and SUSAS Simulated corpora. Future work will explore <strong>on</strong> the<br />

optimal selecti<strong>on</strong> of mo<strong>de</strong>ls in M, normalizati<strong>on</strong> techniques of the AMF space<br />

vectors and new classificati<strong>on</strong> methods such as Linear Discriminant Analysis.<br />

Refer<strong>en</strong>ces<br />

1. Picard, R.W.: Affective Computing. The MIT Press (September 1997)<br />

2. Collet, M., Mami, Y., Charlet, D., Bimbot, F.: Probabilistic anchor mo<strong>de</strong>ls approach<br />

for speaker verificati<strong>on</strong>. (2005) 2005–2008<br />

3. Ramos, D., G<strong>on</strong>zalez-Rodriguez, J., G<strong>on</strong>zalez-Dominguez, J., Luc<strong>en</strong>a-Molina, J.J.:<br />

Addressing database mismatch in for<strong>en</strong>sic speaker recogniti<strong>on</strong> with ahumada iii: a<br />

public real-case database in spanish. In: Proceedings of Interspeech 2008. (September<br />

2008) 1493–1496<br />

4. Hans<strong>en</strong>, J., Patil, S.: Speech un<strong>de</strong>r stress: Analysis, mo<strong>de</strong>ling and recogniti<strong>on</strong>. In:<br />

Speaker Classificati<strong>on</strong> (1). Volume 4343 of Lecture Notes in Computer Sci<strong>en</strong>ce.,<br />

Springer (2007) 108–137<br />

5. Lopez-Mor<strong>en</strong>o, I., Ramos, D., G<strong>on</strong>zalez-Rodriguez, J., Toledano, D.T.: Anchormo<strong>de</strong>l<br />

fusi<strong>on</strong> for language recogniti<strong>on</strong>. In: Proceedings of Interspeech 2008. (September<br />

2008)<br />

6. B<strong>en</strong>esty, J., S<strong>on</strong>dhi, M.M., Huang, Y.E.: Springer Handbook of Speech Processing.<br />

Part G. Springer (2008)<br />

7. Boersma, P., We<strong>en</strong>ink, D.: Praat: doing ph<strong>on</strong>etics by computer (versi<strong>on</strong> 5.1.04)<br />

[computer program] (Ap 2009) http://www.praat.org/.<br />

8. Hu, H., Xu, M.X., Wu, W.: Gmm supervector based svm with spectral features<br />

for speech emoti<strong>on</strong> recogniti<strong>on</strong>. In: Acoustics, Speech and Signal Processing, 2007.<br />

ICASSP 2007. IEEE Internati<strong>on</strong>al C<strong>on</strong>fer<strong>en</strong>ce <strong>on</strong>. Volume 4. (2007) IV–413–IV–416<br />

9. Kw<strong>on</strong>, O.W., Chan, K., Hao, J., Lee, T.W.: Emoti<strong>on</strong> recogniti<strong>on</strong> by speech signals.<br />

In: EUROSPEECH-2003. (2003) 125–128


B<br />

Presupuesto<br />

1) Ejecución Material<br />

Compra <strong>de</strong> or<strong>de</strong>nador pers<strong>on</strong>al (Software incluido) 2.000 ¤<br />

Alquiler <strong>de</strong> impresora láser durante 10 meses 200 ¤<br />

Material <strong>de</strong> oficina 150 ¤<br />

Total <strong>de</strong> ejecución material 2.350 ¤<br />

2) Gastos g<strong>en</strong>erales<br />

16 % sobre Ejecución Material 376 ¤<br />

3) B<strong>en</strong>eficio Industrial<br />

6 % sobre Ejecución Material 141 ¤<br />

4) H<strong>on</strong>orarios Proyecto<br />

1000 horas a 15 ¤/ hora 15000 ¤<br />

5) Material fungible<br />

Gastos <strong>de</strong> impresión 200 ¤<br />

Encua<strong>de</strong>rnación 100 ¤<br />

6) Subtotal <strong>de</strong>l presupuesto<br />

Subtotal Presupuesto 18.167 ¤<br />

7) I.V.A. aplicable<br />

16 % Subtotal Presupuesto 2.906.72 ¤<br />

8) Total presupuesto<br />

Total Presupuesto 21073.72 ¤<br />

Madrid, Julio 2009<br />

El Ing<strong>en</strong>iero Jefe <strong>de</strong> Proyecto<br />

Fdo.: Carlos Ortego Resa<br />

Ing<strong>en</strong>iero Superior <strong>de</strong> Telecomunicación<br />

125


C<br />

Pliego <strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es<br />

Pliego <strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es<br />

Este docum<strong>en</strong>to c<strong>on</strong>ti<strong>en</strong>e las c<strong>on</strong>dici<strong>on</strong>es legales que guiarán la realización, <strong>en</strong> este proyecto,<br />

DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA. En lo que sigue, se sup<strong>on</strong>drá que<br />

el proyecto ha sido <strong>en</strong>cargado por una empresa cli<strong>en</strong>te a una empresa c<strong>on</strong>sultora c<strong>on</strong> la finalidad<br />

<strong>de</strong> realizar dicho sistema. Dicha empresa ha <strong>de</strong>bido <strong>de</strong>sarrollar una línea <strong>de</strong> investigación c<strong>on</strong><br />

objeto <strong>de</strong> elaborar el proyecto. Esta línea <strong>de</strong> investigación, junto c<strong>on</strong> el posterior <strong>de</strong>sarrollo <strong>de</strong><br />

los programas está amparada por las c<strong>on</strong>dici<strong>on</strong>es particulares <strong>de</strong>l sigui<strong>en</strong>te pliego.<br />

Supuesto que la utilización industrial <strong>de</strong> los métodos recogidos <strong>en</strong> el pres<strong>en</strong>te proyecto ha<br />

sido <strong>de</strong>cidida por parte <strong>de</strong> la empresa cli<strong>en</strong>te o <strong>de</strong> otras, la obra a realizar se regulará por las<br />

sigui<strong>en</strong>tes:<br />

C<strong>on</strong>dici<strong>on</strong>es g<strong>en</strong>erales.<br />

1. La modalidad <strong>de</strong> c<strong>on</strong>tratación será el c<strong>on</strong>curso. La adjudicación se hará, por tanto, a la<br />

proposición más favorable sin at<strong>en</strong><strong>de</strong>r exclusivam<strong>en</strong>te al valor ec<strong>on</strong>ómico, <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong><br />

las mayores garantías ofrecidas. La empresa que somete el proyecto a c<strong>on</strong>curso se reserva<br />

el <strong>de</strong>recho a <strong>de</strong>clararlo <strong>de</strong>sierto.<br />

2. El m<strong>on</strong>taje y mecanización completa <strong>de</strong> los equipos que interv<strong>en</strong>gan será realizado totalm<strong>en</strong>te<br />

por la empresa licitadora.<br />

3. En la oferta, se hará c<strong>on</strong>star el precio total por el que se compromete a realizar la obra<br />

y el tanto por ci<strong>en</strong>to <strong>de</strong> baja que sup<strong>on</strong>e este precio <strong>en</strong> relación c<strong>on</strong> un importe límite si<br />

este se hubiera fijado.<br />

4. La obra se realizará bajo la dirección técnica <strong>de</strong> un Ing<strong>en</strong>iero Superior <strong>de</strong> Telecomunicación,<br />

auxiliado por el número <strong>de</strong> Ing<strong>en</strong>ieros Técnicos y Programadores que se estime<br />

preciso para el <strong>de</strong>sarrollo <strong>de</strong> la misma.<br />

5. Aparte <strong>de</strong>l Ing<strong>en</strong>iero Director, el c<strong>on</strong>tratista t<strong>en</strong>drá <strong>de</strong>recho a c<strong>on</strong>tratar al resto <strong>de</strong>l pers<strong>on</strong>al,<br />

pudi<strong>en</strong>do ce<strong>de</strong>r esta prerrogativa a favor <strong>de</strong>l Ing<strong>en</strong>iero Director, qui<strong>en</strong> no estará obligado<br />

a aceptarla.<br />

6. El c<strong>on</strong>tratista ti<strong>en</strong>e <strong>de</strong>recho a sacar copias a su costa <strong>de</strong> los planos, pliego <strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es y<br />

presupuestos. El Ing<strong>en</strong>iero autor <strong>de</strong>l proyecto autorizará c<strong>on</strong> su firma las copias solicitadas<br />

por el c<strong>on</strong>tratista <strong>de</strong>spués <strong>de</strong> c<strong>on</strong>fr<strong>on</strong>tarlas.<br />

7. Se ab<strong>on</strong>ará al c<strong>on</strong>tratista la obra que realm<strong>en</strong>te ejecute c<strong>on</strong> sujeción al proyecto que sirviá<br />

<strong>de</strong> base para la c<strong>on</strong>tratación, a las modificaci<strong>on</strong>es autorizadas por la superioridad o a<br />

127


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

las ór<strong>de</strong>nes que c<strong>on</strong> arreglo a sus faculta<strong>de</strong>s le hayan comunicado por escrito al Ing<strong>en</strong>iero<br />

Director <strong>de</strong> obras siempre que dicha obra se haya ajustado a los preceptos <strong>de</strong> los pliegos<br />

<strong>de</strong> c<strong>on</strong>dici<strong>on</strong>es, c<strong>on</strong> arreglo a los cuales, se harán las modificaci<strong>on</strong>es y la valoración <strong>de</strong> las<br />

diversas unida<strong>de</strong>s sin que el importe total pueda exce<strong>de</strong>r <strong>de</strong> los presupuestos aprobados.<br />

Por c<strong>on</strong>sigui<strong>en</strong>te, el número <strong>de</strong> unida<strong>de</strong>s que se c<strong>on</strong>signan <strong>en</strong> el proyecto o <strong>en</strong> el presupuesto,<br />

no podrá servirle <strong>de</strong> fundam<strong>en</strong>to para <strong>en</strong>tablar reclamaci<strong>on</strong>es <strong>de</strong> ninguna clase,<br />

salvo <strong>en</strong> los casos <strong>de</strong> rescisión.<br />

8. Tanto <strong>en</strong> las certificaci<strong>on</strong>es <strong>de</strong> obras como <strong>en</strong> la liquidación final, se ab<strong>on</strong>arán los trabajos<br />

realizados por el c<strong>on</strong>tratista a los precios <strong>de</strong> ejecución material que figuran <strong>en</strong> el<br />

presupuesto para cada unidad <strong>de</strong> la obra.<br />

9. Si excepci<strong>on</strong>alm<strong>en</strong>te se hubiera ejecutado algún trabajo que no se ajustase a las c<strong>on</strong>dici<strong>on</strong>es<br />

<strong>de</strong> la c<strong>on</strong>trata pero que sin embargo es admisible a juicio <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong> obras,<br />

se dará c<strong>on</strong>ocimi<strong>en</strong>to a la Dirección, prop<strong>on</strong>i<strong>en</strong>do a la vez la rebaja <strong>de</strong> precios que el<br />

Ing<strong>en</strong>iero estime justa y si la Dirección resolviera aceptar la obra, quedará el c<strong>on</strong>tratista<br />

obligado a c<strong>on</strong>formarse c<strong>on</strong> la rebaja acordada.<br />

10. Cuando se juzgue necesario emplear materiales o ejecutar obras que no figur<strong>en</strong> <strong>en</strong> el<br />

presupuesto <strong>de</strong> la c<strong>on</strong>trata, se evaluará su importe a los precios asignados a otras obras o<br />

materiales análogos si los hubiere y cuando no, se discutirán <strong>en</strong>tre el Ing<strong>en</strong>iero Director y el<br />

c<strong>on</strong>tratista, sometiéndolos a la aprobación <strong>de</strong> la Dirección. Los nuevos precios c<strong>on</strong>v<strong>en</strong>idos<br />

por uno u otro procedimi<strong>en</strong>to, se sujetarán siempre al establecido <strong>en</strong> el punto anterior.<br />

11. Cuando el c<strong>on</strong>tratista, c<strong>on</strong> autorización <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong> obras, emplee materiales<br />

<strong>de</strong> calidad más elevada o <strong>de</strong> mayores dim<strong>en</strong>si<strong>on</strong>es <strong>de</strong> lo estipulado <strong>en</strong> el proyecto, o<br />

sustituya una clase <strong>de</strong> fabricación por otra que t<strong>en</strong>ga asignado mayor precio o ejecute<br />

c<strong>on</strong> mayores dim<strong>en</strong>si<strong>on</strong>es cualquier otra parte <strong>de</strong> las obras, o <strong>en</strong> g<strong>en</strong>eral, introduzca <strong>en</strong><br />

ellas cualquier modificación que sea b<strong>en</strong>eficiosa a juicio <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong> obras,<br />

no t<strong>en</strong>drá <strong>de</strong>recho sin embargo, sino a lo que le corresp<strong>on</strong><strong>de</strong>ría si hubiera realizado la obra<br />

c<strong>on</strong> estricta sujeción a lo proyectado y c<strong>on</strong>tratado.<br />

12. Las cantida<strong>de</strong>s calculadas para obras accesorias, aunque figur<strong>en</strong> por partida alzada <strong>en</strong> el<br />

presupuesto final (g<strong>en</strong>eral), no serán ab<strong>on</strong>adas sino a los precios <strong>de</strong> la c<strong>on</strong>trata, según las<br />

c<strong>on</strong>dici<strong>on</strong>es <strong>de</strong> la misma y los proyectos particulares que para ellas se form<strong>en</strong>, o <strong>en</strong> su<br />

<strong>de</strong>fecto, por lo que resulte <strong>de</strong> su medición final.<br />

13. El c<strong>on</strong>tratista queda obligado a ab<strong>on</strong>ar al Ing<strong>en</strong>iero autor <strong>de</strong>l proyecto y director <strong>de</strong> obras<br />

así como a los Ing<strong>en</strong>ieros Técnicos, el importe <strong>de</strong> sus respectivos h<strong>on</strong>orarios facultativos<br />

por formación <strong>de</strong>l proyecto, dirección técnica y administración <strong>en</strong> su caso, c<strong>on</strong> arreglo a<br />

las tarifas y h<strong>on</strong>orarios vig<strong>en</strong>tes.<br />

14. C<strong>on</strong>cluida la ejecución <strong>de</strong> la obra, será rec<strong>on</strong>ocida por el Ing<strong>en</strong>iero Director que a tal<br />

efecto <strong>de</strong>signe la empresa.<br />

15. La garantía <strong>de</strong>finitiva será <strong>de</strong>l 4<br />

16. La forma <strong>de</strong> pago será por certificaci<strong>on</strong>es m<strong>en</strong>suales <strong>de</strong> la obra ejecutada, <strong>de</strong> acuerdo c<strong>on</strong><br />

los precios <strong>de</strong>l presupuesto, <strong>de</strong>ducida la baja si la hubiera.<br />

17. La fecha <strong>de</strong> comi<strong>en</strong>zo <strong>de</strong> las obras será a partir <strong>de</strong> los 15 días naturales <strong>de</strong>l replanteo oficial<br />

<strong>de</strong> las mismas y la <strong>de</strong>finitiva, al año <strong>de</strong> haber ejecutado la provisi<strong>on</strong>al, procediéndose si<br />

no existe reclamación alguna, a la reclamación <strong>de</strong> la fianza.<br />

18. Si el c<strong>on</strong>tratista al efectuar el replanteo, observase algún error <strong>en</strong> el proyecto, <strong>de</strong>berá comunicarlo<br />

<strong>en</strong> el plazo <strong>de</strong> quince días al Ing<strong>en</strong>iero Director <strong>de</strong> obras, pues transcurrido ese<br />

plazo será resp<strong>on</strong>sable <strong>de</strong> la exactitud <strong>de</strong>l proyecto.<br />

128<br />

APÉNDICE C. PLIEGO DE CONDICIONES


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

19. El c<strong>on</strong>tratista está obligado a <strong>de</strong>signar una pers<strong>on</strong>a resp<strong>on</strong>sable que se <strong>en</strong>t<strong>en</strong><strong>de</strong>rá c<strong>on</strong> el<br />

Ing<strong>en</strong>iero Director <strong>de</strong> obras, o c<strong>on</strong> el <strong>de</strong>legado que éste <strong>de</strong>signe, para todo relaci<strong>on</strong>ado<br />

c<strong>on</strong> ella. Al ser el Ing<strong>en</strong>iero Director <strong>de</strong> obras el que interpreta el proyecto, el c<strong>on</strong>tratista<br />

<strong>de</strong>berá c<strong>on</strong>sultarle cualquier duda que surja <strong>en</strong> su realización.<br />

20. Durante la realización <strong>de</strong> la obra, se girarán visitas <strong>de</strong> inspección por pers<strong>on</strong>al facultativo<br />

<strong>de</strong> la empresa cli<strong>en</strong>te, para hacer las comprobaci<strong>on</strong>es que se crean oportunas. Es obligación<br />

<strong>de</strong>l c<strong>on</strong>tratista, la c<strong>on</strong>servación <strong>de</strong> la obra ya ejecutada hasta la recepción <strong>de</strong> la misma,<br />

por lo que el <strong>de</strong>terioro parcial o total <strong>de</strong> ella, aunque sea por ag<strong>en</strong>tes atmosféricos u otras<br />

causas, <strong>de</strong>berá ser reparado o rec<strong>on</strong>struido por su cu<strong>en</strong>ta.<br />

21. El c<strong>on</strong>tratista, <strong>de</strong>berá realizar la obra <strong>en</strong> el plazo m<strong>en</strong>ci<strong>on</strong>ado a partir <strong>de</strong> la fecha <strong>de</strong>l<br />

c<strong>on</strong>trato, incurri<strong>en</strong>do <strong>en</strong> multa, por retraso <strong>de</strong> la ejecución siempre que éste no sea <strong>de</strong>bido<br />

a causas <strong>de</strong> fuerza mayor. A la terminación <strong>de</strong> la obra, se hará una recepción provisi<strong>on</strong>al<br />

previo rec<strong>on</strong>ocimi<strong>en</strong>to y exam<strong>en</strong> por la dirección técnica, el <strong>de</strong>positario <strong>de</strong> efectos, el interv<strong>en</strong>tor<br />

y el jefe <strong>de</strong> servicio o un repres<strong>en</strong>tante, estampando su c<strong>on</strong>formidad el c<strong>on</strong>tratista.<br />

22. Hecha la recepción provisi<strong>on</strong>al, se certificará al c<strong>on</strong>tratista el resto <strong>de</strong> la obra, reservándose<br />

la administración el importe <strong>de</strong> los gastos <strong>de</strong> c<strong>on</strong>servación <strong>de</strong> la misma hasta su recepción<br />

<strong>de</strong>finitiva y la fianza durante el tiempo señalado como plazo <strong>de</strong> garantía. La recepción<br />

<strong>de</strong>finitiva se hará <strong>en</strong> las mismas c<strong>on</strong>dici<strong>on</strong>es que la provisi<strong>on</strong>al, ext<strong>en</strong>diéndose el acta<br />

corresp<strong>on</strong>di<strong>en</strong>te. El Director Técnico prop<strong>on</strong>drá a la Junta Ec<strong>on</strong>ómica la <strong>de</strong>volución <strong>de</strong> la<br />

fianza al c<strong>on</strong>tratista <strong>de</strong> acuerdo c<strong>on</strong> las c<strong>on</strong>dici<strong>on</strong>es ec<strong>on</strong>ómicas legales establecidas.<br />

23. Las tarifas para la <strong>de</strong>terminación <strong>de</strong> h<strong>on</strong>orarios, reguladas por or<strong>de</strong>n <strong>de</strong> la Presi<strong>de</strong>ncia<br />

<strong>de</strong>l Gobierno el 19 <strong>de</strong> Octubre <strong>de</strong> 1961, se aplicarán sobre el <strong>de</strong>nominado <strong>en</strong> la actualidad<br />

”Presupuesto <strong>de</strong> Ejecución <strong>de</strong> C<strong>on</strong>trata anteriorm<strong>en</strong>te llamado ”Presupuesto <strong>de</strong><br />

Ejecución Material”que hoy <strong>de</strong>signa otro c<strong>on</strong>cepto.<br />

C<strong>on</strong>dici<strong>on</strong>es particulares.<br />

La empresa c<strong>on</strong>sultora, que ha <strong>de</strong>sarrollado el pres<strong>en</strong>te proyecto, lo <strong>en</strong>tregará a la empresa<br />

cli<strong>en</strong>te bajo las c<strong>on</strong>dici<strong>on</strong>es g<strong>en</strong>erales ya formuladas, <strong>de</strong>bi<strong>en</strong>do añadirse las sigui<strong>en</strong>tes c<strong>on</strong>dici<strong>on</strong>es<br />

particulares:<br />

1. La propiedad intelectual <strong>de</strong> los procesos <strong>de</strong>scritos y analizados <strong>en</strong> el pres<strong>en</strong>te trabajo,<br />

pert<strong>en</strong>ece por <strong>en</strong>tero a la empresa c<strong>on</strong>sultora repres<strong>en</strong>tada por el Ing<strong>en</strong>iero Director <strong>de</strong>l<br />

Proyecto.<br />

2. La empresa c<strong>on</strong>sultora se reserva el <strong>de</strong>recho a la utilización total o parcial <strong>de</strong> los resultados<br />

<strong>de</strong> la investigación realizada para <strong>de</strong>sarrollar el sigui<strong>en</strong>te proyecto, bi<strong>en</strong> para su publicación<br />

o bi<strong>en</strong> para su uso <strong>en</strong> trabajos o proyectos posteriores, para la misma empresa cli<strong>en</strong>te o<br />

para otra.<br />

3. Cualquier tipo <strong>de</strong> reproducción aparte <strong>de</strong> las reseñadas <strong>en</strong> las c<strong>on</strong>dici<strong>on</strong>es g<strong>en</strong>erales, bi<strong>en</strong><br />

sea para uso particular <strong>de</strong> la empresa cli<strong>en</strong>te, o para cualquier otra aplicación, c<strong>on</strong>tará c<strong>on</strong><br />

autorización expresa y por escrito <strong>de</strong>l Ing<strong>en</strong>iero Director <strong>de</strong>l Proyecto, que actuará <strong>en</strong><br />

repres<strong>en</strong>tación <strong>de</strong> la empresa c<strong>on</strong>sultora.<br />

4. En la autorización se ha <strong>de</strong> hacer c<strong>on</strong>star la aplicación a que se <strong>de</strong>stinan sus reproducci<strong>on</strong>es<br />

así como su cantidad.<br />

5. En todas las reproducci<strong>on</strong>es se indicará su proce<strong>de</strong>ncia, explicitando el nombre <strong>de</strong>l proyecto,<br />

nombre <strong>de</strong>l Ing<strong>en</strong>iero Director y <strong>de</strong> la empresa c<strong>on</strong>sultora.<br />

6. Si el proyecto pasa la etapa <strong>de</strong> <strong>de</strong>sarrollo, cualquier modificación que se realice sobre él,<br />

<strong>de</strong>berá ser notificada al Ing<strong>en</strong>iero Director <strong>de</strong>l Proyecto y a criterio <strong>de</strong> éste, la empresa<br />

c<strong>on</strong>sultora <strong>de</strong>cidirá aceptar o no la modificación propuesta.<br />

2<br />

APÉNDICE C. PLIEGO DE CONDICIONES 129


DETECCIÓN DE EMOCIONES EN VOZ ESPONTÁNEA<br />

7. Si la modificación se acepta, la empresa c<strong>on</strong>sultora se hará resp<strong>on</strong>sable al mismo nivel que<br />

el proyecto inicial <strong>de</strong>l que resulta el añadirla.<br />

8. Si la modificación no es aceptada, por el c<strong>on</strong>trario, la empresa c<strong>on</strong>sultora <strong>de</strong>clinará toda<br />

resp<strong>on</strong>sabilidad que se <strong>de</strong>rive <strong>de</strong> la aplicación o influ<strong>en</strong>cia <strong>de</strong> la misma.<br />

9. Si la empresa cli<strong>en</strong>te <strong>de</strong>ci<strong>de</strong> <strong>de</strong>sarrollar industrialm<strong>en</strong>te uno o varios productos <strong>en</strong> los que<br />

resulte parcial o totalm<strong>en</strong>te aplicable el estudio <strong>de</strong> este proyecto, <strong>de</strong>berá comunicarlo a la<br />

empresa c<strong>on</strong>sultora.<br />

10. La empresa c<strong>on</strong>sultora no se resp<strong>on</strong>sabiliza <strong>de</strong> los efectos laterales que se puedan producir<br />

<strong>en</strong> el mom<strong>en</strong>to <strong>en</strong> que se utilice la herrami<strong>en</strong>ta objeto <strong>de</strong>l pres<strong>en</strong>te proyecto para la<br />

realización <strong>de</strong> otras aplicaci<strong>on</strong>es.<br />

11. La empresa c<strong>on</strong>sultora t<strong>en</strong>drá prioridad respecto a otras <strong>en</strong> la elaboración <strong>de</strong> los proyectos<br />

auxiliares que fuese necesario <strong>de</strong>sarrollar para dicha aplicación industrial, siempre que no<br />

haga explícita r<strong>en</strong>uncia a este hecho. En este caso, <strong>de</strong>berá autorizar expresam<strong>en</strong>te los<br />

proyectos pres<strong>en</strong>tados por otros.<br />

12. El Ing<strong>en</strong>iero Director <strong>de</strong>l pres<strong>en</strong>te proyecto, será el resp<strong>on</strong>sable <strong>de</strong> la dirección <strong>de</strong> la aplicación<br />

industrial siempre que la empresa c<strong>on</strong>sultora lo estime oportuno. En caso c<strong>on</strong>trario,<br />

la pers<strong>on</strong>a <strong>de</strong>signada <strong>de</strong>berá c<strong>on</strong>tar c<strong>on</strong> la autorización <strong>de</strong>l mismo, qui<strong>en</strong> <strong>de</strong>legará <strong>en</strong> él<br />

las resp<strong>on</strong>sabilida<strong>de</strong>s que ost<strong>en</strong>te.<br />

130<br />

APÉNDICE C. PLIEGO DE CONDICIONES

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!