13.06.2013 Views

haga click aquí - Amprae

haga click aquí - Amprae

haga click aquí - Amprae

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Caracterízación acústica del acento basada en corpus:<br />

un enfoque multilíngüe inglés/español<br />

Escudero, David; Aguilar, Lourdes; González, César; Vivaracho, Carlos; Cardeñoso, Valentín<br />

Universidad de Valladolid; Universidad Autónoma de Barcelona<br />

En este trabajo se presenta un estudio de caracterización acústica del acento<br />

basado en corpus, que compara resultados para un corpus en español y otro<br />

en inglés. El interés de este trabajo estriba en estudiar la posibilidad de<br />

reutilizar material disponible en inglés, mucho más abundante, para etiquetar<br />

prosódicamente material en español. Los resultados evidencian las diferencias<br />

importantes en cuanto a la caracterización acústica del acento en ambas<br />

lenguas, pero son prometedores al obtenerse resultados de identicación<br />

automática en escenarios multilíngüe en torno al 80%.<br />

Se utiliza el corpus BURNC grabado en inglés/americano y el corpus ESMA-<br />

UPC grabado en español. Ambos corpus están transcritos y alinean las<br />

palabras y las sílabas con respecto a las propiedades prosódico acústicas que<br />

las caracterizan: F0, energía y duración de sus fonemas. Además, cada<br />

palabra está etiquetada prosódicamente con, entre otros rasgos, información<br />

sobre su carácter prominente en la frase. Por otra parte también incluyen<br />

información de tipo léxico sintáctico codificado en forma de etiqueta POS-Tag.<br />

El procedimiento experimental consiste en entrenar modelos automáticos<br />

(árboles de decisión y redes neuronales) de identificación de prominencia o<br />

énfasis a partir de las características acústico prosódicas. Los modelos se<br />

entrenan por separado para el español y para el inglés. En un enfoque<br />

multilíngüe, se emplean los modelos entrenados con el inglés para identificar<br />

acentos en el corpus en español y viceversa. En la aproximación monolíngüe,<br />

los modelos entrenados con datos de una de las lenguas se emplean para<br />

clasificar palabras de la misma lengua. Los diferentes ratios de clasificación<br />

ponen de manifiesto el contraste entre las diferentes lenguas: las tasas de<br />

identificación para un mismo idioma alcanzan el 79.6% pero en el escenario<br />

multilingue bajan al 75.8%. Cuando se incluyen etiquetas POS los resultados<br />

mejoran hasta llegar llegar al 80% en el escenario multilíngüe.<br />

Como resultado de este estudio, hemos obtenido un ranking que pone de<br />

manifiesto cuales son las propiedades prosódico acústicas más importantes a<br />

la hora de establecer si una palabra es acentuada o no. Si las propiedades<br />

relacionadas con la frecuencia frecuencial parecen ser las más influyentes en el<br />

corpus en español, la energía parece tomar un papel relevante en el corpus en<br />

inglés. El establecimiento de una correspondencia entre la información<br />

pseusosintáctica de las palabra, a partir de las etiquetas POS tampoco es<br />

trivial, dando lugar a diversas opciones que ponen de manifiesto la importancia<br />

de la distinción entre palabras función y palabras contenido en cuanto a la<br />

determinación del énfasis.<br />

El corpus BURNC contiene etiquetas ToBI. Una parte del corpus ESMA-UPC<br />

está etiquetado con etiquetas Sp_ToBI. En este estudio se identifican los<br />

acentos L* como el caso más difícil de identificar en ambos idiomas, tanto en la<br />

aproximación monolingüe como en el enfoque multilingüe.<br />

101

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!