haga click aquí - Amprae
haga click aquí - Amprae
haga click aquí - Amprae
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Caracterízación acústica del acento basada en corpus:<br />
un enfoque multilíngüe inglés/español<br />
Escudero, David; Aguilar, Lourdes; González, César; Vivaracho, Carlos; Cardeñoso, Valentín<br />
Universidad de Valladolid; Universidad Autónoma de Barcelona<br />
En este trabajo se presenta un estudio de caracterización acústica del acento<br />
basado en corpus, que compara resultados para un corpus en español y otro<br />
en inglés. El interés de este trabajo estriba en estudiar la posibilidad de<br />
reutilizar material disponible en inglés, mucho más abundante, para etiquetar<br />
prosódicamente material en español. Los resultados evidencian las diferencias<br />
importantes en cuanto a la caracterización acústica del acento en ambas<br />
lenguas, pero son prometedores al obtenerse resultados de identicación<br />
automática en escenarios multilíngüe en torno al 80%.<br />
Se utiliza el corpus BURNC grabado en inglés/americano y el corpus ESMA-<br />
UPC grabado en español. Ambos corpus están transcritos y alinean las<br />
palabras y las sílabas con respecto a las propiedades prosódico acústicas que<br />
las caracterizan: F0, energía y duración de sus fonemas. Además, cada<br />
palabra está etiquetada prosódicamente con, entre otros rasgos, información<br />
sobre su carácter prominente en la frase. Por otra parte también incluyen<br />
información de tipo léxico sintáctico codificado en forma de etiqueta POS-Tag.<br />
El procedimiento experimental consiste en entrenar modelos automáticos<br />
(árboles de decisión y redes neuronales) de identificación de prominencia o<br />
énfasis a partir de las características acústico prosódicas. Los modelos se<br />
entrenan por separado para el español y para el inglés. En un enfoque<br />
multilíngüe, se emplean los modelos entrenados con el inglés para identificar<br />
acentos en el corpus en español y viceversa. En la aproximación monolíngüe,<br />
los modelos entrenados con datos de una de las lenguas se emplean para<br />
clasificar palabras de la misma lengua. Los diferentes ratios de clasificación<br />
ponen de manifiesto el contraste entre las diferentes lenguas: las tasas de<br />
identificación para un mismo idioma alcanzan el 79.6% pero en el escenario<br />
multilingue bajan al 75.8%. Cuando se incluyen etiquetas POS los resultados<br />
mejoran hasta llegar llegar al 80% en el escenario multilíngüe.<br />
Como resultado de este estudio, hemos obtenido un ranking que pone de<br />
manifiesto cuales son las propiedades prosódico acústicas más importantes a<br />
la hora de establecer si una palabra es acentuada o no. Si las propiedades<br />
relacionadas con la frecuencia frecuencial parecen ser las más influyentes en el<br />
corpus en español, la energía parece tomar un papel relevante en el corpus en<br />
inglés. El establecimiento de una correspondencia entre la información<br />
pseusosintáctica de las palabra, a partir de las etiquetas POS tampoco es<br />
trivial, dando lugar a diversas opciones que ponen de manifiesto la importancia<br />
de la distinción entre palabras función y palabras contenido en cuanto a la<br />
determinación del énfasis.<br />
El corpus BURNC contiene etiquetas ToBI. Una parte del corpus ESMA-UPC<br />
está etiquetado con etiquetas Sp_ToBI. En este estudio se identifican los<br />
acentos L* como el caso más difícil de identificar en ambos idiomas, tanto en la<br />
aproximación monolingüe como en el enfoque multilingüe.<br />
101