18.04.2013 Views

Actas da - Xunta de Galicia

Actas da - Xunta de Galicia

Actas da - Xunta de Galicia

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

— 154 —<br />

Carmen García Mateo<br />

Vogatel pertence á empresa Telefónica I+D, e foi recolli<strong>da</strong> en 1996 pola<br />

Universi<strong>da</strong><strong>de</strong> <strong>de</strong> Vigo. As súas características principais son:<br />

• Gravacións <strong>de</strong> aproxima<strong>da</strong>mente 7000 falantes (homes, mulleres e nenos).<br />

• As gravacións transcribíronse a nivel ortográfico con información adicional<br />

sobre a i<strong>de</strong>nti<strong>da</strong><strong>de</strong> do locutor, ruído, efectos paralingüísticos.<br />

• A base <strong>de</strong> <strong>da</strong>tos presenta material diferenciado para a<strong>de</strong>stramento e para<br />

avaliación.<br />

Ó ser unha base <strong>de</strong> <strong>da</strong>tos priva<strong>da</strong> non está dispoñible para a comuni<strong>da</strong><strong>de</strong><br />

científica, nin para os <strong>de</strong>senvolvedores <strong>de</strong> aplicacións.<br />

SpeechDat Gal atópase en fase final <strong>de</strong> captura e etiquetaxe. Constará <strong>de</strong><br />

1000 locutores repartidos <strong>de</strong> forma equilibra<strong>da</strong> entre sexo, i<strong>da</strong><strong>de</strong>s, e proce<strong>de</strong>ncia<br />

xeográfica. A anotación é ortográfica, seguindo as normas <strong>de</strong> etiquetaxe publica<strong>da</strong>s<br />

polo consorcio SpeechDat.<br />

A principal diferencia con Vogatel é que os locutores foron recrutados e non<br />

escollidos ó chou, polo que estes locutores len un material prefixado. Coidáronse<br />

aspectos tales como o nivel sociocultural dos informantes, potenciándose a<br />

gravación <strong>de</strong> falantes do medio urbano e con certa formación académica, xa que<br />

se estima que é este o grupo ó que se axusta en maior medi<strong>da</strong> o perfil <strong>de</strong> usuarios<br />

<strong>de</strong> teleservicios automáticos.<br />

Atén<strong>de</strong>se tamén á representación <strong>da</strong>s gran<strong>de</strong>s áreas dialectais do galego, seleccionando<br />

informantes proce<strong>de</strong>ntes <strong>de</strong> diferentes zonas. A<strong>de</strong>mais, contrólase a<br />

proce<strong>de</strong>ncia e o lugar <strong>de</strong> resi<strong>de</strong>ncia dos informantes.<br />

Un aspecto que se ten tamén en conta é cál é a lingua materna e cál a lingua<br />

habitual dos informantes. Así contrólase que haxa unha representación maioritaria<br />

<strong>de</strong> 'bos' falantes, aín<strong>da</strong> que tamén se contempla certa presencia <strong>de</strong> falantes<br />

cun menor dominio do galego, tendo en conta que en <strong>Galicia</strong> existe unha situación<br />

<strong>de</strong> dúas linguas en contacto que provoca frecuentes interferencias. Estes<br />

requisitos fixeron que o recrutamento <strong>de</strong> locutores sexa unha tarefa difícil.<br />

Non só son necesarias bases orais para o <strong>de</strong>senvolvemento <strong>de</strong> recoñecedores<br />

<strong>de</strong> fala, senón tamén gran<strong>de</strong>s córpora <strong>de</strong> texto dos que extrae-las frecuencias <strong>da</strong>s<br />

ca<strong>de</strong>as <strong>de</strong> palabras. Para o idioma galego non existe na actuali<strong>da</strong><strong>de</strong> ningún corpus<br />

<strong>de</strong> texto a<strong>de</strong>cuado para a<strong>de</strong>strar mo<strong>de</strong>los <strong>de</strong> linguaxe estatísticos, polo que<br />

tivemos que pór en marcha un proxecto <strong>de</strong> captura <strong>de</strong> texto. Para iso <strong>de</strong>senvolveuse<br />

un motor <strong>de</strong> busca en Internet que <strong>de</strong> forma automática recolle texto<br />

xornalístico, clasificándoo en distintos tipos segundo o contido.<br />

2.2. Probas <strong>de</strong> recoñecemento automático<br />

Omaterial <strong>de</strong>señado en SpeechDat Galego contén 740 semifonemas, polo<br />

que cobre o 86.5% dos semifonemas posibles. A estas alturas atópase etiquetado<br />

o 20%, e chegouse ó 80.2% <strong>de</strong> cobertura. A continuación móstranse as presta-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!