13.07.2015 Views

Comparación de modelos de lenguaje en tareas de ... - sepln

Comparación de modelos de lenguaje en tareas de ... - sepln

Comparación de modelos de lenguaje en tareas de ... - sepln

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Procesami<strong>en</strong>to <strong>de</strong>l L<strong>en</strong>guaje Natural, núm. 35 (2005), pp. 269-276 recibido 29-04-2005; aceptado 01-06-2005Comparación <strong>de</strong> mo<strong>de</strong>los <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> <strong>en</strong> <strong>tareas</strong> <strong>de</strong> transcripciónautomática <strong>de</strong> noticiarios televisivos ∗Javier Diéguez TiradoETSI TelecomunicaciónUniversidad <strong>de</strong> Vigojdieguez@gts.tsc.uvigo.esCarm<strong>en</strong> García MateoETSI TelecomunicaciónUniversidad <strong>de</strong> Vigocarm<strong>en</strong>@gts.tsc.uvigo.esAntonio Car<strong>de</strong>nal LópezETSI TelecomunicaciónUniversidad <strong>de</strong> Vigocar<strong>de</strong>nal@gts.tsc.uvigo.esResum<strong>en</strong>: En el pres<strong>en</strong>te artículo se investigan diversas técnicas <strong>de</strong> mo<strong>de</strong>lado <strong>de</strong><strong>l<strong>en</strong>guaje</strong> para una tarea <strong>de</strong> transcripción automática <strong>de</strong> noticiarios bilingües. Se comparauna aproximación no adaptada con varios esquemas basados <strong>en</strong> interpolación<strong>de</strong> mo<strong>de</strong>los. Mediante una estrategia <strong>de</strong> adaptación dinámica, utilizando reconocedores<strong>en</strong> paralelo, se ha conseguido reducir la tasa <strong>de</strong> errores <strong>de</strong> reconocimi<strong>en</strong>to<strong>en</strong> un 20.7 % con respecto al mo<strong>de</strong>lo no adaptado. El artículo también analiza losproblemas <strong>de</strong>l habla espontánea que han limitado las mejoras.Palabras clave: adaptación <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> <strong>l<strong>en</strong>guaje</strong>, transcripción <strong>de</strong> voz, programas<strong>de</strong> noticiasAbstract: In this paper several language mo<strong>de</strong>ls for a bilingual broadcast newstranscription task are investigated. A non-adapted approach is compared to variousschemes based on mixture mo<strong>de</strong>ls. Through the use of a dynamic adaptation strategy,employing several <strong>de</strong>co<strong>de</strong>rs in parallel, a 20.7 % reduction in the word errorrate was achieved with respect to the non-adapted mo<strong>de</strong>l. This paper also analyzesthe problems of spontaneous speech, which have limited the improvem<strong>en</strong>ts.Keywords: language mo<strong>de</strong>l adaptation, speech transcription, broadcast news1. IntroducciónLa transcripción <strong>de</strong> noticiarios televisivos(Lamel et al., 2004) constituye un marco <strong>de</strong>trabajo idóneo para medir las prestaciones <strong>de</strong>un reconocedor <strong>de</strong> voz. La gran diversidad <strong>de</strong>locutores, estilos <strong>de</strong> habla y temas tratadosa lo largo <strong>de</strong> un programa <strong>de</strong> noticias suponeuna exig<strong>en</strong>te prueba para un reconocedor,obligándole a ser capaz <strong>de</strong> funcionar <strong>de</strong> manerarobusta para un abanico <strong>de</strong> situacionesdifer<strong>en</strong>tes. Es por ello que esta tarea ha c<strong>en</strong>tradouna bu<strong>en</strong>a parte <strong>de</strong> la investigación <strong>en</strong>reconocimi<strong>en</strong>to <strong>de</strong> voz <strong>en</strong> la última década.El sistema Transcrigal <strong>de</strong> la Universidad<strong>de</strong> Vigo (Diéguez Tirado et al., 2004) fue diseñadopara la transcripción <strong>de</strong> noticiarios <strong>en</strong>l<strong>en</strong>gua gallega, que se caracterizan por la pres<strong>en</strong>ciafrecu<strong>en</strong>te <strong>de</strong> locutores que emplean elidioma castellano. El bilingüismo inher<strong>en</strong>tea esta tarea constituye una nueva variable atratar, que aum<strong>en</strong>ta la complejidad y el interés<strong>de</strong>l sistema.∗Este proyecto ha sido parcialm<strong>en</strong>te apoyado porel MCyT <strong>de</strong> España, bajo el proyecto TIC2002-02208, y la Xunta <strong>de</strong> Galicia bajo el proyectoPGIDT03PXIC32201PN. También agra<strong>de</strong>cemos lacolaboración prestada por la Televisión <strong>de</strong> Galicia(TVG)Para abordar esta variabilidad es conv<strong>en</strong>i<strong>en</strong>terecurrir a esquemas adaptados, tanto<strong>en</strong> lo relativo a los mo<strong>de</strong>los acústicos como<strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong> <strong>l<strong>en</strong>guaje</strong>. En este artículo seestudian varias aproximaciones al mo<strong>de</strong>lado<strong>de</strong> <strong>l<strong>en</strong>guaje</strong> <strong>en</strong> Transcrigal. Se comparará unesquema adaptado con un esquema no adaptado:Aproximación <strong>de</strong> fuerza bruta, que consiste<strong>en</strong> concat<strong>en</strong>ar todo el texto <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>todisponible.Adaptación con mo<strong>de</strong>los <strong>de</strong> mezclas(Clarkson, 1999), <strong>en</strong> la cual el texto sedivi<strong>de</strong> <strong>en</strong> fu<strong>en</strong>tes, y el mo<strong>de</strong>lo resultantese obti<strong>en</strong>e como combinación lineal <strong>de</strong>mo<strong>de</strong>los compon<strong>en</strong>tes. La elección <strong>de</strong> lospesos permite la adaptación.La adaptación por mo<strong>de</strong>los <strong>de</strong> mezclas esbi<strong>en</strong> conocida, si bi<strong>en</strong> este artículo utiliza dosvariaciones fr<strong>en</strong>te a las aproximaciones tradicionales:(i) aplicar el mo<strong>de</strong>lo adaptado <strong>en</strong>la fase <strong>de</strong> Viterbi <strong>de</strong>l reconocedor, <strong>en</strong> lugar<strong>de</strong> esperar a la fase N-best; (ii) aum<strong>en</strong>tar laespecificidad <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> mediantela selección <strong>de</strong> subconjuntos <strong>de</strong>ntro <strong>de</strong>dominio, <strong>en</strong> lugar <strong>de</strong> la aproximación habitual<strong>de</strong> <strong>en</strong>tr<strong>en</strong>ar “mo<strong>de</strong>los <strong>de</strong> temas” fueraISSN: 1135-5948© 2005 Sociedad Española para el Procesami<strong>en</strong>to <strong>de</strong>l L<strong>en</strong>guaje Natural


F. Diéguez, C. García, A. Car<strong>de</strong>nal<strong>de</strong> dominio, eg. (Gotoh y R<strong>en</strong>als, 1999). Secompararán varias estrategias realizando unaum<strong>en</strong>to progresivo <strong>de</strong> la especificidad. El uso<strong>de</strong> estas técnicas ha permitido obt<strong>en</strong>er unadisminución <strong>de</strong>l 20.7 % <strong>en</strong> la tasa <strong>de</strong> errores<strong>de</strong> reconocimi<strong>en</strong>to con respecto a la aproximaciónpor fuerza bruta.El resto <strong>de</strong>l artículo está organizado <strong>de</strong> lasigui<strong>en</strong>te forma. A continuación, <strong>en</strong> el apartado2 se proporciona una visión g<strong>en</strong>eral <strong>de</strong>l sistemacompleto <strong>de</strong> transcripción <strong>de</strong> noticias.En el apartado 3 se introduc<strong>en</strong> algunos conceptosbásicos sobre adaptación <strong>de</strong>l mo<strong>de</strong>lo<strong>de</strong> <strong>l<strong>en</strong>guaje</strong>. El apartado 4 <strong>de</strong>scribe las solucionespropuestas para el mo<strong>de</strong>lo <strong>de</strong> <strong>l<strong>en</strong>guaje</strong><strong>de</strong> Transcrigal. Seguidam<strong>en</strong>te, el apartado 5recoge los resultados experim<strong>en</strong>tales. Finalm<strong>en</strong>te,se realiza una discusión <strong>de</strong> los resultadosobt<strong>en</strong>idos (Apdo. 6) y se proporcionanlas conclusiones y las líneas futuras <strong>de</strong>l trabajo(Apdo. 7).2. El sistema Transcrigal <strong>de</strong>transcripción <strong>de</strong> noticiasEn el pres<strong>en</strong>te apartado se resum<strong>en</strong> loscompon<strong>en</strong>tes <strong>de</strong>l sistema Transcrigal. Una<strong>de</strong>scripción más <strong>de</strong>tallada pue<strong>de</strong> <strong>en</strong>contrarse<strong>en</strong> (Diéguez Tirado et al., 2004).2.1. Bases <strong>de</strong> datosPara la construcción <strong>de</strong> Transcrigal se utilizaronvarias bases <strong>de</strong> datos:Transcrigal-DB. Es la base <strong>de</strong> datos propia<strong>de</strong>l sistema. Está formada por grabaciones<strong>de</strong> noticiarios <strong>de</strong> la Televisión <strong>de</strong>Galicia, tanto <strong>en</strong> audio como <strong>en</strong> ví<strong>de</strong>o,así como su transcripción <strong>de</strong> texto. Estabase <strong>de</strong> datos ha sido ampliada reci<strong>en</strong>tem<strong>en</strong>te<strong>de</strong> 14 a 31 programas (Tabla 1).Cada programa dura aproximadam<strong>en</strong>te1 h., distinguiéndose tres secciones: “noticias”(N), “<strong>de</strong>portes” (D) y “el tiempo”(T). Las transcripciones constan <strong>de</strong> untotal <strong>de</strong> 315K palabras (2MB <strong>de</strong> texto).Los 31 programas se divi<strong>de</strong>n <strong>en</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to,validación y test (26, 2 y 3,respectivam<strong>en</strong>te).Bases <strong>de</strong> datos <strong>de</strong> audio. Se utilizaron 25horas <strong>en</strong> castellano y 15 horas <strong>de</strong> gallegotomadas <strong>de</strong> SpeechDAT, como material<strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to para los mo<strong>de</strong>losacústicos.Bases <strong>de</strong> datos <strong>de</strong> texto. Fueron utilizadaspara para <strong>en</strong>tr<strong>en</strong>ar los mo<strong>de</strong>los <strong>de</strong>Remesa1 Remesa2Núm. programas 14 17Fecha captura 2002 2003–2004Edición mediodía tar<strong>de</strong>Codif. audio PCM 16Khz PCM 48KhzCodif. ví<strong>de</strong>o AVI (In<strong>de</strong>o) MPEG2Tabla 1: Base <strong>de</strong> datos Transcrigal-DBNombre id. fechas tamañoEl Correo Gallego ES 12/00–01/05 366 MBEl Correo Gallego GA 12/00–01/05 122 MBGalicia Hoxe GA 05/03–01/05 117 MBVieiros GA 03/01–02/04 11 MBEscaletas GA 06/01–12/04 154 MBTabla 2: Material <strong>de</strong> texto<strong>l<strong>en</strong>guaje</strong>, y correspon<strong>de</strong>n a la edición Internet<strong>de</strong> varios diarios <strong>en</strong> l<strong>en</strong>gua gallegay castellana. También se pudo contarcon las transcripciones utilizadas por lospres<strong>en</strong>tadores <strong>de</strong> los informativos, conocidashabitualm<strong>en</strong>te como escaletas, proporcionadaspor la TVG (Tabla 2).2.2. Estructura <strong>de</strong>l sistemaEl sistema Transcrigal consta <strong>de</strong> tres bloquesfundam<strong>en</strong>tales (Fig. 1): (i) segm<strong>en</strong>tadoracústico, divi<strong>de</strong> cada programa <strong>de</strong> noticias <strong>en</strong>una serie <strong>de</strong> turnos <strong>de</strong> locutor; (ii) reconocedor<strong>de</strong> voz, transcribe cada turno <strong>de</strong> locutorutilizando un mo<strong>de</strong>lo <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> y una serie<strong>de</strong> mo<strong>de</strong>los acústicos <strong>de</strong>terminados. El mo<strong>de</strong>lo<strong>de</strong> <strong>l<strong>en</strong>guaje</strong> se integra con el reconocedor <strong>en</strong>la fase <strong>de</strong> alineami<strong>en</strong>to <strong>de</strong> patrones (Fig. 2);(iii) visualizador: permite acce<strong>de</strong>r a los cont<strong>en</strong>idosmultimedia <strong>en</strong> base a búsquedas sobrelas transcripciones (Fig. 3).3. El mecanismo <strong>de</strong> adaptación<strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> <strong>l<strong>en</strong>guaje</strong>A lo largo <strong>de</strong> este apartado se expon<strong>en</strong>algunos conceptos básicos sobre adaptación<strong>de</strong> mo<strong>de</strong>los <strong>de</strong> <strong>l<strong>en</strong>guaje</strong>. En primer lugar, sepres<strong>en</strong>ta la adaptación <strong>de</strong> mo<strong>de</strong>los <strong>de</strong> <strong>l<strong>en</strong>guaje</strong>como una herrami<strong>en</strong>ta capaz <strong>de</strong> solucio-Figura 1: Diagrama <strong>de</strong> bloques <strong>de</strong> Transcrigal270


Comparación <strong>de</strong> mo<strong>de</strong>los <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> <strong>en</strong> <strong>tareas</strong> <strong>de</strong> transcripción automática <strong>de</strong> noticiarios televisivosii¢j k lm¨ḧ me]f¨gḧqr¢s¢ẗ op usü p qos vw q xp ü wn]op§¤©¢¨¦¢¥¦¨§ £¢¥ £©§ ¦¨¢¡¤£¥¦¨§†¤‡¤ˆ‰Š‹Œ¤ŽŽ‘¤ŠŠ’“Š„…:¤; 9;


F. Diéguez, C. García, A. Car<strong>de</strong>nalNombretrs-ftrsescp-GAp-ESDescripciónTranscrigal-DB <strong>en</strong>tr<strong>en</strong>am. (filtrada)Transcrigal-DB <strong>en</strong>tr<strong>en</strong>am. (total)Escaletas (filtrada)ECG-GA, Galicia Hoxe, VieirosECG-ES¡¡¡¢¡¢¡¢¡¢¡¢¡¡¡¢¡¢¡¢¡¢¡¢Tabla 3: Organización <strong>de</strong>l texto <strong>en</strong> fu<strong>en</strong>tesPSfrag replacem<strong>en</strong>tsdon<strong>de</strong> la probabilidad P se calcula parauna palabra w i con una historia dada h i . Lospesos <strong>de</strong> interpolación {λ j } se obti<strong>en</strong><strong>en</strong> pormedio <strong>de</strong>l algoritmo EM, minimizando la perplejidad<strong>de</strong> un cierto corpus <strong>de</strong> adaptación.En el caso <strong>de</strong> Transcrigal, el texto disponiblese organizó <strong>en</strong> cinco fu<strong>en</strong>tes distintas,según la tabla 3. El corpus <strong>de</strong> adaptaciónfue extraído <strong>de</strong>l conjunto <strong>de</strong> validación <strong>de</strong>Transcrigal-DB. El esquema para obt<strong>en</strong>er losmo<strong>de</strong>los adaptados fue el sigui<strong>en</strong>te: <strong>en</strong> primerlugar, los LMs compon<strong>en</strong>tes fueron <strong>en</strong>tr<strong>en</strong>adoscomo trigramas por medio <strong>de</strong>l paqueteSRILM (Stolcke, 2002) con suavizado<strong>de</strong> Katz. Tras el cálculo <strong>de</strong> los pesos, segúnlas estrategias explicadas <strong>en</strong> el Apartado 4,cada mo<strong>de</strong>lo resultante se convirtió a un mo<strong>de</strong>lo<strong>de</strong> trigramas autónomo. Finalm<strong>en</strong>te, seaplicó poda basada <strong>en</strong> <strong>en</strong>tropía con umbral2, 5 · 10 −8 , y el vocabulario se limitó a 20Kpalabras, para permitir su uso con el reconocedor.4. Esquemas adaptados paraTranscrigalEn este apartado, se propon<strong>en</strong> tres esquemasdifer<strong>en</strong>tes para el mo<strong>de</strong>lado <strong>de</strong> <strong>l<strong>en</strong>guaje</strong><strong>de</strong> Transcrigal, basados <strong>en</strong> adaptacióncon mo<strong>de</strong>los <strong>de</strong> mezclas. En primer lugar, se<strong>de</strong>scribe un esquema <strong>de</strong> adaptación al dominio.Seguidam<strong>en</strong>te, se <strong>de</strong>scribe una aproximaciónque aprovecha la estructura temporal <strong>de</strong>la tarea. Finalm<strong>en</strong>te, se <strong>de</strong>talla un esquemadinámico, que consigue una adaptación a tema,estilo e idioma.La principal novedad <strong>de</strong> estas estrategiasconsiste <strong>en</strong> el aum<strong>en</strong>to <strong>de</strong> la especificidad<strong>de</strong> los mo<strong>de</strong>los escogi<strong>en</strong>do subconjuntos homogéneos<strong>en</strong> el texto <strong>de</strong>ntro <strong>de</strong> dominio, <strong>en</strong>lugar <strong>de</strong>l procedimi<strong>en</strong>to habitual <strong>de</strong> i<strong>de</strong>ntificarestos subconjuntos <strong>en</strong> el corpus <strong>de</strong> refer<strong>en</strong>cia.4.1. Adaptación al dominioPara realizar una adaptación al dominio,únicam<strong>en</strong>te es necesario <strong>en</strong>tr<strong>en</strong>ar un conjun-plan. espont. espont.GA GA ESN¡¡¡¢¡¢¡¢¡¢¡¢¢¡¢¡¢¡¢¡¢ ¡ ¡ ¡ D¡¡¡¢¡¢¡¢¡¢¡¢¢¡¢¡¢¡¢¡¢ ¡ ¡ ¡ TTRS validación(COMPLETO)algoritmo EMLM1 LM2 LM3 LM4trs esc p-GA p-ESFigura 4: Creación <strong>de</strong>l LM universalLM trs esc p-GA p-ESuniv. 0.173 0.471 0.268 0.088Tabla 4: Pesos LM universalto <strong>de</strong> pesos, <strong>de</strong> manera que se obt<strong>en</strong>ga unmo<strong>de</strong>lo <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> universal. Este mo<strong>de</strong>loserá aplicado a todos los turnos <strong>de</strong> locutor <strong>de</strong>manera ciega, al igual que si fuese un mo<strong>de</strong>lo<strong>de</strong> <strong>l<strong>en</strong>guaje</strong> obt<strong>en</strong>ido por fuerza bruta, perocon la v<strong>en</strong>taja <strong>de</strong> haber combinado el material<strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> manera a<strong>de</strong>cuadacon respecto a la tarea.Para <strong>en</strong>tr<strong>en</strong>ar el mo<strong>de</strong>lo <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> universal,se combinaron cuatro <strong>de</strong> las fu<strong>en</strong>tes <strong>de</strong>la Tabla 3, y se utilizó como corpus <strong>de</strong> adaptaciónla totalidad <strong>de</strong>l texto <strong>de</strong> validación <strong>de</strong>Transcrigal-DB. Este proceso se ilustra <strong>en</strong> laFigura 4. Los pesos obt<strong>en</strong>idos se muestran<strong>en</strong> la Tabla 4. Se observa que la fu<strong>en</strong>te <strong>de</strong>mayor peso correspon<strong>de</strong> a las escaletas, a pesar<strong>de</strong> carecer <strong>de</strong> transcripciones <strong>de</strong> habla espontánea,por ofrecer el mejor compromiso<strong>en</strong>tre ajuste a la tarea y cantidad <strong>de</strong> texto. Sibi<strong>en</strong> la fu<strong>en</strong>te “trs” correspon<strong>de</strong> a materialmás ajustado, no se le asigna un peso importante<strong>de</strong>bido a su escasez.4.2. Adaptación por bloquesEl sigui<strong>en</strong>te esquema propuesto aprovechaque cada programa <strong>de</strong> noticias está separado<strong>en</strong> tres bloques bi<strong>en</strong> difer<strong>en</strong>ciados: noticias,<strong>de</strong>portes y tiempo. Precedi<strong>en</strong>do a cada bloquese <strong>en</strong>cu<strong>en</strong>tra una sintonía característicaque permite su fácil i<strong>de</strong>ntificación. Por tanto,pue<strong>de</strong> asumirse que para cada turno <strong>de</strong>locutor que se <strong>de</strong>see reconocer, el bloque alque pert<strong>en</strong>ece será conocido, si<strong>en</strong>do factiblela aplicación <strong>de</strong> un mo<strong>de</strong>lo adaptado a esebloque.Conforme a este planteami<strong>en</strong>to, se <strong>en</strong>tr<strong>en</strong>óun mo<strong>de</strong>lo difer<strong>en</strong>te para cada tema,utilizando como corpus <strong>de</strong> adaptación el sub-λ272


Comparación <strong>de</strong> mo<strong>de</strong>los <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> <strong>en</strong> <strong>tareas</strong> <strong>de</strong> transcripción automática <strong>de</strong> noticiarios televisivosplan. espont. espont.GA GA ESN¥¡¥¡¥¡¥¡¥ ¦¡¦¡¦¡¦¡¦¦¡¦¡¦¡¦¡¦ ¥¡¥¡¥¡¥¡¥LM5trs-f(filtrados)plan.¡¡ ¡¡¡¡¡¡¡ ¡¡ ¡¡GA GA¡ ¡ ¡¡¡ ¡¡ ¡ ¡¡ ¡ ¡ ¡¡ ©¡©¡©Nespont. espont.ES¡algoritmo EMλ¡¡¡¡¡¡¡¡D£¡£¡£¡£¡££¡£¡£¡£¡£¤¡¤¡¤¡¤¡¤¤¡¤¡¤¡¤¡¤¤¡¤¡¤¡¤¡¤£¡£¡£¡£¡£©¡©¡©¡¡¡¡©¡©¡©LM5trs-f(filtrados)D¤¡¤¡¤¡¤¡¤ £¡£¡£¡£¡£T¤¡¤¡¤¡¤¡¤ £¡£¡£¡£¡£¡¡¡¢¡¢¡¢¡¢¡¢¡¡ ¡¡¨¡¨¡¨¡¨¡¨ §¡§¡§¡§¡§g replacem<strong>en</strong>tsTRS validación(3 SUBCONJ.)¡¡¡¢¡¢¡¢¡¢¡¢LM1 LM2 LM3 LM4trs esc(filtradas)p-GAp-ES¨¡¨¡¨¡¨¡¨ §¡§¡§¡§¡§¡¡ ©¡©¡©¡¡algoritmo EMλT¡¡PSfrag replacem<strong>en</strong>tsTRS validación(6 SUBCONJ.)LM1 LM2 LM3 LM4trs esc(filtradas)p-GA p-ES¡¡ ©¡©¡©Figura 5: Creación <strong>de</strong> los LMs por bloquesLM trs-f trs esc p-GA p-ESN 0.07 0.02 0.49 0.34 0.08D 0.15 0.04 0.52 0.14 0.15T 0.83 0.02 0.11 0.04 0.00Tabla 5: Pesos LMs por bloquesconjunto correspondi<strong>en</strong>te <strong>de</strong> la parte <strong>de</strong> validación.Se combinaron cinco fu<strong>en</strong>tes y se hizouso <strong>de</strong> filtrado <strong>en</strong> algunas <strong>de</strong> ellas, paramejorar la correspon<strong>de</strong>ncia <strong>en</strong>tre corpus <strong>de</strong>adaptación y texto <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, <strong>de</strong> estamanera:Las escaletas fueron divididas <strong>en</strong> noticiasy <strong>de</strong>portes <strong>en</strong> base a sus etiquetas. Paralos bloques <strong>de</strong> noticias y <strong>de</strong>portes, seescogió el subconjunto correspondi<strong>en</strong>te.Para el bloque <strong>de</strong> el tiempo, se escogió latotalidad <strong>de</strong> las escaletas.La fu<strong>en</strong>te “trs-f” está formada porel subconjunto <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong>Transcrigal-DB correspondi<strong>en</strong>te al bloque.La fu<strong>en</strong>te “trs” correspon<strong>de</strong> a la totalidad<strong>de</strong>l texto <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, sinfiltrado.El proceso <strong>de</strong> creación <strong>de</strong> los tres mo<strong>de</strong>losse repres<strong>en</strong>ta <strong>en</strong> la Figura 5. Los pesos obt<strong>en</strong>idospara cada uno <strong>de</strong> los tres mo<strong>de</strong>los serecog<strong>en</strong> <strong>en</strong> la Tabla 5. Se observa cómo la importancia<strong>de</strong> cada fu<strong>en</strong>te varía claram<strong>en</strong>te <strong>en</strong>función <strong>de</strong>l bloque consi<strong>de</strong>rado. En todos loscasos, se le asigna un mayor peso a la fu<strong>en</strong>tefiltrada “trs-f” que a la fu<strong>en</strong>te “trs”, <strong>de</strong>bidoa que está más ajustada, a pesar <strong>de</strong> contarcon un tamaño m<strong>en</strong>or.4.3. Adaptación dinámicaSi bi<strong>en</strong> el esquema anterior consigue unaadaptación al tema, se realizaron ciertas modificacionespara incorporar adaptación al estilo(habla planeada o espontánea) y al idio-Figura 6: Creación <strong>de</strong> los LMs para adapt.dinámicaLM trs-f trs esc p-GA p-ESN-pl-GA 0.05 0.01 0.60 0.33 0.01N-sp-GA 0.19 0.07 0.13 0.53 0.09N-sp-ES 0.23 0.01 0.01 0.03 0.71D-pl-GA 0.06 0.03 0.74 0.16 0.01D-sp 0.33 0.01 0.02 0.05 0.59T 0.83 0.02 0.11 0.04 0.00Tabla 6: Pesos LMs para adapt. dinámicama (castellano o gallego). Procedi<strong>en</strong>do <strong>de</strong>manera análoga al caso anterior, se crearon6 mo<strong>de</strong>los adaptados, utilizando como corpus<strong>de</strong> adaptación subconjuntos concretos <strong>de</strong>lcorpus <strong>de</strong> validación:Para el bloque <strong>de</strong> noticias, se crearon 3mo<strong>de</strong>los: habla planeada <strong>en</strong> gallego, hablaespontánea <strong>en</strong> gallego y habla espontánea<strong>en</strong> castellano. No se creó unmo<strong>de</strong>lo para habla planeada <strong>en</strong> castellano<strong>de</strong>bido a que el texto <strong>en</strong> Transcrigal-DB para esta condición es insufici<strong>en</strong>te.En el bloque <strong>de</strong> <strong>de</strong>portes, <strong>de</strong>bido a quecasi toda el habla espontánea es <strong>en</strong> idiomacastellano, se creó un único mo<strong>de</strong>lopara habla espontánea cubri<strong>en</strong>do ambosidiomas.Para el bloque <strong>de</strong> el tiempo, únicam<strong>en</strong>tese <strong>en</strong>tr<strong>en</strong>ó un mo<strong>de</strong>lo <strong>de</strong> <strong>l<strong>en</strong>guaje</strong>, <strong>de</strong>bidoa que todos los turnos correspon<strong>de</strong>n allocutor principal.Los pesos <strong>de</strong> los seis mo<strong>de</strong>los <strong>en</strong>tr<strong>en</strong>adosse recog<strong>en</strong> <strong>en</strong> la Tabla 6, y los subconjuntos<strong>de</strong> validación utilizados se resum<strong>en</strong> <strong>en</strong> la Figura6.Para aplicar el mo<strong>de</strong>lo a<strong>de</strong>cuado a cadaturno <strong>de</strong> locutor, podría haberse procedidocon un esquema multipase. Sin embargo, <strong>de</strong>bidoa que únicam<strong>en</strong>te existe incertidumbreacerca <strong>de</strong> un máximo <strong>de</strong> 3 mo<strong>de</strong>los, ha resul-273


F. Diéguez, C. García, A. Car<strong>de</strong>nalLMPPL %OOV(int.) (20K)%WERfuerza bruta 155.8 5.72 37.13mezcla estática 109.9 4.76 32.75mezcla bloques 95.9 4.39 31.67mezcla dinámica 84.7 3.94 29.55Tabla 7: Resultados globalestado factible una implem<strong>en</strong>tación basada <strong>en</strong>reconocedores <strong>en</strong> paralelo, <strong>de</strong>cidi<strong>en</strong>do el mo<strong>de</strong>loa<strong>de</strong>cuado <strong>en</strong> base a la puntuación final<strong>de</strong> reconocimi<strong>en</strong>to. Este esquema proporcionados v<strong>en</strong>tajas sobre el anterior:Permite realizar adaptación dinámicasin utilizar transcripciones erróneas, locual evita una fu<strong>en</strong>te <strong>de</strong> problemas.Facilita la implem<strong>en</strong>tación <strong>en</strong> tiemporeal, lo cual pue<strong>de</strong> ser útil para aplicacionesfuturas <strong>de</strong> subtitulado <strong>en</strong> directo.5. Resultados experim<strong>en</strong>talesEl el pres<strong>en</strong>te apartado se analizan lasprestaciones <strong>de</strong> cada uno <strong>de</strong> los mecanismos<strong>de</strong> mo<strong>de</strong>lado <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> propuestos, fr<strong>en</strong>te ala parte <strong>de</strong> test <strong>de</strong> Transcrigal-DB (3 programas<strong>de</strong> noticias, con un total <strong>de</strong> 31577palabras etiquetadas). Se realizaron experim<strong>en</strong>tos<strong>de</strong> texto, <strong>en</strong> base a perplejidad y tasa<strong>de</strong> palabras fuera <strong>de</strong> vocabulario (OOV), yexperim<strong>en</strong>tos <strong>de</strong> reconocimi<strong>en</strong>to. La tabla 7pres<strong>en</strong>ta los resultados.5.1. Experim<strong>en</strong>tos <strong>de</strong> textoLa columna PPL <strong>de</strong> la tabla 7 repres<strong>en</strong>tala perplejidad <strong>de</strong> cada LM fr<strong>en</strong>te al texto <strong>de</strong>test <strong>de</strong> Transcrigal-DB. La perplejidad se obtuvopara los mo<strong>de</strong>los <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> ya podadospor <strong>en</strong>tropía, restringiéndolos a un vocabulariocomún <strong>de</strong> manera que se permitiera lacomparación. Se utilizó el vocabulario intersección,formado por 6571 palabras pres<strong>en</strong>tes<strong>en</strong> todos los mo<strong>de</strong>los <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> obt<strong>en</strong>idos,con una tasa <strong>de</strong> palabras fuera <strong>de</strong> vocabulario<strong>de</strong> 21.07 %. En el caso <strong>de</strong> los mo<strong>de</strong>los porbloques y dinámicos, se aplicaron únicam<strong>en</strong>tea los subconjuntos <strong>de</strong>l test correspondi<strong>en</strong>tes.La columna “OOV” muestra la tasa <strong>de</strong> palabrasfuera <strong>de</strong> vocabulario, <strong>de</strong> cada mo<strong>de</strong>lo<strong>de</strong> <strong>l<strong>en</strong>guaje</strong>, una vez podado a 20K palabraspara po<strong>de</strong>r ser utilizado por el reconocedor.Ambas variables analizan distintos aspectosacerca la calidad <strong>de</strong>l LM resultante. Mi<strong>en</strong>trasla tasa <strong>de</strong> OOV mi<strong>de</strong> la capacidad <strong>de</strong>lLM para seleccionar un lexicón adaptado, laperplejidad mi<strong>de</strong> el po<strong>de</strong>r predictivo <strong>de</strong>l mo<strong>de</strong>lo<strong>de</strong> <strong>l<strong>en</strong>guaje</strong> fr<strong>en</strong>te al test. Ambos aspectosinfluirán <strong>de</strong> manera complem<strong>en</strong>taria <strong>en</strong> latasa <strong>de</strong> reconocimi<strong>en</strong>to final.Los resultados obt<strong>en</strong>idos indican que laaproximación por fuerza bruta, al haber sidorealizada sin t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta la naturaleza<strong>de</strong> la tarea, se ve claram<strong>en</strong>te superada por lastécnicas basadas <strong>en</strong> mezclas. A medida que laestrategia ti<strong>en</strong>e <strong>en</strong> cu<strong>en</strong>ta las variaciones puntuales<strong>de</strong> tema y estilo, se obti<strong>en</strong><strong>en</strong> mejorastanto <strong>en</strong> tasa <strong>de</strong> OOV como <strong>en</strong> perplejidad.5.2. Experim<strong>en</strong>tos <strong>de</strong>reconocimi<strong>en</strong>toLos experim<strong>en</strong>tos <strong>de</strong> reconocimi<strong>en</strong>to serealizaron utilizando mo<strong>de</strong>los acústicos adaptadosa locutores masculinos, fem<strong>en</strong>inos, ylocutores principales, según el procedimi<strong>en</strong>toexplicado <strong>en</strong> (Diéguez Tirado et al., 2004).Los parámetros <strong>de</strong> poda <strong>de</strong>l reconocedor fueronajustados para una ejecución <strong>en</strong> 3 vecestiempo real. Se partió <strong>de</strong> una segm<strong>en</strong>taciónmanual <strong>de</strong>l material <strong>de</strong> test, para evitar errores<strong>de</strong>rivados <strong>de</strong> una segm<strong>en</strong>tación automáticaimperfecta.La columna WER <strong>de</strong> la Tabla 7 muestrala tasa <strong>de</strong> errores <strong>de</strong> reconocimi<strong>en</strong>to para laparte <strong>de</strong> test <strong>de</strong> Transcrigal-DB, utilizandocada uno <strong>de</strong> los esquemas <strong>de</strong> mo<strong>de</strong>lado <strong>de</strong><strong>l<strong>en</strong>guaje</strong> propuestos. Se observan resultadosbastante correlados con los valores <strong>de</strong> perplejidadobt<strong>en</strong>idos.En la Tabla 8 se <strong>de</strong>sglosa la WER parala aproximación <strong>de</strong> fuerza bruta y la adaptacióndinámica. También se incluye la proporción<strong>de</strong>l test que correspon<strong>de</strong> a cada grupo<strong>de</strong>sglosado. Si bi<strong>en</strong> se observan mejoras paratodos los grupos <strong>de</strong> locutores, el porc<strong>en</strong>taje<strong>de</strong> errores <strong>en</strong> la parte <strong>de</strong> habla espontánea(<strong>en</strong> negrilla) sigue si<strong>en</strong>do muy alto, si bi<strong>en</strong>correspon<strong>de</strong> únicam<strong>en</strong>te a un 19 % <strong>de</strong>l test.6. Discusión. Los problemas <strong>de</strong>lhabla espontáneaEn este artículo se han pres<strong>en</strong>tado algunosmecanismos <strong>de</strong> adaptación al mo<strong>de</strong>lo <strong>de</strong><strong>l<strong>en</strong>guaje</strong> para una tarea <strong>de</strong> transcripción <strong>de</strong>noticias. El mejor <strong>de</strong> los mecanismos propuestos,ha proporcionado una mejora relativa <strong>de</strong>un 20.7 % <strong>en</strong> tasa <strong>de</strong> reconocimi<strong>en</strong>to, con respectoa una aproximación basada <strong>en</strong> fuerzabruta (Tabla 7). No obstante, un <strong>de</strong>sglose <strong>de</strong>los resultados (Tabla 8) indica una gran di-274


Comparación <strong>de</strong> mo<strong>de</strong>los <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> <strong>en</strong> <strong>tareas</strong> <strong>de</strong> transcripción automática <strong>de</strong> noticiarios televisivosBloque Locutores %test% WERf.bruta ad.din.Loc. ppal 21.61 18.41 14.24NReporteros 34.85 34.33 26.85Entrev-GA 7.46 59.79 53.42Entrev-ES 6.44 61.18 57.64Loc. ppal 5.46 27.39 17.93DReporteros 11.97 42.57 29.60Entrev-GA 1.52 80.38 75.57Entrev-ES 3.71 72.76 66.10T Loc. ppal 6.98 32.56 18.50Total 100.0 37.13 29.55Tabla 8: Desglose <strong>de</strong> la WERfer<strong>en</strong>cia <strong>en</strong>tre los resultados para habla planeada(WER <strong>en</strong>tre 14 y 29 %) y aquellos obt<strong>en</strong>idospara habla espontánea (WER <strong>en</strong>tre53 y el 75 %). Es necesario por tanto profundizar<strong>en</strong> las razones <strong>de</strong> este comportami<strong>en</strong>to,para int<strong>en</strong>tar solucionar el problema <strong>de</strong> caraa próximos trabajos.Una <strong>de</strong> las razones fundam<strong>en</strong>tales parael pobre funcionami<strong>en</strong>to con habla espontáneaconsiste <strong>en</strong> la aus<strong>en</strong>cia <strong>de</strong> materialespecífico <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. Tanto los corporaperiodísticos utilizados, como las escaletas,correspon<strong>de</strong>n fundam<strong>en</strong>talm<strong>en</strong>te a habla<strong>de</strong> tipo planeado. Únicam<strong>en</strong>te se ha sacadopartido <strong>de</strong> la parte <strong>de</strong> habla espontánea <strong>de</strong>Transcrigal-DB, si bi<strong>en</strong> su escasez no ha permitidogran<strong>de</strong>s mejoras. El hecho <strong>de</strong> trabajar<strong>en</strong> idioma gallego implica una mayor dificultadpara la adquisición <strong>de</strong> corpora <strong>de</strong> texto.Actualm<strong>en</strong>te estamos investigando el uso<strong>de</strong> guiones <strong>de</strong> series <strong>de</strong> televisión y películas,para paliar este problema. También estamosutilizando mecanismos <strong>de</strong> recuperación<strong>de</strong> información para int<strong>en</strong>tar aislar la pequeñafracción <strong>de</strong> habla espontánea que pue<strong>de</strong>estar pres<strong>en</strong>te <strong>en</strong> nuestros corpora actuales.Al marg<strong>en</strong> <strong>de</strong> la ina<strong>de</strong>cuación <strong>de</strong> los corpora<strong>de</strong> texto, exist<strong>en</strong> otros problemas asociadosal habla espontánea. En primer lugar,se dan todo un conjunto <strong>de</strong> disflu<strong>en</strong>cias (repeticiones,muletillas, palabras inacabadas,etc.) no pres<strong>en</strong>tes <strong>en</strong> habla planeada, que dificultanel mo<strong>de</strong>lado <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> utilizandon-gramas. Un mo<strong>de</strong>lo <strong>de</strong> <strong>l<strong>en</strong>guaje</strong> basado <strong>en</strong>conteos no mo<strong>de</strong>lará nunca <strong>de</strong> manera correctaestos f<strong>en</strong>óm<strong>en</strong>os, que surgirán siempre <strong>de</strong>manera aleatoria in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tem<strong>en</strong>te <strong>de</strong> loobservado <strong>en</strong> el corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. Asimismo,el reconocedor <strong>de</strong> voz siempre int<strong>en</strong>taajustar la secu<strong>en</strong>cia acústica a palabras pres<strong>en</strong>tes<strong>en</strong> el vocabulario. Para t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>talos f<strong>en</strong>óm<strong>en</strong>os m<strong>en</strong>cionados, habría que liberarlo<strong>de</strong> esta restricción.Finalm<strong>en</strong>te, otro aspecto que pue<strong>de</strong> estarinfluy<strong>en</strong>do son los parámetros utilizados parala <strong>de</strong>tección <strong>de</strong> actividad <strong>de</strong>ntro <strong>de</strong>l reconocedor,los cuales están ajustados para hablaplaneada. El habla espontánea incluye normalm<strong>en</strong>tepausas durante las frases, y el <strong>de</strong>tector<strong>de</strong> actividad provoca que los segm<strong>en</strong>tos<strong>en</strong>tre dos pausas se consi<strong>de</strong>r<strong>en</strong> frases separadas,no utilizando la historia <strong>de</strong> palabras anteriora la pausa. Sería por tanto conv<strong>en</strong>i<strong>en</strong>teaplicar una <strong>de</strong>tección <strong>de</strong> actividad adaptativaal tipo <strong>de</strong> hablante.7. Conclusiones y líneas futurasEn el pres<strong>en</strong>te artículo, se han propuestodiversos mecanismos <strong>de</strong> mo<strong>de</strong>lado <strong>de</strong> <strong>l<strong>en</strong>guaje</strong>para una tarea <strong>de</strong> transcripción <strong>de</strong> noticiariosbilingües. Se ha comparado un esquemano adaptado, basado <strong>en</strong> concat<strong>en</strong>ación <strong>de</strong>ltexto <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, con diversos esquemasadaptados basados <strong>en</strong> mo<strong>de</strong>los <strong>de</strong> mezclas.El uso <strong>de</strong> mo<strong>de</strong>lo <strong>de</strong> mezclas ha permitidoaprovechar el texto <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>todisponible <strong>de</strong> manera efectiva, y po<strong>de</strong>r aplicarel mo<strong>de</strong>lo adaptado resultante <strong>de</strong>s<strong>de</strong> elprincipio <strong>de</strong>l proceso <strong>de</strong> reconocimi<strong>en</strong>to. Mediantela i<strong>de</strong>ntificación <strong>de</strong> condiciones típicas<strong>de</strong> tema, estilo e idioma <strong>de</strong>ntro <strong>de</strong>l corpusla tarea, se ha <strong>de</strong>sarrollado un esquema <strong>de</strong>adaptación dinámica realista basada <strong>en</strong> reconocimi<strong>en</strong>tos<strong>en</strong> paralelo. Este esquema <strong>de</strong>adaptación dinámica proporciona dos v<strong>en</strong>tajascon respecto a aproximaciones multipase(i) no es necesario <strong>de</strong>p<strong>en</strong><strong>de</strong>r <strong>de</strong> transcripcionesincorrectas para la adaptación (ii) facilitael reconocimi<strong>en</strong>to <strong>en</strong> tiempo real. El mo<strong>de</strong>loadaptado dinámico ha permitido una mejora<strong>de</strong> un 20.7 % <strong>en</strong> tasa <strong>de</strong> error con respectoal esquema no adaptado. Se ha observadoun comportami<strong>en</strong>to pobre para el habla espontánea,y se han i<strong>de</strong>ntificado los problemasque dan orig<strong>en</strong> a este comportami<strong>en</strong>to: falta<strong>de</strong> a<strong>de</strong>cuación <strong>de</strong>l corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to,mal mo<strong>de</strong>lado <strong>de</strong> las disflu<strong>en</strong>cias <strong>de</strong>l <strong>l<strong>en</strong>guaje</strong>,y <strong>de</strong>tección <strong>de</strong> actividad ina<strong>de</strong>cuada.El cuanto a próximas líneas <strong>de</strong> actuación,se está trabajando <strong>en</strong> la recopilación <strong>de</strong> corpora<strong>de</strong> habla espontánea, así como <strong>en</strong> técnicaspara aislar habla espontánea <strong>de</strong> los corporaexist<strong>en</strong>tes. También se están investigandomecanismos <strong>de</strong> clustering jerárquico <strong>de</strong>l material<strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, que permitan combi-275


F. Diéguez, C. García, A. Car<strong>de</strong>nalnar el material con una mayor granularidad,combati<strong>en</strong>do los efectos <strong>de</strong> fragm<strong>en</strong>tación.BibliografíaBellegarda, J. 2004. Statistical language mo<strong>de</strong>ladaptation: review and perspectives.Speech Communication, 42(1):93–108, January.Car<strong>de</strong>nal-Lopez, A., F. J. Dieguez-Tirado, yC. Garcia-Mateo. 2002. Fast LM lookaheadfor large vocabulary continuousspeech recognition using perfect hashing.En Proc. IEEE Int. Conf. Acoustics, Speechand Signal Processing, volum<strong>en</strong> 1, páginas705–708, Orlando, FL, May.Clarkson, Philip R. 1999. Adaptation ofStatistical Language Mo<strong>de</strong>ls for AutomaticSpeech Recognition. Ph.D. tesis, Universityof Cambridge.Diéguez Tirado, Javier, Carm<strong>en</strong> García Mateo,Laura Docío Fernán<strong>de</strong>z, y AntonioCar<strong>de</strong>nal López. 2004. Transcrigal: Sistema<strong>de</strong> transcripción <strong>de</strong> noticias <strong>de</strong> launiversidad <strong>de</strong> vigo. En Emilio SanchisArnal, editor, Terceras Jornadas <strong>en</strong> Tecnología<strong>de</strong>l Habla, páginas 243–248, Val<strong>en</strong>cia,Spain, November.Gotoh, Y. y S. R<strong>en</strong>als. 1999. Topic-basedmixture language mo<strong>de</strong>lling. J. NaturalLanguage Engineering, 5:355–375.Lamel, L., J-L. Gauvain, G. Adda, M. Adda-Decker, L. Canseco, L. Ch<strong>en</strong>, O. Galibert,A. Messaoudi, y H. Schw<strong>en</strong>k. 2004. Speechtranscription in multiple languages. EnProc. IEEE Int. Conf. Acoustics, Speechand Signal Processing, volum<strong>en</strong> 3, páginas757–760, Montreal, Canada, May.Manning, Christopher D. y Hinrich Schütze.1999. Foundations of Statistical NaturalLanguage Processing. The MIT Press,Cambridge, Massachusetts.Stolcke, A. 2002. SRILM – an ext<strong>en</strong>siblelanguage mo<strong>de</strong>ling toolkit. En Proc. Int.Conf. Spok<strong>en</strong> Language Processing, volum<strong>en</strong>2, páginas 901–904, D<strong>en</strong>ver, CO, September.276

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!