12.07.2015 Views

Modelo estocástico de traducción basado en N ... - TALP - UPC

Modelo estocástico de traducción basado en N ... - TALP - UPC

Modelo estocástico de traducción basado en N ... - TALP - UPC

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Mo<strong>de</strong>lo</strong> estocástico <strong>de</strong> traducción <strong>basado</strong> <strong>en</strong> N-gramas <strong>de</strong> tuplasbilingües y combinación log-lineal <strong>de</strong> característicasJosé B. MariñoRafael BanchsJosep Mª CregoAdrià <strong>de</strong> GispertPatrik LambertJosé A. R. FonollosaMarta R. Costa-jussàC<strong>en</strong>tro <strong>de</strong> Investigación <strong>TALP</strong>Universidad Politécnica <strong>de</strong> CataluñaCampus Nord <strong>UPC</strong>. 08034-Barcelona.{canton, rbanchs, jmcrego, agispert, lambert, adrian, mruiz}@gps.tsc.upc.eduResum<strong>en</strong>: En esta comunicación se pres<strong>en</strong>ta un sistema <strong>de</strong> traducción estocástica <strong>basado</strong> <strong>en</strong> elmo<strong>de</strong>lado mediante N-gramas <strong>de</strong> la probabilidad conjunta <strong>de</strong> textos bilingües. La unidad básica<strong>de</strong>l mo<strong>de</strong>lo es la tupla, par <strong>de</strong> ca<strong>de</strong>nas <strong>de</strong> palabras <strong>de</strong>l l<strong>en</strong>guaje fu<strong>en</strong>te (a traducir) y el l<strong>en</strong>guaje<strong>de</strong>stino (traducción). La traducción se lleva a cabo mediante la maximización <strong>de</strong> unacombinación lineal <strong>de</strong> los logaritmos <strong>de</strong> la probabilidad asignada a la traducción por el mo<strong>de</strong>lo<strong>de</strong> traducción y otras características, sigui<strong>en</strong>do la aproximación <strong>de</strong> <strong>en</strong>tropía máxima. Lasprestaciones <strong>de</strong>l sistema <strong>de</strong> traducción son evaluadas con una tarea <strong>de</strong> traducción <strong>de</strong>l habla: latraducción <strong>en</strong>tre inglés y español (y viceversa) <strong>de</strong> transcripciones <strong>de</strong> interv<strong>en</strong>ciones <strong>de</strong> losmiembros <strong>de</strong>l Parlam<strong>en</strong>to Europeo. Los resultados alcanzados se <strong>en</strong>cu<strong>en</strong>tran al nivel <strong>de</strong>l estado<strong>de</strong>l arte.Palabras clave: traducción automática <strong>de</strong>l habla, traducción estocástica, N-gramas, mo<strong>de</strong>lo <strong>de</strong>l<strong>en</strong>guaje <strong>de</strong> <strong>en</strong>tropía máxima.Abstract: This communication introduces a stochastic machine translation system based on N-gram mo<strong>de</strong>lling of the joint probability of bilingual texts. The basic unit of this mo<strong>de</strong>l is called atuple and consists of a pair of both source (to be translated) language and target language(translation) word-strings. Translation is driv<strong>en</strong> by a log-linear combination of the N-grammo<strong>de</strong>l probability and other features, according to the maximum <strong>en</strong>tropy language mo<strong>de</strong>llingapproach. The translation performance is evaluated by means of a speech-to-speech translationtasks: translation from Spanish to English (and viceversa) of European Parliam<strong>en</strong>t speeches.The system reaches a state-of-art performance.Keywords: stochastic machine translation, speech-to-speech translation, N-gram mo<strong>de</strong>l,maximum <strong>en</strong>tropy language mo<strong>de</strong>lling.1 IntroducciónReci<strong>en</strong>tem<strong>en</strong>te los sistemas estocásticos <strong>de</strong>traducción han adquirido un notableprotagonismo, gracias a los bu<strong>en</strong>os resultadosque han obt<strong>en</strong>ido cuando se aplican a tareas <strong>de</strong>carácter limitado. Cuando se trata <strong>de</strong> traducir elhabla, emerge otra razón importante para supopularidad: su capacidad para afrontar latraducción <strong>de</strong> oraciones no bi<strong>en</strong> formadas <strong>de</strong>s<strong>de</strong>el punto <strong>de</strong> vista gramatical. Estaagramaticalidad pue<strong>de</strong> originarse <strong>en</strong> el carácterespontáneo <strong>de</strong>l habla o <strong>en</strong> los errores <strong>de</strong> lossistemas <strong>de</strong> reconocimi<strong>en</strong>to que actúan <strong>de</strong>intermediarios <strong>en</strong>tre la señal <strong>de</strong> voz y el sistema<strong>de</strong> traducción. Por todo ello, hoy asistimos a unnotable esfuerzo <strong>en</strong>caminado al <strong>de</strong>sarrollo <strong>de</strong>sistemas estocásticos <strong>de</strong> traducción <strong>de</strong>l hablacapaces <strong>de</strong> abordar campos <strong>de</strong> aplicación nolimitados, tanto <strong>en</strong> la talla <strong>de</strong>l vocabulario como<strong>en</strong> su cont<strong>en</strong>ido semántico.La aproximación estocástica consi<strong>de</strong>ra quecualquier oración f <strong>de</strong> una l<strong>en</strong>gua fu<strong>en</strong>te (frase atraducir) pue<strong>de</strong> ser traducida <strong>en</strong> cualquier otra d<strong>de</strong>l l<strong>en</strong>guaje <strong>de</strong>stino (<strong>en</strong> el que se <strong>de</strong>sea latraducción) con probabilidad no nula. Latraducción consiste precisam<strong>en</strong>te <strong>en</strong> <strong>de</strong>terminarla oración d con mayor probabilidad <strong>de</strong>constituir una traducción para la oración


original f. Las difer<strong>en</strong>cias <strong>en</strong>tre los distintossistemas <strong>de</strong> traducción se originan <strong>en</strong> el modoque mo<strong>de</strong>lan la probabilidad <strong>de</strong> que d sea unatraducción <strong>de</strong> f. Un rasgo común <strong>en</strong> estaaproximación es la necesidad <strong>de</strong> corpusbilingües paralelos (formados por pares <strong>de</strong>oraciones que se traduc<strong>en</strong> mutuam<strong>en</strong>te) a partir<strong>de</strong> los cuales estimar los parámetros <strong>de</strong>lmo<strong>de</strong>lo.El primer planteami<strong>en</strong>to (Brown et al.,1990) utilizó la palabra como la unidad básica<strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> traducción. La probabilidad <strong>de</strong>traducción se establece <strong>en</strong> función <strong>de</strong> laprobabilidad <strong>de</strong> traducción <strong>de</strong> las palabras, <strong>de</strong>un mo<strong>de</strong>lo estocástico <strong>de</strong> distorsión <strong>de</strong>l or<strong>de</strong>n<strong>de</strong> las palabras <strong>en</strong>tre las dos l<strong>en</strong>guas y <strong>de</strong> lafertilidad <strong>de</strong> las palabras (la probabilidad <strong>de</strong> queuna palabra <strong>de</strong> una l<strong>en</strong>gua se traduzca <strong>en</strong> una,dos, tres, etc. palabras <strong>de</strong> la otra). D<strong>en</strong>tro <strong>de</strong>este planteami<strong>en</strong>to se establecieron difer<strong>en</strong>tesmo<strong>de</strong>los <strong>de</strong> complejidad creci<strong>en</strong>te (llamadoscomúnm<strong>en</strong>te mo<strong>de</strong>los <strong>de</strong> IBM1, IBM2, etc.).Estos mo<strong>de</strong>los son asimétricos, ya que para unpar <strong>de</strong> l<strong>en</strong>guas dadas <strong>de</strong>p<strong>en</strong><strong>de</strong>n <strong>de</strong>l s<strong>en</strong>tido <strong>de</strong> latraducción. El principal inconv<strong>en</strong>i<strong>en</strong>te <strong>de</strong> estaaproximación es la in<strong>de</strong>p<strong>en</strong><strong>de</strong>ncia <strong>de</strong>l contexto<strong>de</strong> la probabilidad <strong>de</strong> traducción <strong>de</strong> las palabrasy la dificultad algorítmica para estimar losmo<strong>de</strong>los y realizar la traducción. Hoy <strong>en</strong> día, elprincipal fruto <strong>de</strong> este planteami<strong>en</strong>to y sussucesivos refinami<strong>en</strong>tos es su capacidad paraestablecer un alineami<strong>en</strong>to <strong>en</strong>tre las palabras <strong>de</strong>un par <strong>de</strong> oraciones que son traduccionesmutuas <strong>en</strong> el par <strong>de</strong> l<strong>en</strong>guas <strong>de</strong> interés. Es <strong>de</strong>cir,como resultado <strong>de</strong>l <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong>l mo<strong>de</strong>lo<strong>de</strong> traducción, se obti<strong>en</strong>e para cada par <strong>de</strong> frases<strong>de</strong>l corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to las palabras que serelacionan <strong>en</strong> la traducción o, dicho <strong>de</strong> otromodo, las palabras vinculadas (o <strong>en</strong>lazadas)<strong>en</strong>tre sí <strong>de</strong> una y otra l<strong>en</strong>gua (véase un ejemplo<strong>en</strong> la figura 1). GIZA++ (Och, 2003) es laherrami<strong>en</strong>ta distribuida gratuitam<strong>en</strong>te <strong>de</strong> usohabitual a este fin.Los sistemas estocásticos actuales <strong>de</strong>traducción utilizan como unidad básica <strong>de</strong>lmo<strong>de</strong>lo secu<strong>en</strong>cias <strong>de</strong> palabras (segm<strong>en</strong>tos <strong>de</strong>oración) <strong>de</strong>l par <strong>de</strong> l<strong>en</strong>guas que se <strong>en</strong>cu<strong>en</strong>tranvinculadas <strong>en</strong> la traducción. Este planteami<strong>en</strong>topermite adjudicar contexto a la traducción <strong>de</strong>las palabras. Estos segm<strong>en</strong>tos son <strong>de</strong>terminadostras un proceso <strong>de</strong> alineado <strong>de</strong> pares bilingües<strong>de</strong> oraciones pert<strong>en</strong>eci<strong>en</strong>tes a un corpus <strong>de</strong><strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. El modo <strong>en</strong> que se <strong>de</strong>fin<strong>en</strong> estossegm<strong>en</strong>tos y se utilizan para mo<strong>de</strong>lar laprobabilidad <strong>de</strong> traducción da orig<strong>en</strong> a losdifer<strong>en</strong>tes sistemas.Reci<strong>en</strong>tem<strong>en</strong>te ha sido propuesto (Och yNey, 2002) el uso <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> <strong>en</strong>tropíamáxima <strong>en</strong> la traducción estocástica. En estapropuesta, el mo<strong>de</strong>lo <strong>de</strong> traducción es unainformación más <strong>en</strong>tre varias que pue<strong>de</strong>ngobernar la traducción. Sigui<strong>en</strong>do la solucióndual al problema <strong>de</strong> mo<strong>de</strong>lado (Berger et al,1996), los logaritmos <strong>de</strong> las probabilida<strong>de</strong>sasociadas a las diversas informaciones(características) son combinados linealm<strong>en</strong>tepara <strong>de</strong>finir una función cuya maximizaciónestablece la traducción (mo<strong>de</strong>lo log-lineal). Estaestrategia es análoga a la combinación <strong>de</strong> losmo<strong>de</strong>los fonético y <strong>de</strong> l<strong>en</strong>guaje empleadacomúnm<strong>en</strong>te <strong>en</strong> los sistemas <strong>de</strong> reconocimi<strong>en</strong>to<strong>de</strong> voz. Los coefici<strong>en</strong>tes <strong>de</strong> la combinaciónlineal son optimizados <strong>de</strong> acuerdo con algúncriterio objetivo <strong>de</strong> la calidad <strong>de</strong> la traducción.El sistema <strong>de</strong> traducción que se pres<strong>en</strong>ta <strong>en</strong>esta comunicación sigue el planteami<strong>en</strong>to <strong>de</strong><strong>en</strong>tropía máxima y es <strong>de</strong>udor <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong>traducción <strong>basado</strong> <strong>en</strong> segm<strong>en</strong>tos bilingües <strong>de</strong>palabras. En lo que sigue, se <strong>de</strong>scribeteóricam<strong>en</strong>te el sistema <strong>de</strong> traducción (sección2), se <strong>de</strong>scribe la tarea <strong>de</strong> traducción abordada<strong>en</strong> la sección 3, se recog<strong>en</strong> los <strong>de</strong>tallesexperim<strong>en</strong>tales <strong>de</strong>l <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong>l sistema y<strong>de</strong>l proceso <strong>de</strong> traducción <strong>en</strong> la sección 4 y seofrec<strong>en</strong> y discut<strong>en</strong> los resultados obt<strong>en</strong>idos <strong>en</strong>las secciones 5 y 6, respectivam<strong>en</strong>te.I wish a system NULO providing correct translationsNULO quisiera t<strong>en</strong>er un sistemaque proporcione traducciones correctasFigura 1: Par <strong>de</strong> oraciones bilingües <strong>en</strong> el que, mediante flechas, se indican las palabras vinculadas <strong>en</strong>la traducción. Mediante recuadros se muestran los pares bilingües <strong>de</strong> segm<strong>en</strong>tos (tuplas) <strong>en</strong> los que sesegm<strong>en</strong>ta monótonam<strong>en</strong>te el par <strong>de</strong> oraciones.


mediante la probabilidad <strong>de</strong> la secu<strong>en</strong>cia <strong>de</strong>tuplas t K <strong>en</strong> que pue<strong>de</strong> segm<strong>en</strong>tarse:K∏p(d, f) = Pr{ t K } = pt (k| tk− 1, ..., tk− N+1)k = 1Este planteami<strong>en</strong>to es here<strong>de</strong>ro <strong>de</strong> lossistemas <strong>de</strong> traducción <strong>de</strong>l habla <strong>basado</strong>s <strong>en</strong>autómatas <strong>de</strong> estados finitos (Vidal, 1997) (<strong>de</strong>Gispert y Mariño, 2002) y similar a (Picó et al.,2004).2.4 Las características adicionalesComo ya se ha m<strong>en</strong>cionado anteriorm<strong>en</strong>te, <strong>en</strong> lafunción que dirige la búsqueda <strong>de</strong> la mejortraducción se incluy<strong>en</strong> otras informaciones ocaracterísticas a<strong>de</strong>más <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong>traducción:K∏h 1 (d, f) = log pt (k| tk− 1, ..., tk− N+1)k = 1Actualm<strong>en</strong>te, nuestro sistema incluye lassigui<strong>en</strong>tes características adicionales:• Las probabilida<strong>de</strong>s <strong>de</strong> traducción <strong>en</strong> cadadirección (<strong>de</strong> fu<strong>en</strong>te a <strong>de</strong>stino p(d k / f k ) y <strong>de</strong><strong>de</strong>stino a fu<strong>en</strong>te p(f k / d k ) ) asignada por elmo<strong>de</strong>lo IBM1 a los segm<strong>en</strong>tos <strong>de</strong> oraciónque constituy<strong>en</strong> cada tupla t k = (d k , f k ).Ambas probabilida<strong>de</strong>s se consi<strong>de</strong>raninformaciones in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes.h 2 (d, f) = logh 3 (d, f) = logK∏k = 1K∏k = 1p( d / f )kkp( f / d )• La probabilidad <strong>de</strong> la oración g<strong>en</strong>erada parala l<strong>en</strong>gua <strong>de</strong>stino asignada por un N-grama<strong>en</strong> palabras:I∏h 4 (d) = log pd (i| di− 1, ..., di− N+1)i=1• Una p<strong>en</strong>alización para las traducciones máscortas, que comp<strong>en</strong>se la t<strong>en</strong><strong>de</strong>ncia a lag<strong>en</strong>eración <strong>de</strong> traducciones con el m<strong>en</strong>ornúmero <strong>de</strong> palabras:h 5 (d) = Idon<strong>de</strong> I es el número <strong>de</strong> palabras <strong>de</strong> latraducción hipotetizada.3 Descripción <strong>de</strong> la tarea abordadaEl sistema <strong>de</strong>scrito ha sido aplicado a latraducción <strong>de</strong> interv<strong>en</strong>ciones <strong>en</strong> las sesionespl<strong>en</strong>arias <strong>de</strong>l Parlam<strong>en</strong>to Europeo (EPPS). Lasl<strong>en</strong>guas elegidas han sido inglés y español,kkrealizándose traducciones <strong>en</strong> ambasdirecciones.En la tabla 1 se proporciona las principalesestadísticas <strong>de</strong> los corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to ytest: número <strong>de</strong> oraciones (orcn), número total<strong>de</strong> palabras (plbr), talla <strong>de</strong> los correspondi<strong>en</strong>tesvocabularios (vcblr) y longitud media <strong>en</strong>palabras <strong>de</strong> las oraciones (media).Entr<strong>en</strong>ami<strong>en</strong>toLng Orcn Plbr Vcblr Media<strong>en</strong> 33.4 M 105 k 27.31.223 kes34.8 M 169 k 28.4Test<strong>en</strong> 1094 26.8 k 3.9 k 24.5es 840 22.7 k 4.0 k 27.0Tabla 1: Estadísticas <strong>de</strong> los materiales <strong>de</strong><strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y test (M expresa millones y kmiles <strong>de</strong> palabras).El material <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to recoge lastranscripciones <strong>de</strong> las sesiones <strong>de</strong>s<strong>de</strong> abril <strong>de</strong>1996 hasta septiembre <strong>de</strong> 2004. Este material esdistribuido por el Parlam<strong>en</strong>to Europeo a través<strong>de</strong> su página web 1 . En nuestra experim<strong>en</strong>taciónhemos hecho uso <strong>de</strong> la versión distribuida porRWTH <strong>de</strong> Aach<strong>en</strong> <strong>en</strong> el ámbito <strong>de</strong>l proyectoTC-STAR 2 .El material <strong>de</strong> test correspon<strong>de</strong> al materialutilizado <strong>en</strong> la primera evaluación realizada <strong>en</strong>el proyecto <strong>en</strong> marzo <strong>de</strong> 2005. Este materialconsiste <strong>en</strong> la transcripción <strong>de</strong> las sesiones <strong>de</strong>l15 al 18 <strong>de</strong> noviembre <strong>de</strong> 2004. Ha sidodistribuido por ELDA 3 .En el caso <strong>de</strong>l material <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to lasoraciones son paralelas; es <strong>de</strong>cir, el corpus estáformado por parejas <strong>de</strong> frases que se traduc<strong>en</strong>mutuam<strong>en</strong>te. Pue<strong>de</strong> observarse que el númerototal <strong>de</strong> palabras <strong>en</strong> el corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>toes muy parejo. No obstante, el número <strong>de</strong>palabras distintas (talla <strong>de</strong>l vocabulario) esmucho mayor para el español. Esto pue<strong>de</strong>explicarse por el carácter mucho más flexivo<strong>de</strong>l español, con formas diversas para losadjetivos y, sobre todo, para los verbos.El material <strong>de</strong> test es in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te paracada s<strong>en</strong>tido <strong>de</strong> traducción. En este corpus sehan <strong>en</strong>contrado 112 palabras inglesas y 46españolas no pres<strong>en</strong>tes <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, que1 http://www.europarl.eu.int/2 http://www.tc-star.org/3 http://www.elda.org/


constituy<strong>en</strong>, respectivam<strong>en</strong>te, el 0.4% y 0.2%<strong>de</strong>l total <strong>de</strong> palabras <strong>de</strong>l test. De estas palabras,son difer<strong>en</strong>tes 81 y 40 <strong>en</strong> cada l<strong>en</strong>gua. A efectos<strong>de</strong> evaluar la calidad <strong>de</strong> la traducción realizadase dispuso <strong>de</strong> 2 traducciones <strong>de</strong> refer<strong>en</strong>cia porcada frase a traducir.4 Detalles experim<strong>en</strong>tales4.1 Preprocesado y ali<strong>en</strong>ami<strong>en</strong>toLos textos <strong>de</strong> material <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>tofueron tratados para individualizar todos los“tok<strong>en</strong>s” (palabras, signos <strong>de</strong> puntuación,números, etc.). No se ha realizadocategorización, <strong>de</strong> modo que nombres propios,números, fechas, etc. no recib<strong>en</strong> tratami<strong>en</strong>toespecial. Se han eliminado los pares bilingües<strong>en</strong> el que una <strong>de</strong> las oraciones cont<strong>en</strong>ía más <strong>de</strong>100 palabras o <strong>en</strong> el que el coci<strong>en</strong>te <strong>en</strong>tre elnúmero <strong>de</strong> palabras <strong>de</strong> una y otra oraciónexcedía 2.4 (fertilidad superior a 2.4).Mediante la aplicación GIZA++ se realizó elalineami<strong>en</strong>to <strong>de</strong> los textos bilingües paralelos<strong>de</strong>l material <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, ejecutándose 5iteraciones <strong>de</strong> los mo<strong>de</strong>los IBM1 y HMM y 3iteraciones <strong>de</strong> los mo<strong>de</strong>los IBM3 e IBM4. Seobtuvo el alineami<strong>en</strong>to <strong>en</strong> las dos direcciones<strong>de</strong> traducción: tomando sucesivam<strong>en</strong>te el inglésy el español como l<strong>en</strong>guas fu<strong>en</strong>te. A partir <strong>de</strong>estos dos alineami<strong>en</strong>tos básicos, se obtuvieronlos alineami<strong>en</strong>tos unión e intersección <strong>de</strong> losmismos, <strong>de</strong>finidos, respectivam<strong>en</strong>te, por losconjuntos unión e intersección <strong>de</strong> los <strong>en</strong>lacesestablecidos <strong>en</strong> los alineami<strong>en</strong>tos básicos. Elprimero proporciona la mejor cobertura(“recall”) <strong>de</strong> los <strong>en</strong>laces <strong>en</strong>tre las palabras <strong>de</strong>ambas l<strong>en</strong>guas, que es importante para g<strong>en</strong>erarsegm<strong>en</strong>tos bilingües correctos. El segundog<strong>en</strong>era <strong>en</strong>laces con alta precisión, que seránusados para la traducción <strong>de</strong> palabras.4.2 <strong>Mo<strong>de</strong>lo</strong> <strong>de</strong> traducción4.2.1 Selección <strong>de</strong> las tuplasUna vez obt<strong>en</strong>ido el alineami<strong>en</strong>to unión seprocedió a la segm<strong>en</strong>tación <strong>en</strong> tuplas <strong>de</strong>lmaterial <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to. En la tabla 2 semuestra la estadística <strong>de</strong> las tuplas: el total <strong>en</strong>ambas direcciones <strong>de</strong> traducción (que nocoinci<strong>de</strong>n <strong>de</strong>bido a la pres<strong>en</strong>cia <strong>de</strong> los <strong>en</strong>laces aNULO) y la talla <strong>de</strong>l vocabulario <strong>de</strong> tuplas. Enlas figuras 2 y 3 se pres<strong>en</strong>tan los histogramas <strong>de</strong>las tuplas <strong>en</strong> función <strong>de</strong>l número <strong>de</strong> apariciones<strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to y el número <strong>de</strong>traducciones difer<strong>en</strong>tes que las tuplas ofrec<strong>en</strong>para una misma parte fu<strong>en</strong>te. Como pue<strong>de</strong>observarse la mayor parte <strong>de</strong> las tuplas aparec<strong>en</strong>muy pocas veces y abundan más las tuplas queofrec<strong>en</strong> un número reducido <strong>de</strong> traduccionesalternativas.Número <strong>de</strong> tuplas <strong>en</strong> el <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>tos<strong>en</strong>tido total 30 20es-> <strong>en</strong> 19.2 M 18.6 M 18.3 M<strong>en</strong> -> es 18.6 M 17.7 M 17.5 MTalla <strong>de</strong>l vocabulario <strong>de</strong> tuplases-> <strong>en</strong> 2.5 M 2.1 M 2.0 M<strong>en</strong> -> es 2.5 M 2.0 M 1.9 MTabla 2: Estadística <strong>de</strong> las tuplas (M significamillón <strong>de</strong> tuplas).Figura 2: Histograma <strong>de</strong> tuplas <strong>en</strong> función <strong>de</strong>lnúmero <strong>de</strong> apariciones.Figura 3: Histograma <strong>de</strong> tuplas <strong>en</strong> función <strong>de</strong>lnúmero <strong>de</strong> traducciones disponibles para laparte <strong>de</strong>l idioma fu<strong>en</strong>te.A efectos <strong>de</strong> simplificar el sistema <strong>de</strong>traducción, el vocabulario <strong>de</strong> tuplas se limitó aaquellas que, para un mismo segm<strong>en</strong>to fu<strong>en</strong>te,cont<strong>en</strong>ían hasta 30 traducciones <strong>de</strong>l inglés y


hasta 20 <strong>de</strong>l español. Estos límites se<strong>de</strong>terminaron experim<strong>en</strong>talm<strong>en</strong>te <strong>de</strong> modo quela calidad <strong>de</strong> las traducciones no se vieseafectada. Así, se redujo el vocabulario <strong>de</strong> tuplas<strong>en</strong> un 20% (véase la tabla 2).4.2.2 Estimación <strong>de</strong>l mo<strong>de</strong>loPara estimar el mo<strong>de</strong>lo se utilizó la herrami<strong>en</strong>taSRILM (Stolcke, 2002) <strong>de</strong> libre distribución.En este proceso se limitó el vocabulario <strong>de</strong>lmo<strong>de</strong>lo <strong>de</strong> l<strong>en</strong>guaje bilingüe a las tuplasseleccionadas conforme se ha explicadoanteriorm<strong>en</strong>te, al que se añadió una traducción(tupla) para todas aquellas palabras que noaparecían solas <strong>en</strong> ninguna tupla (por lo que nose podrían traducir si <strong>en</strong> el test aparecies<strong>en</strong> <strong>en</strong>un contexto distinto a los exist<strong>en</strong>tes <strong>en</strong> elmaterial <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to). Estas tuplas <strong>de</strong>traducción para las palabras “incrustadas”(“embed<strong>de</strong>d”) fueron g<strong>en</strong>eradas a partir <strong>de</strong>lalineami<strong>en</strong>to intersección.Como técnica <strong>de</strong> suavizado se utilizó elmétodo <strong>de</strong> Kneser-Ney e interpolación lineal(Kneser and Ney, 1995).El mo<strong>de</strong>lo g<strong>en</strong>erado fue un trigrama (N=3)<strong>de</strong> tuplas. En la tabla 3 se indica el número <strong>de</strong>unigramas, bigramas y trigramas cont<strong>en</strong>idos <strong>en</strong>los mo<strong>de</strong>los para cada s<strong>en</strong>tido <strong>de</strong> traducción. Latabla 4 proporciona la perplejidad <strong>de</strong> losmo<strong>de</strong>los <strong>de</strong> traducción <strong>en</strong> ambos s<strong>en</strong>tidosevaluada <strong>en</strong> el material <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.es-><strong>en</strong> <strong>en</strong>->es1-gramas 2.039.514 2.022.8232-gramas 6.008.896 6.091.8093-gramas 1.797.578 1.747.148Tabla 3: Histograma <strong>de</strong> n-gramas <strong>en</strong> losmo<strong>de</strong>los <strong>de</strong> traducción.s<strong>en</strong>tido perplejida<strong>de</strong>s-><strong>en</strong> 88.1<strong>en</strong>->es 89.6Tabla 4: Perplejidad <strong>en</strong> el material <strong>de</strong><strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> traducción.J I1i jp(d k / f k ) =( / )J ∏ ∑ p dkfk( I + 1) j=1 i=0don<strong>de</strong> J e I son las longitu<strong>de</strong>s <strong>en</strong> palabras <strong>de</strong>las partes fu<strong>en</strong>te y <strong>de</strong>stino, y f y d son,respectivam<strong>en</strong>te, las palabras <strong>de</strong> cada una <strong>de</strong>dichas partes. Las probabilida<strong>de</strong>s condicionales<strong>de</strong> traducción <strong>en</strong>tre palabras se toman <strong>de</strong>lalineami<strong>en</strong>to proporcionado por GIZA++ parael s<strong>en</strong>tido <strong>de</strong> la traducción. Análogam<strong>en</strong>te, se<strong>de</strong>termina la probabilidad para la direccióncontraria.Para estimar el mo<strong>de</strong>lo para el l<strong>en</strong>guaje<strong>de</strong>stino se volvió a hacer uso <strong>de</strong> la herrami<strong>en</strong>taSRILM, con N=3 y la técnica <strong>de</strong> suavizado <strong>de</strong>Kneser-Ney. Como material <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>tose hizo uso <strong>de</strong> los textos <strong>de</strong> la l<strong>en</strong>guacorrespondi<strong>en</strong>te <strong>en</strong> el corpus bilingüe. En latabla 5 se indica la perplejidad <strong>de</strong> estos mo<strong>de</strong>losmedida sobre el material <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.jkidioma perplejida<strong>de</strong>n 39.5es 38.5Tabla 5: Perplejidad <strong>en</strong> el material <strong>de</strong><strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> l<strong>en</strong>guaje.Los coefici<strong>en</strong>tes λ i <strong>de</strong> la combinación loglineal(1) se optimizaron mediante el algoritmoSimplex (Press et al., 2002) para maximizar lamedida <strong>de</strong> calidad BLEU (Papin<strong>en</strong>i et al., 2002)<strong>de</strong> la traducción <strong>de</strong> 500 oraciones <strong>de</strong> un corpus<strong>de</strong> <strong>de</strong>sarrollo que cont<strong>en</strong>ía 3 traducciones <strong>de</strong>refer<strong>en</strong>cia por cada texto orig<strong>en</strong>. Este corpusfue extraído <strong>de</strong> las interv<strong>en</strong>ciones <strong>en</strong> el pl<strong>en</strong>ario<strong>de</strong>l Parlam<strong>en</strong>to Europeo <strong>en</strong>tre el 25 y el 28 <strong>de</strong>octubre <strong>de</strong> 2004. En la tabla 6 se proporcionanlos valores <strong>de</strong> los coefici<strong>en</strong>tes λ i para lasconfiguraciones <strong>de</strong> los sistemas <strong>de</strong> traducciónque utilizan todas las características. Dadosestos valores, pue<strong>de</strong> <strong>de</strong>cirse que todas lascaracterísticas ti<strong>en</strong><strong>en</strong> un grado significativo <strong>de</strong>influ<strong>en</strong>cia <strong>en</strong> la traducción, aunque condifer<strong>en</strong>tes matices <strong>en</strong> función <strong>de</strong>l s<strong>en</strong>tido <strong>de</strong> lamisma.i k4.3 Características adicionalesLa probabilidad <strong>de</strong> traducción asignada por elmo<strong>de</strong>lo IBM1 a los segm<strong>en</strong>tos <strong>de</strong> oración queconstituy<strong>en</strong> cada tupla se calcula mediante laexpresións<strong>en</strong>tido λ 1 λ 2 λ 3 λ 4 λ 5es-><strong>en</strong> 1 0.48 0.13 0.48 0.28<strong>en</strong>->es 1 0.23 0.18 0.80 0.75Tabla 6: Coefici<strong>en</strong>tes <strong>de</strong> la combinación loglinealpara los sistemas completos.


4.4 El algoritmo <strong>de</strong> traducciónLa traducción <strong>de</strong>l material <strong>de</strong> test fue llevada acabo mediante la herrami<strong>en</strong>ta MARIE (Crego,Mariño y <strong>de</strong> Gispert, 2005), que maximiza lafunción U <strong>en</strong> (1) mediante un algoritmo <strong>de</strong>programación lineal <strong>de</strong> búsqueda <strong>en</strong> haz.La búsqueda construye traduccionesparciales (hipótesis), que se conservan <strong>en</strong>difer<strong>en</strong>tes listas. Cada lista conti<strong>en</strong>e aquellashipótesis que han traducido las mismas palabras<strong>de</strong> la frase <strong>de</strong> <strong>en</strong>trada. Las hipótesis <strong>de</strong> cadalista se or<strong>de</strong>nan según la puntuación acumulada,lo que permite podar por separado <strong>en</strong> cada lista.Se manti<strong>en</strong><strong>en</strong> las mejores hipótesis (poda porhistograma) y aquéllas que ti<strong>en</strong><strong>en</strong> asignada unapuntuación próxima a la mejor hipótesis <strong>de</strong> lalista (poda por umbral).El algoritmo <strong>de</strong> búsqueda permite avanzar<strong>en</strong> la traducción cubri<strong>en</strong>do partes <strong>de</strong> la frase <strong>de</strong>orig<strong>en</strong> <strong>de</strong> manera <strong>de</strong>sor<strong>de</strong>nada (distorsión), loque da lugar a una traducción no monótona.Esta posibilidad no ha sido utilizada <strong>en</strong> losexperim<strong>en</strong>tos realizados <strong>en</strong> esta comunicación,dado que sólo es aconsejable <strong>en</strong> la traducción<strong>de</strong> pares <strong>de</strong> l<strong>en</strong>guas con necesidad <strong>de</strong>reor<strong>de</strong>nami<strong>en</strong>tos lejanos.5 Resultados alcanzadosEn las tablas 7 y 8 se muestran los resultados <strong>de</strong>la evaluación <strong>de</strong> las traducciones obt<strong>en</strong>idas parael material <strong>de</strong> test. La tabla 7 recoge elporc<strong>en</strong>taje <strong>de</strong> error <strong>en</strong> palabras (mWER) y elBLEU <strong>de</strong> la traducción al inglés <strong>de</strong> los textos <strong>en</strong>español. El mWER se <strong>de</strong>termina a partir <strong>de</strong>lerror <strong>en</strong> la refer<strong>en</strong>cia <strong>de</strong> traducción para la quese produce m<strong>en</strong>or error. El BLEU es unamedida basada <strong>en</strong> el número <strong>de</strong> N-gramas (N <strong>de</strong>1 a 4) correctos <strong>en</strong> la traducción <strong>en</strong> relación conlos que conti<strong>en</strong><strong>en</strong> las refer<strong>en</strong>cias. Losalgoritmos <strong>de</strong> evaluación utilizados fueron losoficiales <strong>de</strong>l proyecto TC-STAR facilitados porELDA, con distinción <strong>de</strong> mayúsculas yminúsculas. En la tabla se incluy<strong>en</strong> lasevaluaciones para 4 configuraciones <strong>de</strong>l sistema<strong>de</strong> traducción:• Sistema con el mo<strong>de</strong>lo <strong>de</strong> traducción <strong>de</strong>tuplas únicam<strong>en</strong>te (1).• Sistema con el mo<strong>de</strong>lo <strong>de</strong> traducción <strong>de</strong>tuplas y las probabilida<strong>de</strong>s <strong>de</strong> traducción<strong>de</strong> los segm<strong>en</strong>tos <strong>de</strong> las tuplas (1, 2, 3).• Sistema con el mo<strong>de</strong>lo <strong>de</strong> traducción <strong>de</strong>tuplas, mo<strong>de</strong>lo <strong>de</strong> l<strong>en</strong>guaje <strong>de</strong>stino y lap<strong>en</strong>alización para las traducciones cortas(1, 4, 5).• Sistema completo con todas lasinformaciones (1, 2, 3, 4, 5).En la tabla 8 se resum<strong>en</strong> las evaluaciones <strong>de</strong> lastraducciones al español <strong>de</strong> los textos <strong>en</strong> inglés.informaciones mWER BLEU1 39.55 0.4761, 2, 3 35.65 0.5371, 4, 5 39.61 0.4851, 2, 3, 4, 5 34.91 0.543Tabla 7: Evaluación <strong>de</strong> la traducción <strong>en</strong> els<strong>en</strong>tido <strong>de</strong>l español al inglés.informaciones mWER BLEU1 44.45 0.4281, 2, 3 41.69 0.4501, 4, 5 44.67 0.4361, 2, 3, 4, 5 40.96 0.466Tabla 8: Evaluación <strong>de</strong> la traducción <strong>en</strong> els<strong>en</strong>tido <strong>de</strong>l inglés al español.6 DiscusiónEn primer lugar <strong>de</strong>be señalarse que lasevaluaciones obt<strong>en</strong>idas se comparanfavorablem<strong>en</strong>te con las alcanzadas por lossistemas que <strong>de</strong>scrib<strong>en</strong> el estado actual <strong>de</strong>l arte(TC-STAR, 2005).Por otro lado, <strong>de</strong> la comparación <strong>de</strong> ambastablas se <strong>de</strong>spr<strong>en</strong><strong>de</strong> que la traducción al ingléses <strong>de</strong> mayor calidad que la traducción alespañol. Esto pue<strong>de</strong> explicarse por el caráctermás flexivo <strong>de</strong>l español que se ha m<strong>en</strong>cionadoanteriorm<strong>en</strong>te. En ocasiones la traducción <strong>de</strong>llema es correcta pero no la instancia producida:error <strong>en</strong> número, género, tiempo verbal,persona, etc. (ver el ejemplo más a<strong>de</strong>lante).En cuanto a la aportación <strong>de</strong> las diversasinformaciones a la calidad <strong>de</strong> las traduccionesg<strong>en</strong>eradas pue<strong>de</strong> establecerse:• La limitada influ<strong>en</strong>cia <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong>ll<strong>en</strong>guaje <strong>de</strong>stino y la p<strong>en</strong>alización <strong>de</strong> lastraducciones cortas.• La importante contribución <strong>de</strong> laprobabilidad <strong>de</strong> traducción <strong>de</strong> loscompon<strong>en</strong>tes <strong>de</strong> las tuplas.Se pue<strong>de</strong> señalar incluso un increm<strong>en</strong>to <strong>de</strong>lmWER al incluir el mo<strong>de</strong>lo <strong>de</strong>l idioma <strong>de</strong>stinoal mo<strong>de</strong>lo <strong>de</strong> traducción, aunque se observe unamejoría <strong>de</strong>l BLEU. Este comportami<strong>en</strong>to pue<strong>de</strong>compr<strong>en</strong><strong>de</strong>rse si se ti<strong>en</strong>e <strong>en</strong> cu<strong>en</strong>ta que la


optimización <strong>de</strong> los coefici<strong>en</strong>tes λ i <strong>de</strong> (1) serealiza <strong>en</strong> función <strong>de</strong>l BLEU.La influ<strong>en</strong>cia <strong>de</strong> la traducción <strong>de</strong> loscompon<strong>en</strong>tes <strong>de</strong> la tupla sugiere el interés <strong>de</strong>explorar el uso <strong>de</strong> esta probabilidad comocriterio para seleccionar las tuplas <strong>en</strong> elmom<strong>en</strong>to <strong>de</strong> la estimación <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong>traducción.En el sigui<strong>en</strong>te ejemplo <strong>de</strong> traducción semuestran los tipos <strong>de</strong> error más frecu<strong>en</strong>te:Durante una semana el lasamericano fuerzas americanas <strong>de</strong>ocupación comete han cometido uncrim<strong>en</strong> abominable <strong>en</strong> la ciudad <strong>de</strong>Faluya <strong>en</strong> Iraq.Se han tachado las palabras que correspon<strong>de</strong>n aerrores <strong>en</strong> la traducción y se han añadido <strong>en</strong>negrita las correcciones. Las fu<strong>en</strong>tes <strong>de</strong> errormostradas son:• Falta <strong>de</strong> concordancia <strong>de</strong> género y número,que podrían subsanarse con el uso <strong>de</strong>información morfosintáctica.• Or<strong>de</strong>n equivocado <strong>en</strong>tre nombre y adjetivo,que podría corregirse con la capacidad <strong>de</strong>reor<strong>de</strong>nami<strong>en</strong>to <strong>de</strong>l algoritmo <strong>de</strong> búsqueda.• Defecto <strong>en</strong> la traducción <strong>de</strong> tiemposverbales y personas. Su <strong>en</strong>mi<strong>en</strong>da pue<strong>de</strong>ser obt<strong>en</strong>ida mediante el uso <strong>de</strong>información lingüística (<strong>de</strong> Gispert, 2005).7 Agra<strong>de</strong>cimi<strong>en</strong>tosEste trabajo ha sido financiado parcialm<strong>en</strong>te porla CICYT a través <strong>de</strong>l proyecto TIC2002-04447-C02 (ALIADO) y la Unión Europeamediante el proyecto FP6-506738 (TC-STAR).BibliografíaBerger, A., Della Pietra, S. y Della Pietra, V.1996. A Maximun Entropy Approach toNatural Language Processing.Computational Linguistics, 22(1): 39-72.Brown, P., Cocke, J., Della Pietra, S., DellaPietra, V., Jelinek, F., Lafferty, J.D., Mercer,D. y Rocín, P.S. 1990. A statistical approachto machine translation. ComputationalLinguistics, 16(2): 79-85.Crego, J.M., Mariño, J.B. y <strong>de</strong> Gispert, A.2004. Finite-state-based and Phrase-basedStatistical Machine Translation. En Proc. ofthe Int. Conf. on Spok<strong>en</strong> LanguageProcessing. Jeju, Corea.Crego, J.M., Mariño, J.B. y <strong>de</strong> Gispert, A.2005. Algoritmo <strong>de</strong> <strong>de</strong>codificación <strong>de</strong>traducción automática estocástica basada <strong>en</strong>N-gramas. SEPLN’05. Granada.De Gispert, A. y Mariño, J.B. 2002. Using X-grams for speech-to-speech translation. EnProc. of the Int. Conf. on Spok<strong>en</strong> LanguageProcessing, páginas 1885-1888. D<strong>en</strong>ver, CO(USA).De Gispert, A. 2005. Phrase linguisticclassification and g<strong>en</strong>eralization forimproving statistical machine translation.Aceptado <strong>en</strong> ACL’05 Stu<strong>de</strong>nt Workshop.Kneser, R. y Ney, H. 1995. Improved backingofffor m-gram language mo<strong>de</strong>lling. EnProc. IEEE Int. Conf. on Acoustic, Speechand Signal Processing, páginas 49-52,Detroit. MI (USA).Och, F.J. y Ney, H. 2002. Discriminativetraining and maximum <strong>en</strong>tropy mo<strong>de</strong>ls forstatistical machina translation. En Proc. 40 thAnnual Meeting of the Association forComputational Linguistics, páginas 295-302.Och, F.J. 2003. GIZA++. http://www-16.informatik.rwth-aach<strong>en</strong>.<strong>de</strong>/∼och/software/giza++.html .Papin<strong>en</strong>i, K., Roukos, S., Ward, T. y Zhu, W-J.2002. BLEU: a method for automaticevaluation of machine translation. En Proc.of the 40 th Ann. Conf. of the ACL.Phila<strong>de</strong>lphia, PA (USA).Picó, D., Tomás, J. y Casacuberta, F. 2004.GIATI: a g<strong>en</strong>eral methodology for finitestatetranslation using alignm<strong>en</strong>ts. En Proc.SSPR2004 and SPR2004. Lisboa. Portugal.Press, W.H., Teukolsky, S.A., Vetterling, W.T.y Flannery, B.P. 2002. Numerical Recipiesin C++: the Art of Sci<strong>en</strong>tific Computing.Cambridge University Press.Stolcke, A. 2002. SRILM: an ext<strong>en</strong>siblelanguage mo<strong>de</strong>lling toolkit. En Proc. of theInt. Conf. on Spok<strong>en</strong> Language Processing,páginas 901-904. D<strong>en</strong>ver, CO (USA).TC-STAR. 2005. Deliverable D5: SLT progressreport. http://www.tc-star.org/docum<strong>en</strong>ts/<strong>de</strong>liverable/Deliv_D5_Total_21May05.pdf.Vidal, E. 1997. Finite-State Speech-to-SpeechTranslation. En Proc. of 1997 IEEEInternacional Confer<strong>en</strong>ce on Acoustics,Speech and Signal Processing, páginas: 111-114. Munich, Germany.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!