Clasificación y generalización de formas verbales en ... - TALP - UPC
Clasificación y generalización de formas verbales en ... - TALP - UPC
Clasificación y generalización de formas verbales en ... - TALP - UPC
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
ar separadam<strong>en</strong>te, a efectos <strong>de</strong> apr<strong>en</strong>dizaje<br />
<strong>de</strong>l sistema <strong>de</strong> traducción, pronombres, verbos<br />
auxiliares y sufijos <strong>de</strong>rivados <strong>de</strong> la flexión<br />
verbal por un lado, y lema <strong>de</strong>l verbo principal<br />
por otro. De esta forma se mejora el mo<strong>de</strong>lo<br />
<strong>de</strong> traducción al conc<strong>en</strong>trar las distintas <strong>formas</strong><br />
<strong>de</strong> un mismo verbo <strong>en</strong> una única unidad<br />
<strong>de</strong> traducción (sección 3).<br />
Por otro lado, el uso <strong>de</strong> esta clasificación<br />
permite el diseño <strong>de</strong> estrategias <strong>de</strong> g<strong>en</strong>eralización<br />
a <strong>formas</strong> <strong>verbales</strong> no vistas <strong>en</strong> el material<br />
<strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to a partir <strong>de</strong> las <strong>formas</strong><br />
vistas (sección 4).<br />
Para realizar experim<strong>en</strong>tos se ha trabajado<br />
con el par <strong>de</strong> l<strong>en</strong>guas inglés – español, y<br />
se pres<strong>en</strong>tan resultados obt<strong>en</strong>idos tanto <strong>en</strong> el<br />
alineado <strong>en</strong> palabras <strong>de</strong>l <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, como<br />
<strong>en</strong> una tarea <strong>de</strong> traducción <strong>de</strong> dominio<br />
limitado <strong>de</strong>l inglés al español (sección 5). Por<br />
último, <strong>en</strong> la sección 6 se pres<strong>en</strong>tan conclusiones,<br />
junto a i<strong>de</strong>as para investigaciones futuras.<br />
2. Trabajos previos<br />
En la línea <strong>de</strong> esta comunicación po<strong>de</strong>mos<br />
<strong>en</strong>contrar algunos trabajos reci<strong>en</strong>tes. En<br />
(Ueffing y Ney, 2003) también se muestra un<br />
posible <strong>en</strong>foque para el tratami<strong>en</strong>to <strong>de</strong> las <strong>formas</strong><br />
<strong>verbales</strong> <strong>en</strong> el caso inglés – español. Sin<br />
embargo, los autores optan por unir los pronombres<br />
personales ingleses a la forma <strong>de</strong>l<br />
verbo con el fin <strong>de</strong> g<strong>en</strong>erar un vocabulario<br />
inglés más amplio que pueda correspon<strong>de</strong>rse<br />
con el español. Por el contrario, nuestra<br />
propuesta va <strong>en</strong> la dirección opuesta al reducir<br />
la talla <strong>de</strong>l vocabulario e increm<strong>en</strong>tar<br />
así la frecu<strong>en</strong>cia <strong>de</strong> aparición <strong>de</strong> las unida<strong>de</strong>s<br />
<strong>de</strong> traducción.<br />
También para el caso <strong>de</strong>l español (y <strong>de</strong>l<br />
serbio), otra posibilidad radica <strong>en</strong> <strong>de</strong>scomponer<br />
las <strong>formas</strong> flexivas <strong>en</strong> morfema y afijos,<br />
consi<strong>de</strong>rando cada uno <strong>de</strong> ellos como palabras<br />
in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong> traducción,<br />
como se pres<strong>en</strong>ta <strong>en</strong> (Popovic y Ney,<br />
2004). Sin embargo, los autores no proporcionan<br />
resultados <strong>de</strong> traducción al español (sólo<br />
<strong>de</strong>l español al inglés), ya que ello les obligaría<br />
a incorporar una estrategia <strong>de</strong> g<strong>en</strong>eración <strong>de</strong><br />
la forma flexiva a partir <strong>de</strong> morfema y afijos.<br />
Por último, cabe m<strong>en</strong>cionar los trabajos<br />
<strong>de</strong> (Lee, 2004) o (Nieß<strong>en</strong> y Ney, 2004) relacionados<br />
con la introducción <strong>de</strong> transformaciones<br />
morfológicas <strong>en</strong> el material <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to<br />
<strong>de</strong> sistemas estocásticos <strong>de</strong> traducción,<br />
<strong>en</strong> especial para el caso <strong>de</strong>l árabe –<br />
inglés y <strong>de</strong>l alemán – inglés, respectivam<strong>en</strong>te.<br />
3. Planteami<strong>en</strong>to <strong>de</strong> la<br />
traducción estocástica<br />
Para realizar la traducción <strong>de</strong> la oración<br />
f <strong>de</strong> una l<strong>en</strong>gua fu<strong>en</strong>te <strong>en</strong> la oración d <strong>de</strong><br />
una l<strong>en</strong>gua <strong>de</strong>stino, a partir <strong>de</strong>l mo<strong>de</strong>lado <strong>de</strong><br />
máxima <strong>en</strong>tropía (Och y Ney, 2002) se suele<br />
usar una combinación log-lineal <strong>de</strong> funciones<br />
<strong>de</strong> características que pue<strong>de</strong>n gobernar la<br />
traducción, como se expresa <strong>en</strong> la sigui<strong>en</strong>te<br />
ecuación:<br />
{ M<br />
}<br />
ˆd I ∑<br />
1 = arg max d I λ m h m (d I 1<br />
1, f1 J )<br />
m=1<br />
(1)<br />
Las funciones <strong>de</strong> características elem<strong>en</strong>tales,<br />
<strong>de</strong>rivadas <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong>l canal ruidoso<br />
introducido <strong>en</strong> (Brown et al., 1993), son:<br />
un mo<strong>de</strong>lo <strong>de</strong> traducción P r(d|f) basado<br />
<strong>en</strong> ca<strong>de</strong>nas <strong>de</strong> palabras<br />
un mo<strong>de</strong>lo <strong>de</strong>l l<strong>en</strong>guaje <strong>de</strong>stino P r(d)<br />
aunque típicam<strong>en</strong>te se combinan con mo<strong>de</strong>los<br />
<strong>de</strong> distorsión <strong>de</strong>l or<strong>de</strong>n <strong>de</strong> las palabras,<br />
mo<strong>de</strong>los <strong>de</strong> probabilidad léxica, p<strong>en</strong>alizaciones<br />
a las traducciones cortas para comp<strong>en</strong>sar<br />
la prefer<strong>en</strong>cia <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> l<strong>en</strong>guaje por las<br />
traducciones cortas, etc.<br />
Sin embargo, este planteami<strong>en</strong>to no consi<strong>de</strong>ra<br />
clases <strong>de</strong> unida<strong>de</strong>s <strong>de</strong> traducción, y por<br />
lo tanto, trata todas las <strong>formas</strong> <strong>verbales</strong> <strong>de</strong> un<br />
verbo, o todos las <strong>formas</strong> singular y plural <strong>de</strong><br />
un sustantivo, como unida<strong>de</strong>s completam<strong>en</strong>te<br />
distintas sin ninguna relación. A continuación<br />
se propone un mo<strong>de</strong>lo que int<strong>en</strong>ta abordar<br />
esta problemática por medio <strong>de</strong> una clasificación<br />
basada <strong>en</strong> conocimi<strong>en</strong>to lingüístico. En<br />
concreto, se clasifican, para cada idioma, las<br />
<strong>formas</strong> <strong>verbales</strong> (incluy<strong>en</strong>do pronombre personal,<br />
verbo principal y auxilares) al lema <strong>de</strong>l<br />
verbo principal. Como se com<strong>en</strong>ta <strong>en</strong> la sección<br />
5.2, esta <strong>de</strong>tección se realiza <strong>de</strong> forma<br />
<strong>de</strong>terminista mediante autómatas que implem<strong>en</strong>tan<br />
simples reglas basadas <strong>en</strong> información<br />
<strong>de</strong> las palabras, su etiqueta morfológica<br />
y su lema.<br />
3.1. Mo<strong>de</strong>lo <strong>de</strong> traducción con<br />
clases<br />
Si <strong>de</strong>finimos ˜f j como un ca<strong>de</strong>na <strong>de</strong> palabras<br />
consecutivas <strong>de</strong> la frase fu<strong>en</strong>te y ˜d i como<br />
una ca<strong>de</strong>na <strong>de</strong> la frase <strong>de</strong>stino, cuyas clases