Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
2.2. El procesamiento <strong>de</strong>l lenguaje natural<br />
A nivel estructural, se requiere información semántica para <strong>de</strong>sambiguar<br />
la <strong>de</strong>pen<strong>de</strong>ncia <strong>de</strong> los sintagmas preposicionales que conducen a<br />
la construcción <strong>de</strong> distintos árboles sintácticos. Un ejemplo clásico <strong>de</strong><br />
este tipo <strong>de</strong> ambigüedad es “Vi a María por la ventana con el catalejo”,<br />
que admite una doble interpretación: “La vi mediante un catalejo” o<br />
“Vi que llevaba un catalejo”.<br />
A nivel pragmático, las oraciones no siempre significan lo que textualmente<br />
se está diciendo. En <strong>de</strong>terminadas circunstancias el sentido <strong>de</strong><br />
las palabras que forman la oración tiene que interpretarse a un nivel<br />
superior, recurriendo al contexto es que se formula la frase. Elementos<br />
como la ironía juegan un papel relevante en la interpretación <strong>de</strong>l<br />
mensaje. Una expresión tan habitual como “Se moría <strong>de</strong> risa” no <strong>de</strong>be<br />
interpretarse en sentido literal, sino figurado.<br />
Algunas herramientas <strong>de</strong> PLN se aplican <strong>de</strong> forma específica a la<br />
resolución <strong>de</strong> los dos problemas citados. Técnicas como la <strong>de</strong>tección <strong>de</strong><br />
paráfrasis o la implicación textual afrontan el problema <strong>de</strong> la variación <strong>de</strong><br />
la lengua, mientras que los sistemas <strong>de</strong> <strong>de</strong>sambiguación <strong>de</strong>l sentido <strong>de</strong> las<br />
palabras tratan <strong>de</strong> resolver el problema <strong>de</strong> la ambigüedad semántica.<br />
2.2.4. Aproximaciones al tratamiento <strong>de</strong>l lenguaje natural<br />
Las dificulta<strong>de</strong>s comentadas en el punto anterior hacen <strong>de</strong>l PLN una<br />
disciplina viva y con numerosos retos que afrontar. Existen dos filosofías que<br />
pugnan (o cooperan) por resolver los problemas <strong>de</strong>rivados <strong>de</strong>l tratamiento<br />
<strong>de</strong>l lenguaje humano. Por una parte está la aproximación estadística al<br />
problema, y por otra el enfoque lingüístico. Ambas propuestas difieren consi<strong>de</strong>rablemente,<br />
aunque en la práctica se suelen utilizar técnicas provenientes<br />
<strong>de</strong> ambos enfoques:<br />
Enfoque estadístico. En este enfoque el texto se contempla como un<br />
conjunto <strong>de</strong> palabras, sin tener en consi<strong>de</strong>ración el or<strong>de</strong>n, la estructura,<br />
o el significado <strong>de</strong> las mismas. Des<strong>de</strong> esta concepción <strong>de</strong>l lenguaje<br />
natural, las frecuencias <strong>de</strong> aparición <strong>de</strong> las palabras y sus distribuciones<br />
son suficiente fuente <strong>de</strong> información para los sistemas. Es el enfoque<br />
conocido como bolsa <strong>de</strong> palabras o bag-of-words (BOW) (Manning y<br />
Schütze, 1999). La simplicidad y eficacia <strong>de</strong> estos mo<strong>de</strong>los los han<br />
dotado <strong>de</strong> gran popularidad en numerosas tareas <strong>de</strong> PLN, como la RI<br />
o la traducción automática.<br />
Este tipo <strong>de</strong> técnicas suelen aplicarse sobre textos preprocesados, es<br />
<strong>de</strong>cir, textos “limpios” en los que se han eliminado etiquetas (stripping),<br />
normalizado las palabras (mediante conversión a minúsculas,<br />
manejo <strong>de</strong> fechas, números y abreviaturas, eliminación <strong>de</strong> palabras<br />
19