16.08.2013 Views

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

2.2. El procesamiento <strong>de</strong>l lenguaje natural<br />

A nivel estructural, se requiere información semántica para <strong>de</strong>sambiguar<br />

la <strong>de</strong>pen<strong>de</strong>ncia <strong>de</strong> los sintagmas preposicionales que conducen a<br />

la construcción <strong>de</strong> distintos árboles sintácticos. Un ejemplo clásico <strong>de</strong><br />

este tipo <strong>de</strong> ambigüedad es “Vi a María por la ventana con el catalejo”,<br />

que admite una doble interpretación: “La vi mediante un catalejo” o<br />

“Vi que llevaba un catalejo”.<br />

A nivel pragmático, las oraciones no siempre significan lo que textualmente<br />

se está diciendo. En <strong>de</strong>terminadas circunstancias el sentido <strong>de</strong><br />

las palabras que forman la oración tiene que interpretarse a un nivel<br />

superior, recurriendo al contexto es que se formula la frase. Elementos<br />

como la ironía juegan un papel relevante en la interpretación <strong>de</strong>l<br />

mensaje. Una expresión tan habitual como “Se moría <strong>de</strong> risa” no <strong>de</strong>be<br />

interpretarse en sentido literal, sino figurado.<br />

Algunas herramientas <strong>de</strong> PLN se aplican <strong>de</strong> forma específica a la<br />

resolución <strong>de</strong> los dos problemas citados. Técnicas como la <strong>de</strong>tección <strong>de</strong><br />

paráfrasis o la implicación textual afrontan el problema <strong>de</strong> la variación <strong>de</strong><br />

la lengua, mientras que los sistemas <strong>de</strong> <strong>de</strong>sambiguación <strong>de</strong>l sentido <strong>de</strong> las<br />

palabras tratan <strong>de</strong> resolver el problema <strong>de</strong> la ambigüedad semántica.<br />

2.2.4. Aproximaciones al tratamiento <strong>de</strong>l lenguaje natural<br />

Las dificulta<strong>de</strong>s comentadas en el punto anterior hacen <strong>de</strong>l PLN una<br />

disciplina viva y con numerosos retos que afrontar. Existen dos filosofías que<br />

pugnan (o cooperan) por resolver los problemas <strong>de</strong>rivados <strong>de</strong>l tratamiento<br />

<strong>de</strong>l lenguaje humano. Por una parte está la aproximación estadística al<br />

problema, y por otra el enfoque lingüístico. Ambas propuestas difieren consi<strong>de</strong>rablemente,<br />

aunque en la práctica se suelen utilizar técnicas provenientes<br />

<strong>de</strong> ambos enfoques:<br />

Enfoque estadístico. En este enfoque el texto se contempla como un<br />

conjunto <strong>de</strong> palabras, sin tener en consi<strong>de</strong>ración el or<strong>de</strong>n, la estructura,<br />

o el significado <strong>de</strong> las mismas. Des<strong>de</strong> esta concepción <strong>de</strong>l lenguaje<br />

natural, las frecuencias <strong>de</strong> aparición <strong>de</strong> las palabras y sus distribuciones<br />

son suficiente fuente <strong>de</strong> información para los sistemas. Es el enfoque<br />

conocido como bolsa <strong>de</strong> palabras o bag-of-words (BOW) (Manning y<br />

Schütze, 1999). La simplicidad y eficacia <strong>de</strong> estos mo<strong>de</strong>los los han<br />

dotado <strong>de</strong> gran popularidad en numerosas tareas <strong>de</strong> PLN, como la RI<br />

o la traducción automática.<br />

Este tipo <strong>de</strong> técnicas suelen aplicarse sobre textos preprocesados, es<br />

<strong>de</strong>cir, textos “limpios” en los que se han eliminado etiquetas (stripping),<br />

normalizado las palabras (mediante conversión a minúsculas,<br />

manejo <strong>de</strong> fechas, números y abreviaturas, eliminación <strong>de</strong> palabras<br />

19

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!