16.08.2013 Views

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

1.1. Motivaciones<br />

diferentes idiomas y dominios. Para ello, basaremos nuestros <strong>de</strong>sarrollos en<br />

técnicas <strong>de</strong> aprendizaje automático sobre corpus, que permitan a nuestros<br />

sistemas apren<strong>de</strong>r a través <strong>de</strong> la experiencia.<br />

En lo que resta <strong>de</strong> capítulo, hablaremos <strong>de</strong> las motivaciones que impulsan<br />

esta tesis y <strong>de</strong> los objetivos planteados, así como <strong>de</strong> la metodología seguida<br />

y la estructura <strong>de</strong> este trabajo.<br />

1.1. Motivaciones<br />

Los sistemas <strong>de</strong> BR se han convertido en objeto <strong>de</strong> amplio estudio en la<br />

última década, gracias en parte a los distintos foros internacionales en este<br />

campo: TREC 5 (Voorhees, 2001b), CLEF 6 (Vallin et al., 2006) y NTCIR 7<br />

(Kando, 2005). Estos foros han marcado las pautas <strong>de</strong> <strong>de</strong>sarrollo <strong>de</strong> la BR,<br />

estableciendo los retos a superar y el marco <strong>de</strong> evaluación y comparación <strong>de</strong><br />

las diferentes aproximaciones entre sí. El interés en este campo no ha parado<br />

<strong>de</strong> crecer, abriéndose paso en la sociedad a través <strong>de</strong> numerosas proyectos e<br />

iniciativas, tanto públicas como privadas.<br />

Los sistemas <strong>de</strong> CP, como parte fundamental <strong>de</strong> la tarea <strong>de</strong> BR,<br />

resultan <strong>de</strong> vital importancia en las tecnologías actuales <strong>de</strong> recuperación <strong>de</strong><br />

información. En los últimos años, la CP ha adquirido suficiente relevancia<br />

como para ser consi<strong>de</strong>rada una tarea in<strong>de</strong>pendiente <strong>de</strong> los sistemas <strong>de</strong> BR y<br />

evaluable en sí misma. Trabajos como el <strong>de</strong> Li y Roth (2002) han permitido<br />

establecer un marco <strong>de</strong> trabajo en el que evaluar y comparar estos sistemas<br />

entre sí.<br />

Aunque aparentemente la tarea <strong>de</strong> clasificar <strong>preguntas</strong> resulte sencilla<br />

e intuitiva para un humano, hay diversos factores que afectan al funcionamiento<br />

<strong>de</strong> los sistemas <strong>de</strong> <strong>clasificación</strong> automáticos y a su robustez. La<br />

superación <strong>de</strong> las dificulta<strong>de</strong>s que enumeraremos en los siguientes párrafos,<br />

así como la ya comentada importancia adquirida por los sistemas <strong>de</strong> CP,<br />

han motivado el trabajo <strong>de</strong>sarrollado en esta tesis.<br />

En los siguientes párrafos vamos a plantear las dificulta<strong>de</strong>s que <strong>de</strong>ben<br />

afrontar los sistemas actuales <strong>de</strong> CP, cuya superación ha motivado este<br />

trabajo:<br />

Procesamiento <strong>de</strong>l lenguaje natural. Los sistemas <strong>de</strong> CP trabajan<br />

con peticiones en lenguaje natural, por lo que <strong>de</strong>ben afrontar los<br />

problemas <strong>de</strong>rivados <strong>de</strong> la variación y la ambigüedad <strong>de</strong>l lenguaje<br />

humano.<br />

La ambigüedad lingüística lleva a que algunas palabras tomen distinto<br />

significado <strong>de</strong>pendiendo <strong>de</strong>l contexto en el que tengan lugar. Un<br />

5 Text REtrieval Conference: http://trec.nist.org.<br />

6 Cross Language Evaluation Forum: http://clef-campaign.org.<br />

7 NII-NACSIS Test Collection for IR Systems: http://research.nii.ac.jp/ntcir/.<br />

5

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!