Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
1.1. Motivaciones<br />
diferentes idiomas y dominios. Para ello, basaremos nuestros <strong>de</strong>sarrollos en<br />
técnicas <strong>de</strong> aprendizaje automático sobre corpus, que permitan a nuestros<br />
sistemas apren<strong>de</strong>r a través <strong>de</strong> la experiencia.<br />
En lo que resta <strong>de</strong> capítulo, hablaremos <strong>de</strong> las motivaciones que impulsan<br />
esta tesis y <strong>de</strong> los objetivos planteados, así como <strong>de</strong> la metodología seguida<br />
y la estructura <strong>de</strong> este trabajo.<br />
1.1. Motivaciones<br />
Los sistemas <strong>de</strong> BR se han convertido en objeto <strong>de</strong> amplio estudio en la<br />
última década, gracias en parte a los distintos foros internacionales en este<br />
campo: TREC 5 (Voorhees, 2001b), CLEF 6 (Vallin et al., 2006) y NTCIR 7<br />
(Kando, 2005). Estos foros han marcado las pautas <strong>de</strong> <strong>de</strong>sarrollo <strong>de</strong> la BR,<br />
estableciendo los retos a superar y el marco <strong>de</strong> evaluación y comparación <strong>de</strong><br />
las diferentes aproximaciones entre sí. El interés en este campo no ha parado<br />
<strong>de</strong> crecer, abriéndose paso en la sociedad a través <strong>de</strong> numerosas proyectos e<br />
iniciativas, tanto públicas como privadas.<br />
Los sistemas <strong>de</strong> CP, como parte fundamental <strong>de</strong> la tarea <strong>de</strong> BR,<br />
resultan <strong>de</strong> vital importancia en las tecnologías actuales <strong>de</strong> recuperación <strong>de</strong><br />
información. En los últimos años, la CP ha adquirido suficiente relevancia<br />
como para ser consi<strong>de</strong>rada una tarea in<strong>de</strong>pendiente <strong>de</strong> los sistemas <strong>de</strong> BR y<br />
evaluable en sí misma. Trabajos como el <strong>de</strong> Li y Roth (2002) han permitido<br />
establecer un marco <strong>de</strong> trabajo en el que evaluar y comparar estos sistemas<br />
entre sí.<br />
Aunque aparentemente la tarea <strong>de</strong> clasificar <strong>preguntas</strong> resulte sencilla<br />
e intuitiva para un humano, hay diversos factores que afectan al funcionamiento<br />
<strong>de</strong> los sistemas <strong>de</strong> <strong>clasificación</strong> automáticos y a su robustez. La<br />
superación <strong>de</strong> las dificulta<strong>de</strong>s que enumeraremos en los siguientes párrafos,<br />
así como la ya comentada importancia adquirida por los sistemas <strong>de</strong> CP,<br />
han motivado el trabajo <strong>de</strong>sarrollado en esta tesis.<br />
En los siguientes párrafos vamos a plantear las dificulta<strong>de</strong>s que <strong>de</strong>ben<br />
afrontar los sistemas actuales <strong>de</strong> CP, cuya superación ha motivado este<br />
trabajo:<br />
Procesamiento <strong>de</strong>l lenguaje natural. Los sistemas <strong>de</strong> CP trabajan<br />
con peticiones en lenguaje natural, por lo que <strong>de</strong>ben afrontar los<br />
problemas <strong>de</strong>rivados <strong>de</strong> la variación y la ambigüedad <strong>de</strong>l lenguaje<br />
humano.<br />
La ambigüedad lingüística lleva a que algunas palabras tomen distinto<br />
significado <strong>de</strong>pendiendo <strong>de</strong>l contexto en el que tengan lugar. Un<br />
5 Text REtrieval Conference: http://trec.nist.org.<br />
6 Cross Language Evaluation Forum: http://clef-campaign.org.<br />
7 NII-NACSIS Test Collection for IR Systems: http://research.nii.ac.jp/ntcir/.<br />
5