Búsqueda respuestas basada en conocimiento Descripción ... - gplsi
Búsqueda respuestas basada en conocimiento Descripción ... - gplsi
Búsqueda respuestas basada en conocimiento Descripción ... - gplsi
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Búsqueda</strong> <strong>respuestas</strong> <strong>basada</strong> <strong>en</strong> conocimi<strong>en</strong>to<br />
<strong>Descripción</strong> del sistema<br />
En esta contribución se describe el sistema AliQAn (Alicante Question Answering), un<br />
sistema de búsqueda de respuesta (BR) monolingüe de dominio abierto para castellano.<br />
Éste se basa fundam<strong>en</strong>talm<strong>en</strong>te <strong>en</strong> el uso de patrones sintácticos para id<strong>en</strong>tificar las<br />
posibles <strong>respuestas</strong>. Además, se aplica una nueva propuesta de desambiguación del<br />
s<strong>en</strong>tido de los nombres con el objetivo de mejorar la precisión global.<br />
Nuestro <strong>en</strong>foque se basa <strong>en</strong> el análisis sintáctico y semántico de las preguntas y<br />
docum<strong>en</strong>tos. Se utilizan las sigui<strong>en</strong>tes herrami<strong>en</strong>tas: MACO (análisis morfosintáctico),<br />
SUPAR (análisis sintáctico parcial), IR-n (sistema de recuperación de información<br />
basado <strong>en</strong> pasajes) y EuroWordNet (EWN). Como <strong>en</strong> la mayoría de los sistemas de<br />
BR, AliQAn está compuesto de tres fases principales: análisis de la pregunta, selección<br />
de pasajes relevantes y extracción de la respuesta.<br />
AliQAn ha sido pres<strong>en</strong>tado <strong>en</strong> la competición CLEF 2005, obt<strong>en</strong>i<strong>en</strong>do una precisión del<br />
33% <strong>en</strong> la tarea monolingüe para el castellano. En el proceso de <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se ha<br />
utilizado un conjunto de 400 preguntas correspondi<strong>en</strong>tes al CLEF 2003 y 2004,<br />
obt<strong>en</strong>i<strong>en</strong>do respectivam<strong>en</strong>te una precisión del 42% y 33.5% 1 .<br />
La propuesta de desambiguación utilizada <strong>en</strong> AliQAn está <strong>basada</strong> <strong>en</strong> el algoritmo de<br />
Agirre y Rigau 2 . Utilizando este algoritmo hemos observado un decrem<strong>en</strong>to del 4.7% <strong>en</strong><br />
el MRR del sistema. Debido a ello, hemos propuesto unas variaciones <strong>en</strong> ese algoritmo:<br />
1) la elección de un conjunto de synsets (el 40% del conjunto inicial), al contrario del<br />
uso tradicional que tan sólo consideraba uno; 2) la desambiguación de los nombres no<br />
cont<strong>en</strong>idos <strong>en</strong> EWN <strong>en</strong>tre los synsets de Persona, Objeto, LugarTierra y<br />
LugarConstrucción. Considerando estas variantes, la precisión se ve increm<strong>en</strong>tada <strong>en</strong><br />
un 6,3% con respecto al algoritmo original sin desambiguación y un 11% con respecto<br />
al propuesto 2 .<br />
Tomando como baseline el sistema AliQAn, se están desarrollando tres nuevas líneas de<br />
investigación: <strong>Búsqueda</strong> de <strong>respuestas</strong> multilingüe, <strong>Búsqueda</strong> de <strong>respuestas</strong> <strong>basada</strong>s <strong>en</strong><br />
infer<strong>en</strong>cia de conocimi<strong>en</strong>to y <strong>Búsqueda</strong> de <strong>respuestas</strong> <strong>en</strong> dominios restringidos.<br />
El objetivo de la primera línea de investigación es el desarrollo de un sistema<br />
automático de BR multilingüe (español, inglés, catalán), <strong>en</strong> donde el efecto negativo de<br />
la traducción perturbe lo m<strong>en</strong>os posible la precisión. Para conseguir este propósito <strong>en</strong><br />
lugar de realizar una traducción de la pregunta al idioma <strong>en</strong> el cual vamos a buscar la<br />
respuesta, como hac<strong>en</strong> la mayoría de sistemas, se utilizará el Inter Lingual Index (ILI)<br />
module de EWN, apoyándonos <strong>en</strong> el proceso de desambiguación, para poder refer<strong>en</strong>ciar<br />
palabras de idiomas difer<strong>en</strong>tes.<br />
La segunda línea de investigación se c<strong>en</strong>tra <strong>en</strong> el estudio del impacto de las técnicas de<br />
razonami<strong>en</strong>to <strong>en</strong> la precisión de los sistemas de BR. Como resultado se pret<strong>en</strong>de<br />
1<br />
Notese que la precisión obt<strong>en</strong>ida para el 2005 no contempla las <strong>respuestas</strong> inexactas recuperadas por<br />
AliQAn.<br />
2 st<br />
E. Agirre and G. Rigau. A proposal for word s<strong>en</strong>se disambiguation using conceptual distance. 1 . Intl.<br />
Conf. On rec<strong>en</strong>t Advance in NLP. Bulgaria, 1995.
desarrollar un mecanismo de repres<strong>en</strong>tación del conocimi<strong>en</strong>to indep<strong>en</strong>di<strong>en</strong>te del<br />
l<strong>en</strong>guaje, un método de justificación de la respuesta obt<strong>en</strong>ida por el sistema de BR, un<br />
desarrollo de técnicas para aum<strong>en</strong>tar la exactitud <strong>en</strong> la clasificación de la pregunta y un<br />
proceso más robusto de obt<strong>en</strong>ción de información de la pregunta para ser utilizada <strong>en</strong><br />
fases posteriores del sistema, <strong>en</strong>tre otros objetivos.<br />
La última de las líneas de investigación m<strong>en</strong>cionadas, se dibuja sobre la base de<br />
desarrollar los mecanismos que nos permitan mejorar la precisión de un sistema de BR<br />
de dominio abierto cuando éste trabaje sobre un dominio restringido. Es decir, consistirá<br />
<strong>en</strong> el desarrollo de las técnicas automáticas que nos facilit<strong>en</strong> el proceso de adaptación de<br />
un sistema de BR (<strong>en</strong> este caso AliQAn) a un dominio concreto, como podrían ser los<br />
dominios médicos o geográficos. Esto implicará que tras la aplicación de este proceso<br />
automático, se mejore la precisión del sistema de BR de dominio abierto. Es importante<br />
p<strong>en</strong>sar <strong>en</strong> unos resultados óptimos, es necesario matizar que la precisión t<strong>en</strong>drá que<br />
estar por <strong>en</strong>cima de un porc<strong>en</strong>taje mínimo definido a priori, para poder llevar a la<br />
práctica su aplicabilidad <strong>en</strong> el mundo laboral.<br />
Sandra Roger<br />
Sergio Ferrández<br />
Pilar López<br />
Antonio Ferrández