16.08.2013 Views

Búsqueda respuestas basada en conocimiento Descripción ... - gplsi

Búsqueda respuestas basada en conocimiento Descripción ... - gplsi

Búsqueda respuestas basada en conocimiento Descripción ... - gplsi

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Búsqueda</strong> <strong>respuestas</strong> <strong>basada</strong> <strong>en</strong> conocimi<strong>en</strong>to<br />

<strong>Descripción</strong> del sistema<br />

En esta contribución se describe el sistema AliQAn (Alicante Question Answering), un<br />

sistema de búsqueda de respuesta (BR) monolingüe de dominio abierto para castellano.<br />

Éste se basa fundam<strong>en</strong>talm<strong>en</strong>te <strong>en</strong> el uso de patrones sintácticos para id<strong>en</strong>tificar las<br />

posibles <strong>respuestas</strong>. Además, se aplica una nueva propuesta de desambiguación del<br />

s<strong>en</strong>tido de los nombres con el objetivo de mejorar la precisión global.<br />

Nuestro <strong>en</strong>foque se basa <strong>en</strong> el análisis sintáctico y semántico de las preguntas y<br />

docum<strong>en</strong>tos. Se utilizan las sigui<strong>en</strong>tes herrami<strong>en</strong>tas: MACO (análisis morfosintáctico),<br />

SUPAR (análisis sintáctico parcial), IR-n (sistema de recuperación de información<br />

basado <strong>en</strong> pasajes) y EuroWordNet (EWN). Como <strong>en</strong> la mayoría de los sistemas de<br />

BR, AliQAn está compuesto de tres fases principales: análisis de la pregunta, selección<br />

de pasajes relevantes y extracción de la respuesta.<br />

AliQAn ha sido pres<strong>en</strong>tado <strong>en</strong> la competición CLEF 2005, obt<strong>en</strong>i<strong>en</strong>do una precisión del<br />

33% <strong>en</strong> la tarea monolingüe para el castellano. En el proceso de <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to se ha<br />

utilizado un conjunto de 400 preguntas correspondi<strong>en</strong>tes al CLEF 2003 y 2004,<br />

obt<strong>en</strong>i<strong>en</strong>do respectivam<strong>en</strong>te una precisión del 42% y 33.5% 1 .<br />

La propuesta de desambiguación utilizada <strong>en</strong> AliQAn está <strong>basada</strong> <strong>en</strong> el algoritmo de<br />

Agirre y Rigau 2 . Utilizando este algoritmo hemos observado un decrem<strong>en</strong>to del 4.7% <strong>en</strong><br />

el MRR del sistema. Debido a ello, hemos propuesto unas variaciones <strong>en</strong> ese algoritmo:<br />

1) la elección de un conjunto de synsets (el 40% del conjunto inicial), al contrario del<br />

uso tradicional que tan sólo consideraba uno; 2) la desambiguación de los nombres no<br />

cont<strong>en</strong>idos <strong>en</strong> EWN <strong>en</strong>tre los synsets de Persona, Objeto, LugarTierra y<br />

LugarConstrucción. Considerando estas variantes, la precisión se ve increm<strong>en</strong>tada <strong>en</strong><br />

un 6,3% con respecto al algoritmo original sin desambiguación y un 11% con respecto<br />

al propuesto 2 .<br />

Tomando como baseline el sistema AliQAn, se están desarrollando tres nuevas líneas de<br />

investigación: <strong>Búsqueda</strong> de <strong>respuestas</strong> multilingüe, <strong>Búsqueda</strong> de <strong>respuestas</strong> <strong>basada</strong>s <strong>en</strong><br />

infer<strong>en</strong>cia de conocimi<strong>en</strong>to y <strong>Búsqueda</strong> de <strong>respuestas</strong> <strong>en</strong> dominios restringidos.<br />

El objetivo de la primera línea de investigación es el desarrollo de un sistema<br />

automático de BR multilingüe (español, inglés, catalán), <strong>en</strong> donde el efecto negativo de<br />

la traducción perturbe lo m<strong>en</strong>os posible la precisión. Para conseguir este propósito <strong>en</strong><br />

lugar de realizar una traducción de la pregunta al idioma <strong>en</strong> el cual vamos a buscar la<br />

respuesta, como hac<strong>en</strong> la mayoría de sistemas, se utilizará el Inter Lingual Index (ILI)<br />

module de EWN, apoyándonos <strong>en</strong> el proceso de desambiguación, para poder refer<strong>en</strong>ciar<br />

palabras de idiomas difer<strong>en</strong>tes.<br />

La segunda línea de investigación se c<strong>en</strong>tra <strong>en</strong> el estudio del impacto de las técnicas de<br />

razonami<strong>en</strong>to <strong>en</strong> la precisión de los sistemas de BR. Como resultado se pret<strong>en</strong>de<br />

1<br />

Notese que la precisión obt<strong>en</strong>ida para el 2005 no contempla las <strong>respuestas</strong> inexactas recuperadas por<br />

AliQAn.<br />

2 st<br />

E. Agirre and G. Rigau. A proposal for word s<strong>en</strong>se disambiguation using conceptual distance. 1 . Intl.<br />

Conf. On rec<strong>en</strong>t Advance in NLP. Bulgaria, 1995.


desarrollar un mecanismo de repres<strong>en</strong>tación del conocimi<strong>en</strong>to indep<strong>en</strong>di<strong>en</strong>te del<br />

l<strong>en</strong>guaje, un método de justificación de la respuesta obt<strong>en</strong>ida por el sistema de BR, un<br />

desarrollo de técnicas para aum<strong>en</strong>tar la exactitud <strong>en</strong> la clasificación de la pregunta y un<br />

proceso más robusto de obt<strong>en</strong>ción de información de la pregunta para ser utilizada <strong>en</strong><br />

fases posteriores del sistema, <strong>en</strong>tre otros objetivos.<br />

La última de las líneas de investigación m<strong>en</strong>cionadas, se dibuja sobre la base de<br />

desarrollar los mecanismos que nos permitan mejorar la precisión de un sistema de BR<br />

de dominio abierto cuando éste trabaje sobre un dominio restringido. Es decir, consistirá<br />

<strong>en</strong> el desarrollo de las técnicas automáticas que nos facilit<strong>en</strong> el proceso de adaptación de<br />

un sistema de BR (<strong>en</strong> este caso AliQAn) a un dominio concreto, como podrían ser los<br />

dominios médicos o geográficos. Esto implicará que tras la aplicación de este proceso<br />

automático, se mejore la precisión del sistema de BR de dominio abierto. Es importante<br />

p<strong>en</strong>sar <strong>en</strong> unos resultados óptimos, es necesario matizar que la precisión t<strong>en</strong>drá que<br />

estar por <strong>en</strong>cima de un porc<strong>en</strong>taje mínimo definido a priori, para poder llevar a la<br />

práctica su aplicabilidad <strong>en</strong> el mundo laboral.<br />

Sandra Roger<br />

Sergio Ferrández<br />

Pilar López<br />

Antonio Ferrández

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!