Búsqueda respuestas basada en conocimiento Descripción ... - gplsi

Búsqueda respuestas basada en conocimiento 

Descripción del sistema 

En esta contribución se describe el sistema AliQAn (Alicante Question Answering), un 

sistema de búsqueda de respuesta (BR) monolingüe de dominio abierto para castellano. 

Éste se basa fundamentalmente en el uso de patrones sintácticos para identificar las 

posibles respuestas. Además, se aplica una nueva propuesta de desambiguación del 

sentido de los nombres con el objetivo de mejorar la precisión global. 

Nuestro enfoque se basa en el análisis sintáctico y semántico de las preguntas y 

documentos. Se utilizan las siguientes herramientas: MACO (análisis morfosintáctico), 

SUPAR (análisis sintáctico parcial), IR-n (sistema de recuperación de información 

basado en pasajes) y EuroWordNet (EWN). Como en la mayoría de los sistemas de 

BR, AliQAn está compuesto de tres fases principales: análisis de la pregunta, selección 

de pasajes relevantes y extracción de la respuesta. 

AliQAn ha sido presentado en la competición CLEF 2005, obteniendo una precisión del 

33% en la tarea monolingüe para el castellano. En el proceso de entrenamiento se ha 

utilizado un conjunto de 400 preguntas correspondientes al CLEF 2003 y 2004, 

obteniendo respectivamente una precisión del 42% y 33.5% 1 . 

La propuesta de desambiguación utilizada en AliQAn está basada en el algoritmo de 

Agirre y Rigau 2 . Utilizando este algoritmo hemos observado un decremento del 4.7% en 

el MRR del sistema. Debido a ello, hemos propuesto unas variaciones en ese algoritmo: 

1) la elección de un conjunto de synsets (el 40% del conjunto inicial), al contrario del 

uso tradicional que tan sólo consideraba uno; 2) la desambiguación de los nombres no 

contenidos en EWN entre los synsets de Persona, Objeto, LugarTierra y 

LugarConstrucción. Considerando estas variantes, la precisión se ve incrementada en 

un 6,3% con respecto al algoritmo original sin desambiguación y un 11% con respecto 

al propuesto 2 . 

Tomando como baseline el sistema AliQAn, se están desarrollando tres nuevas líneas de 

investigación: Búsqueda de respuestas multilingüe, Búsqueda de respuestas basadas en 

inferencia de conocimiento y Búsqueda de respuestas en dominios restringidos. 

El objetivo de la primera línea de investigación es el desarrollo de un sistema 

automático de BR multilingüe (español, inglés, catalán), en donde el efecto negativo de 

la traducción perturbe lo menos posible la precisión. Para conseguir este propósito en 

lugar de realizar una traducción de la pregunta al idioma en el cual vamos a buscar la 

respuesta, como hacen la mayoría de sistemas, se utilizará el Inter Lingual Index (ILI) 

module de EWN, apoyándonos en el proceso de desambiguación, para poder referenciar 

palabras de idiomas diferentes. 

La segunda línea de investigación se centra en el estudio del impacto de las técnicas de 

razonamiento en la precisión de los sistemas de BR. Como resultado se pretende 

1 

Notese que la precisión obtenida para el 2005 no contempla las respuestas inexactas recuperadas por 

AliQAn. 

2 st 

E. Agirre and G. Rigau. A proposal for word sense disambiguation using conceptual distance. 1 . Intl. 

Conf. On recent Advance in NLP. Bulgaria, 1995.

desarrollar un mecanismo de representación del conocimiento independiente del 

lenguaje, un método de justificación de la respuesta obtenida por el sistema de BR, un 

desarrollo de técnicas para aumentar la exactitud en la clasificación de la pregunta y un 

proceso más robusto de obtención de información de la pregunta para ser utilizada en 

fases posteriores del sistema, entre otros objetivos. 

La última de las líneas de investigación mencionadas, se dibuja sobre la base de 

desarrollar los mecanismos que nos permitan mejorar la precisión de un sistema de BR 

de dominio abierto cuando éste trabaje sobre un dominio restringido. Es decir, consistirá 

en el desarrollo de las técnicas automáticas que nos faciliten el proceso de adaptación de 

un sistema de BR (en este caso AliQAn) a un dominio concreto, como podrían ser los 

dominios médicos o geográficos. Esto implicará que tras la aplicación de este proceso 

automático, se mejore la precisión del sistema de BR de dominio abierto. Es importante 

pensar en unos resultados óptimos, es necesario matizar que la precisión tendrá que 

estar por encima de un porcentaje mínimo definido a priori, para poder llevar a la 

práctica su aplicabilidad en el mundo laboral. 

Sandra Roger 

Sergio Ferrández 

Pilar López 

Antonio Ferrández

Búsqueda respuestas basada en conocimiento Descripción ... - gplsi

Create successful ePaper yourself

Delete template?

Save as template?