16.08.2013 Views

Optimización de un Sistema de Recuperación de Información ...

Optimización de un Sistema de Recuperación de Información ...

Optimización de un Sistema de Recuperación de Información ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Optimización</strong> <strong>Optimización</strong> <strong>de</strong> <strong>de</strong> <strong>un</strong> <strong>un</strong> <strong>un</strong> <strong>Sistema</strong> <strong>Sistema</strong> <strong>de</strong> <strong>de</strong> <strong>Recuperación</strong> <strong>Recuperación</strong> <strong>de</strong> <strong>de</strong> <strong>Información</strong> <strong>Información</strong> basado basado en en Pasajes Pasajes aplicado aplicado a<br />

a<br />

la la tarea tarea <strong>de</strong> <strong>de</strong> Búsqueda Búsqueda <strong>de</strong> <strong>de</strong> Respuestas. Respuestas. Elisa Elisa Noguera Noguera Robles. Robles.<br />

Robles.<br />

Los sistemas <strong>de</strong> Búsqueda <strong>de</strong> Respuestas (BR) utilizan técnicas muy costosas<br />

computacionalmente para extraer la respuesta, y dado que es inviable aplicarlas a<br />

gran<strong>de</strong>s colecciones <strong>de</strong> documentos, sólo suelen aplicarse a los documentos relevantes.<br />

Estos documentos son extraídos por <strong>un</strong> módulo previo a la extracción <strong>de</strong> la respuesta,<br />

usualmente sistemas <strong>de</strong> <strong>Recuperación</strong> <strong>de</strong> <strong>Información</strong> (RI).<br />

La finalidad <strong>de</strong> este trabajo <strong>de</strong> investigación es la optimización <strong>de</strong>l módulo <strong>de</strong> RI en la<br />

tarea <strong>de</strong> BR, principalmente mediante la incorporación <strong>de</strong> técnicas <strong>de</strong> Procesamiento <strong>de</strong><br />

Lenguaje Natural (PLN).<br />

Hemos seleccionado <strong>un</strong> sistema <strong>de</strong> <strong>Recuperación</strong> <strong>de</strong> <strong>Información</strong> basado en Pasajes (IR-n)<br />

como módulo previo en nuestro sistema <strong>de</strong> BR. IR-n ha sido entrenado y evaluado con las<br />

colecciones y preg<strong>un</strong>tas <strong>de</strong> las últimas ediciones <strong>de</strong>l QA@CLEF (2003, 2004, 2005) para<br />

español utilizando como medida <strong>de</strong> evaluación “Mean Reciprocal Rank” (MRR). Mediante<br />

esta evaluación, a<strong>de</strong>más <strong>de</strong> obtener la configuración óptima <strong>de</strong> los parámetros <strong>de</strong> entrada<br />

al sistema, también han sido obtenidos los mejores resultados para utilizarlos como<br />

“baseline” <strong>de</strong>l sistema. Éstos han sido 0.51, 0.395 y 0.385 (MRR) para las colecciones<br />

2003, 2004, 2005 respectivamente.<br />

A<strong>de</strong>más <strong>de</strong> la evaluación <strong>de</strong>l sistema, como fase preliminar se ha realizado <strong>un</strong> estudio<br />

sobre la incorporación <strong>de</strong> entida<strong>de</strong>s en el módulo <strong>de</strong> RI. Esta mejora en el sistema<br />

supuso el incremento <strong>de</strong>l MRR en <strong>un</strong> 9% y la reducción <strong>de</strong> la cantidad <strong>de</strong> datos <strong>de</strong> entrada<br />

en <strong>un</strong> 26%. (TSD'05, NLDB'05).<br />

Para mejorar la precisión <strong>de</strong>l sistema <strong>de</strong> BR se está incorporando información<br />

lingüística en el módulo <strong>de</strong> RI (con el analizador sintáctico SUPAR), concretamente <strong>de</strong><br />

dos tipos:<br />

-<strong>Información</strong> léxica: incorporación <strong>de</strong> la categoria <strong>de</strong> cada palabra (indicando si es<br />

verbo, adjetivo, nombre, adverbio,..), género y número, si es entidad y <strong>de</strong> que tipo.<br />

-<strong>Información</strong> sintáctica: extracción <strong>de</strong> los sintagmas nominales, verbales y<br />

preposicionales.<br />

La incorporación <strong>de</strong> este tipo <strong>de</strong> información es muy costosa computacionalmente para el<br />

sistema, el tamaño <strong>de</strong> la información a procesar se ha multiplicado por quince y se han<br />

complicado los problemas <strong>de</strong> selección y procesamiento <strong>de</strong> la información lingüística así<br />

como el control tiempo <strong>de</strong> ejecución.<br />

Gracias a la utilización <strong>de</strong> esta información lingüística se están realizando <strong>un</strong>a serie<br />

<strong>de</strong> técnicas para mejorar la precisión <strong>de</strong>l sistema:<br />

-Incorporación <strong>de</strong> análisis <strong>de</strong> la preg<strong>un</strong>ta mediante la selección <strong>de</strong> palabras clave.<br />

Creación <strong>de</strong> <strong>un</strong> algoritmo que seleccione <strong>de</strong> la preg<strong>un</strong>ta ciertas palabras que cumplan <strong>un</strong>a<br />

serie <strong>de</strong> restricciones lingüísticas.<br />

-Selección <strong>de</strong> pasajes que contengan el tipo <strong>de</strong> la respuesta.<br />

-Selección <strong>de</strong> pasajes que cumplan ciertas restricciones lingüísticas, como ejemplo, que<br />

la respuesta tenga la misma categoría gramatical que el tipo que se espera.<br />

A<strong>de</strong>más se están realizando otras tareas:<br />

-Reducción <strong>de</strong> la cantidad <strong>de</strong> datos y la mejora en la precisión <strong>de</strong> los resultados


mediante la selección variable <strong>de</strong> número <strong>de</strong> pasajes y número <strong>de</strong> frases en los pasajes.<br />

-Estudio, evaluación <strong>de</strong> distintos sistemas actuales RI (Lucene, Lemur, Indri, Terrier,<br />

Zettair, JIRS) como preproceso para BR para la comparación con nuestro sistema.<br />

Este sistema <strong>de</strong> RI será evaluado como módulo <strong>de</strong>l sistema <strong>de</strong> BR realizado por la<br />

Universidad <strong>de</strong> Alicante en la próxima edición <strong>de</strong>l CLEF-2006.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!