09.11.2013 Views

Recuperación de información para respuesta a preguntas en ...

Recuperación de información para respuesta a preguntas en ...

Recuperación de información para respuesta a preguntas en ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

En el proceso <strong>de</strong> repres<strong>en</strong>tación, los usuarios pue<strong>de</strong>n especificar que ciertos<br />

docum<strong>en</strong>tos son más importantes que otros. Por esto, el valor <strong>de</strong> similitud se<br />

multiplica por el valor <strong>de</strong> “importancia” <strong>de</strong> cada docum<strong>en</strong>to doc-boost(d).<br />

Durante la recuperación los usuarios pue<strong>de</strong>n especificar una mayor importancia a<br />

ciertos términos <strong>de</strong> la solicitud lo que se toma <strong>en</strong> cu<strong>en</strong>ta mediante el factor:<br />

q_boost(q).<br />

Con el MEV es posible recuperar docum<strong>en</strong>tos que no necesariam<strong>en</strong>te cont<strong>en</strong>gan<br />

todos los términos <strong>de</strong> la solicitud. En Luc<strong>en</strong>e los usuarios pue<strong>de</strong>n a<strong>de</strong>más<br />

recomp<strong>en</strong>sar docum<strong>en</strong>tos que cont<strong>en</strong>gan un mayor número <strong>de</strong> términos <strong>de</strong> la<br />

solicitud mediante un factor <strong>de</strong> coordinación: el que es mayor mi<strong>en</strong>tras más<br />

términos compartan <strong>en</strong> común docum<strong>en</strong>to y solicitud: coord-factor(q, d).<br />

‖ ‖<br />

La ecuación anterior es sólo conceptual, <strong>en</strong> el s<strong>en</strong>tido que es únicam<strong>en</strong>te una simplificación<br />

<strong>de</strong> la fórmula utilizada realm<strong>en</strong>te <strong>en</strong> el proceso <strong>de</strong> recuperación. En la docum<strong>en</strong>tación <strong>de</strong><br />

Luc<strong>en</strong>e se <strong>de</strong>scribe su implem<strong>en</strong>tación 7 .<br />

2.3.2. JIRS<br />

El Sistema <strong>de</strong> recuperación <strong>de</strong> <strong>información</strong> JIRS 8 (por sus siglas <strong>en</strong> inglés correspondi<strong>en</strong>tes<br />

a Java Information Retrieval System), es una implem<strong>en</strong>tación <strong>de</strong> un mo<strong>de</strong>lo <strong>de</strong><br />

recuperación <strong>de</strong> <strong>información</strong> basado <strong>en</strong> n-gramas. Debido a la complejidad computacional<br />

que implica su mecanismo <strong>de</strong> recuperación, a difer<strong>en</strong>cia <strong>de</strong> un sistema <strong>de</strong> <strong>información</strong><br />

tradicional (el cual <strong>de</strong>vuelve un conjunto <strong>de</strong> docum<strong>en</strong>tos) JIRS se diseñó <strong>para</strong> la<br />

recuperación <strong>de</strong> una m<strong>en</strong>or cantidad <strong>de</strong> texto como párrafos (o pasajes) <strong>de</strong> un corpus<br />

relativam<strong>en</strong>te pequeño. A continuación se <strong>de</strong>scribe <strong>de</strong> forma g<strong>en</strong>eral su funcionami<strong>en</strong>to.<br />

Repres<strong>en</strong>tación<br />

Al contrario <strong>de</strong>l mo<strong>de</strong>lo booleano y el MEV que utilizan las palabras <strong>de</strong> los textos como<br />

unida<strong>de</strong>s lingüísticas básicas, JIRS utiliza n-gramas <strong>en</strong> su mo<strong>de</strong>lo principal <strong>de</strong><br />

7 http://luc<strong>en</strong>e.apache.org/core/3_6_0/scoring.html<br />

8 http://sourceforge.net/projects/jirs/<br />

38

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!