Recuperación de información para respuesta a preguntas en ...
Recuperación de información para respuesta a preguntas en ...
Recuperación de información para respuesta a preguntas en ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
En el proceso <strong>de</strong> repres<strong>en</strong>tación, los usuarios pue<strong>de</strong>n especificar que ciertos<br />
docum<strong>en</strong>tos son más importantes que otros. Por esto, el valor <strong>de</strong> similitud se<br />
multiplica por el valor <strong>de</strong> “importancia” <strong>de</strong> cada docum<strong>en</strong>to doc-boost(d).<br />
Durante la recuperación los usuarios pue<strong>de</strong>n especificar una mayor importancia a<br />
ciertos términos <strong>de</strong> la solicitud lo que se toma <strong>en</strong> cu<strong>en</strong>ta mediante el factor:<br />
q_boost(q).<br />
Con el MEV es posible recuperar docum<strong>en</strong>tos que no necesariam<strong>en</strong>te cont<strong>en</strong>gan<br />
todos los términos <strong>de</strong> la solicitud. En Luc<strong>en</strong>e los usuarios pue<strong>de</strong>n a<strong>de</strong>más<br />
recomp<strong>en</strong>sar docum<strong>en</strong>tos que cont<strong>en</strong>gan un mayor número <strong>de</strong> términos <strong>de</strong> la<br />
solicitud mediante un factor <strong>de</strong> coordinación: el que es mayor mi<strong>en</strong>tras más<br />
términos compartan <strong>en</strong> común docum<strong>en</strong>to y solicitud: coord-factor(q, d).<br />
‖ ‖<br />
La ecuación anterior es sólo conceptual, <strong>en</strong> el s<strong>en</strong>tido que es únicam<strong>en</strong>te una simplificación<br />
<strong>de</strong> la fórmula utilizada realm<strong>en</strong>te <strong>en</strong> el proceso <strong>de</strong> recuperación. En la docum<strong>en</strong>tación <strong>de</strong><br />
Luc<strong>en</strong>e se <strong>de</strong>scribe su implem<strong>en</strong>tación 7 .<br />
2.3.2. JIRS<br />
El Sistema <strong>de</strong> recuperación <strong>de</strong> <strong>información</strong> JIRS 8 (por sus siglas <strong>en</strong> inglés correspondi<strong>en</strong>tes<br />
a Java Information Retrieval System), es una implem<strong>en</strong>tación <strong>de</strong> un mo<strong>de</strong>lo <strong>de</strong><br />
recuperación <strong>de</strong> <strong>información</strong> basado <strong>en</strong> n-gramas. Debido a la complejidad computacional<br />
que implica su mecanismo <strong>de</strong> recuperación, a difer<strong>en</strong>cia <strong>de</strong> un sistema <strong>de</strong> <strong>información</strong><br />
tradicional (el cual <strong>de</strong>vuelve un conjunto <strong>de</strong> docum<strong>en</strong>tos) JIRS se diseñó <strong>para</strong> la<br />
recuperación <strong>de</strong> una m<strong>en</strong>or cantidad <strong>de</strong> texto como párrafos (o pasajes) <strong>de</strong> un corpus<br />
relativam<strong>en</strong>te pequeño. A continuación se <strong>de</strong>scribe <strong>de</strong> forma g<strong>en</strong>eral su funcionami<strong>en</strong>to.<br />
Repres<strong>en</strong>tación<br />
Al contrario <strong>de</strong>l mo<strong>de</strong>lo booleano y el MEV que utilizan las palabras <strong>de</strong> los textos como<br />
unida<strong>de</strong>s lingüísticas básicas, JIRS utiliza n-gramas <strong>en</strong> su mo<strong>de</strong>lo principal <strong>de</strong><br />
7 http://luc<strong>en</strong>e.apache.org/core/3_6_0/scoring.html<br />
8 http://sourceforge.net/projects/jirs/<br />
38