Recuperación de información para respuesta a preguntas en ...
Recuperación de información para respuesta a preguntas en ...
Recuperación de información para respuesta a preguntas en ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Usualm<strong>en</strong>te, los lematizadores se basan <strong>en</strong> analizadores morfológicos <strong>para</strong> <strong>de</strong>terminar la<br />
categoría gramatical <strong>de</strong> cada palabra y así <strong>de</strong>terminar la raíz correcta.<br />
En el pres<strong>en</strong>te trabajo se consi<strong>de</strong>ró que lematizar podría ser <strong>de</strong> mucha utilidad <strong>de</strong>bido a que<br />
comúnm<strong>en</strong>te los usuarios <strong>de</strong> <strong>información</strong> legal plantean su situación <strong>en</strong> pres<strong>en</strong>te, por<br />
ejemplo, ¿Cuáles son los requisitos que <strong>de</strong>b<strong>en</strong> cumplir…?. Por otra parte, <strong>en</strong> los textos<br />
legales, el tiempo verbal más usado <strong>en</strong> español es el futuro <strong>de</strong> mandato o legislativo <strong>para</strong><br />
expresar el carácter preceptivo: “los requisitos que <strong>de</strong>berá cumplir el personal…”. Al<br />
lematizar posiblem<strong>en</strong>te los términos <strong>de</strong> búsqueda concuer<strong>de</strong>n con los <strong>de</strong> un docum<strong>en</strong>to y<br />
con ello se ayuda a su recuperación, siempre y cuando el mecanismo <strong>de</strong> recuperación<br />
consi<strong>de</strong>re o esté basado precisam<strong>en</strong>te <strong>en</strong> tal situación.<br />
2.2.3. Stemming<br />
En el área <strong>de</strong> recuperación <strong>de</strong> <strong>información</strong>, a lematizar se le conoce como el proceso <strong>de</strong><br />
<strong>en</strong>contrar la “raíz” <strong>de</strong> una palabra dada; esta raíz es llamada <strong>en</strong> inglés stem. Debido a lo<br />
anterior, a este proceso se le conoce <strong>en</strong> inglés como stemming y solam<strong>en</strong>te consiste <strong>en</strong><br />
“cortar” la palabra. Por ejemplo, dadas las palabras constitución, constitucional,<br />
constituciones, la raíz <strong>de</strong> ellas sería constituci-. Los principales algoritmos <strong>de</strong> stemming han<br />
sido <strong>de</strong>sarrollados <strong>para</strong> el idioma inglés, el más conocido es el algoritmo <strong>de</strong> stemming <strong>de</strong><br />
Porter (Porter, 1997).<br />
2.3. IRS<br />
Para investigar la capacidad <strong>de</strong>l mo<strong>de</strong>lo y métodos <strong>de</strong> implem<strong>en</strong>tación <strong>de</strong>l mismo se<br />
com<strong>para</strong>ron sus resultados con los <strong>de</strong> <strong>en</strong>foques ya utilizados <strong>en</strong> el dominio legal, los cuales<br />
se eligieron también tomando <strong>en</strong> cu<strong>en</strong>ta que como característica principal no consi<strong>de</strong>raran<br />
las refer<strong>en</strong>cias o estructura <strong>de</strong> los textos legislativos. Esto se hizo con la finalidad <strong>de</strong><br />
<strong>de</strong>terminar si el <strong>de</strong>sempeño <strong>de</strong>l mo<strong>de</strong>lo propuesto aprovecha o no la inclusión <strong>de</strong> tales<br />
características <strong>de</strong> los docum<strong>en</strong>tos. Se eligió el mo<strong>de</strong>lo <strong>de</strong>l espacio vectorial, el software<br />
libre <strong>de</strong> recuperación <strong>de</strong> <strong>información</strong> Luc<strong>en</strong>e, y el sistema <strong>de</strong> recuperación <strong>de</strong> pasajes,<br />
también libre, JIRS. A continuación se <strong>de</strong>scrib<strong>en</strong> brevem<strong>en</strong>te tanto Luc<strong>en</strong>e como JIRS<br />
<strong>de</strong>bido a que posteriorm<strong>en</strong>te el análisis <strong>de</strong> resultados se realiza precisam<strong>en</strong>te con base <strong>en</strong> su<br />
mecanismo <strong>de</strong> recuperación.<br />
36