09.11.2013 Views

Recuperación de información para respuesta a preguntas en ...

Recuperación de información para respuesta a preguntas en ...

Recuperación de información para respuesta a preguntas en ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Usualm<strong>en</strong>te, los lematizadores se basan <strong>en</strong> analizadores morfológicos <strong>para</strong> <strong>de</strong>terminar la<br />

categoría gramatical <strong>de</strong> cada palabra y así <strong>de</strong>terminar la raíz correcta.<br />

En el pres<strong>en</strong>te trabajo se consi<strong>de</strong>ró que lematizar podría ser <strong>de</strong> mucha utilidad <strong>de</strong>bido a que<br />

comúnm<strong>en</strong>te los usuarios <strong>de</strong> <strong>información</strong> legal plantean su situación <strong>en</strong> pres<strong>en</strong>te, por<br />

ejemplo, ¿Cuáles son los requisitos que <strong>de</strong>b<strong>en</strong> cumplir…?. Por otra parte, <strong>en</strong> los textos<br />

legales, el tiempo verbal más usado <strong>en</strong> español es el futuro <strong>de</strong> mandato o legislativo <strong>para</strong><br />

expresar el carácter preceptivo: “los requisitos que <strong>de</strong>berá cumplir el personal…”. Al<br />

lematizar posiblem<strong>en</strong>te los términos <strong>de</strong> búsqueda concuer<strong>de</strong>n con los <strong>de</strong> un docum<strong>en</strong>to y<br />

con ello se ayuda a su recuperación, siempre y cuando el mecanismo <strong>de</strong> recuperación<br />

consi<strong>de</strong>re o esté basado precisam<strong>en</strong>te <strong>en</strong> tal situación.<br />

2.2.3. Stemming<br />

En el área <strong>de</strong> recuperación <strong>de</strong> <strong>información</strong>, a lematizar se le conoce como el proceso <strong>de</strong><br />

<strong>en</strong>contrar la “raíz” <strong>de</strong> una palabra dada; esta raíz es llamada <strong>en</strong> inglés stem. Debido a lo<br />

anterior, a este proceso se le conoce <strong>en</strong> inglés como stemming y solam<strong>en</strong>te consiste <strong>en</strong><br />

“cortar” la palabra. Por ejemplo, dadas las palabras constitución, constitucional,<br />

constituciones, la raíz <strong>de</strong> ellas sería constituci-. Los principales algoritmos <strong>de</strong> stemming han<br />

sido <strong>de</strong>sarrollados <strong>para</strong> el idioma inglés, el más conocido es el algoritmo <strong>de</strong> stemming <strong>de</strong><br />

Porter (Porter, 1997).<br />

2.3. IRS<br />

Para investigar la capacidad <strong>de</strong>l mo<strong>de</strong>lo y métodos <strong>de</strong> implem<strong>en</strong>tación <strong>de</strong>l mismo se<br />

com<strong>para</strong>ron sus resultados con los <strong>de</strong> <strong>en</strong>foques ya utilizados <strong>en</strong> el dominio legal, los cuales<br />

se eligieron también tomando <strong>en</strong> cu<strong>en</strong>ta que como característica principal no consi<strong>de</strong>raran<br />

las refer<strong>en</strong>cias o estructura <strong>de</strong> los textos legislativos. Esto se hizo con la finalidad <strong>de</strong><br />

<strong>de</strong>terminar si el <strong>de</strong>sempeño <strong>de</strong>l mo<strong>de</strong>lo propuesto aprovecha o no la inclusión <strong>de</strong> tales<br />

características <strong>de</strong> los docum<strong>en</strong>tos. Se eligió el mo<strong>de</strong>lo <strong>de</strong>l espacio vectorial, el software<br />

libre <strong>de</strong> recuperación <strong>de</strong> <strong>información</strong> Luc<strong>en</strong>e, y el sistema <strong>de</strong> recuperación <strong>de</strong> pasajes,<br />

también libre, JIRS. A continuación se <strong>de</strong>scrib<strong>en</strong> brevem<strong>en</strong>te tanto Luc<strong>en</strong>e como JIRS<br />

<strong>de</strong>bido a que posteriorm<strong>en</strong>te el análisis <strong>de</strong> resultados se realiza precisam<strong>en</strong>te con base <strong>en</strong> su<br />

mecanismo <strong>de</strong> recuperación.<br />

36

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!