09.11.2013 Views

Recuperación de información para respuesta a preguntas en ...

Recuperación de información para respuesta a preguntas en ...

Recuperación de información para respuesta a preguntas en ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Pon<strong>de</strong>ración<br />

Figura 5. Repres<strong>en</strong>tación <strong>de</strong> los docum<strong>en</strong>tos <strong>en</strong> el MEV.<br />

Para obt<strong>en</strong>er los valores asociados a los términos a partir <strong>de</strong> los cuales se forman los<br />

vectores que repres<strong>en</strong>taran a los docum<strong>en</strong>tos se han propuesto y estudiado difer<strong>en</strong>tes<br />

métodos. El más simple, <strong>de</strong>nominado, método binario consiste <strong>en</strong> <strong>de</strong>terminar simplem<strong>en</strong>te<br />

si un término aparece o no <strong>en</strong> un docum<strong>en</strong>to .<br />

{ (1)<br />

Se ha sugerido que no todos los términos que aparec<strong>en</strong> <strong>en</strong> un texto son igualm<strong>en</strong>te<br />

importantes. Para consi<strong>de</strong>rar esta suposición, se propuso utilizar, <strong>en</strong> vez <strong>de</strong>l método binario,<br />

la frecu<strong>en</strong>cia <strong>de</strong> los términos <strong>en</strong> los docum<strong>en</strong>tos, es <strong>de</strong>cir, el número <strong>de</strong> veces que un<br />

término aparece <strong>en</strong> un docum<strong>en</strong>to (Lunh, 1957). De esta forma, <strong>en</strong>tre más frecu<strong>en</strong>te es un<br />

término <strong>en</strong> un docum<strong>en</strong>to, mayor es su valor asociado.<br />

don<strong>de</strong> es la frecu<strong>en</strong>cia <strong>de</strong>l término i <strong>en</strong> el docum<strong>en</strong>to M.<br />

A pesar <strong>de</strong> basarse <strong>en</strong> una suposición razonable, el simple conteo <strong>de</strong> términos pres<strong>en</strong>ta<br />

algunos problemas. El principal inconv<strong>en</strong>i<strong>en</strong>te que se ha docum<strong>en</strong>tado es que si bi<strong>en</strong> un<br />

término frecu<strong>en</strong>te <strong>en</strong> un texto pue<strong>de</strong> ser importante <strong>en</strong> ese mismo texto, <strong>en</strong> el caso <strong>de</strong> ser<br />

igual <strong>de</strong> frecu<strong>en</strong>te <strong>en</strong> el resto <strong>de</strong> docum<strong>en</strong>tos, dicho término podría no ser <strong>de</strong> utilidad <strong>para</strong><br />

discriminar <strong>en</strong>tre textos relevantes e irrelevantes. Ori<strong>en</strong>tada a tal inconv<strong>en</strong>i<strong>en</strong>te surgió la<br />

<strong>de</strong>nominada frecu<strong>en</strong>cia inversa <strong>de</strong>l docum<strong>en</strong>to (Salton, 1988), <strong>de</strong>finida como:<br />

(2)<br />

[ ] ⁄ (3)<br />

14

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!