08.05.2013 Views

Representación del conocimiento textual mediante técnicas lógico ...

Representación del conocimiento textual mediante técnicas lógico ...

Representación del conocimiento textual mediante técnicas lógico ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

2.5 La representación formal <strong>del</strong> texto en los sistemas de PLN 35<br />

obtiene una representación estadística de los documentos siguiendo el<br />

mo<strong>del</strong>o de n-gramas, teniendo un total de 1250391 n-gramas con tamaño<br />

de n variable desde 1 hasta 8. En el proceso de representación,<br />

el índice almacena el número de ocurrencias de cada n-grama en cada<br />

documento.<br />

Como mejora y optimización de la representación formal <strong>del</strong> texto se<br />

propone utilizar una representación basada en el mo<strong>del</strong>o de análisis<br />

sintáctico y el re<strong>conocimiento</strong> de la terminología <strong>del</strong> corpus.<br />

El sistema DIOGENE de Bernardo Magnini et. al (2002) hace un preproceso<br />

que consiste, en un primer paso, en una tokenización y etiquetado<br />

PoS de las palabras y, en un segundo paso, en el re<strong>conocimiento</strong><br />

de expresiones multipalabra. Una vez realizado este preproceso, el texto<br />

es representado formalmente siguiendo el mo<strong>del</strong>o de representación<br />

híbrido. Para ello identifica cada palabra o expresión multipalabra con<br />

su sentido asociado en la base de datos léxica WordNet.<br />

2.5.2 La representación formal <strong>del</strong> texto en los sistemas de<br />

Recuperación de Información<br />

En este apartado se detallan los mo<strong>del</strong>os de representación formal <strong>del</strong><br />

texto que utilizan los sistemas de Recuperación de Información desarrollados<br />

en los centros de investigación de Amsterdam, Barcelona (Yahoo)<br />

y Maryland bajo la supervisión de los investigadores Marteen de Rijke,<br />

Ricardo Baeza-Yates y Jimmy Lin respectivamente.<br />

El sistema de Balog et al. (2007) obtiene una representación formal <strong>del</strong><br />

documento basada en el mo<strong>del</strong>o de bolsa de palabras (bag-of-words).<br />

De este modo, las estimaciones que hace para determinar si un documento<br />

es candidato a ser relevante para una query es puramente<br />

estadística ya que se basa en la formulación propuesta por Bayes:<br />

P (documento|query) = P (query|documento)P (documento)/P (query).<br />

El sistema de Baeza-Yates et al. (2007) obtiene una representación formal<br />

<strong>del</strong> texto basada en el mo<strong>del</strong>o de bolsa de palabras. En el proceso<br />

de recuperación maneja conceptos totalmente estadísticos tales como<br />

las frecuencias normalizadas de los términos, la distribución de las frecuencias,<br />

y las correlaciones de las frecuencias entre los términos de los<br />

documentos y de las queries.<br />

El sistema de Jimmy Lin (2006), al igual que los dos sistemas predecesores<br />

en este apartado, obtiene también una representación formal<br />

<strong>del</strong> texto basada en el mo<strong>del</strong>o de bolsa de palabras. Para ello utiliza<br />

una variante <strong>del</strong> mo<strong>del</strong>o de pesado TF.IDF. Básicamente se centra en

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!