08.05.2013 Views

Representación del conocimiento textual mediante técnicas lógico ...

Representación del conocimiento textual mediante técnicas lógico ...

Representación del conocimiento textual mediante técnicas lógico ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

2.2 <strong>Representación</strong> <strong>textual</strong> sin contenido lingüístico 21<br />

En este mo<strong>del</strong>o, las unidades básicas de representación son los términos<br />

de las palabras (su raíz), considerando que las palabras de parada no<br />

quedan representadas. La raíz de una palabra guarda cierta similitud<br />

con su lema, aunque no son exactamente la misma cosa. El lema de una<br />

palabra se corresponde con la forma no marcada (forma estándar) de<br />

la palabra, mientras que la raíz es fruto <strong>del</strong> resultado de aplicar una<br />

heurística a las palabras para eliminar sus desinencias morfológicas obteniendo<br />

de este modo un término que se aproxima a su lema pero que<br />

es más representativo de la palabra. Este término es la raíz o stem. Para<br />

obtener la raíz de las palabras se utiliza el algoritmo de Porter (1980),<br />

la técnica de stemming más común en sistemas de PLN, que permite<br />

obtener la forma canónica de cada palabra. Por ejemplo, las palabras<br />

analyzing, analyzer y analysis tienen la misma forma canónica, siendo<br />

ésta (la raíz) analy. El ejemplo 1 muestra una representación siguiendo<br />

este mo<strong>del</strong>o.<br />

(1) Frase: The story of Mr. Fly and the Emergency Rescue<br />

Committee who saved thousands in Marseille.<br />

<strong>Representación</strong>: La tabla 2.1 detalla la representación<br />

de la frase siguiendo este mo<strong>del</strong>o.<br />

Término (raíz) Peso<br />

stori 1.84449<br />

fly 6.19484<br />

emerg 6.47296<br />

rescu 6.19484<br />

committe 4.08194<br />

save 3.06725<br />

thousand 2.33944<br />

marseil 5.13363<br />

Tabla 2.1. Ejemplo de representación según el mo<strong>del</strong>o de bolsa de palabras<br />

Este mo<strong>del</strong>o de representación <strong>del</strong> texto no tiene en cuenta aspectos<br />

naturales de la oración como, por ejemplo, la secuencialidad de palabras<br />

ni las relaciones sintácticas. Por ejemplo, las frases “Federer hit the<br />

ball” y “The ball hit Federer” tendrían la misma representación en este<br />

mo<strong>del</strong>o cuando, desde el punto de vista <strong>lógico</strong> y semántico, representan<br />

cosas claramente diferenciadas.<br />

2.2.2 Mo<strong>del</strong>o de n-gramas<br />

El mo<strong>del</strong>o de representación de n-gramas (Caropreso et al. , 2001),<br />

(Lewis, 1992), (Mladenic & Grobelnik, 1998) está formado a través de

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!