20.07.2013 Views

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

LSA opera tomando como <strong>en</strong>trada todos los docum<strong>en</strong>tos <strong>de</strong> un corpus <strong>de</strong> textos, y el<br />

primer paso consiste <strong>en</strong> repres<strong>en</strong>tar este texto <strong>de</strong> <strong>en</strong>trada <strong>en</strong> una matriz con una palabra por<br />

cada fila y un pasaje <strong>de</strong> texto <strong>en</strong> cada columna. Cada celda <strong>de</strong> la matriz conti<strong>en</strong>e la frecu<strong>en</strong>cia<br />

con la cual la palabra aparece <strong>en</strong> el pasaje <strong>de</strong> texto. Como segundo paso realiza una<br />

transformación preliminar a cada celda, <strong>en</strong> la cual su cont<strong>en</strong>ido es pon<strong>de</strong>rado por una función<br />

que expresa tanto la importancia <strong>de</strong> la palabra <strong>en</strong> el pasaje <strong>en</strong> particular, como el grado <strong>en</strong> el<br />

cual la palabra conti<strong>en</strong>e información relevante <strong>en</strong> el dominio <strong>de</strong>l discurso <strong>en</strong> g<strong>en</strong>eral [22].<br />

Posteriorm<strong>en</strong>te, LSA aplica un conjunto <strong>de</strong> operaciones matriciales, utilizando la<br />

técnica <strong>de</strong> Descomposición <strong>de</strong> Valores Singulares (Singular Value Descomposition o SVD) a<br />

la matriz creada. Esta técnica correspon<strong>de</strong> a un tipo <strong>de</strong> análisis factorial, o más bi<strong>en</strong>, la<br />

g<strong>en</strong>eralización matemática <strong>de</strong> la cual <strong>de</strong>riva el análisis factorial. En SVD, una matriz<br />

rectangular es <strong>de</strong>scompuesta <strong>en</strong> el producto <strong>de</strong> tres matrices. Una <strong>de</strong> estas matrices<br />

compon<strong>en</strong>tes (W) <strong>de</strong>scribe las <strong>en</strong>tida<strong>de</strong>s <strong>de</strong> fila <strong>de</strong> la matriz original como vectores <strong>de</strong> valores<br />

factoriales ortogonales <strong>de</strong>rivados. Otra matriz (P) <strong>de</strong>scribe las <strong>en</strong>tida<strong>de</strong>s <strong>de</strong> columna originales<br />

<strong>de</strong> la misma forma y la tercera es una matriz diagonal (S) que conti<strong>en</strong>e valores <strong>de</strong><br />

“escalami<strong>en</strong>to” <strong>de</strong> modo que, cuando las tres compon<strong>en</strong>tes son multiplicadas, se recupera la<br />

matriz original. Se pue<strong>de</strong> reducir la dim<strong>en</strong>sionalidad <strong>de</strong> la solución <strong>de</strong> forma simple<br />

eliminando coefici<strong>en</strong>tes <strong>en</strong> la matriz diagonal, comúnm<strong>en</strong>te empezando con el m<strong>en</strong>or <strong>de</strong> ellos<br />

[22].<br />

A continuación, mediante un ejemplo, se muestra lo que se pue<strong>de</strong> lograr al utilizar la<br />

técnica <strong>de</strong>l SVD. En el ejemplo, extraído <strong>de</strong> [22], se utilizan los títulos <strong>de</strong> nueve artículos<br />

técnicos, cinco sobre interacción hombre-máquina y cuatro sobre teoría matemática <strong>de</strong> grafos.<br />

De esta forma, la matriz original ti<strong>en</strong>e nueve columnas y doce filas, cada una correspondi<strong>en</strong>te<br />

a una palabra usada <strong>en</strong>, a lo m<strong>en</strong>os, dos <strong>de</strong> los pasajes.<br />

26

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!