20.07.2013 Views

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Las etapas <strong>de</strong>l proceso <strong>de</strong> Descubrimi<strong>en</strong>to <strong>de</strong> Conocimi<strong>en</strong>tos <strong>de</strong>s<strong>de</strong> <strong>Text</strong>os son los<br />

sigui<strong>en</strong>tes:<br />

Preparación <strong>de</strong> los <strong>Text</strong>os<br />

Esta correspon<strong>de</strong> a la primera etapa <strong>de</strong>l proceso <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os, la cual ti<strong>en</strong>e<br />

como objetivo dar una estructura a los docum<strong>en</strong>tos que se <strong>en</strong>cu<strong>en</strong>tran escritos <strong>en</strong> l<strong>en</strong>guaje<br />

natural para así po<strong>de</strong>r aplicar técnicas prov<strong>en</strong>i<strong>en</strong>tes <strong>de</strong> Data <strong>Mining</strong>.<br />

En esta etapa se distingu<strong>en</strong> tres procesos principales: Selección, Preprocesami<strong>en</strong>to y<br />

Repres<strong>en</strong>tación.<br />

a) Selección<br />

Esta etapa <strong>de</strong>l proceso <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os comi<strong>en</strong>za con la selección <strong>de</strong> los textos<br />

escritos <strong>en</strong> l<strong>en</strong>guaje natural <strong>de</strong> los cuales se espera <strong>de</strong>scubrir nuevos conocimi<strong>en</strong>tos. Al<br />

conjunto <strong>de</strong> textos seleccionados se les <strong>de</strong>nomina Corpus <strong>de</strong> <strong>Text</strong>os.<br />

b) Preprocesami<strong>en</strong>to<br />

En el Corpus <strong>de</strong> <strong>Text</strong>os se aplican herrami<strong>en</strong>tas <strong>de</strong> Procesami<strong>en</strong>to L<strong>en</strong>guaje Natural<br />

(Natural Language Processing o NLP) que permit<strong>en</strong> mejorar la calidad <strong>de</strong>l proceso <strong>de</strong> <strong>Text</strong><br />

<strong>Mining</strong>. Entre estas herrami<strong>en</strong>tas <strong>de</strong> NLP <strong>de</strong>stacan métodos <strong>de</strong> análisis morfológico y métodos<br />

<strong>de</strong> reconocimi<strong>en</strong>to <strong>de</strong> frases.<br />

Word Stemming o Lematización es un método <strong>de</strong> análisis morfológico que se utiliza<br />

para obt<strong>en</strong>er o i<strong>de</strong>ntificar el tronco o raíz <strong>de</strong> una palabra. Por ejemplo, la palabra “autos”<br />

correspon<strong>de</strong> al plural <strong>de</strong> la palabra “auto”, y a su vez, “autito” es un diminutivo <strong>de</strong> la palabra<br />

“auto”, ambas variantes morfológicas <strong>de</strong> la palabra “auto” ti<strong>en</strong><strong>en</strong> interpretaciones semánticas<br />

similares y se pue<strong>de</strong>n consi<strong>de</strong>rar como equival<strong>en</strong>tes <strong>en</strong> el uso <strong>de</strong> herrami<strong>en</strong>tas <strong>de</strong> Minería <strong>de</strong><br />

<strong>Text</strong>os. Para efectos <strong>de</strong> cómputo, los algoritmos <strong>de</strong> stemming evitan que palabras con<br />

variantes morfológicas se consi<strong>de</strong>r<strong>en</strong> como palabras difer<strong>en</strong>tes.<br />

Entre los algoritmos más populares <strong>de</strong> Stemming <strong>de</strong>stacan los <strong>de</strong> Porter [32], Lovins<br />

[24], y Paice/Hust [28]. En todos ellos, el procedimi<strong>en</strong>to para <strong>de</strong>terminar la raíz <strong>de</strong> una<br />

palabra es similar, y consiste <strong>en</strong> aplicar reglas <strong>de</strong> transformación <strong>de</strong> manera iterativa<br />

com<strong>en</strong>zando por el final <strong>de</strong> la palabra hasta llegar al principio <strong>de</strong> ella, removi<strong>en</strong>do <strong>en</strong> cada<br />

iteración un sufijo a la vez. La difer<strong>en</strong>cia <strong>de</strong> estos algoritmos radica <strong>en</strong> la forma <strong>de</strong> aplicar las<br />

reglas <strong>de</strong> transformación, específicam<strong>en</strong>te si son s<strong>en</strong>sibles o no al contexto. Los algoritmos<br />

s<strong>en</strong>sibles al contexto utilizan información <strong>de</strong>l contexto para <strong>de</strong>finir restricciones que<br />

prev<strong>en</strong>gan remover falsos sufijos que, <strong>en</strong> ciertas ocasiones, produc<strong>en</strong> errores <strong>en</strong> el proceso <strong>de</strong><br />

Stemming. Entre estos se <strong>en</strong>cu<strong>en</strong>tran los algoritmos <strong>de</strong> Porter, Lovins. En cambio, los<br />

algoritmos libres <strong>de</strong>l contexto no se val<strong>en</strong> <strong>de</strong> información <strong>de</strong>l contexto al aplicar sus reglas <strong>de</strong><br />

eliminación <strong>de</strong> sufijos 1 .<br />

1 http://www.comp.lancs.ac.uk/computing/research/stemming/in<strong>de</strong>x.htm.<br />

12

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!