20.07.2013 Views

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

c) Repres<strong>en</strong>tación <strong>de</strong> los <strong>Text</strong>os<br />

Una vez que se han aplicados las herrami<strong>en</strong>tas <strong>de</strong> NLP, se escoge la repres<strong>en</strong>tación <strong>de</strong><br />

los textos, la cual podría ser por medio <strong>de</strong> palabras, keyterms, features, conceptos, etc. Esta<br />

repres<strong>en</strong>tación <strong>de</strong>be ser fácil <strong>de</strong> manejar <strong>en</strong> las tareas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os y <strong>de</strong>be ser lo más<br />

informativa posible, es <strong>de</strong>cir, <strong>de</strong>be capturar los aspectos o características <strong>de</strong>l espacio <strong>de</strong>l<br />

problema. Enfoques <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os que escog<strong>en</strong> repres<strong>en</strong>taciones informativas son más<br />

fáciles <strong>de</strong> <strong>en</strong>t<strong>en</strong><strong>de</strong>r <strong>en</strong> la etapa <strong>de</strong> interpretación que aquellos que ocupan repres<strong>en</strong>taciones no<br />

informativas.<br />

El <strong>en</strong>foque más s<strong>en</strong>cillo <strong>de</strong> repres<strong>en</strong>tación <strong>de</strong> textos se <strong>de</strong>nomina Bolsa <strong>de</strong> Palabras<br />

(Bag of Words), <strong>en</strong> el cual, la bolsa esta compuesta por las palabras que se <strong>en</strong>cu<strong>en</strong>tran <strong>en</strong> los<br />

docum<strong>en</strong>tos. En este <strong>en</strong>foque se ignora el or<strong>de</strong>n <strong>de</strong> las palabras. En [5] se pres<strong>en</strong>ta un<br />

<strong>en</strong>foque, que a difer<strong>en</strong>cia <strong>de</strong>l Bag of Words, consi<strong>de</strong>ra cierta semántica para seleccionar los<br />

features que repres<strong>en</strong>tan al corpus <strong>de</strong> textos, específicam<strong>en</strong>te se utilizan features que<br />

repres<strong>en</strong>tan conceptos médicos.<br />

En la mayoría <strong>de</strong> los <strong>en</strong>foques <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os es común eliminar <strong>de</strong>l corpus <strong>de</strong><br />

textos palabras que no aportan conocimi<strong>en</strong>to alguno, es <strong>de</strong>cir, palabras <strong>de</strong> función o que<br />

ocurr<strong>en</strong> muy frecu<strong>en</strong>tem<strong>en</strong>te, tales como: “el”, “la”, “ellos”, “nosotros”, “<strong>de</strong>”, etc. Estas<br />

palabras eliminadas recib<strong>en</strong> el nombre <strong>de</strong> “Stopwords” y por medio <strong>de</strong> su eliminación se<br />

reduce el tamaño <strong>de</strong> la repres<strong>en</strong>tación <strong>de</strong>l texto, mejorando así la efectividad <strong>de</strong> las distintas<br />

técnicas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os.<br />

Una vez que se ha preprocesado el corpus <strong>de</strong> textos, los textos pose<strong>en</strong> una<br />

repres<strong>en</strong>tación más estructurada que <strong>en</strong> su forma original. Esta estructuración <strong>de</strong> los textos<br />

permite aplicar métodos prov<strong>en</strong>i<strong>en</strong>tes <strong>de</strong>s<strong>de</strong> Data <strong>Mining</strong>. Entre los métodos más populares<br />

<strong>de</strong>stacan: clustering, clasificación y predicción, reglas <strong>de</strong> asociación, y minado <strong>de</strong> tipos <strong>de</strong><br />

datos complejos [17]. Estos métodos se pue<strong>de</strong>n aplicar <strong>en</strong> tareas <strong>de</strong> <strong>Text</strong> <strong>Mining</strong> para<br />

<strong>de</strong>scubrir conocimi<strong>en</strong>to <strong>en</strong> los textos.<br />

Entre las principales tareas <strong>de</strong> Minería <strong>de</strong> <strong>Text</strong>os, <strong>de</strong>stacan: <strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong><br />

estructuras <strong>en</strong> los textos utilizando clustering y clasificación; <strong>de</strong>scubrimi<strong>en</strong>to <strong>de</strong> patrones<br />

don<strong>de</strong> se utiliza el método <strong>de</strong> reglas <strong>de</strong> asociación. En las sigui<strong>en</strong>tes secciones se pres<strong>en</strong>tan<br />

estos métodos ampliam<strong>en</strong>te utilizados <strong>en</strong> <strong>en</strong>foques <strong>de</strong> <strong>Text</strong> <strong>Mining</strong>.<br />

14

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!