Evaluación de Reglas de Asociación en Text Mining Utilizando ...

More documents

Recommendations

Info

c) Representación de los Textos Una vez que se han aplicados las herramientas de NLP, se escoge la representación de los textos, la cual podría ser por medio de palabras, keyterms, features, conceptos, etc. Esta representación debe ser fácil de manejar en las tareas de Minería de Textos y debe ser lo más informativa posible, es decir, debe capturar los aspectos o características del espacio del problema. Enfoques de Minería de Textos que escogen representaciones informativas son más fáciles de entender en la etapa de interpretación que aquellos que ocupan representaciones no informativas. El enfoque más sencillo de representación de textos se denomina Bolsa de Palabras (Bag of Words), en el cual, la bolsa esta compuesta por las palabras que se encuentran en los documentos. En este enfoque se ignora el orden de las palabras. En [5] se presenta un enfoque, que a diferencia del Bag of Words, considera cierta semántica para seleccionar los features que representan al corpus de textos, específicamente se utilizan features que representan conceptos médicos. En la mayoría de los enfoques de Minería de Textos es común eliminar del corpus de textos palabras que no aportan conocimiento alguno, es decir, palabras de función o que ocurren muy frecuentemente, tales como: “el”, “la”, “ellos”, “nosotros”, “de”, etc. Estas palabras eliminadas reciben el nombre de “Stopwords” y por medio de su eliminación se reduce el tamaño de la representación del texto, mejorando así la efectividad de las distintas técnicas de Minería de Textos. Una vez que se ha preprocesado el corpus de textos, los textos poseen una representación más estructurada que en su forma original. Esta estructuración de los textos permite aplicar métodos provenientes desde Data Mining. Entre los métodos más populares destacan: clustering, clasificación y predicción, reglas de asociación, y minado de tipos de datos complejos [17]. Estos métodos se pueden aplicar en tareas de Text Mining para descubrir conocimiento en los textos. Entre las principales tareas de Minería de Textos, destacan: descubrimiento de estructuras en los textos utilizando clustering y clasificación; descubrimiento de patrones donde se utiliza el método de reglas de asociación. En las siguientes secciones se presentan estos métodos ampliamente utilizados en enfoques de Text Mining. 14
Clustering Este método divide un conjunto de datos en subconjuntos con características similares. La esencia del clustering es que los objetos dentro de un cluster o subconjunto sean lo más similares posibles entre sí, y muy disimilares con los elementos de otros clusters. Para medir la similaridad entre objetos dentro de un cluster se suelen utilizar diferentes formas de distancia, tales como: Euclidiana, Euclidiana Cuadrática, Minkowsky, Chebychev, Mahalanobis, Manhatan, Correlación de Pearson, y Correlación de Spearman, [1, 9, 17]. En Clustering de documentos, los documentos generalmente son representados como vectores con una dimensión igual a la cantidad de palabras (términos) que aparecen en el corpus de textos. Cada componente del vector refleja la ocurrencia de la correspondiente palabra en el documento. Una medida de similaridad ampliamente utilizada en esta representación corresponde a la medida de coseno, que mide el ángulo que forman dos vectores. Otras medidas incluyen los coeficientes de Dice y Jaccard [40]. Para medir la similaridad entre clústeres se utilizan métricas que miden la distancia del encadenamiento (linkage) de los clústeres, entre éstas destacan: encadenamiento promedio, encadenamiento individual, encadenamiento completo 2 . Por otro lado, la calidad de un método de clustering es alta cuando la similaridad dentro de un cluster es alta y la disimilaridad entre clusters también es alta. Entre los beneficios que se obtienen al utilizar técnicas de clustering, destaca una simplificación en la interpretación de la gran cantidad de datos existente en las bases de datos o corpus de textos. Sin embargo, dado que el método divide los datos en clusters necesariamente se pierden detalles de la información debido a la agrupación de elementos con características similares. Existe una gran variedad de algoritmos de clustering, por lo que resulta difícil clasificarlos debido a que generalmente se sobreponen en las distintas clasificaciones propuestas [17]. Generalmente, los enfoques de clustering se clasifican en: algoritmos de particionamiento, jerárquicos, basados en densidad, basados en mallas, y basados en modelos [17]. En minería de textos, destacan los enfoques de clustering jerárquico y de particionamiento. 2 http://www.improvedoutcomes.com/docs/WebSiteDocs/Clustering/Clustering_Overview.htm. 15
Page 1 and 2: UNIVERSIDAD DE CONCEPCIÓN FACULTAD
Page 3 and 4: Resumen Tareas tradicionales en min
Page 5 and 6: Índice 1. INTRODUCCIÓN ..........
Page 7 and 8: Índice de Tablas Tabla 1: Informac
Page 9 and 10: Los principales enfoques que buscan
Page 11 and 12: 2. Fundamentos Teóricos 2.1 Text M
Page 13: Dentro de los métodos de reconocim
Page 17 and 18: Reglas de Asociación Figura 3: Pro
Page 19 and 20: Las reglas de asociación se clasif
Page 21 and 22: TID Items 1 A C D 2 B C E 3 A B C E
Page 23 and 24: Un Lattice de Itemset Cerrados pose
Page 25 and 26: 2.2 Análisis Semántico Latente El
Page 27 and 28: En la figura 7 se dan a conocer los
Page 29 and 30: {X´}= c1 c2 c3 c4 c5 m1 m2 m3 m4 h
Page 31 and 32: 3. Trabajos Relacionados Las tareas
Page 33 and 34: de textos y las cuales no pueden di
Page 35 and 36: 3) Lattice Conceptual: Un Lattice d
Page 37 and 38: A partir del contexto formal de la
Page 39 and 40: En este algoritmo los valores del m
Page 41 and 42: = 41 1 1 1 1 1 1 2 3 1 1 3
Page 43 and 44: Al igual que en el enfoque de Moone
Page 45 and 46: El problema que se presenta en los
Page 47 and 48: El algoritmo inserta conceptos en L
Page 49 and 50: Cada uno de los features busca enco
Page 51 and 52: Como se aprecia en las figura 18 y
Page 53 and 54: En Toussaint et al. [6, 7, 20] pres
Page 55 and 56: C2 casa vivienda C4 C3 cabaña Figu
Page 57 and 58: Los experimentos muestran que para
Page 59 and 60: Al mismo tiempo cada regla es evalu
Page 61 and 62: 6. Conclusiones En esta tesis un nu
Page 63 and 64: [15] L. Guilder. Automated Part of
Page 65:
8. Documentación Anexa 8.1 Lista S
show all

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Create successful ePaper yourself

Delete template?

Save as template?