Evaluación de Reglas de Asociación en Text Mining Utilizando ...

More documents

Recommendations

Info

Las etapas del proceso de Descubrimiento de Conocimientos desde Textos son los siguientes: Preparación de los Textos Esta corresponde a la primera etapa del proceso de Minería de Textos, la cual tiene como objetivo dar una estructura a los documentos que se encuentran escritos en lenguaje natural para así poder aplicar técnicas provenientes de Data Mining. En esta etapa se distinguen tres procesos principales: Selección, Preprocesamiento y Representación. a) Selección Esta etapa del proceso de Minería de Textos comienza con la selección de los textos escritos en lenguaje natural de los cuales se espera descubrir nuevos conocimientos. Al conjunto de textos seleccionados se les denomina Corpus de Textos. b) Preprocesamiento En el Corpus de Textos se aplican herramientas de Procesamiento Lenguaje Natural (Natural Language Processing o NLP) que permiten mejorar la calidad del proceso de Text Mining. Entre estas herramientas de NLP destacan métodos de análisis morfológico y métodos de reconocimiento de frases. Word Stemming o Lematización es un método de análisis morfológico que se utiliza para obtener o identificar el tronco o raíz de una palabra. Por ejemplo, la palabra “autos” corresponde al plural de la palabra “auto”, y a su vez, “autito” es un diminutivo de la palabra “auto”, ambas variantes morfológicas de la palabra “auto” tienen interpretaciones semánticas similares y se pueden considerar como equivalentes en el uso de herramientas de Minería de Textos. Para efectos de cómputo, los algoritmos de stemming evitan que palabras con variantes morfológicas se consideren como palabras diferentes. Entre los algoritmos más populares de Stemming destacan los de Porter [32], Lovins [24], y Paice/Hust [28]. En todos ellos, el procedimiento para determinar la raíz de una palabra es similar, y consiste en aplicar reglas de transformación de manera iterativa comenzando por el final de la palabra hasta llegar al principio de ella, removiendo en cada iteración un sufijo a la vez. La diferencia de estos algoritmos radica en la forma de aplicar las reglas de transformación, específicamente si son sensibles o no al contexto. Los algoritmos sensibles al contexto utilizan información del contexto para definir restricciones que prevengan remover falsos sufijos que, en ciertas ocasiones, producen errores en el proceso de Stemming. Entre estos se encuentran los algoritmos de Porter, Lovins. En cambio, los algoritmos libres del contexto no se valen de información del contexto al aplicar sus reglas de eliminación de sufijos 1 . 1 http://www.comp.lancs.ac.uk/computing/research/stemming/index.htm. 12
Dentro de los métodos de reconocimiento de frases existen herramientas capaces de etiquetar cada palabra presente en un texto de acuerdo al rol que juegan en una oración, es decir, si la palabra corresponde a un nombre, verbo, sustantivo, artículo, adjetivo, adverbio, etc. Estas características se denominan Partes del Habla y las herramientas que permiten predecir estas etiquetas o categorías se denominan Etiquetadores POS (Part-Of-Speech) [15]. Por ejemplo el siguiente texto “La manzana es pequeña” quedaría etiquetada de la siguiente manera: “La/artículo manzana/nombre es/verbo pequeña/adjetivo”. El proceso de etiquetaje se puede realizar por medio de dos métodos: 1) Etiquetaje Basado en Reglas: en este método se utiliza información contextual del texto para asignar una etiqueta específica a una palabra desconocida. Por ejemplo, en el idioma español si una palabra desconocida X es precedida por un determinante y seguida de un sustantivo, entonces X se etiqueta como adjetivo. Varios de los etiquetadores automáticos (taggers) que existen en la actualidad utilizan información morfológica para ayudar al proceso de etiquetación. Sin embargo, la utilidad que entrega esta información adicional depende del idioma en el que se utilice. Por ejemplo, en el idioma Inglés, una regla podría etiquetar como verbo a una palabra desconocida si termina en “ing” y es precedida por un verbo, en cambio en Alemán, una regla podría identificar como nombre a aquellas palabras desconocidas que comiencen con letra capital. 2) Etiquetaje Estocástico: Cualquier enfoque de etiquetaje predictivo que incluya en su proceso cálculos de frecuencia o probabilidades podría denominarse estocástico. Los métodos estocásticos más simples de etiquetado marcan una palabra basándose solamente en la probabilidad de que ocurra con una etiqueta en particular. Es decir, el etiquetador encuentra la palabra más frecuente en el conjunto de entrenamiento y se la asigna a la instancia de la palabra. El problema con este enfoque consiste en que podría producir secuencias erróneas de etiquetajes, con lo cual disminuye la correctitud del método. Otro enfoque que es ampliamente utilizado corresponde a los Modelos de Lenguaje “n-gram”, en el cual se calcula la probabilidad de que ocurra una secuencia dada de etiquetas. En este enfoque la mejor etiqueta para una palabra dada está determinada por la probabilidad de que ocurra con las “n” etiquetas anteriores. Entre los algoritmos para implementar este enfoque destaca Viterbi [15]. Aunque los etiquetadores POS del tipo estocástico tienen altos niveles de rendimiento (sobre 95%) son muy sensibles al vocabulario y sintaxis utilizadas en el texto. Como consecuencia, si los textos de entrenamiento difieren mucho con los de descubrimiento, el nivel de rendimiento puede decaer [7]. 13
Page 1 and 2: UNIVERSIDAD DE CONCEPCIÓN FACULTAD
Page 3 and 4: Resumen Tareas tradicionales en min
Page 5 and 6: Índice 1. INTRODUCCIÓN ..........
Page 7 and 8: Índice de Tablas Tabla 1: Informac
Page 9 and 10: Los principales enfoques que buscan
Page 11: 2. Fundamentos Teóricos 2.1 Text M
Page 15 and 16: Clustering Este método divide un c
Page 17 and 18: Reglas de Asociación Figura 3: Pro
Page 19 and 20: Las reglas de asociación se clasif
Page 21 and 22: TID Items 1 A C D 2 B C E 3 A B C E
Page 23 and 24: Un Lattice de Itemset Cerrados pose
Page 25 and 26: 2.2 Análisis Semántico Latente El
Page 27 and 28: En la figura 7 se dan a conocer los
Page 29 and 30: {X´}= c1 c2 c3 c4 c5 m1 m2 m3 m4 h
Page 31 and 32: 3. Trabajos Relacionados Las tareas
Page 33 and 34: de textos y las cuales no pueden di
Page 35 and 36: 3) Lattice Conceptual: Un Lattice d
Page 37 and 38: A partir del contexto formal de la
Page 39 and 40: En este algoritmo los valores del m
Page 41 and 42: = 41 1 1 1 1 1 1 2 3 1 1 3
Page 43 and 44: Al igual que en el enfoque de Moone
Page 45 and 46: El problema que se presenta en los
Page 47 and 48: El algoritmo inserta conceptos en L
Page 49 and 50: Cada uno de los features busca enco
Page 51 and 52: Como se aprecia en las figura 18 y
Page 53 and 54: En Toussaint et al. [6, 7, 20] pres
Page 55 and 56: C2 casa vivienda C4 C3 cabaña Figu
Page 57 and 58: Los experimentos muestran que para
Page 59 and 60: Al mismo tiempo cada regla es evalu
Page 61 and 62: 6. Conclusiones En esta tesis un nu
Page 63 and 64:
[15] L. Guilder. Automated Part of
Page 65:
8. Documentación Anexa 8.1 Lista S
show all

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?