Evaluación de Reglas de Asociación en Text Mining Utilizando ...

More documents

Recommendations

Info

Clasificación y Predicción Clasificación y predicción representan dos formas de análisis de datos. La primera se utiliza para extraer modelos que describen relaciones entre los datos, y la segunda para predecir la tendencia futura de éstos. Por ejemplo, un modelo de clasificación se podría utilizar en un banco para categorizar los créditos en justos o excelentes, en cambio, un modelo de predicción podría predecir los gastos de potenciales clientes en equipamientos computacionales dados sus ingresos y ocupación. El método de clasificación y predicción, a diferencia del Clustering, es un método de aprendizaje supervisado, ya que los datos de entrenamiento deben estar acompañados por rótulos que indican la clase de las observaciones, además los datos nuevos se clasifican basados en el set de entrenamiento. Este método se compone de dos etapas: primero, se realiza la construcción del modelo de clasificación, el cual describe un conjunto de clases predeterminadas (ver figura 2). Este modelo se genera por medio de reglas de clasificación, árboles de decisión, etc. En el segundo paso (ver figura 3) se utiliza el modelo de clasificación para clasificar objetos desconocidos o futuros. En esta etapa para estimar la precisión del modelo se compara el rótulo desconocido de las muestras de prueba con el resultado clasificado por el modelo. La tasa de precisión del modelo es la proporción de las muestras de prueba que fueron correctamente clasificadas por el modelo. Aquí, el set de prueba es independiente del set de entrenamiento para evitar problemas de over-fitting, es decir, evitar errores en la clasificación por causas del set de entrenamiento [17]. Figura 2: Proceso de Clasificación: etapa de aprendizaje. 16
Reglas de Asociación Figura 3: Proceso de Clasificación: etapa de Clasificación. La generación de reglas de asociación permite encontrar relaciones de asociación o correlación entre un conjunto extenso de datos. En tareas de Data Mining estos datos se encuentran almacenados generalmente en bases de datos, en cambio en Text Mining se encuentran escritos en lenguaje natural en bases de datos textuales. Originalmente, las reglas de asociación nacen de una necesidad de muchas industrias de encontrar relaciones entre los registros o transacciones almacenados en sus bases de datos [17]. Un ejemplo clásico de aplicación del método de reglas de asociación corresponde al análisis de compras en un supermercado o “Market Basket”. En éste, se analizan los hábitos de los clientes encontrando relaciones entre los distintos productos o “ítems” que colocan en la canasta de compras. Si luego de realizar el proceso de minado de reglas de asociación en todas las ventas del supermercado, se encontrara la siguiente relación: “los clientes que compran leche también compran pan”. Esta relación puede ayudar a los vendedores a diseñar alguna estrategia de marketing que aumente sus ventas, por ejemplo, ubicar físicamente cerca los productos “leche” y “pan”, de forma tal que el cliente vea ambos productos. El minado de reglas de asociación fue propuesto por Agrawal, Imielinski y Swami [2]. Esta técnica fue desarrollada específicamente para tareas de Data Mining, en la cual se intenta encontrar patrones en forma de “reglas” del tipo IF-THEN en un conjunto de ítems frecuentes. Específicamente, dado un conjunto de transacciones, una regla de asociación es una expresión X Y o IF X THEN Y, donde X e Y son conjuntos de ítems (itemsets) [33]. Por ejemplo, en el contexto de informes de venta en un supermercado, una regla del tipo “Cerveza Pañales” podría interpretarse como “las personas que compraron cervezas también compraron pañales”. Las reglas de asociación del tipo Y X tienen ciertos criterios “tradicionales” de medición que son utilizados para evaluar y así reducir la cantidad de reglas descubiertas y para establecer ciertos niveles de relevancia [26]. 17
Page 1 and 2: UNIVERSIDAD DE CONCEPCIÓN FACULTAD
Page 3 and 4: Resumen Tareas tradicionales en min
Page 5 and 6: Índice 1. INTRODUCCIÓN ..........
Page 7 and 8: Índice de Tablas Tabla 1: Informac
Page 9 and 10: Los principales enfoques que buscan
Page 11 and 12: 2. Fundamentos Teóricos 2.1 Text M
Page 13 and 14: Dentro de los métodos de reconocim
Page 15: Clustering Este método divide un c
Page 19 and 20: Las reglas de asociación se clasif
Page 21 and 22: TID Items 1 A C D 2 B C E 3 A B C E
Page 23 and 24: Un Lattice de Itemset Cerrados pose
Page 25 and 26: 2.2 Análisis Semántico Latente El
Page 27 and 28: En la figura 7 se dan a conocer los
Page 29 and 30: {X´}= c1 c2 c3 c4 c5 m1 m2 m3 m4 h
Page 31 and 32: 3. Trabajos Relacionados Las tareas
Page 33 and 34: de textos y las cuales no pueden di
Page 35 and 36: 3) Lattice Conceptual: Un Lattice d
Page 37 and 38: A partir del contexto formal de la
Page 39 and 40: En este algoritmo los valores del m
Page 41 and 42: = 41 1 1 1 1 1 1 2 3 1 1 3
Page 43 and 44: Al igual que en el enfoque de Moone
Page 45 and 46: El problema que se presenta en los
Page 47 and 48: El algoritmo inserta conceptos en L
Page 49 and 50: Cada uno de los features busca enco
Page 51 and 52: Como se aprecia en las figura 18 y
Page 53 and 54: En Toussaint et al. [6, 7, 20] pres
Page 55 and 56: C2 casa vivienda C4 C3 cabaña Figu
Page 57 and 58: Los experimentos muestran que para
Page 59 and 60: Al mismo tiempo cada regla es evalu
Page 61 and 62: 6. Conclusiones En esta tesis un nu
Page 63 and 64: [15] L. Guilder. Automated Part of
Page 65: 8. Documentación Anexa 8.1 Lista S

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Create successful ePaper yourself

Delete template?

Save as template?