Evaluación de Reglas de Asociación en Text Mining Utilizando ...

More documents

Recommendations

Info

Relación Dirección Peso Sinónimo, Atributo, Similar Horizontal 0,5 Antónimo Horizontal 2,5 Hiperónimo (Miembro|Parte| Esencia) Merónimos Arriba 1,5 Hipónimo (Miembro|Parte| Esencia) Holónimo, Causa, Enlaces Abajo 1,5 Tabla 1: Información de Dirección y Peso de las relaciones usadas en WordNet. Esta medida de distancia semántica propuesta es unidireccional, lo cual es conceptualmente compatible con el hecho que las reglas tienen un antecedente y un consecuente, en donde wi w j tiene una semántica distinta a w j wi . Con el fin de computar la distancia semántica entre el antecedente y el consecuente de la regla, se utiliza un algoritmo que determina el promedio de las distancias entre los elementos individuales de una regla de acuerdo a los enlaces existentes en WordNet. Posteriormente, las evaluaciones automáticas generadas por el algoritmo se comparan con evaluaciones realizadas por expertos de las mismas reglas. El objetivo de estos experimentos es verificar si lo obtenido con el algoritmo se correlaciona con los juicios de los humanos tan bien como estos últimos se relacionan entre sí. El modelo de Mooney [4] muestra que los resultados de las evaluaciones algoritmo-humano fueron similares a las evaluaciones humanohumano. El objetivo principal de este enfoque es medir el grado de novedad de reglas obtenidas desde textos basándose en el conocimiento léxico aportado por WordNet. Sin embargo, la estrategia de evaluación requiere de una fuente externa de conocimiento y consecuentemente es altamente dependiente su organización. Otro inconveniente se presenta cuando el antecedente o el consecuente de la regla contienen términos que no existen en WordNet. Esto origina que el método evalúe con un alto grado de interés a conceptos no existentes en WordNet, debido a que la distancia entre ellos no existe, se asume muy grande. No obstante, para los humanos estos patrones podrían no representar interés alguno. Un enfoque que no utiliza recursos externos de conocimiento es propuesto por Toussaint et al. [6, 7, 20]. Aquí, se presentan dos métodos de clasificación de reglas de asociación, uno basado en medidas numéricas de calidad y el otro basado en el conocimiento del dominio. El primero incorpora nuevas medidas numéricas que miden características de las reglas de asociación que no son contempladas por el support o confidence. En el segundo método, se mide el grado de interés de acuerdo a la ubicación jerárquica del antecedente y el consecuente de la regla en el modelo del dominio, el cual se representa como un conjunto finito y parcialmente ordenado de términos que establece una relación de generalización. En ambos métodos se realiza un ranking de las reglas descubiertas. Debido a la dificultad de las medidas tradicionales para capturar el grado de interés, en el primer método se proponen cinco métricas adicionales al “support” y “confidence”. Dada una regla A B , las medidas se definen en base a información probabilística donde P(A) es la probabilidad del número de conjuntos de textos que contienen el término A, y P(A B) es la probabilidad del número de conjuntos de textos que contienen tanto a A como a B. Aquí se distinguen tres distribuciones de términos que resultan ser interesentes para efectos de minería 32
de textos y las cuales no pueden distinguirse por medio del “support” y “confidence”. Donde D(A) y D(B) corresponden al conjunto de textos que contienen los términos A y B, respectivamente (ver figura 11). Corpus de Textos D(A) D(B) Corpus de Textos Corpus de Textos D(B) (a) (b) (c) Figura 11: Mejores casos de variación de D(A) y D(B). En el caso de la figura 11(a) las probabilidades de distribución P(A) y P(B) son altas, lo cual genera reglas que no entregan nuevo conocimiento, si no más bien reglas que denotan conceptos genéricos que ya son conocidos. En el caso de la figura 11(b), la probabilidad P(A) es baja y P(B) es alta. Estos tipos de reglas pueden ser más interesantes y se pueden interpretar como “los textos que incluyen términos de A tienden a incluir términos de B”. En el cado de la figura 11(c), tanto P(A) como P(B) son bajas y sobrepuestas, es decir, los términos ocurren raramente en los textos y ocurren en conjunto. Esta distribución es la que puede entregar reglas más interesantes y por ende, es el conjunto más importante de los tres casos. Luego, la evaluación de las reglas descubiertas en la tarea de minería de textos se lleva a cabo considerando los siguientes cinco criterios: 1. Interés: representa el grado de independencia entre los sets de términos A y B, y se define como interés ( A B) P( A B) / P( A) P( B) . Este criterio determina si una regla pertenece al caso (c) de la figura 11, es decir, los términos raramente aparecen en los textos y además ocurren en conjunto. 2. Convicción: permite seleccionar entre las reglas A B y B A la que tenga menos contraejemplos. Es decir convicción ( A B) ( P( A) P( B)) / P( A B) . Esta medida ubica en las primeras posiciones del ranking a las reglas que corresponden al caso (c) de la figura 11. 3. Dependencia: define la distancia entre el confidence de la regla y el caso de independencia, se define como dependencia ( A B) | P( B / A) P( A) | .La dependencia tiene un comportamiento similar a los casos (a) y (b) de la figura 11. 33 D(A) D(A) D(B)
Page 1 and 2: UNIVERSIDAD DE CONCEPCIÓN FACULTAD
Page 3 and 4: Resumen Tareas tradicionales en min
Page 5 and 6: Índice 1. INTRODUCCIÓN ..........
Page 7 and 8: Índice de Tablas Tabla 1: Informac
Page 9 and 10: Los principales enfoques que buscan
Page 11 and 12: 2. Fundamentos Teóricos 2.1 Text M
Page 13 and 14: Dentro de los métodos de reconocim
Page 15 and 16: Clustering Este método divide un c
Page 17 and 18: Reglas de Asociación Figura 3: Pro
Page 19 and 20: Las reglas de asociación se clasif
Page 21 and 22: TID Items 1 A C D 2 B C E 3 A B C E
Page 23 and 24: Un Lattice de Itemset Cerrados pose
Page 25 and 26: 2.2 Análisis Semántico Latente El
Page 27 and 28: En la figura 7 se dan a conocer los
Page 29 and 30: {X´}= c1 c2 c3 c4 c5 m1 m2 m3 m4 h
Page 31: 3. Trabajos Relacionados Las tareas
Page 35 and 36: 3) Lattice Conceptual: Un Lattice d
Page 37 and 38: A partir del contexto formal de la
Page 39 and 40: En este algoritmo los valores del m
Page 41 and 42: = 41 1 1 1 1 1 1 2 3 1 1 3
Page 43 and 44: Al igual que en el enfoque de Moone
Page 45 and 46: El problema que se presenta en los
Page 47 and 48: El algoritmo inserta conceptos en L
Page 49 and 50: Cada uno de los features busca enco
Page 51 and 52: Como se aprecia en las figura 18 y
Page 53 and 54: En Toussaint et al. [6, 7, 20] pres
Page 55 and 56: C2 casa vivienda C4 C3 cabaña Figu
Page 57 and 58: Los experimentos muestran que para
Page 59 and 60: Al mismo tiempo cada regla es evalu
Page 61 and 62: 6. Conclusiones En esta tesis un nu
Page 63 and 64: [15] L. Guilder. Automated Part of
Page 65: 8. Documentación Anexa 8.1 Lista S

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?