Evaluación de Reglas de Asociación en Text Mining Utilizando ...

de los cuales se generan reglas de asociación en procesos tanto de Data Mining como de Text 

Mining. 

Existe una gran cantidad de técnicas para generar reglas de asociación, entre los cuales 

destacan los algoritmos Apriori [11] y Aclose o Close Algorithm [29,30]. 

Algoritmo Apriori 

El algoritmo Apriori [11] permite realizar minería en itemsets frecuentes de reglas de 

asociación del tipo Boolean. Un itemset es un conjunto de ítems y un itemset frecuente se 

entiende como un itemset que supera un umbral mínimo de support (minsupport). El nombre 

“Apriori” proviene del hecho que el algoritmo utiliza cierto conocimiento previo de las 

propiedades de los itemsets frecuentes. Apriori utiliza un enfoque iterativo conocido como 

Búsqueda por niveles (level-wise search), en el cual los itemsets de k elementos (k-itemsets) 

son usados para explorar (k+1)–itemsets. Como primer paso, el algoritmo genera el conjunto 

frecuente de un elemento, (1–itemset), denominado L1, posteriormente a partir de L1 se 

genera L2 y, así, sucesivamente hasta que no se pueden generar más k-itemsets frecuentes. La 

estructura general del algoritmo es la siguiente: 

Sea Ck: itemset candidato de tamaño k 

Lk: itemset frecuente de tamaño k 

L1={ítems frecuentes} 

For (k=1;Lk Φ; k++) 

Ck+1 = Candidatos generados desde Lk 

for cada transacción t en la base de datos do 

incrementar la cuenta de todos los candidatos en Ck+1 que están contenidos en t 

Lk+1= Candidatos en Ck+1 con mínimo support 

End for 

return Lk 

Para mejorar la eficiencia de la generación de los itemsets frecuentes se utiliza la 

propiedad Apriori. Esta reduce el espacio de búsqueda de itemsets frecuentes, estableciendo 

que todo subconjunto no vacío de un itemset frecuente también es frecuente. Es decir, un 

conjunto X de ítems puede ser frecuente sólo si todos los subconjuntos de ítems son 

frecuentes. 

Así, la tarea de encontrar todos los itemsets frecuentes se reduce a obtener conjuntos 

frecuentes de un elemento, luego de dos elementos, hasta conjuntos de k elementos. Por 

ejemplo, la figura 5 representa una base de datos D con cinco items (m=5), desde la cual se 

puede generar de 2 m conjuntos de ítems o itemsets. En la figura 5 se muestran todos los ítems 

que son generados a partir de la base de datos D. En este lattice los itemsets remarcados son 

lo que poseen un support ≥2, es decir, itemsets frecuentes en la base de datos D dado un 

minsupport=2. 

20

Previous page

Next page

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?