20.07.2013 Views

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

Evaluación de Reglas de Asociación en Text Mining Utilizando ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>de</strong> los cuales se g<strong>en</strong>eran reglas <strong>de</strong> asociación <strong>en</strong> procesos tanto <strong>de</strong> Data <strong>Mining</strong> como <strong>de</strong> <strong>Text</strong><br />

<strong>Mining</strong>.<br />

Existe una gran cantidad <strong>de</strong> técnicas para g<strong>en</strong>erar reglas <strong>de</strong> asociación, <strong>en</strong>tre los cuales<br />

<strong>de</strong>stacan los algoritmos Apriori [11] y Aclose o Close Algorithm [29,30].<br />

Algoritmo Apriori<br />

El algoritmo Apriori [11] permite realizar minería <strong>en</strong> itemsets frecu<strong>en</strong>tes <strong>de</strong> reglas <strong>de</strong><br />

asociación <strong>de</strong>l tipo Boolean. Un itemset es un conjunto <strong>de</strong> ítems y un itemset frecu<strong>en</strong>te se<br />

<strong>en</strong>ti<strong>en</strong><strong>de</strong> como un itemset que supera un umbral mínimo <strong>de</strong> support (minsupport). El nombre<br />

“Apriori” provi<strong>en</strong>e <strong>de</strong>l hecho que el algoritmo utiliza cierto conocimi<strong>en</strong>to previo <strong>de</strong> las<br />

propieda<strong>de</strong>s <strong>de</strong> los itemsets frecu<strong>en</strong>tes. Apriori utiliza un <strong>en</strong>foque iterativo conocido como<br />

Búsqueda por niveles (level-wise search), <strong>en</strong> el cual los itemsets <strong>de</strong> k elem<strong>en</strong>tos (k-itemsets)<br />

son usados para explorar (k+1)–itemsets. Como primer paso, el algoritmo g<strong>en</strong>era el conjunto<br />

frecu<strong>en</strong>te <strong>de</strong> un elem<strong>en</strong>to, (1–itemset), <strong>de</strong>nominado L1, posteriorm<strong>en</strong>te a partir <strong>de</strong> L1 se<br />

g<strong>en</strong>era L2 y, así, sucesivam<strong>en</strong>te hasta que no se pue<strong>de</strong>n g<strong>en</strong>erar más k-itemsets frecu<strong>en</strong>tes. La<br />

estructura g<strong>en</strong>eral <strong>de</strong>l algoritmo es la sigui<strong>en</strong>te:<br />

Sea Ck: itemset candidato <strong>de</strong> tamaño k<br />

Lk: itemset frecu<strong>en</strong>te <strong>de</strong> tamaño k<br />

L1={ítems frecu<strong>en</strong>tes}<br />

For (k=1;Lk Φ; k++)<br />

Ck+1 = Candidatos g<strong>en</strong>erados <strong>de</strong>s<strong>de</strong> Lk<br />

for cada transacción t <strong>en</strong> la base <strong>de</strong> datos do<br />

increm<strong>en</strong>tar la cu<strong>en</strong>ta <strong>de</strong> todos los candidatos <strong>en</strong> Ck+1 que están cont<strong>en</strong>idos <strong>en</strong> t<br />

Lk+1= Candidatos <strong>en</strong> Ck+1 con mínimo support<br />

End for<br />

return Lk<br />

Para mejorar la efici<strong>en</strong>cia <strong>de</strong> la g<strong>en</strong>eración <strong>de</strong> los itemsets frecu<strong>en</strong>tes se utiliza la<br />

propiedad Apriori. Esta reduce el espacio <strong>de</strong> búsqueda <strong>de</strong> itemsets frecu<strong>en</strong>tes, estableci<strong>en</strong>do<br />

que todo subconjunto no vacío <strong>de</strong> un itemset frecu<strong>en</strong>te también es frecu<strong>en</strong>te. Es <strong>de</strong>cir, un<br />

conjunto X <strong>de</strong> ítems pue<strong>de</strong> ser frecu<strong>en</strong>te sólo si todos los subconjuntos <strong>de</strong> ítems son<br />

frecu<strong>en</strong>tes.<br />

Así, la tarea <strong>de</strong> <strong>en</strong>contrar todos los itemsets frecu<strong>en</strong>tes se reduce a obt<strong>en</strong>er conjuntos<br />

frecu<strong>en</strong>tes <strong>de</strong> un elem<strong>en</strong>to, luego <strong>de</strong> dos elem<strong>en</strong>tos, hasta conjuntos <strong>de</strong> k elem<strong>en</strong>tos. Por<br />

ejemplo, la figura 5 repres<strong>en</strong>ta una base <strong>de</strong> datos D con cinco items (m=5), <strong>de</strong>s<strong>de</strong> la cual se<br />

pue<strong>de</strong> g<strong>en</strong>erar <strong>de</strong> 2 m conjuntos <strong>de</strong> ítems o itemsets. En la figura 5 se muestran todos los ítems<br />

que son g<strong>en</strong>erados a partir <strong>de</strong> la base <strong>de</strong> datos D. En este lattice los itemsets remarcados son<br />

lo que pose<strong>en</strong> un support ≥2, es <strong>de</strong>cir, itemsets frecu<strong>en</strong>tes <strong>en</strong> la base <strong>de</strong> datos D dado un<br />

minsupport=2.<br />

20

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!