30.12.2012 Views

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

datos fue dividido en conjunto <strong>de</strong> entrenamiento y en conjunto <strong>de</strong> prueba con el 70 y 30 % <strong>de</strong> los datos,<br />

respectivamente.<br />

Tabla 2. Valores <strong>de</strong> Recall y Precisión para K-Means y Agrupamiento Genético<br />

RECALL PRECISION<br />

k u w<br />

5 10 15 20 5 10 15 20<br />

30 - - 0.3819 0.4084 0.4240 0.4315 0.5566 0.5487 0.5436 0.5391<br />

- 15 3 0.3685 0.4152 0.4284 0.4459 0.3963 0.3747 0.3734 0.3741<br />

La tabla 2 muestra los valores <strong>de</strong> recall y precisión para el algoritmo k-Means y agrupamiento genético<br />

cuando se varían el número <strong>de</strong> elementos o páginas a recomendar. Los valores presentados hacen referencia<br />

a los mejores resultados obtenidos con los dos métodos. Se pue<strong>de</strong> observar que los valores <strong>de</strong> recall tanto<br />

para el agrupamiento genético como para k-Means, mejoran a medida que el número <strong>de</strong> elementos a<br />

recomendar crece, en contraste con los valores <strong>de</strong> precisión, los cuales disminuyen. Aunque los valores <strong>de</strong><br />

recall para el agrupamiento genético mejoran levemente con respecto a k-Means, se pue<strong>de</strong> <strong>de</strong>terminar que el<br />

algoritmo <strong>de</strong> agrupamiento genético ofrece mejores resultados reflejados en la buena <strong>de</strong>finición <strong>de</strong> perfiles,<br />

como consecuencia <strong>de</strong> un número apropiado <strong>de</strong> grupos generados que contienen sesiones con alto grado <strong>de</strong><br />

similitud.<br />

6. CONCLUSIONES<br />

A pesar que el tiempo <strong>de</strong> ejecución <strong>de</strong>l algoritmo <strong>de</strong> Agrupamiento Genético es mayor con respecto al<br />

utilizado por el método k-Means, los resultados que se obtienen con el primero, en cuanto a <strong>de</strong>finición <strong>de</strong><br />

perfiles, son mejores. Esto se <strong>de</strong>be a que el algoritmo encuentra <strong>de</strong> forma <strong>automática</strong> el número apropiado <strong>de</strong><br />

grupos y los construye basándose en una fuerte similitud entre sesiones y no, como en el caso <strong>de</strong> k-Means,<br />

basándose en el centro.<br />

El preprocesamiento <strong>de</strong> los datos es una etapa fundamental en las tareas <strong>de</strong> minería por cuanto <strong>de</strong> una<br />

a<strong>de</strong>cuada limpieza y representación <strong>de</strong> los datos <strong>de</strong>pen<strong>de</strong> la calidad <strong>de</strong>l conocimiento que se obtenga en<br />

etapas posteriores. No en vano, esta etapa generalmente abarca entre un 60 y 80% <strong>de</strong>l proceso <strong>de</strong> minería.<br />

REFERENCIAS BIBILIOGRÁFICAS<br />

Conferência IADIS Ibero-Americana WWW/Internet 2007<br />

[Coo99] COOLEY Robert, et al. Data Preparation for Mining World Wi<strong>de</strong> Web Browsing Patterns. Knowledge and<br />

Information Systems, Volumen 1 , pp 5-32.<br />

[Eir03] EIRINAKI Magdalini, et al, 2003, Web Mining for web personalization. ACM Transactions on Internet<br />

Technology. New Cork, USA.<br />

[Lab03] LABROCHE Nicolas, et al, 2003. Web sessions Clustering with artificial ants colonies. The Twelfth<br />

International World Wi<strong>de</strong> Web Conference, Budapest, Hungría.<br />

[ [Sar00] SARWAR Badrul, et al, 2000. Analysis of Recommendation Algorithms for E-Commerce. Proceedings of the<br />

2nd ACM conference on Electronic comerce, Minneapolis, Minnesota, USA.<br />

[Sha05] SHANKAR Bhushan , et al, 2005. Incremental Relational Fuzzy Subtractive Clustering for Dynamic Web<br />

Usage Profiling. Proceedings of the WEBKDD Workshop on Taming Evolving, Expanding and Multi-faceted Web<br />

Clickstreams, Chicago, USA.<br />

[Tse99] TSENG Lin Yu, et al, 1999. A genetic clustering algorithm for data with non-spherical-shape clusters. Pattern<br />

Recognition, Vol. 33, No.7, pp 1251-1259.<br />

303

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!