ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

More documents

Recommendations

Info

5 Balanço final O objectivo do presente trabalho consistiu em realizar um estudo detalhado do algoritmo Multi-Way, assim como das optimizações propostas por forma a que este pudesse ser aplicado com sucesso a grandes volumes de dados, o que não era possível com a sua implementação tal como proposto. Infelizmente, não foi possível ter acesso a outras implementações como forma de estabelecer mais comparações, estando apenas disponíveis o artigo de proposta do algoritmo Multi-Way [Zhao1997] e o relatório do trabalho realizado por Tam [Tam1998], no qual é descrita uma variante do algoritmo disponibilizado no sistema DBMiner. Como tal, optou-se por implementar o algoritmo original e, adicionalmente, duas optimizações no sentido de fazer com que o algoritmo pudesse computar cubos a partir de grandes volumes de dados. As optimizações propostas foram as seguintes: A optimização designada como sub-treeing, que está relacionada com a estrutura de dados básica do algoritmo (MMST) e que permite que o algoritmo explore um número menor de nós, o que provoca um acréscimo no desempenho do mesmo A optimização designada como sub-chunking, que altera ligeiramente uma das estratégias adoptadas pelo algoritmo para gerir o tamanho dos arrays de forma a que seja sempre aplicável, independentemente da dimensão dos dados e da memória existente. Porém, como consequência desta optimização, o algoritmo necessita de realizar operações de leitura e escritas adicionais sobre a base de dados, o que resulta num decréscimo do desempenho. Assim, verifica-se que apesar da aplicação conjunta das duas optimizações não aumentar o desempenho do algoritmo, a sua aplicação tem um impacto decisivo a nível do seu potencial. Isto deve- se fundamentalmente ao facto de que as optimizações propostas tornam possível a execução do algoritmo em situações nas quais, tanto a sua implementação original como a variante proposta por Tam, não conseguem obter resultados por falta de memória. 63
6 Referências [Agrawal1994] Agrawal, Rakesh; Ramakrishnam Srikant. ―Fast Algorithms for Mining Association Rules.‖ Proceedings of the 20th International Conference on VLDB. Santiago, 1994 [Agrawal1996] Agrawal, Sameet, et al. ―On The Computation of Multidimensional Aggregates.‖ Proceeddings of the 22nd VLDB Conference, pp. 506-521, 1996 [Beyer1999] Beyer, Kevin; Raghu Ramakrishnam. ―Bottom-Up Computation of Sparse and Iceberg CUBEs.‖ Proceedings of ACM SIGMOD, 1999 [Chauduri1997] Chanduri, Surajit; Umeshwar Dayal. ―An Overview of Data Warehousing and OLAP Technology.‖ ACM SIGMOD Record 26, n.º 1, pp. 65-74, 1997 [Gray1997] Gray, Jim, Surajit Chaduri, Adam Bosworth, Andrew Layman, Don Reichart; Murali Venkatrao. ―Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab and Sub- Totals.‖ Journal of Data Mining and Knowledge Discovery 1, n.º 1, pp. 29—53, 1997 [Han1999] Han, Jiawei, Jian Pei, e Yiwen Yin. ―Mining Frequent Patterns Without Candidate Generation.‖ Technical Report TR-99-12, Department of Computer Science, Simon Fraser University, 1999 [Han2001a] Han, Jiawei; Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001 [Han2001b] Han, Jiawei, Jian Pei, Guozhu Dong, e Ke Wang. ―Efficient Computation of Iceberg Cubes With Complex Measures.‖ Proceedings of the International Conference on Management of Data, 2001 [Harinarayan1996] Harinarayan, Venkv; Anand Rajaraman; Jeffrey D. Ullman. ―Implementing Data Cubes Efficiently‖ Proceedings of ACM-SIGMOD International Conference on Management of Data, Montréal, pp. 205—216, 1996 [Inmon1996] Inmon, W. H.; ―Building the Data Warehouse‖, John Wiley & Sons, New York, 1996 [Ross1997] Ross, Kenneth A.; Divesh Srivastava. ―Fast Computation of Sparse Datacubes‖. Proceedings of 23rd VLDB Conference, Atenas, pp. 116—125, 1997 [Tam1998] Tam, Yin Jenny. ―Datacube: Its Implementation and Application in OLAP Mining.‖ MSC tese, Simon Fraser University, 1998 [Xin 2003] Xin, Dong; Jiawei Han; Xiao Lei Li; Benjamin W. Wah. ―Star-Cubing: Computing Iceberg Cubes by Top-Down and Bottom-Up Integration‖ Berlim, 2003 64
Page 1 and 2:
Algoritmos para a Geração de Hipe
Page 3 and 4:
Resumo A tecnologia OLAP permite a
Page 5 and 6:
Índice Lista de figuras ..........
Page 7 and 8:
Lista de figuras Figura 1 - Represe
Page 9 and 10:
Lista de tabelas Tabela 1 - Volume
Page 11 and 12:
1 Introdução Ao longo das última
Page 13 and 14: Multi-Way; a secção 4 apresenta o
Page 15 and 16: exemplo anterior, a tabela de dimen
Page 17 and 18: Dado um conjunto de dimensões, é
Page 19 and 20: que faria com que cada ponto (x, y)
Page 21 and 22: Tabela 7 - Cross table para as vend
Page 23: Figura 5 - Malha de combinações p
Page 26 and 27: Por exemplo, no nível 2 da malha t
Page 28 and 29: neste caso, o critério consiste em
Page 30 and 31: de malha de procura proposto pelo a
Page 32 and 33: tenha sido percorrido. Se o array e
Page 35 and 36: Diferentes ordenações de dimensõ
Page 37 and 38: enquanto a célula com o endereço
Page 40 and 41: Figura 20 - MNST para o cubo C [Tam
Page 42 and 43: adicionado ao chunk 12 segundo D0,
Page 44 and 45: Os resultados mostram que o algorit
Page 46 and 47: Como as dimensões partilhadas pode
Page 48 and 49: Multi-Way. Além do algoritmo propo
Page 50 and 51: facilmente seleccionados para cálc
Page 52 and 53: acarreta forçosamente uma carga a
Page 54 and 55: Tabela 10 - Plano de testes Teste N
Page 56 and 57: Uma vez que as restantes implementa
Page 58 and 59: em relação ao original mas uma de
Page 60 and 61: As figuras 35 e 36 mostram o efeito
Page 62 and 63: Por fim, o gráfico da figura 38 mo
Page 66: [Zhao1997] Zhao, Yihong; Prasad M.
show all

ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?