ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

More documents

Recommendations

Info

Por exemplo, no nível 2 da malha todos os agregados contêm exactamente dois atributos. A única excepção a esta regra é o nível 0, que apenas contém um agregado vazio e é representado pelo termo ALL. Cada arco da malha está etiquetado com dois custos: o custo S(eij) corresponde ao custo de computar j a partir de i quando i ainda não está ordenado, enquanto o custo A(eij) corresponde ao custo de computar j a partir de i quando i já está ordenado [Agrawal1996]. 2.4.1.1 PipeSort O algoritmo PipeSort parte da malha de procura com os respectivos custos associados e assume que se conhece uma estimativa do número de valores distintos associados a cada agregado. A malha é percorrida desde o nível k = 0 até ao nível k = N - 1, sendo N o número total de atributos, com o objectivo de determinar a melhor forma de computar o nível k a partir do nível k + 1. Para isso, é acrescentado ao nível k + 1 k cópias de cada agregado nesse nível e cada nó replicado é ligado ao mesmo conjunto de nós a que está ligado o vértice original na malha [Agrawal1996]. A figura 8 mostra este procedimento, considerando que se trabalha sobre o nível 1 da malha apresentada na figura 7. As setas em traço cheio representam os arcos A( ), enquanto as setas a tracejado representam os arcos S( ), sendo o custo de todos os arcos que saem de um nó indicados sob eles. Figura 8 - Parte da malha de procura transformada [Agrawal1996] Sabendo que o custo eij desde o nó original i até ao nó j de nível k é A(eij) e que todos os nós replicados de i têm um custo de S(eij), é possível encontrar, para cada nó h no nível k, um vértice g no nível k + 1 a partir do qual h pode ser calculado. Como se pode ver na figura 20, o nó A fica ligado ao nó AB por um arco S( ) e o nó B está ligado a AB por um arco A( ). No nível k = 2, o agregado AB será computado pela ordem BA para que B possa ser obtido a partir dele sem necessidade de reordenação e A seja obtido reordenando BA. Da mesma forma, como o nó C está ligado ao nó AC por um arco A( ), o nó AC será computado pela ordem CA. Quanto ao nó BC, como não está ligado a nenhum agregado de nível 1, é indiferente a ordem pela qual é calculado. Figura 9 - Resultado obtido pelo algoritmo PipeSort para k = 1 [Agrawal1996] 25
Seguidamente, é feita uma ordenação com base no sub-grafo gerado e é obtido um conjunto de sequências de agregados a serem computadas em sequência (pipeline). Este algoritmo concilia as optimizações partilha da ordenação (share-sort), uma vez que os dados são ordenados numa determinada ordem que permita computar todos os agregados que partilham um prefixo, e pais mais pequenos (smallest parents), uma vez que os agregados são sempre calculados a partir de outros agregados de menor dimensão já calculados. Além disso, emprega ainda as optimizações resultados em cache (cache-results) e amortização de varrimentos (amortize-scans) para reduzir o número de acessos ao disco, pois adopta uma política de cálculo em pipeline. 2.4.1.2 PipeHash O algoritmo PipeSort trabalha igualmente sobre a malha de procura e começa por escolher, para cada agregado, o seu predecessor de menor dimensão, obtendo assim a árvore de custo mínimo. Porém, os recursos normalmente disponíveis continuam a não ser suficientes para computar todos os agregados dessa árvore, pelo que é necessário decidir quais serão computados em conjunto, quando reservar memória para diferentes tabelas de dispersão e que atributos serão usados para dividir os dados [Agrawal1996]. O algoritmo começa por seleccionar para, cada agregado, o agregado-pai com menor dimensão total estimada. No final, obtém uma árvore de cobertura mínima (minimum spanning tree), em que cada nó representa um agregado e cada arco que une o nó A ao nó B indica que A é o menor pai de B. A figura abaixo apresenta a árvore de cobertura mínima para a malha de procura apresentada na figura 7. Figura 10 - Árvore de cobertura mínima para a malha de procura apresentada na figura 7 [Agrawal1996] Na maioria dos casos, a memória disponível não será suficiente para calcular todos os agregados da árvore, pelo que é necessário dividir a árvore assim obtida. A árvore é dividida de tal forma que cada uma das sub-árvores obtidas possa ser calculada com uma única passagem do agregado na raiz da árvore original. Este é um problema NP-completo, o que obriga a escolher uma aproximação à solução; 26
Page 1 and 2: Algoritmos para a Geração de Hipe
Page 3 and 4: Resumo A tecnologia OLAP permite a
Page 5 and 6: Índice Lista de figuras ..........
Page 7 and 8: Lista de figuras Figura 1 - Represe
Page 9 and 10: Lista de tabelas Tabela 1 - Volume
Page 11 and 12: 1 Introdução Ao longo das última
Page 13 and 14: Multi-Way; a secção 4 apresenta o
Page 15 and 16: exemplo anterior, a tabela de dimen
Page 17 and 18: Dado um conjunto de dimensões, é
Page 19 and 20: que faria com que cada ponto (x, y)
Page 21 and 22: Tabela 7 - Cross table para as vend
Page 23: Figura 5 - Malha de combinações p
Page 28 and 29: neste caso, o critério consiste em
Page 30 and 31: de malha de procura proposto pelo a
Page 32 and 33: tenha sido percorrido. Se o array e
Page 35 and 36: Diferentes ordenações de dimensõ
Page 37 and 38: enquanto a célula com o endereço
Page 40 and 41: Figura 20 - MNST para o cubo C [Tam
Page 42 and 43: adicionado ao chunk 12 segundo D0,
Page 44 and 45: Os resultados mostram que o algorit
Page 46 and 47: Como as dimensões partilhadas pode
Page 48 and 49: Multi-Way. Além do algoritmo propo
Page 50 and 51: facilmente seleccionados para cálc
Page 52 and 53: acarreta forçosamente uma carga a
Page 54 and 55: Tabela 10 - Plano de testes Teste N
Page 56 and 57: Uma vez que as restantes implementa
Page 58 and 59: em relação ao original mas uma de
Page 60 and 61: As figuras 35 e 36 mostram o efeito
Page 62 and 63: Por fim, o gráfico da figura 38 mo
Page 64 and 65: 5 Balanço final O objectivo do pre
Page 66: [Zhao1997] Zhao, Yihong; Prasad M.

ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

Create successful ePaper yourself

Delete template?

Save as template?