ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

More documents

Recommendations

Info

neste caso, o critério consiste em escolher para efectuar a partição o atributo que permita obter a maior sub-árvore possível a partir da árvore de custo mínimo. Tomando a árvore de cobertura mínima da figura 10 e assumindo que não há espaço em memória para calcular todos os agregados nela representados, há que efectuar a partição da árvore. Quando A é escolhido como atributo pelo qual se vai efectuar a partição, obtém-se a sub-árvore à esquerda na figura 22. Para computar esta árvore, calcula-se primeiro o agregado ABCD e a partir deste ABC, ABD e ACD; ABCD e ABD são guardados em disco, calcula-se AD a partir de ACD e ACD e AD são guardados em disco; ABC é lido para a partir dele se calcular AB e AC, sendo ABC e AC guardados em disco; por fim, AB é lido para calcular A e AB e A são guardados em disco. Depois desta sub-árvore ter sido calculada, é removida da árvore original e são calculadas cada uma das sub-árvores restantes, à direita na figura 11. Figura 11 - Sub-árvores obtidas por partição da árvore da figura 10 segundo o atributo A [Agrawal1996] Este algoritmo emprega as optimizações resultados em cache (cache-results) e amortização de varrimentos (amortize-scans), pois mantém em memória todos os agregados de uma sub-árvore até que os seus filhos tenham sido calculados, assim como a optimização partilha de partições (share-partition) ao conseguir calcular a partir da mesma partição todos os agregados que contêm o atributo pelo qual se fez a partição. 2.4.2 Algoritmos baseados em partição Os dados provenientes do mundo real são frequentemente de natureza esparsa, o que justifica o estudo e desenvolvimento de técnicas orientadas para esse tipo de dados. Nestas condições, a representação por meio de arrays não é uma hipótese viável visto que não é comportável em termos de memória. Os algoritmos baseados na partição dos dados usam dois princípios a que se recorre frequentemente para realizar operações complexas sobre relações amplas: efectuar a partição das relações em fragmentos que possam ser armazenados em memória e efectuar a operação sobre cada um desses fragmentos independentemente. Existem dois algoritmos para computação de cubos a partir de dados esparsos: 27
Partitioned-Cube e Memory-Cube [Ross1997]. O algoritmo Memory-Cube foi concebido para computar eficientemente os cubos cujas relações possam ser mantidas em memória, enquanto o algoritmo Partitioned-Cube basicamente efectua a partição da relação e recorre ao Memory-Cube para computar as partições assim obtidas. A estrutura do algoritmo Partitioned-Cube segue a própria estrutura recursiva dos cubos. O cubo é obtido fixando cada um dos valores possíveis para um atributo e calculando os tuplos desse sub-cubo. Em seguida calculam-se todos os tuplos do cubo que têm como valor para esse atributo ALL. Desta forma, em vez de voltar a ler os dados para calcular o cubo ALL, apenas é necessário ler o cubóide de granularidade mais fina, que pode ser bastante menor que a relação que representa e nunca é maior que essa relação [Ross1997]. O algoritmo divide o cubo em n + 1 subcubos mais pequenos, o que faz com que esses subcubos possam ser calculados em memória recorrendo ao algoritmo Memory-Cube. Considerando uma relação que possui quatro atributos ordenados como (A, B, C, D), o algoritmo procede à partição dos dados tomando os atributos por essa ordem e calcula os cubóides respectivos sempre que o resultado de cada partição possa ser guardado em memória. Assim, a relação em causa começa por ser dividida pelo atributo A, sendo computados os tuplos possíveis para cada um dos cubóides que contêm A como atributo. Seguidamente, a relação é dividida pelo atributo B, sendo projectado o atributo A, e o procedimento é repetido, o que faz com que sejam computados todos os tuplos dos cubóides que contêm B. A partição continua enquanto não se verificar que os cubóides restantes podem ser calculados em memória, embora o algoritmo não especifique exactamente como realizar a divisão. A figura 12 mostra a ordem pela qual o algoritmo calcula os vários cubóides sempre que o resultado da partição cabe em memória. Figura 12 - Ilustração da lógica do funcionamento do algoritmo Partitioned-Cube [Ross1997] O algoritmo Memory-Cube foi desenvolvido para o caso em que toda a relação em estudo pode ser mantida em memória. Apesar de ser um bloco constituinte do algoritmo Partitioned-Cube, pode funcionar de forma independente uma vez que é capaz de computar um cubo por completo sem necessidade de guardar resultados intermédios. Essa característica permite-lhe operar requerendo apenas alguma capacidade de armazenamento extra além da que é utilizada pela relação. Basicamente, usa o conceito 28
Page 1 and 2: Algoritmos para a Geração de Hipe
Page 3 and 4: Resumo A tecnologia OLAP permite a
Page 5 and 6: Índice Lista de figuras ..........
Page 7 and 8: Lista de figuras Figura 1 - Represe
Page 9 and 10: Lista de tabelas Tabela 1 - Volume
Page 11 and 12: 1 Introdução Ao longo das última
Page 13 and 14: Multi-Way; a secção 4 apresenta o
Page 15 and 16: exemplo anterior, a tabela de dimen
Page 17 and 18: Dado um conjunto de dimensões, é
Page 19 and 20: que faria com que cada ponto (x, y)
Page 21 and 22: Tabela 7 - Cross table para as vend
Page 23: Figura 5 - Malha de combinações p
Page 26 and 27: Por exemplo, no nível 2 da malha t
Page 30 and 31: de malha de procura proposto pelo a
Page 32 and 33: tenha sido percorrido. Se o array e
Page 35 and 36: Diferentes ordenações de dimensõ
Page 37 and 38: enquanto a célula com o endereço
Page 40 and 41: Figura 20 - MNST para o cubo C [Tam
Page 42 and 43: adicionado ao chunk 12 segundo D0,
Page 44 and 45: Os resultados mostram que o algorit
Page 46 and 47: Como as dimensões partilhadas pode
Page 48 and 49: Multi-Way. Além do algoritmo propo
Page 50 and 51: facilmente seleccionados para cálc
Page 52 and 53: acarreta forçosamente uma carga a
Page 54 and 55: Tabela 10 - Plano de testes Teste N
Page 56 and 57: Uma vez que as restantes implementa
Page 58 and 59: em relação ao original mas uma de
Page 60 and 61: As figuras 35 e 36 mostram o efeito
Page 62 and 63: Por fim, o gráfico da figura 38 mo
Page 64 and 65: 5 Balanço final O objectivo do pre
Page 66: [Zhao1997] Zhao, Yihong; Prasad M.

ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

Create successful ePaper yourself

Delete template?

Save as template?