ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

More documents

Recommendations

Info

tenha sido percorrido. Se o array estivesse armazenado sob a forma de vários chunks, a computação de AB seria feita não percorrendo um plano completo de dimensão |A||B|, em que |A| e |B| são respectivamente o tamanho da dimensão A e B, isso seria feito chunk a chunk. Supondo que a dimensão A num chunk tem tamanho AC e que a dimensão B num chunk tem tamanho BC e que o array é orientado de tal forma que a face AB do array está de frente para o leitor, o chunk pode ter início na parte superior esquerda do array e percorrer um plano de dimensão ACBC, agregando todos os valores de C no processo. Depois de percorrido este chunk na porção superior esquerda, o varrimento deste plano continua através do chunk imediatamente atrás do que se encontra no topo superior esquerdo e termina apenas quando o plano foi todo percorrido dentro do array. Neste ponto, a porção do agregado AB correspondente ao subplano superior esquerdo de dimensão ACBC já foi computada, pelo que este plano é guardado em disco como a primeira parte do agregado AB e prosseguir com o cálculo do subplano correspondente a outro chunk. Desta forma, cada chunk apenas é lido uma vez e no fim de serem percorridos todos os chunks o agregado AB encontrar-se-á em disco como uma colecção de planos de tamanho ACBC. A memória usada por este processo é a suficiente para conter um chunk e o plano ACBC à medida que os chunks são varridos [Zhao1997]. Porém, para computar um cubo é necessário computar mais que um agregado do mesmo. Num array com as dimensões ABC, considere-se agora que é necessário computar AB, BC, AC, A, B, C e o agregado total. Uma abordagem ingénua consistiria em computar todos estes agregados a patir do array inicial ABC. Porém, é muito mais eficiente calcular A a partir de AB do que calcular A a partir de ABC. Se se vir a computação do cubo como uma árvore em que ABC é a raiz, AB, BC e AC descendem de ABC, A e C descendem de AC e assim sucessivamente. Como as dimensões do array e o tamanho de cada um dos chunks são conhecidos, é possível determinar exactamente o tamanho do array correspondente a cada nó da árvore e estimar o espaço necessário para o seu cálculo. Isto significa que é possível definir a árvore mínima de cobertura (minimum spanning tree) em que o predecessor de cada nó n é o nó n’ de menor tamanho a partir do qual n pode ser computado. O funcionamento do algoritmo apoia-se na construção da árvore mínima de cobertura para os agregados do cubo que se pretende computar. Cada agregado Di1, Di2, ..., Dik+1 é calculado a partir do predecessor Di1, Di2, ..., Dik+1 com tamanho mínimo; cada chunk de Di1, Di2, ..., Dik+1 é lido segundo a dimensão Dik+1 e agregado para um chunk de Di1, Di2, ..., Dik. Quando o chunk de Di1, Di2, ..., Dik estiver completo, é guardado em disco e a memória é libertada para o chunk seguinte de Di1, Di2, ..., Dik [Zhao1997]. O recurso ao chunking assegura a eficiência a nível de carregamento e armazenamento dos valores das células do cubo, enquanto a eficiência a nível de desempenho é assegurada pelo uso da ordem correcta no cálculo dos agregados. A ordem das dimensões num chunk pode ser representada como O = (Dj1, Dj2, ... , Djn), assumindo que existem n dimensões D1, D2, ..., Dn. Diferentes ordenamentos de dimensões implicam diferentes ordens de leitura dos chunks e determinam a quantidade de memória que é necessária para efectuar a computação. Para mostrar a importância da ordem pela qual são tomadas as dimensões, considere-se um array de dados 3D com três dimensões (A, B e C), dividido em 64 chunks 31
como mostra a figura 9. Assume-se que a cardinalidade de cada uma das dimensões A, B e C é, respectivamente, 40, 400 e 4000. Figura 14 - Array 3D para as dimensões A, B e C, dividido em 64 chunks Os chunks são lidos segundo a ordem ABC, do chunk 1 para o chunk 64. Assumindo que o chunk 1 já está carregado em memória, este é agregado segundo a dimensão C para obter um chunk de AB, segundo a dimensão i para obter um chunk de AC e segundo a dimensão A para obter um chunk de BC. Assim, o primeiro chunk de AB é agregado para o chunk a0b0 de AB, o primeiro chunk de AC é agregado para o chunk a0c0 de AC e o primeiro chunk de BC é agregado para o chunk b0c0 de BC. À medida que novos chunks são lidos, os chunks obtidos vão sendo agrupados aos chunks dos agregados correspondentes. Note-se que os chunks foram lidos segundo a ordem (A, B, C), que corresponde a uma ordem linear desde o chunk 1 ao chunk 64. Isso significa que b0c0 está completamente agregado depois de terem sido lidos os chunks 1 a 4, após o que é guardado em disco e a sua memória é atribuida ao chunk b1c0. Este, por sua vez, está completamente agregado depois de terem sido lidos os chunks 5 a 8, e assim sucessivamente. Isto significa que apenas um chunk de BC se encontra em memória durante o cálculo do agregado BC. Da mesma forma, é reservada memória para os chunks a0c0, a1c0, a2c0 e a3c0 enquanto são percorridos os primeiros 16 chunks de ABC. Para terminar a agregação para o chunk a0c0, o resultado da agregação dos chunks 1, 5, 9 e 13 são acumulados no chunk a0c0, esses chunks de AC são escritos para disco e a sua memória atribuída a a0c1, a1c1, a2c1 e a3c1 do agregado AC. Por fim, para calcular o agregado AB é necessário alocar memória para um total de 64 chunks. Neste exemplo, para calcular BC é necessário memória para 1 chunk de BC, para calcular AC é necessária memória para 4 chunks de AC e para calcular BC é necessário memória para 4 x 4 = 16 chunks de AB [Zhao1997]. Genericamente, é necessário alocar |Bc||Cc|u memória para calcular um agregado BC, |Ad||Cc|u para calcular um agregado AC e |Ad||Bd|u para calcular um agregado AB, em que |Xd| representa o tamanho de uma dimensão X, |Xc| o tamanho do chunk de uma dimensão X e u o tamanho de cada elemento do chunk [Zhao1997]. Como o tamanho de um chunk de uma dimensão é menor que o tamanho dessa dimensão na maioria dos casos, conclui-se que é possível calcular o cubo alocando uma quantidade de 32
Page 1 and 2: Algoritmos para a Geração de Hipe
Page 3 and 4: Resumo A tecnologia OLAP permite a
Page 5 and 6: Índice Lista de figuras ..........
Page 7 and 8: Lista de figuras Figura 1 - Represe
Page 9 and 10: Lista de tabelas Tabela 1 - Volume
Page 11 and 12: 1 Introdução Ao longo das última
Page 13 and 14: Multi-Way; a secção 4 apresenta o
Page 15 and 16: exemplo anterior, a tabela de dimen
Page 17 and 18: Dado um conjunto de dimensões, é
Page 19 and 20: que faria com que cada ponto (x, y)
Page 21 and 22: Tabela 7 - Cross table para as vend
Page 23: Figura 5 - Malha de combinações p
Page 26 and 27: Por exemplo, no nível 2 da malha t
Page 28 and 29: neste caso, o critério consiste em
Page 30 and 31: de malha de procura proposto pelo a
Page 35 and 36: Diferentes ordenações de dimensõ
Page 37 and 38: enquanto a célula com o endereço
Page 40 and 41: Figura 20 - MNST para o cubo C [Tam
Page 42 and 43: adicionado ao chunk 12 segundo D0,
Page 44 and 45: Os resultados mostram que o algorit
Page 46 and 47: Como as dimensões partilhadas pode
Page 48 and 49: Multi-Way. Além do algoritmo propo
Page 50 and 51: facilmente seleccionados para cálc
Page 52 and 53: acarreta forçosamente uma carga a
Page 54 and 55: Tabela 10 - Plano de testes Teste N
Page 56 and 57: Uma vez que as restantes implementa
Page 58 and 59: em relação ao original mas uma de
Page 60 and 61: As figuras 35 e 36 mostram o efeito
Page 62 and 63: Por fim, o gráfico da figura 38 mo
Page 64 and 65: 5 Balanço final O objectivo do pre
Page 66: [Zhao1997] Zhao, Yihong; Prasad M.

ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

Create successful ePaper yourself

Delete template?

Save as template?