ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

More documents

Recommendations

Info

de malha de procura proposto pelo algoritmo PipeSort, a partir da qual determina quais os cubóides que podem ser obtidos a partir de outros no sentido de minimizar o número de caminhos que é necessário percorrer para cobrir todos os nós. Assim, para cada cubo o algoritmo toma um caminho e ordena a relação em memória tendo em conta a ordenação dos atributos no nó inicial. Seguidamente, os dados são percorridos, sendo os agregados acumulados à medida que o caminho percorre os vários níveis de granularidade. Os resultados mostram que o algoritmo faz o número mínimo possível de ordenações e consegue tirar partido dos prefixos comuns de diferentes agregados de forma a optimizar o custo a nível de processamento. Além disso, os únicos custos de entrada/saída inerentes são os de entrada de dados e saída dos resultados, o que faz com que a carga total deste tipo de operações seja linear em relação ao número de atributos envolvidos, sempre que a relação possa estar em memória. 2.4.3 Algoritmos baseados em arrays Nos sistemas do tipo MOLAP, os dados são armazenados em arrays, o que faz com que as técnicas do tipo ordenação e dispersão não sejam aplicáveis. O próprio facto de ser utilizado outro tipo de estrutura de dados faz com que seja necessário ter em conta uma série de factores relacionados com o carregamento e armazenamento eficientes de arrays de grandes dimensões e muito esparsos. O algoritmo Multi-Way Array Cubing, proposto por Zhao et al segue os princípios do paradigma MOLAP na medida em que o seu objectivo é percorrer as células dos arrays de tal forma que não seja necessário repetir a operação para calcular cada um dos sub-agregados. Por questões de desempenho, os arrays têm que ser armazenados divididos em arrays de menor dimensão, recorrendo-se a uma estratégia designada de chunking [Zhao1997]. DS fonte de dados c chunk chunkSize tamanho do chunk O {D 1,D 2,...,D n : |D 1|≤|D 2|≤...≤|D n|} T MMST para ordem O m número de elementos de O para cada c no nivel m do array carregar dados para c a partir de DS i n para cada D i para cada posição de c val valor da posição fazer nextLevel m-1 para cada nó em nextLevel remover posição não utilizada em nó agregar valor no nó até nextLevel≥0 i i-1 Figura 13 – Pseudocódigo genérico do algoritmo Multi-Way 29
A técnica tradicional de armazenar o array em função de uma coluna ou de uma linha pode não ser eficiente em muitas situações. Considere-se uma representação de um array bidimensional com as dimensões Loja e Data, em que os dados relativos a Loja estão nas linhas e os valores relativos a Data nas colunas. Aceder ao array em ordem a Lojas é eficiente, na medida em que cada página em disco contém várias Lojas. Porém, aceder ao array em ordem a Data é ineficiente, especialmente se a dimensão Loja for grande; nesse caso, cada página em disco só vai conter os dados relativos a uma Data, sendo necessário carregar outra página para aceder a dados para a Data seguinte. Esta organização cria uma assimetria entre as dimensões, favorecendo uma em detrimento de outras [Zhao1997]. O recurso à estratégia de chunking faz com que o tratamento seja equitativo para todas as dimensões. Entende-se por chunking uma forma de dividir arrays n-dimensionais em vários arrays n- dimensionais mais pequenos (chunks), que são armazenados no disco como objectos distintos [Zhao1997]. Porém, especialmente no que se refere a dados reais, é frequente que muitas das células do chunk estejam vazias, o que significa que não existem dados para essa combinação de coordenadas. Um chunk é considerado denso quando mais de 40% das células contêm um valor válido [Zhao1997]. Quando esta situação não se verifica, diz-se que o chunk é esparso e é necessário aplicar-lhe uma técnica de compressão de tal forma que cada célula fica associada a um valor inteiro que indica o seu afastamento (offset) em relação ao início do chunk, evitando assim o armazenamento de células vazias. Desta forma, cada entrada válida passa a ser representada por um par (afastamento, valor).O recurso ao chunking assegura a eficiência a nível de carregamento e armazenamento dos valores das células do cubo, enquanto a eficiência a nível de computação dos agregados é assegurada pelo uso da ordem correcta no seu cálculo. Para isso, o algoritmo apresenta os conceitos de ordenamento óptimo das dimensões (optimal dimension order) e árvore de cobertura mínima de memória (minimum memory spanning tree). Apesar de ser um algoritmo característico de aplicações do tipo MOLAP, pode ser usado por sistemas do tipo ROLAP, bastando para isso percorrer a tabela que contém os dados, carregá-la para um array, computar o resultado sobre esse array e transferir os resultados obtidos para as tabelas adequadas. Esta adaptação justifica-se pelo elevado desempenho que este algoritmo apresenta e pela boa gestão de memória que efectua, sendo ainda mais eficiente que os algoritmos desenhados para sistemas ROLAP. 2.4.3.1 Computação de agregados Para compreender a mecânica do algoritmo, comecemos por computar um agregado a partir de um array simples sem recorrer a chunking, assumindo que se dispõe de um array tridimensional com dimensões A, B e C. Computar o agregado AB equivale a projectar C sobre o plano AB, o que logicamente corresponde a percorrer um plano através da dimensão C e realizar a agregação até que todo o array 30
Page 1 and 2: Algoritmos para a Geração de Hipe
Page 3 and 4: Resumo A tecnologia OLAP permite a
Page 5 and 6: Índice Lista de figuras ..........
Page 7 and 8: Lista de figuras Figura 1 - Represe
Page 9 and 10: Lista de tabelas Tabela 1 - Volume
Page 11 and 12: 1 Introdução Ao longo das última
Page 13 and 14: Multi-Way; a secção 4 apresenta o
Page 15 and 16: exemplo anterior, a tabela de dimen
Page 17 and 18: Dado um conjunto de dimensões, é
Page 19 and 20: que faria com que cada ponto (x, y)
Page 21 and 22: Tabela 7 - Cross table para as vend
Page 23: Figura 5 - Malha de combinações p
Page 26 and 27: Por exemplo, no nível 2 da malha t
Page 28 and 29: neste caso, o critério consiste em
Page 32 and 33: tenha sido percorrido. Se o array e
Page 35 and 36: Diferentes ordenações de dimensõ
Page 37 and 38: enquanto a célula com o endereço
Page 40 and 41: Figura 20 - MNST para o cubo C [Tam
Page 42 and 43: adicionado ao chunk 12 segundo D0,
Page 44 and 45: Os resultados mostram que o algorit
Page 46 and 47: Como as dimensões partilhadas pode
Page 48 and 49: Multi-Way. Além do algoritmo propo
Page 50 and 51: facilmente seleccionados para cálc
Page 52 and 53: acarreta forçosamente uma carga a
Page 54 and 55: Tabela 10 - Plano de testes Teste N
Page 56 and 57: Uma vez que as restantes implementa
Page 58 and 59: em relação ao original mas uma de
Page 60 and 61: As figuras 35 e 36 mostram o efeito
Page 62 and 63: Por fim, o gráfico da figura 38 mo
Page 64 and 65: 5 Balanço final O objectivo do pre
Page 66: [Zhao1997] Zhao, Yihong; Prasad M.

ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

Create successful ePaper yourself

Delete template?

Save as template?