ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

More documents

Recommendations

Info

de dados, frequentemente mantidos para outros fins, e que na maioria dos casos os utilizadores não conseguem estabelecer um objectivo definido. Isto leva a que as interrogações colocadas impliquem a agregação de grandes quantidades de dados, o que impossibilita a rapidez desejada na resposta. O objectivo do sistema proposto seria, portanto, conseguir que as ferramentas de data mining trabalhassem em conjunto com as ferramentas de OLAP de uma data warehouse por forma a aumentar a qualidade e rentabilidade da experiência para o utilizador, numa perspectiva a que foi dado o nome de OLAP mining. Um dos principais desafios na criação de um sistema destes é a necessidade de uma implementação eficiente do mecanismo de computação e construção do cubo, que permita uma capacidade de resposta rápida. Com base no operador CUBE [Gray1997] e no algoritmo Multi-Way [Zhao1997], Tam propôs um algoritmo de computação de agregados cujas principais características são o facto de percorrer a relação uma única vez, computar um agregado a partir do menor agregado já computado, computar simultaneamente o maior número de agregados possível e retirar os agregados de memória o mais cedo possível de forma a libertar memória para a computação de outros agregados [Tam1998]. Em traços gerais, o algoritmo proposto baseia-se no conceito de um cubo baseado em chunks, em que o cubo é armazenado sob a forma uma tabela relacional e os seus chunks armazenados como tuplos. Para cada chunk, as células são mapeadas para um endereço de memória que pode ser guardado como um dos campos do tuplo, de forma a que não seja necessário utilizar mecanismos de indexação para aceder aos chunks. No fundo, são combinadas características de sistemas ROLAP e MOLAP num único algoritmo. No trabalho realizado por Tam, o conceito de cubo foi desenhado tendo em conta um contexto dirigido por interrogações (query-driven), no qual o número de dimensões do cubo não é conhecido enquanto a interrogação não é submetida. Por essa razão, conceptualmente o cubo é multidimensional mas é implementado como um array unidimensional. Sendo D0, D1, ..., DN-1 as dimensões de um cubo N- dimensional, é adicionado o valor ALL a cada dimensão Di, tal como descrito por [Gray1997], o que faz com que qualquer célula em que o valor ALL faça parte do seu endereço corresponda a um agregado. Este tipo de células é designado como célula cubóide (cuboid cell), enquanto as restantes células são consideradas células nucleares (core cells). Os valores de cada dimensão são mapeados para coordenadas de tal forma que a dimensão Di corresponda aos valores {di0, di1, ..., di|Di|-1, diALL}. A posição de cada célula do cubo é denotada no espaço multidimensional pelo vector V(v0, v1, ..., vN-1), sendo a magnitude de cada vector equivalente ao número de dimensões do cubo. Portanto, para uma célula cubóide, o seu endereço contém pelo menos um componente vj tal que vj = |Dj|, j ≥ 0 e j < N. Assim, a célula cujo endereço é dado pelo vector V(|D0|, ..., |DN-1|) trata-se da célula cubóide correspondente ao agregado vazio ALL [Tam1998]. Tomando o cubo C tridimensional na figura 12, verifica-se que existem três dimensões, em que |D0| = 5, |D1| = 4, |D2| = 3, e que os valores para cada dimensão são di0 = 0, di1 = 1 e assim sucessivamente para i = 0,1, 2. A célula cubóide com o endereço V(5, 4, 3) corresponde, então, à célula (ALL, ALL, ALL). Seguindo ainda esta notação, a célula com o endereço V(5, 0, 0) guarda o resultado da soma das medidas das células {V(0, 0, 0), V(1, 0, 0), V(2, 0, 0), V(3, 0, 0), V(4, 0, 0)}, 35
enquanto a célula com o endereço V(5, 4, 0) guarda o resultado da soma das medidas das células S1 = {V(5, 0, 0), V(5, 1, 0), V(5, 2, 0), V(5, 3, 0)} ou das células S2 = {V(0, 4, 0), V(1, 4, 0), V(2, 4, 0), V(3, 4, 0), V(4, 4, 0)}. Desta forma, a célula V(5, 4, 0) depende de dois conjuntos de células diferentes, ou seja, S1 e S2 são sub-cubóides potenciais do cubóide V(5, 4, 0) Figura 17 – Representação de um cubo 3D segundo [Tam1998] O facto do cubo ser implementado como um array unidimensional significa que as células do cubo C são ordenadas como mostra a tabela de tal forma que o endereço V(0, 0, 0) e V(0, 1, 0) estão nas posições 0 e 4, respectivamente, do array; a última célula do cubo C (V(5, 4, 3)) está guardada na posição 119 uma vez que existem (5 + 1) x (4 + 1) x (3 + 1) = 120 células no total. O mapeamento entre o espaço multidimensional e o espaço unidimensional é realizado pelos algoritmos Vector-To-Index e Index-To- Vector [Tam1998]. Tabela 8 – Ordem das células do cubo no array [Tam1998] V(0, 0, 0) V(0, 0, 1) ... V(0, 0, |D 2|) V(0, 1, 0) V(0, 1, 1) ... V(0, 1, |D 2|) ... ... ... ... V(0, |D 1|, 0) V(0, |D 1|, 1) ... V(0, |D 1|, |D 2|) V(1, 0, 0) V(1, 0, 1) ... V(1, 0, |D 2|) ... ... ... ... V(|D 0|, 2, 0) V(|D 0|, 2, 1) ... V(|D 0|, 2, |D 2|) ... ... ... ... V(|D 0|, |D 1|, 0) V(|D 0|, |D 1|, 1) ... V(|D 0|, |D 1|, |D 2|) 36
Page 1 and 2: Algoritmos para a Geração de Hipe
Page 3 and 4: Resumo A tecnologia OLAP permite a
Page 5 and 6: Índice Lista de figuras ..........
Page 7 and 8: Lista de figuras Figura 1 - Represe
Page 9 and 10: Lista de tabelas Tabela 1 - Volume
Page 11 and 12: 1 Introdução Ao longo das última
Page 13 and 14: Multi-Way; a secção 4 apresenta o
Page 15 and 16: exemplo anterior, a tabela de dimen
Page 17 and 18: Dado um conjunto de dimensões, é
Page 19 and 20: que faria com que cada ponto (x, y)
Page 21 and 22: Tabela 7 - Cross table para as vend
Page 23: Figura 5 - Malha de combinações p
Page 26 and 27: Por exemplo, no nível 2 da malha t
Page 28 and 29: neste caso, o critério consiste em
Page 30 and 31: de malha de procura proposto pelo a
Page 32 and 33: tenha sido percorrido. Se o array e
Page 35: Diferentes ordenações de dimensõ
Page 40 and 41: Figura 20 - MNST para o cubo C [Tam
Page 42 and 43: adicionado ao chunk 12 segundo D0,
Page 44 and 45: Os resultados mostram que o algorit
Page 46 and 47: Como as dimensões partilhadas pode
Page 48 and 49: Multi-Way. Além do algoritmo propo
Page 50 and 51: facilmente seleccionados para cálc
Page 52 and 53: acarreta forçosamente uma carga a
Page 54 and 55: Tabela 10 - Plano de testes Teste N
Page 56 and 57: Uma vez que as restantes implementa
Page 58 and 59: em relação ao original mas uma de
Page 60 and 61: As figuras 35 e 36 mostram o efeito
Page 62 and 63: Por fim, o gráfico da figura 38 mo
Page 64 and 65: 5 Balanço final O objectivo do pre
Page 66: [Zhao1997] Zhao, Yihong; Prasad M.

ISCTE – ESCOLA DE GESTÃO - Universidade Técnica de Lisboa

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?