13.07.2013 Views

Requêtes OLAP sur une base de données XML native - Cercle ...

Requêtes OLAP sur une base de données XML native - Cercle ...

Requêtes OLAP sur une base de données XML native - Cercle ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

2.4 Collecte et intégration <strong>de</strong>s <strong>données</strong> 10<br />

il implique <strong>de</strong> nombreuses jointures dans les requêtes et donc <strong>une</strong> difficulté d’écriture <strong>de</strong> ces<br />

<strong>de</strong>rnières.<br />

Quand il s’agit <strong>de</strong> choisir <strong>une</strong> modélisation plutôt qu’<strong>une</strong> autre, <strong>de</strong> nombreux paramètres<br />

sont à prendre en compte : la nature <strong>de</strong>s requêtes, les besoins d’analyse, les besoins <strong>de</strong> flexibilité,<br />

l’évolution <strong>de</strong>s dimensions dans le temps, etc. Ce n’est donc jamais <strong>une</strong> question simple et il<br />

convient <strong>de</strong> l’étudier avec le plus grand soin. En effet, <strong>une</strong> mauvaise modélisation peut conduire<br />

à l’inutilité d’un entrepôt avec les pertes <strong>de</strong> temps et d’argent que cela implique.<br />

2.4 Collecte et intégration <strong>de</strong>s <strong>données</strong><br />

L’intégration <strong>de</strong>s <strong>données</strong> est certainement la partie la plus complexe, justifiant ainsi la timidité<br />

<strong>de</strong>s entreprises à fabriquer un tel entrepôt <strong>de</strong> <strong>données</strong>. Il convient d’uniformiser et <strong>de</strong> fédérer<br />

les différentes sources d’informations <strong>de</strong> l’entreprise. Bien souvent, les entreprises possè<strong>de</strong>nt <strong>une</strong><br />

multitu<strong>de</strong> <strong>de</strong> <strong>base</strong>s <strong>de</strong> <strong>données</strong> <strong>de</strong> structures différentes : <strong>base</strong>s <strong>de</strong> <strong>données</strong> relationnelles, fichiers,<br />

sources Web, . . . Il faut donc définir un schéma global qui intègre les <strong>données</strong> utiles à l’analyse,<br />

d’où <strong>une</strong> gestion stricte <strong>de</strong>s méta-<strong>données</strong> telles que la <strong>de</strong>scription <strong>de</strong>s sources ou <strong>de</strong>s éventuelles<br />

vues exportées <strong>de</strong>s <strong>base</strong>s <strong>de</strong> <strong>données</strong>.<br />

Ces opérations sont connues sous le terme ETL (Extract-Transform-Load) ou data pumping.<br />

Il s’agit d’un système intergiciel (middleware) qui permet <strong>de</strong> faire <strong>de</strong>s synchronisations d’informations<br />

d’<strong>une</strong> <strong>base</strong> <strong>de</strong> <strong>données</strong> vers <strong>une</strong> autre. Ces systèmes sont basés <strong>sur</strong> <strong>de</strong>s connecteurs<br />

servant à exporter et importer <strong>de</strong>s <strong>données</strong>, <strong>de</strong>s transformateurs pour manipuler les <strong>données</strong> et<br />

les convertir dans le schéma <strong>de</strong> la <strong>base</strong> <strong>de</strong> <strong>données</strong> <strong>de</strong> <strong>de</strong>stination. Le but est l’intégration <strong>de</strong>s<br />

<strong>données</strong> <strong>de</strong> toute l’entreprise dans <strong>une</strong> <strong>base</strong> <strong>de</strong> <strong>données</strong> comm<strong>une</strong>, l’entrepôt <strong>de</strong> <strong>données</strong>.<br />

Il s’agit ici d’un processus très complexe et très coûteux : Ralph Kimball [4], après 18 mois<br />

d’étu<strong>de</strong>s <strong>sur</strong> les ETL, en a défini 38 sous-systèmes et a évalué à 70% la part <strong>de</strong> l’intégration dans<br />

un projet d’entrepôt <strong>de</strong> <strong>données</strong>.<br />

2.5 Analyse <strong>de</strong>s <strong>données</strong><br />

Il faut différencier <strong>de</strong>ux types d’analyses <strong>de</strong> <strong>données</strong> : le Data Mining ou forage <strong>de</strong> <strong>données</strong><br />

et l’analyse multidimensionnelle (<strong>OLAP</strong>). Dans ce mémoire, nous nous concentrerons principalement<br />

<strong>sur</strong> l’analyse multidimensionnelle.<br />

Le forage <strong>de</strong> <strong>données</strong> (Data Mining) a pour but <strong>de</strong> mettre en évi<strong>de</strong>nce <strong>de</strong>s corrélations<br />

éventuelles dans un volume important <strong>de</strong> <strong>données</strong> afin <strong>de</strong> dégager <strong>de</strong>s tendances. Il s’appuie <strong>sur</strong><br />

<strong>de</strong>s techniques d’intelligence artificielle comme <strong>de</strong>s réseaux <strong>de</strong> neurones ou <strong>sur</strong> <strong>de</strong>s techniques<br />

statistiques afin <strong>de</strong> mettre en évi<strong>de</strong>nce <strong>de</strong>s liens cachés entre les <strong>données</strong> et ainsi prévoir <strong>de</strong>s<br />

tendances.<br />

Online Analytical Processing (<strong>OLAP</strong>) est un terme commercial qui désigne les <strong>base</strong>s <strong>de</strong><br />

<strong>données</strong> multidimensionnelles (aussi appelées cubes ou hyper-cubes) <strong>de</strong>stinées à l’analyse et il<br />

s’oppose au terme OLTP qui désigne les systèmes transactionnels. Ce terme a été défini par E.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!