Requêtes OLAP sur une base de données XML native - Cercle ...
Requêtes OLAP sur une base de données XML native - Cercle ...
Requêtes OLAP sur une base de données XML native - Cercle ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
2.4 Collecte et intégration <strong>de</strong>s <strong>données</strong> 10<br />
il implique <strong>de</strong> nombreuses jointures dans les requêtes et donc <strong>une</strong> difficulté d’écriture <strong>de</strong> ces<br />
<strong>de</strong>rnières.<br />
Quand il s’agit <strong>de</strong> choisir <strong>une</strong> modélisation plutôt qu’<strong>une</strong> autre, <strong>de</strong> nombreux paramètres<br />
sont à prendre en compte : la nature <strong>de</strong>s requêtes, les besoins d’analyse, les besoins <strong>de</strong> flexibilité,<br />
l’évolution <strong>de</strong>s dimensions dans le temps, etc. Ce n’est donc jamais <strong>une</strong> question simple et il<br />
convient <strong>de</strong> l’étudier avec le plus grand soin. En effet, <strong>une</strong> mauvaise modélisation peut conduire<br />
à l’inutilité d’un entrepôt avec les pertes <strong>de</strong> temps et d’argent que cela implique.<br />
2.4 Collecte et intégration <strong>de</strong>s <strong>données</strong><br />
L’intégration <strong>de</strong>s <strong>données</strong> est certainement la partie la plus complexe, justifiant ainsi la timidité<br />
<strong>de</strong>s entreprises à fabriquer un tel entrepôt <strong>de</strong> <strong>données</strong>. Il convient d’uniformiser et <strong>de</strong> fédérer<br />
les différentes sources d’informations <strong>de</strong> l’entreprise. Bien souvent, les entreprises possè<strong>de</strong>nt <strong>une</strong><br />
multitu<strong>de</strong> <strong>de</strong> <strong>base</strong>s <strong>de</strong> <strong>données</strong> <strong>de</strong> structures différentes : <strong>base</strong>s <strong>de</strong> <strong>données</strong> relationnelles, fichiers,<br />
sources Web, . . . Il faut donc définir un schéma global qui intègre les <strong>données</strong> utiles à l’analyse,<br />
d’où <strong>une</strong> gestion stricte <strong>de</strong>s méta-<strong>données</strong> telles que la <strong>de</strong>scription <strong>de</strong>s sources ou <strong>de</strong>s éventuelles<br />
vues exportées <strong>de</strong>s <strong>base</strong>s <strong>de</strong> <strong>données</strong>.<br />
Ces opérations sont connues sous le terme ETL (Extract-Transform-Load) ou data pumping.<br />
Il s’agit d’un système intergiciel (middleware) qui permet <strong>de</strong> faire <strong>de</strong>s synchronisations d’informations<br />
d’<strong>une</strong> <strong>base</strong> <strong>de</strong> <strong>données</strong> vers <strong>une</strong> autre. Ces systèmes sont basés <strong>sur</strong> <strong>de</strong>s connecteurs<br />
servant à exporter et importer <strong>de</strong>s <strong>données</strong>, <strong>de</strong>s transformateurs pour manipuler les <strong>données</strong> et<br />
les convertir dans le schéma <strong>de</strong> la <strong>base</strong> <strong>de</strong> <strong>données</strong> <strong>de</strong> <strong>de</strong>stination. Le but est l’intégration <strong>de</strong>s<br />
<strong>données</strong> <strong>de</strong> toute l’entreprise dans <strong>une</strong> <strong>base</strong> <strong>de</strong> <strong>données</strong> comm<strong>une</strong>, l’entrepôt <strong>de</strong> <strong>données</strong>.<br />
Il s’agit ici d’un processus très complexe et très coûteux : Ralph Kimball [4], après 18 mois<br />
d’étu<strong>de</strong>s <strong>sur</strong> les ETL, en a défini 38 sous-systèmes et a évalué à 70% la part <strong>de</strong> l’intégration dans<br />
un projet d’entrepôt <strong>de</strong> <strong>données</strong>.<br />
2.5 Analyse <strong>de</strong>s <strong>données</strong><br />
Il faut différencier <strong>de</strong>ux types d’analyses <strong>de</strong> <strong>données</strong> : le Data Mining ou forage <strong>de</strong> <strong>données</strong><br />
et l’analyse multidimensionnelle (<strong>OLAP</strong>). Dans ce mémoire, nous nous concentrerons principalement<br />
<strong>sur</strong> l’analyse multidimensionnelle.<br />
Le forage <strong>de</strong> <strong>données</strong> (Data Mining) a pour but <strong>de</strong> mettre en évi<strong>de</strong>nce <strong>de</strong>s corrélations<br />
éventuelles dans un volume important <strong>de</strong> <strong>données</strong> afin <strong>de</strong> dégager <strong>de</strong>s tendances. Il s’appuie <strong>sur</strong><br />
<strong>de</strong>s techniques d’intelligence artificielle comme <strong>de</strong>s réseaux <strong>de</strong> neurones ou <strong>sur</strong> <strong>de</strong>s techniques<br />
statistiques afin <strong>de</strong> mettre en évi<strong>de</strong>nce <strong>de</strong>s liens cachés entre les <strong>données</strong> et ainsi prévoir <strong>de</strong>s<br />
tendances.<br />
Online Analytical Processing (<strong>OLAP</strong>) est un terme commercial qui désigne les <strong>base</strong>s <strong>de</strong><br />
<strong>données</strong> multidimensionnelles (aussi appelées cubes ou hyper-cubes) <strong>de</strong>stinées à l’analyse et il<br />
s’oppose au terme OLTP qui désigne les systèmes transactionnels. Ce terme a été défini par E.