12.07.2015 Views

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

110 CHAPITRE 5 — In<strong>de</strong>xation <strong>de</strong> donnéestrées dans une page d’in<strong>de</strong>x par rapport à la capacité disponible, toutes les techniques faisantcorrespondre une page physique à un nœud <strong>de</strong> l’arbre. En général, les nœuds sont partitionnéslorsqu’ils atteignent leur capacité maximale. On obtient alors <strong>de</strong>ux nœuds distincts qui remplacentle nœud précé<strong>de</strong>nt, <strong>comme</strong> c’est le cas dans un arbre B (section 5.1.6). Lorsque lepartitionnement du nœud n’est pas restreint à une région <strong>de</strong> l’arbre, il provoque généralementune casca<strong>de</strong> <strong>de</strong> partitionnements forcés, y compris sur les nœuds dont la capacité maximalen’est pas atteinte. <strong>Le</strong>s pages résultantes sont alors largement sous-occupées. En conséquence,l’arbre d’in<strong>de</strong>xation est grand (en nombre <strong>de</strong> nœuds) et volumineux (en taille occupée), et lesaccès disque sont très peu efficaces car les nœuds lus apportent peu d’informations.La technique du Hybrid-Tree essaie <strong>de</strong> mitiger l’impact <strong>de</strong> ces <strong>de</strong>ux problèmes : les recouvrementsne sont admis que si l’option contraire déclenchait une casca<strong>de</strong> <strong>de</strong> partitionnements.Pour cette structure, une politique <strong>de</strong> partitionnement peu courante est utilisée : le partitionnementest monodimensionnel. Ainsi, les différents fils d’un nœud ne se différencient que sur unedimension, ce qui a pour effet d’augmenter la sélectivité <strong>de</strong>s nœuds au cours <strong>de</strong>s recherches (voirla section 5.2.3.6). <strong>Le</strong> choix <strong>de</strong> la dimension <strong>de</strong> partitionnement est à la charge d’algorithmes,proposés dans la même publication [33], qui se fon<strong>de</strong>nt sur <strong>de</strong>s probabilités pour optimiser lesfutures opérations <strong>de</strong> recherche.5.2.2.5 Grid File<strong>Le</strong> Grid File est une structure d’in<strong>de</strong>xation non-hiérarchique proposée par Nievergelt, Hinterbergeret Sevcik [105], qui constitue une extension du hachage indirect (voir section 5.1.4) àplusieurs dimensions.<strong>Le</strong> principe est toujours <strong>de</strong> subdiviser l’espace <strong>de</strong> données en cellules, ce qui revient, dansl’esprit <strong>de</strong> la technique, à superposer une grille sur l’espace. La grille est figurée par les pointillésdans la figure 5.13. <strong>Le</strong>s cellules obtenues, <strong>de</strong> tailles diverses, disposent chacune d’une entréedans un répertoire (ou « grid directory »). De même que le hachage monodimensionnel associeun emplacement à une valeur <strong>de</strong> la fonction <strong>de</strong> hachage, chaque cellule multidimensionnelle estassociée à un emplacement (ou « data bucket ») <strong>de</strong> l’espace (linéaire) <strong>de</strong> stockage physique.L’emplacement correspond à une page physique <strong>de</strong> données, parfois partagée entre plusieurscellules. La fonction <strong>de</strong> hachage prend en compte plusieurs dimensions pour calculer l’entréedu répertoire où trouver l’objet recherché.L’écartement entre les hyperplans qui partitionnent une dimension est variable. Il est généralementfixé par la capacité maximale d’un emplacement. La relation hiérarchique qui existedans les in<strong>de</strong>x arborescents est ici inexistante. Ceci limite le nombre d’accès disque nécessaire

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!