12.07.2015 Views

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

CHAPITRE 5 — In<strong>de</strong>xation <strong>de</strong> données 119qui peut être vue <strong>comme</strong> une extension <strong>de</strong> la recherche exacte à plusieurs valeurs sur un domainediscret, est moins fréquente, mais plus que la recherche par similarité ou la recherche<strong>de</strong>s plus proches voisins. Ces <strong>de</strong>ux <strong>de</strong>rniers types <strong>de</strong> recherches sont particulièrement difficilesdans les espaces <strong>de</strong> gran<strong>de</strong>s dimensions car ces recherches se fon<strong>de</strong>nt sur <strong>de</strong>s distances ou <strong>de</strong>smesures <strong>de</strong> similarité. Or le nombre <strong>de</strong> cellules voisines pour une cellule quelconque augmenteexponentiellement avec la dimension. De même, la probabilité pour un point p <strong>de</strong> l’espaced’être près d’une frontière tend vers 1 : la probabilité <strong>de</strong> <strong>de</strong>voir explorer les cellules voisineslors <strong>de</strong> la recherche <strong>de</strong>s plus proches voisins <strong>de</strong> p tend vers 1 [14, 147]. Enfin, la croissance <strong>de</strong>la dimension implique la définition d’intervalles <strong>de</strong> plus en plus grands pour spécifier un mêmevolume. Ainsi, dans le plan, un hypercube <strong>de</strong> dimension 2 (un carré donc) dont chaque côté aune longueur <strong>de</strong> 10% sur chaque dimension occupe 1% <strong>de</strong> l’espace total. Mais dans un espaceà 10 dimensions, un hypercube qui occupe 1% du volume a un côté <strong>de</strong> longueur l = 10√ 0.1, soitenviron 63% du domaine. Ces trois facteurs (le nombre <strong>de</strong> cellules, la proximité <strong>de</strong>s frontièreset l’extension <strong>de</strong>s domaines couverts) font que les recherches par similarité ou distance exigentle parcours d’une gran<strong>de</strong> partie <strong>de</strong> l’espace in<strong>de</strong>xé. D’après Weber, Schek et Blott dans [147],les techniques d’in<strong>de</strong>xation implémentant ces in<strong>de</strong>x <strong>de</strong>viennent moins performantes que la rechercheséquentielle dès 10 dimensions.5.2.4.2 Stockage <strong>de</strong>s <strong>de</strong>scripteurs <strong>de</strong> cellules<strong>Le</strong>s structures d’in<strong>de</strong>x en arbre allouent à chaque nœud une page (espace <strong>de</strong> stockage),correspondant à une (ou plusieurs) unités d’allocation du système d’exploitation et du SGBD.Supposons une taille <strong>de</strong> page <strong>de</strong> 8 Ko. En faisant abstraction <strong>de</strong> toute métadonnée, les donnéesstockées dans une page d’in<strong>de</strong>x sont <strong>de</strong>s entrées d’in<strong>de</strong>x. Une entrée d’in<strong>de</strong>x offre le moyen <strong>de</strong>décrire <strong>de</strong> manière non ambigüe le sous-arbre, éventuellement réduit à une feuille, auquel ellecorrespond. Mais une entrée contient également un pointeur vers la page correspondant au sousarbre.Dans un arbre B+, les informations sur un sous-arbre se réduisent à une valeur <strong>de</strong> l’attributin<strong>de</strong>xé, soit 4 octets pour <strong>de</strong>s entiers. <strong>Le</strong> pointeur est généralement aussi un entier <strong>de</strong> la mêmetaille, soit un total <strong>de</strong> 8 octets par entrée. Une page d’in<strong>de</strong>x <strong>de</strong> 8 Ko dans un arbre B+ contientdonc 1024 entrées par page. Ceci autorise 2 20 (1.048.576) enregistrements pour un arbre à <strong>de</strong>uxniveaux et 2 30 (1.073.741.824) enregistrements pour un arbre à 3 niveaux d’in<strong>de</strong>xation.Dans un in<strong>de</strong>x multidimensionnel, un intervalle sur l’une <strong>de</strong>s dimensions est nécessairementreprésenté par <strong>de</strong>ux valeurs. Pour un espace à d = 8 dimensions entières, la représentationcomplète d’une cellule requiert d points, soit 64 octets, et celle d’une entrée d’in<strong>de</strong>x (qui pren<strong>de</strong>n compte un pointeur <strong>de</strong> page), 68 octets. Ceci permet 15 entrées par page d’in<strong>de</strong>x. Un arbre

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!