120 CHAPITRE 5 — In<strong>de</strong>xation <strong>de</strong> donnéesplein et équilibré sur 3 niveaux autorise donc 15 3 = 3.375 cellules, sur 4 niveaux, 15 4 = 50.625cellules. Ces valeurs sont en retrait par rapport à une subdivision régulière <strong>de</strong> l’espace par n hyperplanspar dimension. En effet, les nombres <strong>de</strong> cellules obtenues seraient <strong>de</strong> (n + 1) 8 cellules,soit 3 8 = 6.561 et 4 8 = 65.536 cellules pour une subdivision par <strong>de</strong>ux et trois hyperplans respectivement.On constate ainsi que les in<strong>de</strong>x multidimensionnels ont une hauteur relativement plusgran<strong>de</strong> que les in<strong>de</strong>x monodimensionnels pour un même nombre d’enregistrements in<strong>de</strong>xés. Cefait peut être atténué par <strong>de</strong>s représentations incomplètes ou hiérarchisées <strong>de</strong>s cellules, ou parl’utilisation <strong>de</strong> techniques <strong>de</strong> compression. Mais en règle générale, un in<strong>de</strong>x multidimensionnelrequiert plus d’accès disque qu’un in<strong>de</strong>x monodimensionnel pour une recherche exacte d’unmême enregistrement.5.2.4.3 RecouvrementOn constate que les in<strong>de</strong>x multidimensionnels ne sont pas groupés (voir section 5.1 pourla définition d’un in<strong>de</strong>x groupé). Autrement dit, les enregistrements ayant <strong>de</strong>s valeurs prochesne sont pas nécessairement voisins sur le support physique. En général, une unité d’in<strong>de</strong>xationélémentaire (une feuille) regroupe les objets dont les valeurs sur les attributs d’in<strong>de</strong>xation sontproches. Si la distinction entre nœuds se fait sur la base <strong>de</strong> d dimensions, toute sélection surk attributs avec k < d réalise une projection <strong>de</strong> l’espace <strong>de</strong> données initial sur un espace <strong>de</strong>dimension inférieure. Ce phénomène est une autre déclinaison <strong>de</strong>s collisions <strong>de</strong>s fonctions <strong>de</strong>hachage (voir section 5.1.4) et <strong>de</strong>s projections sur la droite ou le plan (figure 5.15). Une sélectionsur k dimensions désigne implicitement plusieurs unités d’in<strong>de</strong>xation <strong>de</strong> même que le point p1<strong>de</strong> la figure 5.15 désigne plusieurs points <strong>de</strong> la droite (a, d).<strong>Le</strong>s feuilles correspondant à une sélection sur k dimensions sont éparpillées dans l’arbre.Des critères particuliers peuvent permettre <strong>de</strong> circonscrire les résultats à une région <strong>de</strong> l’arbred’in<strong>de</strong>xation, mais l’expérience n’est pas reproductible sur tous les critères. Dans le cas général,les feuilles sélectionnées se retrouveront sur toute la largeur <strong>de</strong> l’arbre. Cependant, une sélectionsur d attributs désignera une unique feuille pour les techniques sans recouvrements. Par conséquent,le chemin suivi par la recherche est unique et le nombre <strong>de</strong> nœuds parcourus, équivalentau nombre d’accès disque, est minimal. Dans les autres cas <strong>de</strong> sélections, la recherche est moinsefficace : les feuilles résultats sont dispersées en cas <strong>de</strong> sélection sur un nombre <strong>de</strong> dimensionsinférieur à d et, en cas <strong>de</strong> recouvrement, certains <strong>de</strong>s nœuds visités apportent <strong>de</strong>s informationsredondantes.Par conséquent, il est préférable qu’une technique d’in<strong>de</strong>xation n’admette pas <strong>de</strong> recouvrement.On évite ainsi <strong>de</strong>s opérations (recherches, insertions, modifications et suppressions) peu
CHAPITRE 5 — In<strong>de</strong>xation <strong>de</strong> données 121ddabcp1 p2abdcp1p2abcp1p2Projections orthogonalesPerspective coniqueFigure 5.15 – Projections sur <strong>de</strong>s espaces <strong>de</strong> dimensions inférieuresefficaces. Mais plus que l’aspect géométrique <strong>de</strong> la notion <strong>de</strong> recouvrement, c’est la possibilité<strong>de</strong> chemins multiples vers un même objet (par exemple, b1 dans la figure 5.9 en section 5.2.2.1),synonyme d’entrées multiples, qui est à éviter.5.2.4.4 PerformanceÀ propos <strong>de</strong> la performance, on note que les métho<strong>de</strong>s par hachage <strong>de</strong>vancent les métho<strong>de</strong>sen arbre grâce au nombre d’accès disque constant (voir sections 5.1.4 et 5.2.2.5). Malheureusement,les métho<strong>de</strong>s d’in<strong>de</strong>xation par hachage ne sont efficaces que pour les recherches exacteset les fonctions adéquates sont difficiles à trouver dans un contexte dynamique. Aucune technique(arborescente ou par hachage) ne répond à tous les besoins qui motivent l’utilisationd’in<strong>de</strong>x multidimensionnels. Même le Pyramid-Tree, qui est la seule technique échappant à lamalédiction <strong>de</strong> la dimensionnalité (voir section 5.2.2.2), ne traite efficacement que les donnéesuniformes et les requêtes par intervalles. Berchtold et al. montrent dans [11] qu’il n’existe pas,pour <strong>de</strong>s données uniformes, une structure d’in<strong>de</strong>x qui soit performante sur toutes les dimensionspour les recherches <strong>de</strong> plus proches voisins. Dans [147], les auteurs vont plus loin etconsidèrent qu’il vaut mieux tenter d’améliorer la recherche séquentielle que <strong>de</strong> « se battre pourune guerre déjà perdue » contre les difficultés <strong>de</strong>s gran<strong>de</strong>s dimensions (dont on peut trouver une<strong>de</strong>scription dans le même article). Bien que ces conclusions ne concernent que la recherche <strong>de</strong>plus proches voisins, l’examen <strong>de</strong>s propositions <strong>de</strong> techniques d’in<strong>de</strong>xation dans leur ensemble(16 techniques recensées entre 1990 et 1999 contre 3 [10, 113, 144] entre 2000 et 2007) sembleles confirmer.