12.07.2015 Views

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

CHAPITRE 5 — In<strong>de</strong>xation <strong>de</strong> données 109posent dans [12] un remplacement du centre géométrique par le centre <strong>de</strong> gravité, le problèmed’équilibre resterait ouvert d’après Berrani et al. [14].5.2.2.3 TV-Tree<strong>Le</strong> TV-Tree (pour Telescopic Vector Tree) <strong>de</strong> Lin, Jagadish et Faloutsos [100] est une structuredont l’objectif <strong>de</strong> conception est <strong>de</strong> repousser la dégradation inévitable <strong>de</strong>s performancesvers <strong>de</strong>s dimensions supérieures. Pour ce faire, et puisque la dégradation est exponentielle enfonction <strong>de</strong> la dimension, la structure prend en compte un nombre <strong>de</strong> dimensions plus faibleà la racine que dans les feuilles. Ainsi, l’impact <strong>de</strong> la dimensionnalité est plus faible dans lesniveaux supérieurs, proches <strong>de</strong> la racine. En conséquence, l’arbre est plus petit en volume etle vecteur représentant les valeurs prises en compte pour une recherche varie en taille avec leniveau dans l’arbre, d’où le nom <strong>de</strong> la technique.À chaque niveau, le TV-Tree divise les attributs <strong>de</strong>s données du sous-arbre en :• attributs <strong>de</strong> valeurs communes aux données in<strong>de</strong>xées, déjà utilisés plus haut dans l’arbre ;• attributs ignorés, dont la prise en compte augmenterait l’impact <strong>de</strong> la dimensionnalité ;• attributs discriminants.Mais <strong>de</strong>s informations préalables sur les attributs sont nécessaires pour choisir efficacement lesattributs discriminants à chaque niveau.D’après les auteurs, cette façon <strong>de</strong> discriminer, en utilisant <strong>de</strong> plus en plus <strong>de</strong> critères, correspondà la façon dont les humains classent intuitivement <strong>de</strong>s objets, par exemple en zoologieoù les espèces sont distinguées en vertébrés et invertébrés. La distinction entre sang chaud etsang froid n’est valable que pour les vertébrés. Par conséquent, cet attribut ne sera utilisé quedans le sous-arbre <strong>de</strong>s vertébrés.5.2.2.4 Hybrid TreeL’Hybrid-Tree <strong>de</strong> Chakrabarti et Mehrotra [33] est une hybridation <strong>de</strong> techniques arborescentesexistantes afin d’en mutualiser les avantages. <strong>Le</strong>s auteurs distinguent parmi les techniquesd’in<strong>de</strong>xation multidimensionnelle celles qui utilisent <strong>de</strong>s régions englobantes (par exemple,le R-Tree, section 5.2.2.1) et celles qui partitionnent l’espace en cellules disjointes (parexemple, le kDB-Tree [119]). <strong>Le</strong>s premières souffrent du recouvrement <strong>de</strong>s REM, et les secon<strong>de</strong>sne peuvent garantir un taux minimal d’utilisation <strong>de</strong>s pages physiques allouées (voirsection 5.2.3.7).<strong>Le</strong> problème du recouvrement <strong>de</strong>s REM a déjà été abordé pour le R ∗ -Tree et l’X-Tree ensections 5.2.2.1. <strong>Le</strong> taux minimal d’utilisation désigne la proportion plancher du nombre d’en-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!