12.07.2015 Views

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

114 CHAPITRE 5 — In<strong>de</strong>xation <strong>de</strong> donnéesComme indiqué en section 5.2, les cellules utilisées dans l’in<strong>de</strong>x regroupent les représentationsgéométriques <strong>de</strong>s enregistrements. Elles définissent <strong>de</strong>s régions <strong>de</strong> l’espace multidimensionnelenglobant un nombre variable <strong>de</strong> points. La région ou forme englobante est le plussouvent un hyperrectangle, en raison <strong>de</strong> la relative simplicité <strong>de</strong> ce <strong>de</strong>rnier concept, ou unehypersphère. D’autres formes plus complexes mais moins intuitives existent ([12, 89]), par exemple,résultant <strong>de</strong> l’intersection d’un hypercube et d’une hypersphère.5.2.3.3 RecouvrementLa notion <strong>de</strong> recouvrement (overlap) désigne l’intersection entre les cellules <strong>de</strong> l’espacemultidimensionnel. D’après Berchtold et al. dans [13], cette caractéristique est un problèmeimportant au point <strong>de</strong> justifier une métho<strong>de</strong> d’in<strong>de</strong>xation (celle du X-Tree, traitée en section5.2.2.1) qui vise à le résoudre spécifiquement. Il serait également à l’origine <strong>de</strong> la dégradation<strong>de</strong>s performances : la proportion d’objets couverts par plus d’une cellule (taux <strong>de</strong> recouvrement)augmente très rapi<strong>de</strong>ment pour atteindre 80% en dimension 4 et « approcher » 100% pourles dimensions supérieures à 6 sur <strong>de</strong>s données réelles. On note que le R + -Tree [130] viseégalement à résoudre ce problème que rencontre le R-Tree [76].L’existence <strong>de</strong> recouvrements exprime la possibilité d’atteindre un objet par plusieurs cheminsdifférents. L’impact <strong>de</strong> ce taux sur les performances <strong>de</strong>s techniques se justifie par le faitque les objets faisant partie du résultat final sont « extraits » <strong>de</strong> plusieurs cellules. Toutes cescellules sont donc examinées au cours <strong>de</strong> la recherche, y compris celles, superflues, dont lesobjets font déjà partie du résultat. Un taux <strong>de</strong> recouvrement plus faible ou nul aurait permis <strong>de</strong>faire l’économie du parcours <strong>de</strong> toutes ces cellules, sachant qu’un nœud correspond à une ouplusieurs pages sur le support <strong>de</strong> stockage.5.2.3.4 Réduction <strong>de</strong> la dimensionLa réduction <strong>de</strong> la dimension d’un espace est une tentative <strong>de</strong> contournement <strong>de</strong>s problèmesliés aux espaces <strong>de</strong> gran<strong>de</strong> dimension et évoqués en section 5.2 (voir aussi [14, 147]). Cette idéedécoule du constat que les données réelles sont fortement corrélées et groupées. Il n’est donc pasnécessaire <strong>de</strong> prendre en compte toutes les dimensions. On en considère un nombre plus faibleque celui <strong>de</strong> l’espace d’origine. Ceci présente bien sûr <strong>de</strong>s difficultés car il faut déterminer lesdimensions à conserver mais il faut aussi que les données se prêtent bien à la réduction <strong>de</strong>sdimensions.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!