12.07.2015 Views

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

CHAPITRE 1 — <strong>Le</strong>s résumés du modèle SAINTETIQ 9pairs a pour conséquence <strong>de</strong> rendre indisponible une partie <strong>de</strong>s données du système. Des mécanismes<strong>de</strong> représentation compacte <strong>de</strong>s données externes à un pair doivent être mis en place sil’intention est <strong>de</strong> répondre aux requêtes <strong>de</strong> manière complète vis-à-vis du système. Cependant,le mo<strong>de</strong> pair à pair n’est pas une condition nécessaire à l’existence <strong>de</strong> ces mécanismes dansles systèmes distribués. Pour les systèmes géographiquement distants ou constitués <strong>de</strong> grappesimportantes, par exemple les moteurs <strong>de</strong> recherche, une forme plus ou moins sophistiquée d’extrapolationest utilisée pour répondre aux requêtes (d’où la formulation « résultats 1-10 sur untotal d’environ x pages » <strong>de</strong> Google ou « 1-10 sur environ x pour . . . » <strong>de</strong> Yahoo Search). Laréduction <strong>de</strong> données se retrouve également dans les caches Internet à travers le concept <strong>de</strong>scache digest [57, 121]. Un cache digest est une synthèse du contenu d’un cache Web. Utiliséau sein d’une hiérarchie <strong>de</strong> caches, il permet <strong>de</strong> transmettre le contenu d’un cache à d’autrescaches, afin <strong>de</strong> réduire les connexions aux serveurs source <strong>de</strong> pages Web.<strong>Le</strong> contexte <strong>de</strong>s flux <strong>de</strong> données est un autre exemple [2]. En effet, un flux <strong>de</strong> données n’a pas<strong>de</strong> taille connue à un instant donné. Même sans prendre en considération la capacité <strong>de</strong> stockagenécessairement finie, il est évi<strong>de</strong>nt qu’un traitement tenant compte <strong>de</strong> toutes les données auraitun temps <strong>de</strong> réponse intolérablement long. Ce temps serait infini si <strong>de</strong>s opérateurs bloquantsétaient utilisés [2] (un opérateur est dit bloquant lorsqu’il lui est nécessaire <strong>de</strong> connaître toutesles données auxquelles il s’applique pour délivrer un résultat correct – par exemple, MIN ouSUM).Si l’on considère que les algorithmes et traitements ont une efficacité optimale, la solutionévi<strong>de</strong>nte lorsqu’on traite <strong>de</strong> bases <strong>de</strong> données consiste à réduire l’impact <strong>de</strong>s facteurs pénalisantle temps <strong>de</strong> réponse, essentiellement la quantité <strong>de</strong> données. Cet objectif peut être atteint <strong>de</strong>diverses manières, en particulier en réduisant le nombre d’instances (réduction verticale) ou lenombre d’attributs pris en compte (réduction horizontale). En réduction verticale (par exemple,l’échantillonnage), les instances sont choisies parmi les données initiales, ou construitesaprès transformation <strong>de</strong>s données dans un autre mo<strong>de</strong> <strong>de</strong> représentation (par exemple, les histogrammeset les techniques <strong>de</strong> classification [32, 45, 55] en général). En réduction horizontale,les corrélations entre attributs sont utilisées pour « écarter » certains attributs et ne conserverque les plus importants (c’est le cas <strong>de</strong>s métho<strong>de</strong>s d’analyse factorielle [29, 38]).1.1.2 Quels types d’approximation ?L’approximation obtenue en usant d’une technique <strong>de</strong> réduction <strong>de</strong> données peut être quantitative: le nombre d’instances ou d’enregistrements est différent <strong>de</strong> celui obtenu dans un traitement« normal ». <strong>Le</strong> résultat <strong>de</strong> la réduction est basé sur <strong>de</strong>s éléments prototypiques – représen-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!