12.07.2015 Views

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

Le resume linguistique de donnees structurees comme ... - APMD

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

12 CHAPITRE 1 — <strong>Le</strong>s résumés du modèle SAINTETIQOn trouve parmi ces métho<strong>de</strong>s les résumés quantifiés et les résumés à base <strong>de</strong> règles floues.<strong>Le</strong>s résumés quantifiés [111, 117] utilisent <strong>de</strong>s quantificateurs flous pour décrire les données.Par exemple, dans SUMMARYSQL [117], l’évaluation du résumé « summary la plupart fromEmployés where âge est jeune » fournit un <strong>de</strong>gré <strong>de</strong> validité <strong>de</strong> la proposition « la plupart <strong>de</strong>semployés sont jeunes ». Ce <strong>de</strong>gré caractérise la mesure dans laquelle la proposition est satisfaitepar les données. <strong>Le</strong>s résumés à base <strong>de</strong> règles floues sont découverts par recherche d’associationsentre attributs ([26]) ou en exploitant <strong>de</strong>s dépendances fonctionnelles floues [21, 46]. Ilspermettent d’obtenir, dans le cas <strong>de</strong>s règles graduelles <strong>de</strong> Bosc et al. [26], <strong>de</strong>s propositions sousla forme « plus l’âge <strong>de</strong>s employés est âgé, plus leur salaire est élevé ».Il est également possible <strong>de</strong> résumer <strong>de</strong>s enregistrements par généralisation successive <strong>de</strong>s<strong>de</strong>scriptions. La structure <strong>de</strong> données obtenue est alors une hiérarchie. C’est le cas <strong>de</strong>s hiérarchies« is-a » <strong>de</strong> <strong>Le</strong>e et Kim [97] et <strong>de</strong>s résumés du modèle SAINTETIQ [115]. <strong>Le</strong>s résumés <strong>de</strong>SAINTETIQ se distinguent en utilisant un même ensemble <strong>de</strong> termes <strong>linguistique</strong>s (le vocabulaire)sans assignation <strong>de</strong> niveau. <strong>Le</strong>s <strong>de</strong>scriptions générées sont donc unifiées sur le plan <strong>de</strong>stermes (ou étiquettes) <strong>linguistique</strong>s. Ce modèle procè<strong>de</strong> à un lissage <strong>de</strong>s données grâce à uneabstraction par le vocabulaire, puis à une classification. Ces <strong>de</strong>ux opérations sont décrites dansla suite <strong>de</strong> ce chapitre. On obtient ainsi <strong>de</strong>s <strong>de</strong>scriptions à plusieurs niveaux <strong>de</strong> détail différents.Dans ce sens, les résumés réalisent une approximation du <strong>de</strong>rnier type évoqué ci-<strong>de</strong>ssus. Laprocédure <strong>de</strong> recherche permettant d’atteindre ce résultat fait l’objet du chapitre 2. Mais il estégalement possible d’utiliser les résumés <strong>comme</strong> in<strong>de</strong>x pour accé<strong>de</strong>r aux enregistrements d’unebase <strong>de</strong> données et fournir <strong>de</strong>s résultats exacts ; ceci est réalisé au chapitre 6.1.2 Données du processus <strong>de</strong> résumé SAINTETIQ<strong>Le</strong>s informations en entrée du processus <strong>de</strong> résumé sont <strong>de</strong> <strong>de</strong>ux types : les données à résumer,et celles, désignées par « connaissances <strong>de</strong> domaine », donnant <strong>de</strong>s indications sur lamanière <strong>de</strong> les résumer.<strong>Le</strong>s données à résumer sont <strong>de</strong>s données relationnelles au sens <strong>de</strong>s bases <strong>de</strong> données relationnelles.À ce titre, elles sont organisées en enregistrements (ou « tuples ») qui suivent leschéma d’une relation R définie sur un ensemble d’attributs A = {A 1 , A 2 , . . . , A n }. Chaque attributA i est défini sur un domaine, noté D Ai , qui peut être numérique ou symbolique. Ainsi, unenregistrement t est un tuple formé d’une suite <strong>de</strong> valeurs suivant l’ordre prédéfini <strong>de</strong>s attributsA i . Il est noté :〈t.A 1 , t.A 2 , . . . , t.A n 〉 .

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!