Le resume linguistique de donnees structurees comme ... - APMD

More documents

Recommendations

Info

12 CHAPITRE 1 — Les résumés du modèle SAINTETIQOn trouve parmi ces méthodes les résumés quantifiés et les résumés à base de règles floues.Les résumés quantifiés [111, 117] utilisent des quantificateurs flous pour décrire les données.Par exemple, dans SUMMARYSQL [117], l’évaluation du résumé « summary la plupart fromEmployés where âge est jeune » fournit un degré de validité de la proposition « la plupart desemployés sont jeunes ». Ce degré caractérise la mesure dans laquelle la proposition est satisfaitepar les données. Les résumés à base de règles floues sont découverts par recherche d’associationsentre attributs ([26]) ou en exploitant des dépendances fonctionnelles floues [21, 46]. Ilspermettent d’obtenir, dans le cas des règles graduelles de Bosc et al. [26], des propositions sousla forme « plus l’âge des employés est âgé, plus leur salaire est élevé ».Il est également possible de résumer des enregistrements par généralisation successive desdescriptions. La structure de données obtenue est alors une hiérarchie. C’est le cas des hiérarchies« is-a » de Lee et Kim [97] et des résumés du modèle SAINTETIQ [115]. Les résumés deSAINTETIQ se distinguent en utilisant un même ensemble de termes linguistiques (le vocabulaire)sans assignation de niveau. Les descriptions générées sont donc unifiées sur le plan destermes (ou étiquettes) linguistiques. Ce modèle procède à un lissage des données grâce à uneabstraction par le vocabulaire, puis à une classification. Ces deux opérations sont décrites dansla suite de ce chapitre. On obtient ainsi des descriptions à plusieurs niveaux de détail différents.Dans ce sens, les résumés réalisent une approximation du dernier type évoqué ci-dessus. Laprocédure de recherche permettant d’atteindre ce résultat fait l’objet du chapitre 2. Mais il estégalement possible d’utiliser les résumés comme index pour accéder aux enregistrements d’unebase de données et fournir des résultats exacts ; ceci est réalisé au chapitre 6.1.2 Données du processus de résumé SAINTETIQLes informations en entrée du processus de résumé sont de deux types : les données à résumer,et celles, désignées par « connaissances de domaine », donnant des indications sur lamanière de les résumer.Les données à résumer sont des données relationnelles au sens des bases de données relationnelles.À ce titre, elles sont organisées en enregistrements (ou « tuples ») qui suivent leschéma d’une relation R définie sur un ensemble d’attributs A = {A 1 , A 2 , . . . , A n }. Chaque attributA i est défini sur un domaine, noté D Ai , qui peut être numérique ou symbolique. Ainsi, unenregistrement t est un tuple formé d’une suite de valeurs suivant l’ordre prédéfini des attributsA i . Il est noté :〈t.A 1 , t.A 2 , . . . , t.A n 〉 .
CHAPITRE 1 — Les résumés du modèle SAINTETIQ 13Par exemple, pour une relation R = (épaisseur, dureté, température), un enregistrementt = 〈 10, 38, 900 〉 présente une valeur du premier attribut (t.épaisseur = 10), puis unevaleur du deuxième (t.dureté = 38) et une valeur du troisième (t.température = 900).Une autre contrainte sur les données est leur complétude : toutes les valeurs d’attributsdoivent être présentes. Pour tout enregistrement t d’une relation R, la valeur t.A i est nécessairementconnue, élémentaire, précise et certaine. Les données incomplètes, incertaines ou malconnues ne sont donc pas traitées. En outre, les éventuelles relations entre enregistrements (dépendancesfonctionnelles, liens hiérarchiques, etc.) que pourraient gérer des bases de donnéesobjet par exemple, ne sont pas prises en compte.Les connaissances de domaine régissent l’interprétation qui sera faite des valeurs d’attributsdans la constitution des résumés. Elles sont constituées essentiellement de variables linguistiquesdéfinies sur les domaines d’attributs de la relation résumée. Elles sont données parl’utilisateur ou un expert, ceci afin de définir un langage de description des données dont lasémantique soit la plus proche possible de l’utilisateur. Ainsi, les connaissances de domainefournissent le vocabulaire d’expression des résumés.Les variables linguistiques, introduites par Zadeh en 1975 [152], permettent ici de décrireles valeurs d’un domaine d’attribut grâce à des caractérisations floues. Si A est un attribut etD A son domaine, on écrit habituellement « t.A = x » avec x une valeur du domaine D A . Enutilisant une variable linguistique, la valeur t.A du tuple t sur l’attribut A n’est plus une valeurspécifique x : on écrira « t.A = d » ou « t.A est d » avec d un descripteur linguistique (parexemple, « mince » dans la figure 1.1) issu de la variable linguistique sur l’attribut A.1fin mince moyen épais grand00.15 3 8 16 32épaisseur50 mmFigure 1.1 – Variable linguistique définie sur le domaine de l’attribut épaisseurFormellement, une variable linguistique est représentée par un triplet (A, U, D) avec Ule domaine de l’attribut A et D = {d i , 1 ≤ i ≤ n}, un ensemble de sous-ensembles flousde U [28]. Chaque terme d i est muni d’une fonction d’appartenance f di définie sur U et àvaleurs dans l’intervalle [0, 1]. Un sous-ensemble flou d i peut également être une partie ordinairedu domaine U [28], c’est-à-dire un ensemble classique (sa fonction d’appartenance n’est plus
Page 1: École Centrale de Nantes Universit
Page 5: W. Amenel Abraham VOGLOZINLe résum
Page 9: RemerciementsMes remerciements vont
Page 13 and 14: IntroductionProblématique, motivat
Page 15 and 16: Introduction 3du modèle SAINTETIQ,
Page 17: Introduction 5structure d’index b
Page 20 and 21: 8 CHAPITRE 1 — Les résumés du m
Page 22 and 23: 10 CHAPITRE 1 — Les résumés du
Page 28: 16 CHAPITRE 1 — Les résumés du
Page 40 and 41: 28 CHAPITRE 2 — Algorithme d’in
Page 56 and 57: 44 CHAPITRE 3 — Interrogation fle
Page 58 and 59: 46 CHAPITRE 3 — Interrogation fle
Page 60: 48 CHAPITRE 3 — Interrogation fle
Page 65 and 66: CHAPITRE 3 — Interrogation flexib
Page 75 and 76:
CHAPITRE 4Application des résumés
Page 77 and 78:
CHAPITRE 4 — Application des rés
Page 79 and 80:
Page 81 and 82:
Page 83 and 84:
Page 85 and 86:
Page 87 and 88:
Page 89 and 90:
Page 91 and 92:
Page 93 and 94:
Page 95 and 96:
Page 97 and 98:
Page 99 and 100:
Page 101:
Page 104 and 105:
92 CHAPITRE 5 — Indexation de don
Page 106 and 107:
Page 108 and 109:
Page 110 and 111:
Page 112 and 113:
100 CHAPITRE 5 — Indexation de do
Page 114 and 115:
Page 116 and 117:
Page 118 and 119:
Page 120 and 121:
Page 122 and 123:
Page 124 and 125:
Page 126 and 127:
Page 128 and 129:
Page 130 and 131:
Page 132 and 133:
Page 134 and 135:
Page 136 and 137:
Page 138 and 139:
Page 140 and 141:
128 CHAPITRE 6 — Implémentation
Page 142 and 143:
Page 144 and 145:
Page 146 and 147:
Page 148 and 149:
Page 150 and 151:
Page 152 and 153:
Page 154 and 155:
Page 156 and 157:
Page 158 and 159:
Page 161 and 162:
Conclusion généraleRésuméDurant
Page 163 and 164:
Conclusion générale 151tinence vi
Page 165 and 166:
Bibliographie[1] Paul M. AOKI.Gener
Page 167 and 168:
BIBLIOGRAPHIE 155Dans Proceedings o
Page 169 and 170:
BIBLIOGRAPHIE 157CoBase: a scalable
Page 171 and 172:
BIBLIOGRAPHIE 159ACM TODS, 4(3):315
Page 173 and 174:
BIBLIOGRAPHIE 161R-trees: a dynamic
Page 175 and 176:
BIBLIOGRAPHIE 163Dans Proeedings of
Page 177 and 178:
BIBLIOGRAPHIE 165Thèse de doctorat
Page 179 and 180:
BIBLIOGRAPHIE 167[135] THE POSTGRES
Page 181:
BIBLIOGRAPHIE 169Information and Co
Page 185 and 186:
Liste des figures—Corps du docume
Page 187 and 188:
Table des matières—Corps du docu
Page 189 and 190:
TABLE DES MATIÈRES 1775 Indexation
Page 192:
Le résumé linguistique de donnée
show all

Le resume linguistique de donnees structurees comme ... - APMD

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?