Le resume linguistique de donnees structurees comme ... - APMD
Le resume linguistique de donnees structurees comme ... - APMD
Le resume linguistique de donnees structurees comme ... - APMD
- No tags were found...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
2 Introductionlation ou <strong>de</strong>s problèmes NP-complets dont une solution approchée peut être obtenue par <strong>de</strong>salgorithmes polynomiaux. Parmi les approches utilisées pour atténuer l’impact du volume <strong>de</strong>données, on trouve les métho<strong>de</strong>s <strong>de</strong> résumé par généralisation [26, 53, 97, 115, 150].Un autre problème auquel sont confrontés <strong>de</strong>s traitements informatiques est celui <strong>de</strong> la difficultéà modéliser <strong>de</strong>s représentations « humaines » ou « naturelles ». Mentionnons en premierlieu la notion <strong>de</strong> gradualité, qui revêt divers sens, parmi lesquels une évolution progressived’un état, ou le <strong>de</strong>gré <strong>de</strong> satisfaction variable d’une caractéristique. La gradualité ne peut pasêtre reflétée par la dichotomie <strong>de</strong>s systèmes binaires. <strong>Le</strong>s nuances et autres gradations sont ainsioccultées, donnant lieu à un effet <strong>de</strong> seuil. Par exemple, la condition « il faut avoir une taille <strong>de</strong>172 cm pour postuler » exclut la taille <strong>de</strong> 170 cm, néanmoins proche <strong>de</strong> 172 cm. De même, lecaractère « jeune » d’une personne ne peut pas être nuancé dans un mo<strong>de</strong> binaire : on est soit« jeune », soit « pas jeune » mais on ne peut être rien d’autre, encore moins être les <strong>de</strong>ux àla fois. Ensuite, la notion <strong>de</strong> préférence, qui désigne un souhait plutôt qu’une contrainte forte,n’est pas un élément <strong>de</strong> base <strong>de</strong>s SGBD, en plus d’être difficile à modéliser.La théorie <strong>de</strong>s sous-ensembles flous, proposée par Za<strong>de</strong>h [151] est une généralisation <strong>de</strong> lathéorie <strong>de</strong>s ensembles. Cet outil mathématique définit le concept d’appartenance partielle à unensemble et offre une solution aux problèmes <strong>de</strong> modélisation dûs à l’effet <strong>de</strong> seuil. Il <strong>de</strong>vientainsi possible d’exprimer un caractère graduel, phénomène courant dans le langage naturel,par exemple sur les termes <strong>de</strong>scriptifs (« grand », « jeune », « léger », etc.). On exprime plusfacilement <strong>de</strong>s transitions graduelles, <strong>de</strong>s situations intermédiaires, <strong>de</strong>s informations imprécisesou <strong>de</strong>s classes aux limites mal définies. La théorie <strong>de</strong>s sous-ensembles flous est utilisée partoutes les métho<strong>de</strong>s <strong>de</strong> résumé qui ont été recensées. Elle permet à ces métho<strong>de</strong>s <strong>de</strong> décrire lesdonnées par <strong>de</strong>s termes « <strong>linguistique</strong>s » car issus du langage naturel. <strong>Le</strong>s résumés produits sontalors appelés <strong>de</strong>s « résumés <strong>linguistique</strong>s ».<strong>Le</strong> travail présenté dans ce rapport <strong>de</strong> thèse est lié à la réduction <strong>de</strong>s données et à la <strong>de</strong>scription<strong>linguistique</strong> <strong>de</strong> données. Il traite en effet <strong>de</strong>s résumés <strong>linguistique</strong>s <strong>de</strong> données structuréesdu modèle SAINTETIQ. Ce modèle utilise un ensemble <strong>de</strong> termes <strong>linguistique</strong>s, dont lamodélisation est explicitement graduelle, pour décrire <strong>de</strong>s données structurées. Il a égalementpour objectif <strong>de</strong> produire <strong>de</strong>s « versions » con<strong>de</strong>nsées <strong>de</strong>s données. <strong>Le</strong> résultat du processus <strong>de</strong>résumé est donc une synthèse du contenu d’une table relationnelle. C’est à ce titre que ce modèles’inscrit dans l’optique <strong>de</strong> réduction <strong>de</strong>s données, <strong>comme</strong> les autres métho<strong>de</strong>s <strong>de</strong> résumés<strong>linguistique</strong>s. Il faut cependant noter qu’une fois les résumés produits, aucune exploitation ultérieuren’en est faite dans le cas général. Nous proposons ici d’aller plus loin avec les résumés