84 CHAPITRE 4 — Application <strong>de</strong>s résumés SAINTETIQ à l’interrogation flexible1t 1 t 2 t3t 4t 5 t 61l 1 ll 4l 230DA0D AFigure 4.8 – Partition P 1 du domaine D AFigure 4.9 – Partition P 2 du domaine D AConsidérons également que l’expression <strong>de</strong>s résumés est faite grâce à la partition P 1 . Sur ledomaine D A , le terme l (<strong>de</strong> P 2 ) dénote une valeur dans l’intervalle ]a, b[ tandis que le terme t(<strong>de</strong> P 1 ) décrit l’intervalle ]c, d[ (voir fig. 4.10).Trois situations distinctes où les intervalles se recouvrent peuvent survenir :1. l est entièrement couvert par t ;2. t est couvert, partiellement ou totalement, par l ;3. les intervalles du domaine définis par t et l sont i<strong>de</strong>ntiques (leurs supports sont égaux).t 1 tl 2tt t21t ltlc a b d D c ab d c a b d1. AD2. AD3.AFigure 4.10 – Situations relatives <strong>de</strong>s <strong>de</strong>scripteurs t et l sur un même domaineVu que nous traitons spécifiquement du cas où le vocabulaire est différent, la situation 3 estmoins plausible que les autres. Elle est également plus simple : si les supports sont égaux, lestermes t et l sont équivalents et tous les principes <strong>de</strong> l’interrogation approchée, exposés dans lechapitre 2 restent inchangés. Dans les autres situations, une réécriture <strong>de</strong> la requête s’imposepour tenir compte du vocabulaire initial <strong>de</strong>s résumés. Nous proposons une substitution dontle but est capturer tous les tuples décrits par le terme l du vocabulaire personnalisé. Ainsi, onsubstitue à l la plus petite union <strong>de</strong> termes <strong>de</strong> V dont le support contient celui <strong>de</strong> l. La requêteQ ∗ initiale <strong>de</strong>vient :dans la situation 1, Q 1 : SELECT * FROM R WHERE A = tdans la situation 2, Q 2 : SELECT * FROM R WHERE A IN (t, t 1 , t 2 )La réécriture <strong>de</strong> la requête ne pose en elle-même pas <strong>de</strong> problème au niveau <strong>de</strong> la sémantiquepuisque les requêtes réécrites sont <strong>de</strong>s requêtes vali<strong>de</strong>s. Cependant, elle soulève une questionimportante liée aux intervalles induits sur le domaine D A :« <strong>comme</strong>nt distinguer dans ]c, d[ les valeurs qui ne correspon<strong>de</strong>nt qu’à ]a, b[ ? »
CHAPITRE 4 — Application <strong>de</strong>s résumés SAINTETIQ à l’interrogation flexible 85Autrement dit, lorsqu’une requête précise l <strong>comme</strong> critère, l’on sait que ce critère se réécritpar t, t 1 et t 2 , en accord avec notre politique <strong>de</strong> réécriture. Mais les objets décrits par t, t 1 ett 2 ne sont pas tous nécessairement décrits par l. Ce problème, traité en section 4.4.2, se poseégalement lorsque l’interrogation est intégrée à un SGBD (section 6.1.1).La difficulté <strong>de</strong> la mise en correspondance <strong>de</strong>s <strong>de</strong>ux partitions rési<strong>de</strong> dans le cas 2. D’unemanière générale, on note qu’une requête réécrite contient un nombre plus grand <strong>de</strong> termes.Dans le cas où la requête fait apparaître un seul attribut, le critère <strong>de</strong> sélection est disjonctif ets’exprime sous la forme A = l 1 ∨l 2 ∨. . .∨l n . La réécriture donne lieu à une substitution i<strong>de</strong>ntiqueà celle évoquée plus haut. La nouvelle requête reste disjonctive, avec un ensemble <strong>de</strong> termesa priori plus grand puisque la situation 2 prévaut. Dans l’éventualité d’une sélection multiattributs(par exemple, A 1 = l 1 ∧ A 2 = l 2 ), la réécriture reste valable puisque la substitution estplus générale que la requête initiale. Tous les résultats sont donc sélectionnés.Cependant, dès qu’une substitution intervient, <strong>de</strong>s éléments étrangers à l’intervalle ]a, b[qu’implique un terme l (voir figure 4.10) peuvent être présents parmi les résultats. Il suffit pourcela que ces éléments fassent également partie d’un autre sous-ensemble flou <strong>de</strong> la réécriture, t 1par exemple dans le cas 2 <strong>de</strong> la figure 4.10. La présence <strong>de</strong> résultats non sollicités est acceptable1) s’il est possible <strong>de</strong> distinguer ces « faux positifs » ou 2) si l’on admet que le résultat <strong>de</strong> cetteinterrogation (avec un autre vocabulaire que celui <strong>de</strong> la construction <strong>de</strong>s résumés) peut êtreapproximatif. La propriété <strong>de</strong> complétu<strong>de</strong> <strong>de</strong> la sélection est alors maintenue (tous les résultatssont sélectionnés) mais pas la propriété d’adéquation qui spécifie que la réponse ne contientaucun résultat non vali<strong>de</strong>.4.4.2 De la possibilité <strong>de</strong> distinguer les faux positifsDéterminer si un élément X <strong>de</strong> l’ensemble <strong>de</strong>s résultats d’une interrogation est un résultatnon sollicité revient à déterminer si la valeur X.A appartient à l’intervalle [a, b] sur le domaineD A induit par le critère <strong>de</strong> recherche l sur l’attribut A. Sachant que ces valeurs d’attribut nesont pas disponibles au sein <strong>de</strong> la hiérarchie <strong>de</strong> résumés, l’accès à la base <strong>de</strong> données <strong>de</strong>vientnécessaire. En effet, un résumé ne conserve, pour une étiquette <strong>linguistique</strong> donnée, qu’unevaleur (le <strong>de</strong>gré <strong>de</strong> satisfaction maximale) associée au domaine <strong>de</strong> l’attribut concerné. Cettevaleur réelle qualifie la <strong>de</strong>scription <strong>de</strong> tous les objets du résumé par l’étiquette <strong>linguistique</strong>.C’est une valeur d’ensemble qui n’est pas spécifique à l’élément X.Si l’accès à la base n’est pas possible, on admettra que les faux positifs sont inhérents à cetteapproche <strong>de</strong> l’utilisation d’un vocabulaire différent. Dans le cas contraire, ils sont écartés lors <strong>de</strong>l’étape <strong>de</strong> filtrage, post-traitement <strong>de</strong> la recherche (voir section 6.1.1, chapitre 6). Une réponse