144 CHAPITRE 6 — Implémentation <strong>de</strong>s résumés SAINTETIQ en tant que métho<strong>de</strong> d’accèsTable 6.13 – Statistiques pour ’d0406’Attr. Req.E/STemps d’exécutionMin Max Moyenne Écart-type Min Max Moyenne Écart-type1 667 358 457 420,51 32,57 80 1042 861,25 101,142 2001 87 457 337,71 122,74 10 140 67,15 35,273 2001 23 457 224,86 147,47 0 101 35,77 36,294 667 10 103 46,15 17,33 0 11 1,59 3,66Total 5336 10 457 269,29 159,84 0 1042 146,45 275,13Table 6.14 – Statistiques pour ’d0804’Attr. Req.E/STemps d’exécutionMin Max Moyenne Écart-type Min Max Moyenne Écart-type1 40 1437 1888 1683,23 154,80 260 1462 1082,53 204,342 280 707 1888 1577,31 300,10 70 331 248,46 66,163 840 334 1888 1454,07 397,81 20 331 213,93 86,714 1400 197 1888 1307,23 475,38 10 331 183,03 101,515 1400 128 1888 1127,15 534,79 0 641 151,79 111,886 840 87 1888 897,46 565,78 0 361 107,61 107,027 280 42 1888 582,40 532,53 0 291 61,14 92,008 40 37 147 82,20 24,79 0 10 1,25 3,35Total 5120 37 1888 1183,35 555,92 0,00 1462,00 169,70 138,46du simple au triple pour 4 attributs, il varie à peine dans le tableau 6.10 pour 2 attributs, etest même plus important pour 1 attribut alors que la partition plus fine laisserait supposer lecontraire.<strong>Le</strong> nombre important d’accès disque s’explique, en partie, par la structure du fichier d’in<strong>de</strong>x.Lorsque le test d’un nœud révèle que <strong>de</strong>s résultats pourraient être trouvés dans le sous-arbre, ilest certain que chacun <strong>de</strong>s nœuds fils sera également testé. Dans un parcours préfixé d’un arbre,seul le parent et le premier fils se suivent (cf. figure 6.3). Ceci impose parfois un accès disquesupplémentaire pour chaque autre fils, éventuellement infructueux si le fils ne présente aucune
CHAPITRE 6 — Implémentation <strong>de</strong>s résumés SAINTETIQ en tant que métho<strong>de</strong> d’accès 145correspondance. Cependant, la taille <strong>de</strong> la structure d’un nœud interne est relativement faible(grâce à l’utilisation <strong>de</strong>s indices pour représenter l’intension – voir section 6.2) et épargne uncertain nombre d’accès disque lorsque le parcours atteint les niveaux les plus bas <strong>de</strong> l’arbre.À ces niveaux, une entrée est <strong>de</strong> taille minimale et les blocs physiques lus contiennent plusd’entrées <strong>de</strong> résumés. En conclusion, le nombre d’E/S suggère une autre organisation du fichierd’in<strong>de</strong>x. Celle-ci consisterait à reporter l’intension <strong>de</strong>s nœuds fils au sein <strong>de</strong> l’entrée du nœudparent. Rappelons que les tests d’appariement n’utilisent que l’intension du résumé. En rendantdisponibles en un même accès disque toutes les intensions qui seront testées, on peut escompterune diminution notable du nombre d’E/S.On peut remarquer que la structure du fichier reproduit la structure logique issue <strong>de</strong> la classificationqu’opère le processus <strong>de</strong> résumé. L’équivalence entre nœud physique et nœud logiquequ’on peut observer dans les in<strong>de</strong>x classiques n’est pas reproduite ici. <strong>Le</strong>s accès disque n’étantpas optimisés pour tenir compte <strong>de</strong> cette équivalence, leur nombre est élevé.Toujours à propos du nombre d’accès disque, le passage d’une version XML vers un fichierbinaire avait pour but <strong>de</strong> compacter la hiérarchie <strong>de</strong> résumés représentée. Il est certain qu’unemodification <strong>de</strong>s types <strong>de</strong> données utilisés permettrait <strong>de</strong> réaliser un meilleur compactage dufichier. Par exemple, le nombre moyen <strong>de</strong> fils d’un résumé est inférieur à cinq pour les jeux<strong>de</strong> données du tableau 6.5, et le nombre maximal <strong>de</strong> fils d’un nœud est borné par le cardinalmaximal d’un domaine réécrit <strong>de</strong> la base <strong>de</strong> connaissances (voir chapitre 1 pour la définitiond’un domaine réécrit). Par conséquent, un type BYTE (1 octet) plutôt que INT4 (4 octets)fait gagner 75% du volume sur ce seul champ du nombre <strong>de</strong> fils ; ce qui, rapporté au nombre<strong>de</strong> résumés dans une hiérarchie, constitue un volume non négligeable, la même opération <strong>de</strong>changement <strong>de</strong> type pouvant être répétée pour d’autres champs du fichier.Enfin, une part <strong>de</strong>s accès disque vient du fait que le terme d’une recherche peut intervenirtardivement dans le parcours <strong>de</strong> la hiérarchie <strong>de</strong> résumés, car une réponse vi<strong>de</strong> ne peut êtredéterminée qu’après la phase <strong>de</strong> filtrage. Notons que le filtrage requiert l’examen <strong>de</strong> chaqueenregistrement et probablement <strong>de</strong>s lectures supplémentaires, mais celles-ci ne sont pas décomptéesdans les tableaux 6.9 à 6.11 <strong>de</strong> résultats. En effet, l’accès aux tables <strong>de</strong> données étantgéré par le SGBD, l’impact du filtrage se fait ressentir sur les temps <strong>de</strong> réponse, mais pas sur lenombre d’accès disque présenté.