Interrogation récursive du Web sémantique - CoDE - Université ...

More documents

Recommendations

Info

4.4 La fédération de requêtes avec découverte active (ADQF) 36 renvoient alors les résultats correspondants. Le premier serveur peut alors agréger ces sous-résultats et renvoyer les résultats finaux à l’utilisateur. C’est donc une exécution distribuée et non centralisée, comme c’était le cas pour les entrepôts de données et les moteurs de recherche. Cette méthode présente l’avantage qu’il n’est plus nécessaire de garder les données copiées synchronisées, puisque l’on accède directement à la source. De plus, cela ne nécessite pas d’espace disque supplémentaire redondant. Elle est en revanche beaucoup plus lente, puisqu’elle nécessite beaucoup d’accès réseau, ce qui ralentit considérablement le temps de la requête. De plus, l’ensemble de données interrogeables de cette méthode est limité aux sources de données connues. L’exhaustivité de la fédération de requêtes est de 100%, sauf dans le cas où l’interface d’un LDS est inaccessible sur le réseau (panne, etc.). L’interrogation de ces LDS s’exprime généralement par une requête SPARQL et se fait typiquement via leur point d’accès SPARQL. L’exécution d’une telle requête SPARQL implique souvent beaucoup de jointures (une par Triple Pattern dans le pire des cas), or ces jointures allongent drastiquement le temps de requête, puisqu’effectuées sur un accès réseau. Au vu de la croissance des données pu- bliées sur le Web de données, et vu la complexité potentielle des requêtes SPARQL, il est donc nécessaire d’établir des méthodes d’optimisation pour pallier cette lenteur. Les méthodes d’optimisation traditionnelles de bases de données ne sont pas spéciale- ment applicables dans le cas du Web de données, car elles reposent sur la connaissance préalable de la structure des données contenues dans les sources de données distantes. Mais alors que les bases de données possèdent des données structurées (les schémas sont connus d’avance), le Web de données présente des données semi-structurées, et il n’existe donc pas de tel schéma. Il est donc nécessaire d’établir de nouveaux algorithmes d’optimisation, et des recherches sont actuellement effectuées en ce sens [11, 21, 22]. 4.4 La fédération de requêtes avec découverte active (ADQF) Les trois approches présentées précédemment impliquent la connaissance préalable des sources de données que l’on va interroger, ce qui restreint la portée des applications développées, puisque celles-ci sont limitées à l’utilisation de ces sources connues. Afin d’utiliser tout le potentiel du Web de données, il est donc nécessaire d’implémenter des méthodes de découverte active des sources de données, permettant ainsi de découvrir de nouvelles sources durant l’exécution de la requête elle-même.
4.5 Le Link Traversal, une approche d’interrogation récursive 37 Une première approche dans ce sens est la fédération de requêtes avec découverte active (Active Discovery Query Federation, ou ADQF). Elle est basée sur le même principe que la fédération de requêtes présentées ci-dessus, mais rajoute à cela une découverte active de nouveaux LDS non connus exposés par un point d’accès SPARQL, qui seraient alors interrogeables en plus des sources de données connues d’avance. Cette méthode présente les avantages de la fédération de requêtes (distribution de la requête, non-redondance de l’information) et offre en outre des résultats plus complets grâce à la découverte active de nouvelles sources. Cette découverte de nouvelles sources peut se faire soit au moment de la requête elle-même, soit à l’avance de manière pro- active (plus proche du fonctionnement d’un moteur de recherche, sauf qu’il n’y a ici pas d’indexation ni de stockage des données, mais seulement des points d’accès SPARQL). Elle peut soit s’opérer via l’interrogation d’un dépôt central (comme l’interrogation d’un moteur de recherche par exemple), soit en suivant les liens RDF précédemment décou- verts. En contrepartie, l’ADQF présente le même problème que la fédération de requêtes, c’est-à-dire la non-connaissance préalable de la structure et de la quantité de données contenues dans les sources de données. Pour y remédier, il faudrait récupérer ces infor- mations au moment de la requête et adapter le plan d’exécution en fonction, par exemple en découpant la requête en un nombre encore plus élevé de sous-requêtes, afin de la dis- tribuer davantage. Cette nécessité est valable pour la fédération de requêtes passive et active, mais est d’autant plus vraie dans le cas de la découverte active. Selon Olaf Hartig [11], il n’existe pas encore d’implémentation complète de cette approche. Cependant, ce dernier pose déjà les bases théoriques de son fonctionnement. 4.5 Le Link Traversal, une approche d’interrogation récur- sive Comme expliqué au début du point précédent, les trois premières approches présen- tées limitent les données interrogées aux sources de données connues, et il est nécessaire d’implémenter des méthodes de découverte active de sources de données pour profiter de tout le potentiel du Web de données. L’ADQF en est une et la traversée de liens (Link Traversal) en est une autre, encore plus distribuée que la précédente. Dans la suite de ce mémoire, nous appellerons cette approche par sa dénomination anglophone, Link Traversal.
Page 1 and 2: Interrogation récursive du Web sé
Page 3 and 4: TABLE DES MATIÈRES 3 Table des mat
Page 5 and 6: Chapitre 1 Introduction Le Web sém
Page 7 and 8: Chapitre 2 Contexte Actuellement, l
Page 9 and 10: 2.2 Web sémantique 9 2.2 Web séma
Page 11 and 12: 2.2 Web sémantique 11 De même, un
Page 13 and 14: 2.3 Linked Data 13 Ceci conclut les
Page 15 and 16: 2.3 Linked Data 15 concernant la re
Page 17 and 18: 2.4 Linking Open Data 17 de donnée
Page 19 and 20: 2.4 Linking Open Data 19 Figure 2.7
Page 21 and 22: 3.1 Ressource Description Framework
Page 23 and 24: 3.1 Ressource Description Framework
Page 25 and 26: 3.4 Les Triple Stores 25 En complé
Page 27 and 28: 3.5 Le langage d’interrogation SP
Page 29 and 30: 3.6 Le framework Jena 29 est donc u
Page 31 and 32: Chapitre 4 Stockage et interrogatio
Page 33 and 34: sur base de l’ensemble de triplet
Page 35: 4.2 Les moteurs de recherche 35 Pou
Page 39 and 40: 4.5 Le Link Traversal, une approche
Page 41 and 42: 5.1 La librairie 41 d’améliorati
Page 43 and 44: 5.3 Ses principes de fonctionnement
Page 55 and 56: Chapitre 6 Amélioration du temps d
Page 57 and 58: 6.1 Parallélisation des branches d
Page 59 and 60: 6.3 Interrogation parallèle régul
Page 61 and 62: 6.3 Interrogation parallèle régul
Page 63 and 64: Chapitre 7 Résultats de l’améli
Page 65 and 66: 7.2 Requête 1 65 gain absolu avait
Page 67 and 68: 7.3 Requête 2 67 7.3 Requête 2 La
Page 69 and 70: 7.4 Conclusions sur les résultats
Page 71 and 72: Chapitre 8 Perspectives futures Dan
Page 73 and 74: 8.3 Fusion et nettoyage des donnée
Page 75 and 76: elativement complexe et n’est pas
Page 77 and 78: BIBLIOGRAPHIE 77 Bibliographie [1]
Page 79 and 80: Annexe A Résulats complets des tes
Page 81 and 82: Requête 1 Solution 2: ( ?author =
Page 83 and 84: Requête 1 Solution 4: ( ?author =
Page 85 and 86: Requête 2 Solution 2: ( ?name = "C
Page 87 and 88:
Requête 2 Solution 4: ( ?name = "C
Page 89 and 90:
Requête 2 Solution 6: ( ?name = "D
Page 91 and 92:
Requête 2 Solution 8: ( ?name = "G
Page 93 and 94:
Requête 2 Solution 10: ( ?name = "
Page 95 and 96:
Page 97 and 98:
Page 99 and 100:
Page 101 and 102:
Page 103 and 104:
Page 105 and 106:
Page 107 and 108:
Page 109 and 110:
show all

Interrogation récursive du Web sémantique - CoDE - Université ...

Create successful ePaper yourself

Delete template?

Save as template?