13.07.2015 Views

appariement de données géographiques utilisant - Recherche - Ign

appariement de données géographiques utilisant - Recherche - Ign

appariement de données géographiques utilisant - Recherche - Ign

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

APPARIEMENT DE DONNÉESGÉOGRAPHIQUES UTILISANTLA THÉORIE DES CROYANCESpar Ana-Maria RaimondLaboratoire COGITInstitut géographique national,2-4 avenue Pasteur 94165 Saint-Mandé Ce<strong>de</strong>xana-maria.olteanu@ign.frDans un contexte général d’intégration <strong>de</strong> bases <strong>de</strong> données géographiques, nous présentons dans cetarticle une approche d’<strong>appariement</strong> <strong>de</strong> données, basée sur la théorie <strong>de</strong>s fonctions <strong>de</strong> croyance. Les don -nées géographiques présentent <strong>de</strong>s imperfections et celles-ci doivent être prises en compte dans le proces -sus d’<strong>appariement</strong> <strong>de</strong> données. Afin d’apparier les données géographiques, nous avons défini et combinétrois critères d’<strong>appariement</strong> <strong>de</strong> données, basés sur la géométrie, l’information sémantique et l’informationtoponymique. Nous avons testé notre approche sur <strong>de</strong>ux jeux <strong>de</strong> données représentant les points remar -quables du relief. Les résultats ont été évalués en termes <strong>de</strong> précision et <strong>de</strong> rappel ; <strong>de</strong>s valeurs <strong>de</strong> précisionet <strong>de</strong> rappel proches <strong>de</strong>s 100% ont été obtenues.Mots-clés:<strong>appariement</strong> <strong>de</strong> données, théorie <strong>de</strong>s fonctions <strong>de</strong> croyance, ontologie.1 I n t r o d u c t i o nL’intégration <strong>de</strong> bases <strong>de</strong> données géographiquesest un sujet qui suscite un intérêt dans le mon<strong>de</strong> <strong>de</strong>l’information géographique <strong>de</strong>puis plusieurs années.Actuellement, il existe <strong>de</strong> nombreuses bases <strong>de</strong> donnéesgéographiques (BDG) qui couvrent le mêmeterritoire du mon<strong>de</strong> réel à <strong>de</strong>s échelles géométriqueset sémantiques différentes. La multiplicité <strong>de</strong>s BDGest due à l’existence d’un nombre croissant <strong>de</strong> donnéesgéographiques. En effet, leur saisie se fait plusfacilement grâce à l’arrivée <strong>de</strong> nouveaux outils, lesbesoins en données géographiques précises sont enpleine croissance et les rythmes <strong>de</strong> mise à jour sontdifférents selon les thèmes et besoins. Les donnéesgéographiques sont modélisées par <strong>de</strong>s géométriesdifférentes (par exemple, une rivière peut être modéliséepar une géométrie linéaire ou bien par une géométriesurfacique), elles sont <strong>de</strong>stinées à répondre àplusieurs applications (visualisation, analyse) et ellesproviennent <strong>de</strong> différents mo<strong>de</strong>s d’acquisition(sources, processus). Il y a une indépendance entreles bases <strong>de</strong> données géographiques existantes(Ruas 2002), ce qui pose certains problèmes à la foisaux producteurs et aux utilisateurs.jour, l’évaluation <strong>de</strong> la qualité <strong>de</strong>s données ainsi quela détection <strong>de</strong>s incohérences), et d’autre part auxbesoins <strong>de</strong>s utilisateurs (étu<strong>de</strong> <strong>de</strong> différentes zonesadjacentes ou pour faciliter les analyses mêlant différentspoints <strong>de</strong> vue).Tous ces besoins conduisent à la fois les producteurset les utilisateurs à vouloir établir <strong>de</strong>s liensentre les bases <strong>de</strong> données géographiques, processusnommé <strong>appariement</strong> <strong>de</strong> données. Cet article seconcentre sur l’<strong>appariement</strong> <strong>de</strong> données géographiquesen s’appuyant sur <strong>de</strong>s connaissancesimparfaites qui viennent <strong>de</strong>s spécifications ou <strong>de</strong>sdonnées elles-mêmes. Nous avons utilisé la théorie<strong>de</strong> fonctions <strong>de</strong> croyance (Shafer 1976) pour fusionnerplusieurs connaissances provenant <strong>de</strong> différentscritères tels que la géométrie, la toponymie et lasémantique, afin <strong>de</strong> trouver les correspondancesentre les objets géographiques homologues appartenantà <strong>de</strong>ux BDG à différentes échelles. Notons quedans la théorie <strong>de</strong>s croyances, le terme <strong>de</strong> sourced’information est utilisé pour définir les connaissancesd’une source <strong>de</strong> données, tandis que danscet article nous utilisons le terme <strong>de</strong> critère d’information.Dans ce contexte, le processus d’intégration <strong>de</strong>données semble être une solution, en répondantd’une part aux besoins <strong>de</strong>s producteurs (la mise àL’article est organisé <strong>de</strong> la manière suivante. Dansun premier temps, nous situons notre travail par rapportaux travaux déjà existants. La problématique38CFC (N°194 - Décembre 2007)


étant définie, nous décrivons dans la section 3 notreapproche basée sur la théorie <strong>de</strong>s fonctions <strong>de</strong>croyance. L’initialisation <strong>de</strong>s masses <strong>de</strong> croyance estabordée dans la section 4. Enfin, <strong>de</strong>s résultats sontprésentés dans la section 5.2 État <strong>de</strong> l’art sur l’<strong>appariement</strong> <strong>de</strong>données géographiquesL’<strong>appariement</strong> <strong>de</strong> données géographiques est unoutil qui permet d’associer les données <strong>de</strong> <strong>de</strong>ux ouplusieurs BDG et <strong>de</strong> produire <strong>de</strong>s liens explicitesentre les objets homologues (Walter et Fritsch 1999).Il est utilisé dans plusieurs applications telles que l’intégration<strong>de</strong> données géographiques (Devogele1997; Mustière 2006), la mise à jour automatique(Gombosi et al. 2003), l’analyse <strong>de</strong> la qualité <strong>de</strong>sdonnées (Bel Hadj Ali 2001) ou bien la détection <strong>de</strong>sincohérences entre les BDG (Sheeren et al. 2004).Dans la littérature il existe <strong>de</strong> nombreux algorithmesqui s’avèrent efficaces pour certains types <strong>de</strong>données ou dans <strong>de</strong>s zones particulières. Les algorithmesd’<strong>appariement</strong> s’appuient sur plusieurs facteursdont : la géométrie et les attributs <strong>de</strong>s objets,les relations topologiques existant entre les objets etl’échelle <strong>de</strong> la base <strong>de</strong> données. Dans cette section,nous présentons différents algorithmes d’<strong>appariement</strong><strong>de</strong> données géographiques existant dans la littérature.Nous distinguons <strong>de</strong>ux types d’approches :d’une part les approches pour les points isolés, c’està-dire<strong>de</strong>s données qui sont indépendantes les unes<strong>de</strong>s autres, et d’autre par les approches pour lesréseaux.L’<strong>appariement</strong> <strong>de</strong> données isolées est basé principalementsur <strong>de</strong>s mesures <strong>de</strong> distances entre lesgéométries. (Bel Hadj Ali 2001) propose un algorithmed’<strong>appariement</strong> adapté aux données surfaciquess’appuyant sur la géométrie et sur <strong>de</strong>s mesures prenanten compte les surfaces et les contours, tellesque l’intersection, la distance surfacique, etc. Dans(Beeri et al 2004), une approche probabiliste estadoptée, basée sur <strong>de</strong>s critères purement géométriques.L’<strong>appariement</strong> peut aussi comparer les noms<strong>de</strong>s objets lorsque <strong>de</strong>s toponymes sont présents(Levensthein 1965; Cohen et al. 2003). Pour lesréseaux linéaires, plusieurs algorithmes d’<strong>appariement</strong>ont été proposés dans la littérature. (Walter etFritsch 1999) propose une métho<strong>de</strong> statistique quiapparie <strong>de</strong>s réseaux routiers <strong>de</strong> <strong>de</strong>ux BDG différentesà la même échelle, et qui est basée sur <strong>de</strong>scritères géométriques et topologiques. D’une manièregénérale, les algorithmes d’<strong>appariement</strong> sont spécifiquesaux données et aux BDG à apparier et ilssont basés sur <strong>de</strong>s critères différents. Ainsi, il existe<strong>de</strong>s algorithmes qui s’appliquent aux BDG représentantune même réalité à <strong>de</strong>s niveaux d’abstractiondifférents (Devogele 1997 ; Mustière 2006) ou aumême niveau d’abstraction (Voltz 2006).La comparaison <strong>de</strong> la sémantique au niveau <strong>de</strong>sclasses est nécessaire pour apparier les schémas etelle est également utile pour apparier les données,même si elle est très peu utilisée. La comparaison <strong>de</strong>la sémantique s’appuie sur les ontologies (Gesbert2005). Nous pouvons noter que les métho<strong>de</strong>s d’<strong>appariement</strong>,qu’elles soient appliquées sur <strong>de</strong>s donnéesponctuelles, linéaires ou surfaciques ouqu’elles soient utilisées pour apparier <strong>de</strong>s jeux <strong>de</strong>données à la même échelle ou à <strong>de</strong>s échelles différentes,sont basées sur un enchaînement <strong>de</strong> différentscritères. Ces <strong>de</strong>rniers, fondés sur la géométrie,sur les attributs ou sur les graphes, sont appliqués,en général, l’un après l’autre. De plus, la majorité <strong>de</strong>sapproches ne prennent pas en compte les imperfectionsdans les données.En conséquence, notre objectif est <strong>de</strong> trouver unemétho<strong>de</strong> d’<strong>appariement</strong> <strong>de</strong> données qui prend encompte toutes les imperfections (incertitu<strong>de</strong>, incomplétu<strong>de</strong>,imprécision) et tous les critères en mêmetemps. Nous considérons que la théorie <strong>de</strong>scroyances est pertinente pour atteindre ces objectifs,parce que, d’une part, elle modélise toutes les imperfectionsy compris l’incomplétu<strong>de</strong>, et que, d’autrepart, elle permet <strong>de</strong> combiner les critères et les hypothèsesafin <strong>de</strong> prendre une décision.3 Le contexte général <strong>de</strong> la théorie<strong>de</strong>s croyancesLa théorie <strong>de</strong>s croyances, nommée aussi le modèle<strong>de</strong> Dempster-Shafer ou la théorie <strong>de</strong> l’évi<strong>de</strong>nce, aété introduite par Shafer (Shafer 1976) à la suite <strong>de</strong>stravaux <strong>de</strong> Dempster sur les probabilités inférieure etsupérieure (Dempster1967), en se basant sur <strong>de</strong>sfonctions <strong>de</strong> croyance.3.1 Le cadre <strong>de</strong> discernementLa théorie <strong>de</strong>s croyances considère un univers <strong>de</strong>référence appelé le cadre <strong>de</strong> discernement ,={H1, H2,…, HN}, composé d’un ensemble <strong>de</strong> Nhypothèses. À partir du cadre <strong>de</strong> discernement,CFC (N°194 - Décembre 2007)39


notons 2 l’ensemble <strong>de</strong> tous les sous-ensembles <strong>de</strong>défini <strong>de</strong> la manière suivante: (1)21 2 1 2 1où, {Hi, Hj} représente l’hypothèse que la solutionà un problème donné est une <strong>de</strong>s <strong>de</strong>ux c’est-à-diresoit Hi soit Hj. Nous appelons cette hypothèse uneproposition.La théorie <strong>de</strong>s croyances est basée sur <strong>de</strong>s fonctions<strong>de</strong> croyance. Une fonction <strong>de</strong> croyance associeà une proposition, A 2 , une valeur nommée masse<strong>de</strong> croyance et notée m(A) qui représente le <strong>de</strong>gréavec lequel on croit en cette proposition. Parexemple, si nous considérons que le processus d’<strong>appariement</strong>est basé sur la géométrie <strong>de</strong>s objets géographiques,plus les objets à comparer sont proches,plus on croit qu’ils sont homologues et en conséquencela masse <strong>de</strong> croyance a une valeur élevée.Les fonctions <strong>de</strong> croyance sont définies <strong>de</strong> la manièresuivante : (2)m:2A= { ,{ H},{H },{ H,H }...{H...HN},[0,1],m(A)= 1Toute proposition A 2 , telle que m(A)>0, estnommée élément focal. Nous considérons seulementles éléments focaux afin <strong>de</strong> combiner l’informationet <strong>de</strong> prendre une décision. Notons que, lorsqueles éléments focaux se réduisent aux singletons H i ,la notion <strong>de</strong> masse <strong>de</strong> croyance est assimilable àcelle <strong>de</strong> probabilité.3.2 L’opérateur <strong>de</strong> combinaison <strong>de</strong>DempsterLa théorie <strong>de</strong>s croyances permet la fusion <strong>de</strong> plusieurscritères (par exemple la géométrie, la nature)en employant l’opérateur <strong>de</strong> combinaison <strong>de</strong>Dempster. Supposons <strong>de</strong>ux sources d’informationS 1 et S 2 . La source d’information S 1 (respectivementS 2 ) soutient une proposition avec une masse<strong>de</strong> croyance m 1 (A) (respectivement m 2 (A)). Notonsm 12 la masse résultante <strong>de</strong> la combinaison <strong>de</strong> ces<strong>de</strong>ux sources soutenant la même proposition A. Parexemple, afin <strong>de</strong> déci<strong>de</strong>r si <strong>de</strong>ux objets géographiquesappartenant à <strong>de</strong>ux BDG différentes doiventêtre appariés ou pas, nous considérons <strong>de</strong>ux critères:un critère géométrique et un critère toponymiquequi compare les toponymes. Sous l’hypothèseque les <strong>de</strong>ux objets sont homologues, le premier critèrecroit que c’est le cas parce que géométriquementles objets sont très proches et il attribue à cette}hypothèse une masse <strong>de</strong> croyance importante, alorsque le <strong>de</strong>uxième critère n’est pas sûr parce que les<strong>de</strong>ux toponymes ne sont pas similaires et donc ilattribue une masse <strong>de</strong> croyance moins importante àcette hypothèse. Afin <strong>de</strong> prendre une décision, les<strong>de</strong>ux critères sont combinés en <strong>utilisant</strong> l’opérateur<strong>de</strong> Dempster <strong>de</strong> la manière suivante : (3 et 4)m()(12A = m1A m2A = m1(B)m2(C)1 m12() B C=AB,C 2m)()où12 ( ) = m1(B)m2(C)B C=B,C 2Lorsque les critères sont combinés, il est possibleque les <strong>de</strong>ux critères soient en conflit. Dans ce cas,le conflit est attribué à l’ensemble vi<strong>de</strong>, conformémentà l’équation 4, et il est utilisé dans le cadre <strong>de</strong>l’opérateur <strong>de</strong> Dempster pour normaliser la masse<strong>de</strong> croyance combinée, m 12 . Ainsi, la masse <strong>de</strong>croyance associée au conflit est redistribuée proportionnellementaux éléments focaux (Shafer 1976 ;Smets 1988).4 La théorie <strong>de</strong>s croyances dans uncontexte d’<strong>appariement</strong> <strong>de</strong> donnéess p a t i a l e sD’une manière générale, le processus d’<strong>appariement</strong><strong>de</strong> données consiste, pour chaque objet appartenantà une BDG dite <strong>de</strong> référence, à rechercherses homologues dans l’autre BDG dite <strong>de</strong> comparaison.Les données géographiques présentent <strong>de</strong>simperfections (par exemple la localisation peut êtreimprécise, les toponymes peuvent présenter <strong>de</strong>s dissimilitu<strong>de</strong>sen raison <strong>de</strong> la variabilité linguistique,l’utilisation du nom officiel et du nom d’usage pour lamême entité géographique, etc.).En <strong>utilisant</strong> <strong>de</strong>s critères d’<strong>appariement</strong> en série,<strong>de</strong>s erreurs peuvent se propager et donc le résultatd’<strong>appariement</strong> peut être erroné. En conséquence,l’imperfection doit être prise en compte dans le processusd’<strong>appariement</strong> et les critères doivent êtreappliqués en même temps afin d’obtenir une informationplus pertinente. La théorie <strong>de</strong>s croyancesoffre les outils nécessaires pour modéliser l’imperfectionà travers les fonctions <strong>de</strong> croyance et fusionnerdifférentes connaissances à travers l’opérateur <strong>de</strong>Dempster.Dans cette section, nous décrivons notreapproche basée sur la théorie <strong>de</strong>s croyances développéeen trois étapes (Olteanu 2007) :140CFC (N°194 - Décembre 2007)


- La première étape consiste à initialiser lesmasses <strong>de</strong> croyance pour chaque candidat à l’<strong>appariement</strong>et pour chaque source. Dans notre cas, unesource est un critère guidant l’<strong>appariement</strong>, commela proximité spatiale ou la ressemblance <strong>de</strong>s toponymes.- La <strong>de</strong>uxième étape consiste à fusionner lesmasses <strong>de</strong> croyance par candidat.- Enfin, la troisième étape est basée sur une combinaison<strong>de</strong>s masses <strong>de</strong> croyance résultant <strong>de</strong> la<strong>de</strong>uxième étape, ce qui consiste à fusionner les candidatsentre eux.Les <strong>de</strong>ux premières étapes sont considéréescomme une approche locale, parce que les candidatssont traités indépendamment les uns <strong>de</strong>sautres, alors que la troisième est considérée commeune approche globale parce que tous les candidatssont analysés ensemble.4.1 L’approche locale: définition ducadre <strong>de</strong> discernementNous considérons <strong>de</strong>ux BDG construites pour <strong>de</strong>sbesoins d’utilisation différents, provenant <strong>de</strong> sourcesdifférentes et qui présentent différents niveaux <strong>de</strong>détail. Dans ce papier, nous proposons une métho<strong>de</strong>d’<strong>appariement</strong> qui calcule <strong>de</strong>s liens entre les objetsdans un sens, <strong>de</strong> la base moins détaillée vers labase plus détaillée. Ainsi, pour chaque objet appartenantà la base moins détaillée, appelé objet <strong>de</strong> référence,tous les objets <strong>de</strong> l’autre base plus détailléequi se trouvent à une certaine distance (choisieempiriquement) sont sélectionnés et sont appelésobjets candidats à l’<strong>appariement</strong>.Dans notre cas, nous définissons un cadre <strong>de</strong> discernementlocal pour chaque objet <strong>de</strong> référence ettous les candidats sont <strong>de</strong>s hypothèses, donc <strong>de</strong>shomologues potentiels. Nous avons constaté qu’il y a<strong>de</strong>s objets qui n’ont pas d’homologues dans l’autrebase et donc ils ne sont pas appariés. Cela nousamène à définir une nouvelle hypothèse NA signifiantla solution « l’objet n’est pas apparié ». Ainsi, lecadre <strong>de</strong> discernement est exhaustif, c’est-à-dire lasolution se trouve parmi les hypothèses définies etl’ensemble vi<strong>de</strong> n’est utilisé que pour modéliser leconflit dû à la non-fiabilité <strong>de</strong>s sources. Uneapproche similaire a été adoptée par (Royère 2002)dans le cadre d’une application <strong>de</strong> localisation d’unvéhicule sur une carte.Le cadre <strong>de</strong> discernement pour un objet <strong>de</strong> référenceest défini ci-après : (5){ C C C Nm}REF= , ,..., 1 2 N,où N représente le nombre <strong>de</strong> candidats et C i représentel’hypothèse que C i est l’homologue <strong>de</strong> l’objet<strong>de</strong> référence en cours d’analyse.Afin <strong>de</strong> calculer les fonctions <strong>de</strong> croyance, nousdéfinissons une approche locale : chaque candidatest analysé indépendamment <strong>de</strong>s autres. En conséquence,nous modélisons les connaissances en <strong>utilisant</strong><strong>de</strong>s sources spécialisées : chaque source sespécialise et se prononce sur une seule hypothèse(Appriou 1991).Étant donné 2 , nous définissons S i , un sousensemble<strong>de</strong> 2 <strong>de</strong> la manière suivante : (6){ C ¬ C }= ,i, i- C i représente l’hypothèse que l’objet <strong>de</strong> référenceen cours d’analyse est apparié avec le candidatC i .- - C i = { Creprésente l’hypothèseque l’objet <strong>de</strong> référence en cours d’analyse1, C2,...Ci1,...CN,NA}est apparié avec un autre candidat que C i ou pasapparié du tout.- = { C , C ,... 1 2Ci ,... CN,NA}représente l’hypothèseque le critère ne peut pas se prononcer sur cecandidat, signifiant l’ignorance.4.2 L’initialisation <strong>de</strong>s masses <strong>de</strong>c r o y a n c eDans cet article, nous proposons trois critèresd’<strong>appariement</strong> <strong>de</strong> données. Ils représentent lessources d’informations définies dans le cadre <strong>de</strong> lathéorie <strong>de</strong>s croyances et sont présentés ci-<strong>de</strong>ssous.4.2.1 Le critère géométriqueSiLe critère géométrique s’appuie sur la distanceeuclidienne, d E , entre la localisation <strong>de</strong> l’objet <strong>de</strong>référence et celle du candidat à l’<strong>appariement</strong>. Nousconsidérons que plus le candidat est proche, plus il ya <strong>de</strong>s chances qu’il soit l’homologue <strong>de</strong> l’objet <strong>de</strong>référence, comme le montre la figure 1a). Dans lafigure 1a), T 2 représente le seuil <strong>de</strong> sélection <strong>de</strong>scandidats, qui représente la distance maximale <strong>de</strong>recherche <strong>de</strong> candidats, et T 1 définit le seuil <strong>de</strong>confiance qui associe une croyance moins forte auxcandidats éloignés géométriquement <strong>de</strong> l’objet <strong>de</strong>référence en cours d’analyse. L’imprécision <strong>de</strong> lalocalisation <strong>de</strong>s objets géographiques fait qu’il peut yavoir <strong>de</strong>s homologues qui sont relativement éloignés.Pour éviter d’éliminer complètement un candidatqui est loin <strong>de</strong> l’objet <strong>de</strong> référence, nous considéronsque la masse <strong>de</strong> croyance attribuée à l’hypothèse« le candidat C i n’est pas l’objet homologue »n’est jamais 0, mais qu’elle varie <strong>de</strong> 1 à 0,1.CFC (N°194 - Décembre 2007)41


4.2.2 Le critère toponymiqueLe <strong>de</strong>uxième critère consiste à comparer les toponymes<strong>de</strong>s objets <strong>de</strong> <strong>de</strong>ux BDG en <strong>utilisant</strong> la distance<strong>de</strong> Levenshtein, d L (Levenshtein 1965), calculée<strong>de</strong> la manière suivante : (7)dT=d L( toponyme1,toponyme2)max( L,L)où d L représente la distance <strong>de</strong> Levenshtein, L 1représente la longueur du toponyme 1 et L 2 représentela longueur du toponyme 2 . Précisons quenous utilisons le terme <strong>de</strong> distance pour évaluer laressemblance entre <strong>de</strong>ux toponymes, et non pasdans le sens mathématique du mot distance. À titred’exemple, étant donné <strong>de</strong>ux toponymes « boulevarddu général <strong>de</strong> Gaulle » et « bld du g al <strong>de</strong>Gaulle » la distance d T est égale à 0,7.Comme nous pouvons le remarquer dans la figure1b), les courbes sont différentes <strong>de</strong> celles du critèregéométrique, afin d’exprimer le fait que noussommes moins confiants en ce critère. En conséquence,nous gérons le cas d’ambiguïté, lorsque parexemple <strong>de</strong>ux toponymes indiquant le même objetdu mon<strong>de</strong> réel sont comparés, l’un étant le nom officielet l’autre le lieu-dit, par exemple « place Charles<strong>de</strong> Gaule » et « place <strong>de</strong> l’Étoile ». Pour cela, nousproposons <strong>de</strong> diminuer la masse <strong>de</strong> croyance attribuéeà l’hypothèse ¬C i (ce n’est pas le candidat l’objethomologue) et d’augmenter la masse <strong>de</strong> croyanceattribuée à l’ignorance, . Ainsi, si la distance d Test supérieure au seuil T 1 (par exemple 30% <strong>de</strong>slettres ne se ressemblent pas), les masses <strong>de</strong>croyance attribuées à l’hypothèse -C i est l’objet candidathomologue- et à l’hypothèse -le critère ne saitpas-, sont égales à 0,5.4.2.3 Le critère sémantiqueL’analyse détaillée <strong>de</strong>s données géographiquesmontre qu’il y a <strong>de</strong>s objets géographiques qui ont lemême toponyme, qui sont proches les uns <strong>de</strong>sautres, mais qui ne possè<strong>de</strong>nt pas la même nature eten conséquence ne peuvent pas être mis en correspondance,comme par exemple un sommet avec uncol. Ainsi, nous définissons un troisième critère quiutilise <strong>de</strong>s propriétés sémantiques.Dans la figure 1c), nous illustrons les modélisations<strong>de</strong>s fonctions <strong>de</strong> croyance pour le critèresémantique. Ce critère n’est pas le critère le plusimportant, il est possible qu’il existe beaucoup <strong>de</strong>12candidats qui ont la même nature que l’objet <strong>de</strong> référence.C’est pour cela que nous considérons que sila distance sémantique entre l’objet <strong>de</strong> référence etun candidat à l’<strong>appariement</strong> est 0 (les objets sonthomologues sémantiquement parlant), la masse <strong>de</strong>croyance attribuée à l’hypothèse C i (c’est le candidatC i l’objet homologue) est égale à 0,5, donc le critèren’attribue pas une forte croyance à ce candidat. Aucontraire, si la distance sémantique est supérieureau seuil T1, le critère croit que le candidat C i n’estpas le bon candidat.4.3 Combinaisons <strong>de</strong>s critères et <strong>de</strong>scandidatsUne fois que les masses <strong>de</strong> croyance ont été initialisées,nous pouvons combiner les critères par candidaten <strong>utilisant</strong> l’opérateur <strong>de</strong> Dempster. Cetteapproche est une approche locale parce que lescandidats sont analysés séparément, sans prendre encompte les autres candidats. La troisième étape, nomméel’approche globale consiste à combiner lescandidats entre eux, c’est-à-dire combiner entre euxles résultats obtenus pour chaque candidat dans l’étapeprécé<strong>de</strong>nte. Plus précisément, les résultats obtenuspour <strong>de</strong>ux candidats sont combinés, ensuite lerésultat avec le troisième candidat, et ainsi <strong>de</strong> suite.Afin <strong>de</strong> prendre une décision, nous avons utilisé lemaximum <strong>de</strong> probabilité pignistique. La décision estprise après l’étape <strong>de</strong> fusion globale et après avoirnormalisé les masses résultantes en <strong>utilisant</strong> l’opérateur<strong>de</strong> Dempster. Dans ce papier nous abordons laproblématique liée au calcul <strong>de</strong>s liens <strong>de</strong> cardinalité1-1. Conformément aux spécifications <strong>de</strong>s <strong>de</strong>uxbases <strong>de</strong> données utilisées pour tester notreapproche, un objet géographique représente uneréalité. Ainsi, le choix <strong>de</strong> la mesure basée sur la probabilitépignistique a été privilégié en raison <strong>de</strong> lacardinalité du lien souhaité : on privilégie les hypothèsessimples.5 Applications aux points remarquables<strong>de</strong> reliefLes tests ont été réalisés sur <strong>de</strong>ux jeux <strong>de</strong> données<strong>de</strong> l’Institut géographique national, BDCARTO© (365objets) et BDTOPO© (1965 objets) représentant lespoints remarquables du relief. Les jeux <strong>de</strong> donnéesprésentent <strong>de</strong>s niveaux <strong>de</strong> détail différents, le premierétant moins détaillé que le <strong>de</strong>uxième.Premièrement, les données, comme par exempleles montagnes, les sommets, les pics, les vallées, les42CFC (N°194 - Décembre 2007)


cols, etc., sont imprécises d’une part par définition : lalimite entre une vallée et une montagne n’est pas parfaitementdéfinie, et d’autre part parce que les diff é-rences entre les concepts utilisés dans les bases peuventêtre flous, comme c’est le cas pour sommet et pic.Deuxièmement, les objets homologues peuventavoir différents toponymes, en particulier en raison<strong>de</strong> la variabilité linguistique issue <strong>de</strong>s erreurs <strong>de</strong> frappeou <strong>de</strong>s différences <strong>de</strong> prononciation, par exemple« M u n h o a » et « M o n h o a », <strong>de</strong> l’imprécision,quand <strong>de</strong>s entités possédant le même toponyme ont<strong>de</strong>s localisations différentes, par exemple « place dugénéral <strong>de</strong> Gaulle » à Paris et à Lyon, ou à cause <strong>de</strong>l’utilisation du nom officiel et du nom d’usage pour lamême entité géographique.Troisièmement, les concepts ne pressentent pasle même niveau <strong>de</strong> détail. Par exemple dans laBDCARTO il y a <strong>de</strong>s concepts qui sont regroupés etreprésentés avec la même valeur <strong>de</strong> l’attribut nature :“sommet, crête, colline”, alors que dans la BDTOPOces concepts sont bien séparés.En conséquence, utiliser seulement un critèrebasé sur la géométrie <strong>de</strong>s objets ne donne pas <strong>de</strong>bons résultats parce que l’objet homologue n’est pastoujours l’objet le plus proche. De la même manière,utiliser seulement le critère toponymique ou sémantiquepeut engendrer <strong>de</strong>s incohérences. Notreapproche a été implémentée en Java dans le SIGopen-source GeOxygene (Badard et Braun 2003).6 Évaluation et résultatsL’évaluation <strong>de</strong>s résultats est une étape trèsimportante dans le processus d’<strong>appariement</strong> <strong>de</strong> données.Afin d’évaluer les résultats d’<strong>appariement</strong>,nous avons comparé ces <strong>de</strong>rniers avec un <strong>appariement</strong>interactif. Les liens issus <strong>de</strong>s <strong>de</strong>ux modélisationsdu critère <strong>de</strong> comparaison <strong>de</strong>s toponymes ontété évalués en terme <strong>de</strong> précision et <strong>de</strong> rappel,comme le montre le tableau 1. La précision représentele nombre <strong>de</strong> liens pertinents trouvés par rapportau nombre total <strong>de</strong>s objets sélectionnés, alorsque le rappel est le nombre <strong>de</strong> liens pertinents trouvéspar rapport au nombre total d’objets pertinents(Beeri et al. 2004).La première ligne du tableau 1 montre les valeurs<strong>de</strong> la précision et du rappel lorsque le processusd’<strong>appariement</strong> utilise seulement <strong>de</strong>ux critères (géométriqueet toponymique) et nous remarquons que96.4% <strong>de</strong>s liens d’<strong>appariement</strong> sont justes parmiceux trouvés et que seulement 95.9% <strong>de</strong>s objets ontété appariés. Ceci est dû aux <strong>de</strong>ux cas <strong>de</strong> conflitsapparus entre les critères, c’est-à-dire <strong>de</strong>s objetspossédant le même toponyme mais se trouvant trèsloin l’un <strong>de</strong> l’autre.Précision Rappelglobale globalCritères géométriqueet toponymique 96.4 % 95.9%Critères géométrique,toponymique et sémantique 99.1 % 99.1 %Tableau 1 : Évaluation qualitativedu processus d’<strong>appariement</strong>.Lorsque nous utilisons les trois critères définisdans la partie 4.2 (<strong>de</strong>uxième ligne du tableau 1),nous remarquons que la précision et le rappel ontaugmenté pour atteindre 99.1%. Notons que cesrésultats sont satisfaisants et que le pourcentage <strong>de</strong>0.9% <strong>de</strong> non-réussite est dû d’une part à un liend’<strong>appariement</strong> 1 : m, ce problème <strong>de</strong> liens multiplesn’étant pas traité dans cet article, et d’autre part à<strong>de</strong>ux cas où les objets homologues <strong>de</strong>vraient êtreappariés mais ne le sont pas, par erreur.La figure 2 illustre un résultat d’<strong>appariement</strong> <strong>de</strong>données. Elle montre l’importance <strong>de</strong> l’informationsémantique dans le processus d’<strong>appariement</strong>. Nousobservons dans la figure 2 à gauche que le processusd’<strong>appariement</strong> n’apparie pas les objets homologuesparce qu’ils sont éloignés et que leurs toponymessont assez différents. Au contraire, les objetshomologues sont appariés lorsque le critère sémantiquea été rajouté.7 ConclusionDans ce papier, nous avons présenté uneapproche d’<strong>appariement</strong> <strong>de</strong> données basée sur lathéorie <strong>de</strong>s croyances. Celle-ci conduit à combiner<strong>de</strong>s critères d’<strong>appariement</strong> <strong>de</strong> données afin d’apparier<strong>de</strong>s données qui présentent <strong>de</strong>s imperfections.Nous avons testé notre approche sur <strong>de</strong>s donnéesgéographiques réelles représentant <strong>de</strong>s pointsremarquables du relief et nous avons comparé lesrésultats obtenus en <strong>utilisant</strong> d’une part <strong>de</strong>ux critères(géométrique et toponymique) et d’autre part troiscritères (géométrique, toponymique et sémantique).Les résultats ont été évalués en terme <strong>de</strong> précisionet <strong>de</strong> rappel. Nous avons obtenu une précision et unrappel proche <strong>de</strong> 100% en <strong>utilisant</strong> les trois critères.CFC (N°194 - Décembre 2007)43


Quelques cas particuliers restent néanmoins àrésoudre, tels que les <strong>appariement</strong>s 1 à M ou lesobjets en conflit, pour lesquels nous n’avons pas pris<strong>de</strong> décision. Ainsi, une perspective <strong>de</strong> travail serait <strong>de</strong>développer un opérateur associatif <strong>de</strong> redistribution <strong>de</strong>conflit et d’introduire une nouvelle source d’information,telle que la nature <strong>de</strong>s objets, pour augmenter lenombre d’objets appariés et améliorer les résultats.R e m e r c i e m e n t sL’auteur voudrait remercier Sébastien Mustière etAnne Ruas pour la relecture <strong>de</strong> ce papier et pour laqualité <strong>de</strong> leur remarques.B i b l i o g r a p h i eAppriou A., 1991, « Probabilités et incertitu<strong>de</strong>s en fusion <strong>de</strong> données multi-senseurs », Revue scientifique <strong>de</strong> technique<strong>de</strong> la Défense, 11, p.27-40.Badard T., Braun A., 2003, « Oxygène une plate-forme inter-opérable pour le déploiement <strong>de</strong> services Web géographiques», Bulletin d’information scientifique et technique <strong>de</strong> l’IGN, n° 74, p. 113-120.Bel Hadj Ali A., 2001, Qualité géométrique <strong>de</strong>s entités géographiques surfaciques –Application à l’<strong>appariement</strong> et défini -tion d’une typologie <strong>de</strong>s écarts géométriques, thèse, Université <strong>de</strong> Marne-la-Vallée.Beeri C., Kanza Y., Safra E., Sagiv Y., 2004, « Object Fusion in Geographic Information Systems », dans Proceedingsof the 30 th VLDB Conference, Toronto, Canada.Bruns H.T., Egebhofer M, 1996, “Similarity of Spatial Scenes”, dans Seventh International Symposium on Spatial DataHandling, Delft, Netherlands, August, London, Taylor & Francis, p.173-184.Cohen W.W., Ravikumar P., Fienberg S.E., 2003, « A Comparison of String Distance Metrics for Name-Matching Tasks», dans Proceedings of the IJCAI, 9-10 August, Acapulco, Mexico, p. 73-78.Dempster A., 1967, “Upper and lower probabilities induced by multivalued mapping”, Annals of Mathematical Statistics,vol. AMS-38, p.325-339.Devogele T., Parent C., Spaccapietra S., 1998, « On spatial database integration », International Journal ofGeographical Information Science, 12(4), 1998, p. 335-352.Gombo_i M., _alik B, Krivograd S., 2003, « Comparing two sets of polygons », International Journal of GeographicalInformation Science, 17 (5), p.431-443.Levenshtein V., 1965, “Binary co<strong>de</strong>s capable of correcting <strong>de</strong>letions, insertions and reversals”, Doklady Aka<strong>de</strong>mii NaukSSSR, 4 (163), p.845-848.Mustière S., 2006, “Results of Experiments on Automated Matching of Networks at Different Scales”, dans ISPRSWorkshop, Multiple representation and interoperability of spatial data, Germany, 22-24 February, p. 92-100.Olteanu A.-M., Mustière S., Ruas A., 2005, « Matching Imperfect Data », dans Proceedings from 7th InternationalSymposium on Spatial Accuracy Assessement in Natural Resources and Environmental Sciences, 2006, p. 694-704.Olteanu A.-M., 2007, “A Multi-Criteria Fusion Approach for Geographical Data Maching”, dans International Symposion inSpatial Data Quality (ISSDQ).Royère C., 2002, Contribution à la résolution du conflit dans le cadre <strong>de</strong> la théorie <strong>de</strong> l’évi<strong>de</strong>nce : application à la per -ception et à la localisation <strong>de</strong>s véhicules intelligents, thèse, Université <strong>de</strong> Compiègne.Ruas A.,2002, Généralisation et représentation multiple, Lavoisier.Shafer G., 1976, A Mathematical Theory of Evi<strong>de</strong>nce, Princeton, Princeton University Press.Sherren D., Mustière S., Zucker J-D., 2004, « How to Integrate Heterogeneous Spatial Databases in a Consistent Way?», dans Conference on Advanced Databeses and Information Systems, Budapest, September 2004, p. 364-378.Smets Ph., 1988, Belief Functions.Non Standard Logics for Automated Reasoning, Smets Ph., Mamdani A., Dubois D.and Pra<strong>de</strong> H. ed., London, Aca<strong>de</strong>mic Press, p. 253-286.Voltz S., 2006, “An Iterative Approach for Matching Multiple Representations of Street Data”, dans ISPRS Workshop,Multiple representation and interoperability of spatial data Hanover, Germany, 22-24 February, p. 101-110.Walter V., Fritsch D., 1999, « Matching Spatial Data Sets: Statistical Approach », International Journal of GeographicalInformation Science, 13(5), p. 445-473.44CFC (N°194 - Décembre 2007)


Figure 1 : Modélisation <strong>de</strong>s critères, géométrique a), toponymique b) et sémantique c)Figure 2 : Résultats d’<strong>appariement</strong> <strong>de</strong> données <strong>utilisant</strong> <strong>de</strong>ux critères (à gauche) ou trois critères (à droite)CFC (N°194 - Décembre 2007)45

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!