pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

von 0.5 eine maximale Kompatibilität ausdrückt. In einer Schleife wird anschließend für alle Paare von Elementen (s, t) mit s ∈ S, t ∈ T die Ähnlichkeit ssim(s, t) berechnet, wobei hier zwei Fälle unterschieden werden: 1. Sind s und t Blätter, ist der Wert für ssim gleich dem oben berechneten Anfangswert. 2. Ist s oder t kein Blatt, sondern ein interner Knoten, werden für die Berechnung von ssim die Mengen von Blättern leaves(s) bzw. leaves(t) betrachtet, die zu den Teilbäumen gehören, deren Wurzel s bzw. t ist. ssim berechnet sich dann wie folgt: ssim(s, t) = slink out ∪ slink in |leaves(s) ∪ leaves(t)| Dabei gilt slink out = {x|x ∈ leaves(s) ∧ ∃y ∈ leaves(t), stronglink(x, y)} und slink in = {x|x ∈ leaves(t) ∧ ∃y ∈ leaves(s), stronglink(y, x)}. stronglink(x, y) bedeutet, dass die gewichtete Ähnlichkeit von x und y wsim(x, y) größer als ein bestimmter Grenzwert th accept ist. Bei der Berechnung von ssim im zweiten Schritt muss sichergestellt werden, dass zuvor die Ähnlichkeitswerte wsim für alle Blätter berechnet wurden. Aus diesem Grund werden in der Schleife die beiden Bäume in Post-Order durchlaufen, was genau das sicherstellt. Post-Order bedeutet im Zusammenhang mit Bäumen, dass ausgehend von der Wurzel zunächst der linke Teilbaum, dann der rechte Teilbaum und zuletzt die Wurzel betrachtet wird. Nachdem ssim(s, t) für jedes Knotenpaar (s, t) berechnet wurde, wird die gewichtete Ähnlichkeit wsim(s, t) für dieses Knotenpaar wie folgt berechnet: wsim(s, t) = w struct · ssim(s, t) + (1 − w struct ) · lsim(s, t) Hierbei ist w struct eine Konstante im Intervall [0, 1] und dient dazu, eine unterschiedliche Gewichtung von linguistischer und struktureller Ähnlichkeit zu ermöglichen. Nach Berechnung der gewichteten Ähnlichkeit für ein Knotenpaar (s, t) überprüft TreeMatch, ob der Ähnlichkeitswert von wsim oberhalb eines Grenzwertes th high liegt. Ist das der Fall, werden die Ähnlichkeitswerte ssim aller Paare von Blättern in den beiden Teilbäumen zu s und t um einen Faktor c inc erhöht, wobei darauf geachtet wird, dass die maximalen Werte von ssim nie größer als 1 werden. Diese Erhöhung der Werte geschieht deshalb, weil die Entwickler von Cupid annehmen, dass Blätter, deren Vorfahren sehr ähnlich sind, ebenfalls eine höhere Ähnlichkeit aufweisen. Ist der Wert für wsim kleiner als th low , werden die Ähnlichkeitswerte ssim der Blätter aus demselben Grund um einen Wert c dec verringert. Diese Veränderung der strukturellen Ähnlichkeiten führt bei Teilbäumen mit einer sehr unterschiedlichen Anzahl an Knoten dazu, dass es sehr viele Ähnlichkeitswerte gibt, die unterhalb des Grenzwertes liegen. Um dem entgegenzuwirken schlagen die Entwickler vor, nur Elemente zu vergleichen, deren Teilbäume eine ähnliche Anzahl an Blättern 32
(vorgeschlagen ist ein Unterschied von maximal Faktor 2) haben. Das führt dazu, dass der Algorithmus weitaus weniger Paare zum Vergleich hat. Vergleicht man den Ablauf des strukturellen Matchings von Cupid mit dem Ablauf des Algorithmus beim Similarity Flooding, können hier wesentliche Unterschiede festgestellt werden. Zunächst unterscheiden sich die beiden Verfahren darin, dass Cupid in der vorgestellten Form nur Bäume als graphische Strukturen unterstützt, während beim Similarity Flooding gerichtete Graphen verwendet werden. Das bedeutet also, dass das Similarity Flooding hier mehr Varianten von Eingaben unterstützt als nur hierarchische Schemata. In [MBR01] wird allerdings auch eine Möglichkeit vorgestellt, wie anders strukturierte Eingabegraphen in Bäume umgewandelt werden können, die dann wiederum mit Cupid verarbeitet werden können. Die näheren Details dazu sollen hier aufgrund des Umfangs nicht weiter betrachtet werden. Bei der Berechnung der Ähnlichkeitswerte werden in beiden Verfahren sehr unterschiedliche Ideen zugrunde gelegt. Während das Similarity Flooding alle mit einem Knoten verbundenen Knoten in die Berechnung mit einbezieht, werden bei Cupid ausschließlich die Blätter für die Berechnungen herangezogen. Das bedeutet, dass in einem Teilbaum mit hoher Tiefe trotzdem nicht die direkten Nachfolgeknoten zur Berechnung der Ähnlichkeiten verwendet werden, sondern nur die Blätter, die in diesem Fall erst sehr viel tiefer im Baum stehen. Ein wenig kompensiert wird das zwar dadurch, dass die Ähnlichkeiten der Blätter aufgrund des Post-Order-Durchlaufs bis dahin unter Umständen schon mehrfach erhöht oder verringert worden sein können, dennoch wird im Similarity Flooding zumindest die Gesamtheit der Strukturen im Graphen mehr berücksichtigt. Ein weiterer wesentlicher Unterschied zwischen den beiden Verfahren ist, dass Cupid bei der Berechnung der Ähnlichkeiten zweier Elemente sehr stark auf die anfänglich berechneten linguistischen Ähnlichkeiten setzt. Diese fließen in die gewichtete Ähnlichkeit wsim ein und werden während des gesamten Ablaufs des Algorithmus nicht verändert. Je nachdem, wie die Konstante w struct gewählt ist und wie sich die Ähnlichkeitswerte ssim im Laufe des Algorithmus verändern, könnten diese linguistischen Werte einen starken Einfluss auf die endgültige Ähnlichkeit zweier Knoten haben. Beim Similarity Flooding tritt dieses Phänomen weitaus weniger stark auf, da zwar die lingustischen Ähnlichkeiten als Anfangsähnlichkeiten im ersten Schritt des Algorithmus relevant sind, aufgrund des „Flusses“ der Werte aber im weiteren Verlauf immer stärker angeglichen werden, was laut [MGMR01] letztendlich auch dafür sorgt, dass selbst mit „schlecht“ gewählten Anfangsähnlichkeiten noch gute Ergebnisse mit dem Similarity Flooding erzielt werden können. Fraglich ist, ob das in diesem Fall auch bei Cupid möglich ist. 5.2. Rondo In [MRB03] entwickeln die Autoren ein Verfahren, mit dem generisch Modelle gematcht werden können, und implementieren einen Prototyp mit Namen Rondo. Während es beim in Kapitel 4 vorgestellten Similarity Flooding im Wesentlichen darum geht, geeignete Mappings zwischen Elementen herzustellen, gehen die Autoren hier noch einen Schritt weiter, indem sie auch ein automatisiertes Verfahren einführen, mit dem die Modelle 33
Seite 1 und 2: Leibniz Universität Hannover Insti
Seite 3 und 4: Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6: 1. Einleitung 1.1. Motivation und S
Seite 7 und 8: 2. Grundlagen In diesem Kapitel sol
Seite 9 und 10: Möglichkeiten erläutert, wie Mapp
Seite 11 und 12: (etwa OLA oder Microsoft BizTalk Ma
Seite 13 und 14: Abbildung 3.2.: Klassifizierung von
Seite 15 und 16: 4. Der Similarity Flooding Algorith
Seite 17 und 18: Definition 4.1 Seien A und B zwei M
Seite 19 und 20: Gemäß der Definition wird also zu
Seite 21 und 22: Abbildung 4.3.: Similarity Propagat
Seite 23 und 24: durch die Formel darstellen, wobei
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31: 5. Vergleich mit anderen Verfahren
Seite 35 und 36: durchgeführt werden müssen, um ei
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43 und 44: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 45 und 46: sich allein mit der Qualität des V
Seite 47 und 48: Die Graphen 3, 4 und 5 sind jeweils
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55 und 56: Knoten Iteration 1 2 3 10 20 30 40
Seite 57 und 58: gorithmus arbeiten muss, um zu eine
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61 und 62: Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 63 und 64: Einstellen niedriger Anfangsähnlic
Seite 65 und 66: eines Schemas in einen Graphen. Im
Seite 67 und 68: ER_MITARBEITER aus Schema 2 kann zu
Seite 69 und 70: 1 für α in der Vorverarbeitung da
Seite 71 und 72: Musiksammlung Bei den Musiksammlung
Seite 73 und 74: durch Festlegen von Anfangsähnlich
Seite 75 und 76: den Benutzer berücksichtigt wurde,
Seite 77 und 78: Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80: A. Anhang - Für Experimente verwen
Seite 81 und 82: A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84:
A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86:
Abbildung A.10.: Graph 4: Pairwise
Seite 87 und 88:
Seite 89 und 90:
Seite 91 und 92:
Seite 93 und 94:
Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96:
B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98:
Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100:
Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102:
B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104:
Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106:
Schema 1 Schema 2 Ähnlichkeitswert
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119:
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?