pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

nicht verwendet, um die Anzahl der Iterationen, die bis zum Fixpunkt bei den einzelnen Testdurchläufen benötigt wurden, besser vergleichen zu können. Für die beiden zu überprüfenden Aspekte – die Auswirkung der Anfangsähnlichkeiten und die Verwendung einer anderen Fixpunktformel – wurden verschiedene Einstellungen (im Folgenden auch als „Fälle“ bezeichnet) festgelegt. Der Similarity Flooding Algorithmus wurde für jeden Graphen nacheinander mit diesen Fällen durchgeführt, sodass die Ergebnisse der einzelnen Fälle vergleichbar für mehrere Graphen sind. Eine genaue Beschreibung der jeweiligen Fälle ist zu Beginn der jeweiligen Kapitel (Kapitel 7.2.2 und Kapitel 7.2.3) zu finden. Zu den jeweiligen Fällen wurde die Anzahl der Iterationen, bis ein Fixpunkt erreicht wurde, und die Ergebnisse der Ähnlichkeitsberechnungen nach jeder Iteration (einschließlich der Ähnlichkeitswerte im Fixpunkt nach der letzten Iteration) festgehalten. Dadurch lässt sich die Entwicklung der (normierten) Werte über die Iterationen hinweg analysieren und vergleichen. Nach Einstellen des Fixpunktes wurde die Ergebnismenge für jeden Fall außerdem mit Hilfe eines Stable Marriage Algorithmus (vgl. Kapitel 4.4.2) gefiltert. Dadurch ist insbesondere bei den größeren Graphen eine bessere Vergleichbarkeit der Ergebnisse gewährleistet und es lässt sich leichter ablesen, ob das Filtern der Ergebnisse sinnvolle Matching-Kandidaten liefert oder nicht. Verwendete Graphen Für die Experimente in diesem Kapitel wurden zunächst eine Reihe von Graphen erzeugt, auf deren strukturelles Aussehen und den Hintergrund, aus dem sie in den Tests verwendet werden, hier kurz eingegangen werden soll. Die Graphen bestehen dabei jeweils aus zwei Modellen, deren Abbildungen in Anhang A zu finden sind. Dort sind auch die Pairwise Connectivity Graphs (PCG) zu den Modellen abgebildet. Die Modelle von Graph 1 entsprechen denen, die im Beispiel in [MGMR01] verwendet wurden. Der PCG ist entsprechend ebenfalls dort zu finden. Für die hier durchgeführten Experimente wurde der Graph gewählt, um zum einen die in der Literatur ermittelten Fixpunkt-Werte nachzuvollziehen, und zum anderen, weil aufgrund der ähnlichen Strukturen der Modelle bestimmte Matching-Kandidaten wahrscheinlicher erscheinen als andere (z.B. erscheint (a, b) aufgrund der Anzahl ein- und ausgehender Kanten in den Modellen als Kandidat wahrscheinlicher als (a 1 , b)). Hier ist in den Experimenten insbesondere interessant zu überprüfen, ob trotzdem Fixpunkte mit unterschiedlichen Top-Kandidaten für Matchings erreicht werden können oder nicht. Graph 2 wurde ebenfalls aus [MGMR01] entnommen. Beide Modelle stellen dabei Bäume dar. Modell B ist dabei aus Modell A entstanden, indem die Knoten neu markiert wurden, zwei Teilbäume kopiert bzw. verschoben und ein neuer Knoten (60) eingefügt wurde. Der Graph ist für die Experimente interessant, weil bekannt ist, welche Knoten im Modell A welchen Knoten in Modell B entsprechen, sodass auch hier bestimmte Erwartungen vorhanden sind, welche Matching-Kandidaten der Algorithmus liefern sollte (z.B. (4, 55)) und welche nicht (z.B. (1, 57)). Die erwarteten Matching-Kandidaten sind im PCG in Anhang A grau markiert. 46
Die Graphen 3, 4 und 5 sind jeweils aus Modellen entstanden, die keine eindeutigen strukturellen Ähnlichkeiten aufweisen. Graph 3 ist dabei mit 4 Knoten pro Modell am kleinsten, Graph 4 mit 6 Knoten in Modell A und 5 Knoten in Modell B ein wenig größer und Graph 5 mit 10 Knoten in Modell A und 12 in Modell B der größte der Graphen. Für die Experimente wurden die drei Graphen gewählt, um zu ermitteln, was für Ergebnisse der Algorithmus liefert, wenn für einen Betrachter keine eindeutigen Matching- Kandidaten in den Modellen erkannt werden können, und ob sich die Ergebnisse durch Änderungen von Anfangsähnlichkeiten oder Verwendung einer anderen Fixpunktformel leichter beeinflussen lassen als etwa bei den Graphen 1 und 2. Außerdem kann aufgrund der unterschiedlichen Größen der Graphen hier der Frage nachgegangen werden, ob und wie Veränderungen am Algorithmus die Anzahl der Iterationen beeinflussen, die bis zum Erreichen des Fixpunktes benötigt werden. Graph 6 besteht aus zwei strukturell identischen Modellen. Für die Experimente ist der Graph deshalb besonders interessant, weil zu erwarten ist, dass der Algorithmus jeweils die sich in den Modellen entsprechenden Knotenpaare als Matching-Kandidaten zurück liefert, also Paare (a i , b i ) mit i ∈ {1, . . . , 10}. Diese Paare sind im PCG in Anhang A grau hervorgehoben. Außerdem stellt sich die Frage, ob hier überhaupt unterschiedliche Fixpunkte erreicht werden können oder sich nur die – für einen Betrachter der Modelle eindeutigen – oben genannten Matching-Kandidaten ergeben. Die Modelle von Graph 7 wurden so konstruiert, dass Modell A aus zwei Zusammenhangskomponenten besteht, die jeweils strukturell identisch zu Modell B sind. Kantenmarkierungen wurden in den Modellen dabei weggelassen, was für den Algorithmus bedeutet, dass für jede Kante dieselbe Markierung angenommen wird. Wie in Graph 6 gibt es hier somit von vornherein Matching-Kandidaten, die vom Algorithmus als Ergebnisse erwartet werden (im PCG in Anhang A grau hervorgehoben). Dadurch, dass es für jeden Knoten des Modells B erwartungsgemäß zwei Matching-Kandidaten mit gleichen Ähnlichkeitswerten – nämlich einen mit einem Knoten aus der einen Zusammenhangskomponente von Modell A und einen aus der anderen – im Ergebnis geben müsste, ist hier zu prüfen, ob der Algorithmus in den Experimenten so beeinflusst werden kann, dass er nur noch Matching-Kandidaten aus einer Zusammenhangskomponente von Modell A vorschlägt oder nicht. 7.2.2. Anfangsähnlichkeiten Die Anfangsähnlichkeiten σ 0 sind die Ähnlichkeiten zwischen den Knoten a und b eines Map Pairs (a, b), die vor dem ersten Iterationsschritt festgelegt oder ermittelt wurden. In dem Beispiel des Algorithmus in Kapitel 4 wurde für alle Knoten die Anfangsähnlichkeit 1 angenommen und von [MGMR01] behauptet, dass die Änderung der Ähnlichkeiten wenig bis keinen Einfluss auf die Ergebnisse hat, die der Algorithmus liefert. Zur Überprüfung der Behauptung wurden die Experimente wie in Kapitel 7.2.1 beschrieben durchgeführt. Insgesamt wurden hier fünf verschiedene Einstellungen in Form von fünf Fällen vorgenommen, deren Ergebnisse sowie deren Intention nachfolgend dargestellt sind. Bei den absoluten Zahlenwerten der Ähnlichkeiten wurde in den dargestellten Tabellen der Übersichtlichkeit halber auf drei Nachkommastellen gerundet. 47
Seite 1 und 2: Leibniz Universität Hannover Insti
Seite 3 und 4: Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6: 1. Einleitung 1.1. Motivation und S
Seite 7 und 8: 2. Grundlagen In diesem Kapitel sol
Seite 9 und 10: Möglichkeiten erläutert, wie Mapp
Seite 11 und 12: (etwa OLA oder Microsoft BizTalk Ma
Seite 13 und 14: Abbildung 3.2.: Klassifizierung von
Seite 15 und 16: 4. Der Similarity Flooding Algorith
Seite 17 und 18: Definition 4.1 Seien A und B zwei M
Seite 19 und 20: Gemäß der Definition wird also zu
Seite 21 und 22: Abbildung 4.3.: Similarity Propagat
Seite 23 und 24: durch die Formel darstellen, wobei
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31 und 32: 5. Vergleich mit anderen Verfahren
Seite 33 und 34: (vorgeschlagen ist ein Unterschied
Seite 35 und 36: durchgeführt werden müssen, um ei
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43 und 44: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 45: sich allein mit der Qualität des V
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55 und 56: Knoten Iteration 1 2 3 10 20 30 40
Seite 57 und 58: gorithmus arbeiten muss, um zu eine
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61 und 62: Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 63 und 64: Einstellen niedriger Anfangsähnlic
Seite 65 und 66: eines Schemas in einen Graphen. Im
Seite 67 und 68: ER_MITARBEITER aus Schema 2 kann zu
Seite 69 und 70: 1 für α in der Vorverarbeitung da
Seite 71 und 72: Musiksammlung Bei den Musiksammlung
Seite 73 und 74: durch Festlegen von Anfangsähnlich
Seite 75 und 76: den Benutzer berücksichtigt wurde,
Seite 77 und 78: Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80: A. Anhang - Für Experimente verwen
Seite 81 und 82: A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84: A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86: Abbildung A.10.: Graph 4: Pairwise
Seite 93 und 94: Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96: B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98:
Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100:
Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102:
B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104:
Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106:
Schema 1 Schema 2 Ähnlichkeitswert
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119:
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?