pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

Knoten Iteration 1 2 3 10 15 20 30 34 35 36 (a, b) 1 0.93 0.968 1 1 1 1 1 1 1 (a 1 , b) 0.636 0.547 0.49 0.173 0.085 0.041 0.01 0.006 0.005 0.004 (a 1 , b 1 ) 0.118 0.266 0.319 0.38 0.382 0.383 0.383 0.383 0.383 0.383 (a 1 , b 2 ) 0.867 0.785 0.8 0.714 0.708 0.707 0.707 0.707 0.707 0.707 (a 2 , b 1 ) 0.957 1 1 0.93 0.925 0.924 0.924 0.924 0.924 0.924 (a 2 , b 2 ) 0.636 0.547 0.49 0.173 0.085 0.041 0.01 0.006 0.005 0.004 Tabelle 7.8.: Entwicklung der Ähnlichkeitswerte über mehrere Iterationen (Graph 1) für Fall 5 deren ZHK über die Iterationen hinweg immer stärker gegen 0 konvergieren und im Fixpunkt wenig aussagekräftige Matching-Kandidaten liefern. Außerdem konnte festgestellt werden, dass das Similarity Flooding relativ robust gegenüber veränderten Anfangsähnlichkeiten ist. Nur in Fall 3 konnte durch gezieltes „Ausblenden“ kompletter ZHK des PCGs erreicht werden, dass sich ein anderer Fixpunkt einstellt. Der Fixpunkt, der sich dort eingestellt hat, liefert jedoch keine zufriedenstellenden Matching-Kandidaten. Nur in dem speziell konstruierten Beispiel von Graph 7 konnte in Fall 4 und Fall 5 das Ergebnis durch die Anfangsähnlichkeiten so beeinflusst werden, dass von den zwei dort möglichen, gleich „guten“ Zuordnungen eine bevorzugt wurde. Abschließend lässt sich bezüglich der Anfangsähnlichkeiten festhalten, dass diese wie von den Autoren in [MGMR01] dargestellt die Ergebnisse des Similarity Flooding nicht wesentlich beeinflussen. Egal, ob nun gezielt potentiell gute Matching-Kandidaten mit hohen Anfangsähnlichkeiten belegt, Zufallswerte verwendet oder nur ein einziger Kandidat mit einem Wert belegt wurde, hatte auf die Ergebnisse keinerlei Einfluss, sondern lediglich auf die Anzahl der Iterationen, die bis zum Erreichen dieses Ergebnisses notwendig waren. Die Beeinflussungen, die in Fall 3 festgestellt werden konnten, können in realen Anwendungen als irrelevant angesehen werden, denn sie würden bedeuten, dass in einer Vorverarbeitungsphase des Algorithmus komplett falsche Anfangsähnlichkeiten (und vor allem Werte von 0 für eigentlich gute Matching-Kandidaten) berechnet werden müssten, was extrem unwahrscheinlich erscheint. Ebenso sind die Beeinflussungen, die an den Testergebnissen bei Graph 7 festgestellt werden konnten, vermutlich eher theoretisch relevant als in der Praxis. Dass es dort Fälle gibt, in denen zwei Modelle so gestaltet sind, dass eines der Modelle mit gleicher Wahrscheinlichkeit zu einem oder dem anderen Teil des zweiten Modells passt, scheint doch eher unwahrscheinlich. Bezogen auf die zu Beginn des Kapitels angesprochene Berechnung von Anfangsähnlichkeiten in der Vorverarbeitungsphase kann man sagen, dass die Ergebnisse der hier durchgeführten Experimente deren Nutzen in Frage stellen. Ob nun in einer Vorverarbeitungsphase Ähnlichkeiten berechnet und als Anfangsähnlichkeiten in den Algorithmus einbezogen werden oder ob direkt Zufallswerte oder konstante Werte ungleich 0 für die Ähnlichkeiten verwendet werden, wirkt sich offenbar nur darauf aus, wie lange der Al- 56
gorithmus arbeiten muss, um zu einem Ergebnis zu kommen. Hier ist es sicherlich abzuwägen, ob der Aufwand einer Vorverarbeitung notwendig ist, die – mit etwas Glück – zu einer kürzeren Laufzeit des Algorithmus führt, oder ob gleich darauf verzichtet werden und die längere Laufzeit in Kauf genommen werden sollte. Zu besseren Ergebnisse führt die Vorverarbeitung – jedenfalls in den hier getesteten Beispielen – nicht. 7.2.3. Verwendung einer anderen Fixpunktformel Die Fixpunktformel bestimmt, wie in jedem Schritt des Algorithmus die neuen Ähnlichkeitswerte bestimmt werden. In den Experimenten in Kapitel 7.2.2 wurde die Formel verwendet, die als Basis-Formel in Tabelle 4.3 in Kapitel 4.3 zu finden ist. Wie dort erwähnt sind daneben auch weitere Formeln für die Berechnungen der Ähnlichkeitswerte denkbar. In diesem Abschnitt soll statt der Basis-Formel die Formel A aus Tabelle 4.3 verwendet werden. Danach gilt σ i+1 = normalize(σ 0 + ϕ(σ i )), das heißt im Schritt i+1 berechnet sich die Ähnlichkeit zweier Knoten nicht wie in der Basis-Formel aus den Ähnlichkeitswerten des vorherigen Durchgangs (σ i ) und den neu berechneten Ähnlichkeitswerten (ϕ(σ i )), sondern aus den Anfangsähnlichkeiten (σ 0 ) und den neu berechneten Ähnlichkeitswerten. Hier soll nun die Frage geklärt werden, ob durch diese Berechnungsformel andere und unter Umständen bessere Ergebnisse erzielt werden können und ob mit der Formel eine gezielte Beeinflussung der Ergebnisse durch Ändern der Anfangsähnlichkeiten möglich ist, was in den Tests mit der Basis-Formel nicht möglich gewesen ist. Wie in Kapitel 7.2.2 wurden für die Experimente auch hier fünf verschiedenen Einstellungen in Form von fünf Fällen gewählt, deren Ergebnisse und Intentionen nachfolgend dargestellt werden. Fall 1 (Referenzfall) In Fall 1 wurden die Anfangsähnlichkeiten aller Knoten auf einen Wert von 1 gesetzt und das Testprogramm für jeden Graphen damit durchlaufen. Analog zu Fall 1 in Kapitel 7.2.2 war hier zu erwarten, dass sich ein Fixpunkt in Abhängigkeit der Struktur der Graphen einstellt, auch wenn dieser aufgrund der anderen verwendeten Fixpunktformel unter Umständen anders aussieht als in Kapitel 7.2.2. Fall 1 soll auch hier als Referenzfall für die nachfolgenden Fälle dienen. Die Experimente zeigen zunächst, dass sich ein Fixpunkt bei allen Graphen schneller einstellt als mit der Basis-Fixpunktformel. Während zum Beispiel bei Graph 7 mit der Basis-Fixpunktformel 424 Iterationen benötigt wurden (vgl. Tabelle 7.4), benötigt die Fixpunktformel A nur 16 Iterationen. Die Anzahl der Iterationen bis zum Fixpunkt ist für die jeweiligen Fälle, die in diesem Kapitel relevant sind, in Tabelle 7.9 dargestellt. Bei den Ähnlichkeitswerten im Fixpunkt fällt auf, dass man hier nicht wie bei den Experimenten mit der Basis-Fixpunktformel Knoten nach ihren Werten in zwei Mengen einteilen kann. Vielmehr liegen die Werte alle deutlich näher zusammen und im Bereich von 0.3 und 1. Zur Verdeutlichung dieser Beobachtung und als Vergleich zu den in 57
Seite 1 und 2:
Leibniz Universität Hannover Insti
Seite 3 und 4:
Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6: 1. Einleitung 1.1. Motivation und S
Seite 7 und 8: 2. Grundlagen In diesem Kapitel sol
Seite 9 und 10: Möglichkeiten erläutert, wie Mapp
Seite 11 und 12: (etwa OLA oder Microsoft BizTalk Ma
Seite 13 und 14: Abbildung 3.2.: Klassifizierung von
Seite 15 und 16: 4. Der Similarity Flooding Algorith
Seite 17 und 18: Definition 4.1 Seien A und B zwei M
Seite 19 und 20: Gemäß der Definition wird also zu
Seite 21 und 22: Abbildung 4.3.: Similarity Propagat
Seite 23 und 24: durch die Formel darstellen, wobei
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31 und 32: 5. Vergleich mit anderen Verfahren
Seite 33 und 34: (vorgeschlagen ist ein Unterschied
Seite 35 und 36: durchgeführt werden müssen, um ei
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43 und 44: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 45 und 46: sich allein mit der Qualität des V
Seite 47 und 48: Die Graphen 3, 4 und 5 sind jeweils
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55: Knoten Iteration 1 2 3 10 20 30 40
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61 und 62: Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 63 und 64: Einstellen niedriger Anfangsähnlic
Seite 65 und 66: eines Schemas in einen Graphen. Im
Seite 67 und 68: ER_MITARBEITER aus Schema 2 kann zu
Seite 69 und 70: 1 für α in der Vorverarbeitung da
Seite 71 und 72: Musiksammlung Bei den Musiksammlung
Seite 73 und 74: durch Festlegen von Anfangsähnlich
Seite 75 und 76: den Benutzer berücksichtigt wurde,
Seite 77 und 78: Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80: A. Anhang - Für Experimente verwen
Seite 81 und 82: A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84: A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86: Abbildung A.10.: Graph 4: Pairwise
Seite 93 und 94: Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96: B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98: Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100: Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102: B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104: Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106: Schema 1 Schema 2 Ähnlichkeitswert
Seite 107 und 108:
Schema 1 Schema 2 Ähnlichkeitswert
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119:
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?