pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

Knoten Iteration 1 2 3 4 5 10 12 13 14 15 (a, b) 0.5 0.25 0.375 0.313 0.359 0.35 0.352 0.353 0.352 0.353 (a 1 , b) 1 1 1 1 1 1 1 1 1 1 (a 1 , b 1 ) 0.5 0.625 0.563 0.594 0.578 0.589 0.588 0.588 0.588 0.588 (a 1 , b 2 ) 0 0 0.063 0.031 0.063 0.057 0.058 0.059 0.058 0.059 (a 2 , b 1 ) 0 0.125 0.063 0.125 0.094 0.118 0.118 0.117 0.118 0.117 (a 2 , b 2 ) 1 1 1 1 1 1 1 1 1 1 Tabelle 7.13.: Entwicklung der Ähnlichkeitswerte über mehrere Iterationen (Graph 1) für Fall 4 Wie anhand der bisherigen Testfälle zu erwarten war, stellen sich mit zufälligen Anfangsähnlichkeiten auch jeweils sehr unterschiedliche Fixpunkte ein. An dieser Stelle zeigt sich erneut, wie stark der Einfluss der Anfangsähnlichkeiten mit Fixpunktformel A auf die Ergebnisse ist. Zusammenfassung und Zwischenfazit Durch die in diesem Abschnitt durchgeführten Experimente konnten bedeutende Eigenschaften der Fixpunktformel A festgestellt werden. Die Anfangsähnlichkeiten haben hier starke Auswirkungen auf die Ergebnisse und sind somit essenziell wichtig für deren Qualität. Hohe Beträge bei den Anfangsähnlichkeiten lassen das Similarity Flooding schnell einen Fixpunkt erreichen, niedrige Beträge (wie in Fall 2) führen dazu, dass deutlich mehr Iterationen benötigt werden. Abschließend kann bezüglich der Fixpunktformel festgehalten werden, dass die Verwendung von Fixpunktformel A nur in Kombination mit einer Vorverarbeitung sinnvoll ist, in der Anfangsähnlichkeiten berechnet werden. Hier trifft die These der Autoren in [MGMR01], dass Anfangsähnlichkeiten die Ergebnisse wenig beeinflussen, nicht zu. 7.2.4. Zusammenfassung In diesem Kapitel konnten zwei zentrale Aspekte des Similarity Floodings näher beleuchtet werden. Abschließend ist festzuhalten, dass die richtige Wahl der Fixpunktformel entscheidend sein kann, wenn es darum geht, die gewünschten Ergebnisse zu bekommen. Bei den Experimenten mit der Basis-Fixpunktformel führte alleine die Struktur der Graphen, die für die Tests verwendet wurden, dazu, dass sich bestimmte Fixpunkte eingestellt haben. Dabei waren Anfangsähnlichkeiten nahezu irrelevant, weil das Similarity Flooding diese im Laufe der Iterationen „ausgeglichen“ hat. Im konkreten Anwendungsfall bedeutet das, dass es mit der Formel wenig Möglichkeiten gibt, um Ähnlichkeiten, die nicht strukturell bedingt sind, in das Verfahren einfließen zu lassen. Möchte man etwa ein Knotenpaar, das strukturell sehr ähnlich ist, trotzdem nicht als Matching-Kandidat im Ergebnis erhalten, lässt sich das unter Verwendung der Basis-Fixpunktformel nicht durch 62
Einstellen niedriger Anfangsähnlichkeiten für dieses Paar erreichen, sondern höchstens durch anschließendes Filtern der Ergebnisse. Anders verhält es sich mit Fixpunktformel A. Hier ist der Einfluss der Anfangsähnlichkeiten deutlich größer, der Einfluss der Struktur auf die Ergebnismenge deutlich geringer. Während man mit der Basis-Fixpunktformel auf eine Vorverarbeitung gänzlich verzichten kann, ist sie bei Fixpunktformel A notwendiger und nützlicher Bestandteil. Das eröffnet im Anwendungsfall deutlich mehr Möglichkeiten, denn im Gegensatz zur Basis-Fixpunktformel lassen sich die Fixpunkte durch die Anfangsähnlichkeiten beeinflussen. Das Similarity Flooding ist mit Fixpunktformel A somit wesentlich flexibler und praktikabler einsetzbar als mit der Basis-Fixpunktformel. Möchte man bestimmte Knotenpaare im Ergebnis „begünstigen“, kann man das durch Einstellungen an den Anfangsähnlichkeiten erreichen. Auch wenn man hier strukturell sehr unähnliche Knotenpaare durch hohe Anfangswerte begünstigt, schafft es der Algorithmus, einen Fixpunkt zu erreichen, der in Abhängigkeit davon andere Matching-Kandidaten vorschlägt. Über die Qualität der Fixpunkte, die sich mit der Fixpunktformel A und veränderten Anfangsähnlichkeiten einstellen, kann anhand der in diesem Kapitel verwendeten Graphen wenig gesagt werden. Auch wenn es – wie etwa bei Graph 6 – Erwartungen gegeben hat, welche Knotenpaare bezüglich ihrer Struktur mit hohen Ähnlichkeitswerten im Ergebnis auftreten müssten, reicht das nicht aus, um allgemein von „schlechten“ Ergebnissen zu sprechen, wenn durch Ändern der Anfangsähnlichkeiten andere Matching- Kandidaten vorgeschlagen werden. Schließlich möchte man durch diese Änderung das Ergebnis beeinflussen, sodass es durchaus denkbar ist, dass die Matching-Kandidaten, die sich daraus ergeben, im konkreten Anwendungsfall bessere Kandidaten sind als die, die sich rein von der Struktur ergeben hätte. Um die Qualität besser beurteilen zu können, sind Tests an konkreten Anwendungsfällen nötig, wie sie im folgenden Abschnitt durchgeführt werden sollen. 7.3. Experimente an Relationalen Datenbankschemata Nachdem es in Kapitel 7.2 im Wesentlichen darum ging, die Arbeitsweise des Similarity Flooding und die Auswirkungen, die die Wahl der Fixpunktformel und die Festlegung der Anfangsähnlichkeiten auf das Verfahren haben, näher zu beleuchten, soll in diesem Kapitel die Qualität der Ergebnisse, die das Similarity Flooding liefert, im Vordergrund stehen. Wie bereits angedeutet, lassen sich anhand von Graphen nur bedingt Aussagen über die Qualität des Verfahrens treffen. Aus diesem Grund soll das Similarity Flooding in den folgenden Abschnitten auf konkrete Relationale Datenbankschemata angewandt werden, um dazu Aussagen treffen zu können. 7.3.1. Experimentaufbau Auch wenn die Experimente in diesem Kapitel ähnlich ablaufen wie in Kapitel 7.2, gibt es einige wesentliche Unterschiede, auf die in den folgenden Abschnitten näher eingegangen werden soll. 63
Seite 1 und 2:
Leibniz Universität Hannover Insti
Seite 3 und 4:
Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6:
1. Einleitung 1.1. Motivation und S
Seite 7 und 8:
2. Grundlagen In diesem Kapitel sol
Seite 9 und 10:
Möglichkeiten erläutert, wie Mapp
Seite 11 und 12: (etwa OLA oder Microsoft BizTalk Ma
Seite 13 und 14: Abbildung 3.2.: Klassifizierung von
Seite 15 und 16: 4. Der Similarity Flooding Algorith
Seite 17 und 18: Definition 4.1 Seien A und B zwei M
Seite 19 und 20: Gemäß der Definition wird also zu
Seite 21 und 22: Abbildung 4.3.: Similarity Propagat
Seite 23 und 24: durch die Formel darstellen, wobei
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31 und 32: 5. Vergleich mit anderen Verfahren
Seite 33 und 34: (vorgeschlagen ist ein Unterschied
Seite 35 und 36: durchgeführt werden müssen, um ei
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43 und 44: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 45 und 46: sich allein mit der Qualität des V
Seite 47 und 48: Die Graphen 3, 4 und 5 sind jeweils
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55 und 56: Knoten Iteration 1 2 3 10 20 30 40
Seite 57 und 58: gorithmus arbeiten muss, um zu eine
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61: Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 65 und 66: eines Schemas in einen Graphen. Im
Seite 67 und 68: ER_MITARBEITER aus Schema 2 kann zu
Seite 69 und 70: 1 für α in der Vorverarbeitung da
Seite 71 und 72: Musiksammlung Bei den Musiksammlung
Seite 73 und 74: durch Festlegen von Anfangsähnlich
Seite 75 und 76: den Benutzer berücksichtigt wurde,
Seite 77 und 78: Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80: A. Anhang - Für Experimente verwen
Seite 81 und 82: A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84: A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86: Abbildung A.10.: Graph 4: Pairwise
Seite 93 und 94: Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96: B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98: Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100: Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102: B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104: Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106: Schema 1 Schema 2 Ähnlichkeitswert
Seite 113 und 114:
Schema 1 Schema 2 Ähnlichkeitswert
Seite 115 und 116:
Seite 117 und 118:
Seite 119:
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?