pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

7. Empirische Befunde und Experimente zum Similarity Flooding Kapitel 4 befasste sich damit, wie der Similarity Flooding Algorithmus funktioniert und wie mit Ergebnissen umgegangen werden kann. Das folgende Kapitel befasst sich nun mit der Frage, ob bzw. wie gut das Similarity Flooding dafür geeignet ist, Matchings zu finden, und ob bzw. wie man die Qualität der Ergebnisse verbessern kann. Dazu wird im Folgenden zunächst darauf eingegangen, wie das Thema in der Literatur behandelt wird und welche Ergebnisse es dort gibt, bevor anschließend eine Reihe eigener Experimente durchgeführt und beschrieben werden. 7.1. Befunde in der Literatur Um die Qualität des Similarity Flooding feststellen zu können, beschäftigen sich die Autoren von [MGMR01] mit der Frage, ob es überhaupt eine geeignete Metrik gibt, um diese zu ermitteln. Sie stellen schließlich eine solche Metrik vor, die im Wesentlichen auf dem Benutzeraufwand basiert, der benötigt wird, um die Ergebnisse, die automatisch von einem Algorithmus geliefert werden, in die gewünschten Ergebnisse zu transformieren. Ihre Wahl begründen sie damit, dass in vielen Anwendungsgebieten eines Matchings dessen Ziel stark von der Intention des Benutzers abhängt und man sich aus diesem Grund nicht einfach einer vorhandenen Metrik bedienen kann. Die Autoren stellen – basierend auf ihrer Metrik – in Studien mit acht Benutzern, die mit Hilfe des Verfahrens Schemata matchen sollen, Folgendes fest: Auch wenn der Algorithmus nicht in jedem Fall sehr gute Ergebnisse liefert, können im Schnitt 52% des manuellen Aufwands durch ihn eingespart werden. In typischen Anwendungsfällen bescheinigen sie dem Algorithmus sogar eine noch weitaus größere Aufwandsersparnis. Bezüglich der Filter der Ergebnisse stellen sie fest, dass solche, welche die Stable-Marriage- Eigenschaft aufrechterhalten, besser geeignet sind als andere. Als Fixpunktformel empfehlen sie nach den Ergebnissen ihrer Studien die Formel C (vgl. Tabelle 4.3), welche am schnellsten konvergiert und von der Qualität her annähernd gleiche Ergebnisse liefert wie die anderen Formeln. Als Formel zur Errechnung der Propagation-Koeffizienten empfehlen sie – wie in Kapitel 4.2 erwähnt – den inversen Durchschnitt (vgl. Tabelle 4.1). Außerdem stellen sie fest, dass der Algorithmus „Fehlern“ bei den Anfangsähnlichkeiten gegenüber relativ tolerant ist, sich die Ergebnisse also kaum bzw. gar nicht ändern, selbst wenn Anfangsähnlichkeiten „falsch“ bestimmt wurden. Obwohl das Similarity Flooding in einer Reihe von weiteren Verfahren wie etwa SemInt verwendet wird, gibt es ansonsten in der Literatur relativ wenige Befunde, die 44
sich allein mit der Qualität des Verfahrens befassen. Hauptsächlich wird das Verfahren einfach als funktional hingenommen und anschließend nur noch die Qualität des neu vorgestellten Verfahrens bewertet, sodass keinerlei Rückschlüsse auf die Qualität des Similarity Flooding möglich sind. In [DMR02] werden einige unterschiedliche Verfahren in Experimenten verglichen, unter ihnen auch das Similarity Flooding. Die Experimente und Ergebnisse bezüglich des Similarity Floodings sind dabei allerdings keine anderen als in [MGMR01], was vermutlich daran liegt, dass zwei der drei Autoren in beiden Werken identisch sind. Auch hier sind also keine neueren Befunde festzuhalten. 7.2. Experimente an Graphen In den folgenden Abschnitten sollen einige der Ergebnisse, die von den Autoren in [MGMR01] festgestellt wurden, in eigenen Experimenten überprüft sowie weitere Untersuchungen zum Similarity Flooding angestellt werden. Da es im Rahmen dieser Arbeit nicht möglich ist, jedes Detail des Algorithmus und jede Beobachtung, die in Experimenten in der Literatur gemacht wurde, zu überprüfen, werden hier exemplarisch zwei Aspekte des Similarity Flooding näher beleuchtet. Zuerst sollen die Auswirkungen der Anfangsähnlichkeiten auf die Ergebnisse betrachtet werden. Die These der Entwickler des Algorithmus, dass dieser gegenüber Fehlern bei den Anfangsähnlichkeiten tolerant ist, bedarf einer weiteren Überprüfung. Hier stellt sich die Frage, ob man sich für den Fall, dass die Beobachtung der Autoren zutrifft, die Berechnung von Anfangsähnlichkeiten in der Vorverarbeitungsphase nicht vollständig sparen könnte. Als zweites soll überprüft werden, wie sich die Verwendung einer anderen Fixpunktformel auf das Similarity Flooding auswirkt. Die Autoren von [MGMR01] bescheinigen allen Formeln, dass sie zu sehr ähnlichen Ergebnisse führen. An dieser Stelle ist zu überprüfen, ob das tatsächlich der Fall ist oder ob durch die Wahl einer anderen Fixpunktformel die Ergebnisse doch beeinflusst werden können. 7.2.1. Experimentdurchführung Bevor auf die Ergebnisse der Experimente eingegangen werden kann, soll in diesem Abschnitt zunächst darauf eingegangen werden, wie die Experimente durchgeführt wurden und was für Graphen als Grundlage für die Tests dienten. Für alle Experimente in diesem Kapitel wurde das in Kapitel 6 vorgestellte Programm verwendet. Grundsätzlicher Ablauf der Experimente Um die späteren Ergebnisse gut auswerten und vergleichen zu können, wurden die Experimente nach einem festen Schema durchgeführt. Für alle Tests wurde der Similarity Flooding Algorithmus bis zum Erreichen eines Fixpunktes durchgeführt. Dabei wurde als Abbruchbedingung für die Berechnungen ein konstanter Wert von ɛ = 0.001 verwendet. Eine Abbruchbedingung nach einer bestimmten Anzahl von Iterationen wurde 45
Seite 1 und 2: Leibniz Universität Hannover Insti
Seite 3 und 4: Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6: 1. Einleitung 1.1. Motivation und S
Seite 7 und 8: 2. Grundlagen In diesem Kapitel sol
Seite 9 und 10: Möglichkeiten erläutert, wie Mapp
Seite 11 und 12: (etwa OLA oder Microsoft BizTalk Ma
Seite 13 und 14: Abbildung 3.2.: Klassifizierung von
Seite 15 und 16: 4. Der Similarity Flooding Algorith
Seite 17 und 18: Definition 4.1 Seien A und B zwei M
Seite 19 und 20: Gemäß der Definition wird also zu
Seite 21 und 22: Abbildung 4.3.: Similarity Propagat
Seite 23 und 24: durch die Formel darstellen, wobei
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31 und 32: 5. Vergleich mit anderen Verfahren
Seite 33 und 34: (vorgeschlagen ist ein Unterschied
Seite 35 und 36: durchgeführt werden müssen, um ei
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 47 und 48: Die Graphen 3, 4 und 5 sind jeweils
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55 und 56: Knoten Iteration 1 2 3 10 20 30 40
Seite 57 und 58: gorithmus arbeiten muss, um zu eine
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61 und 62: Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 63 und 64: Einstellen niedriger Anfangsähnlic
Seite 65 und 66: eines Schemas in einen Graphen. Im
Seite 67 und 68: ER_MITARBEITER aus Schema 2 kann zu
Seite 69 und 70: 1 für α in der Vorverarbeitung da
Seite 71 und 72: Musiksammlung Bei den Musiksammlung
Seite 73 und 74: durch Festlegen von Anfangsähnlich
Seite 75 und 76: den Benutzer berücksichtigt wurde,
Seite 77 und 78: Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80: A. Anhang - Für Experimente verwen
Seite 81 und 82: A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84: A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86: Abbildung A.10.: Graph 4: Pairwise
Seite 93 und 94: Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96:
B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98:
Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100:
Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102:
B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104:
Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106:
Schema 1 Schema 2 Ähnlichkeitswert
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119:
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?