pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

8. Fazit und Ausblick Die Integration von Datenbanken und damit verbunden die Suche nach Matchings und Matching-Verfahren sind Themen, die in Zukunft weiter an Bedeutung gewinnen werden. Graph-Matching-Verfahren haben dabei ein großes Potenzial, weil sie flexible Eingaben ermöglichen. Mit dem Similarity Flooding Algorithmus existiert ein interessantes Verfahren zum Graph Matching. Im Rahmen von Experimenten konnte in dieser Arbeit gezeigt werden, welche Möglichkeiten er bietet. Sie machen deutlich, dass ein Matching mit dem Similarity Flooding prinzipiell möglich ist und mit geeigneten Konfigurationen auch recht gute Ergebnisse liefert. Ebenso wird klar, dass hier noch eine Menge Potenzial für weitere Experimente und Untersuchungen vorhanden ist, um das Verfahren zu einem allgemein geeigneten Werkzeug für Matchings zu machen. Im Folgenden soll ein Ausblick geliefert werden, welche Aspekte in welcher Form weiter zu untersuchen sind, bevor das abschließende Fazit gezogen wird. Ausblick auf zukünftige Untersuchungen Fixpunktformel Der erste im Rahmen weiterer Untersuchungen zu überprüfende Aspekt beim Similarity Flooding ist die Fixpunktformel. In den Experimenten in dieser Arbeit konnten zwei unterschiedliche Formeln verglichen werden, wie bereits erwähnt sind hier jedoch noch eine Reihe weiterer denkbar. Hier ist zu überprüfen, ob andere Formeln unter Umständen zu besseren Ergebnissen – vor allem beim Schema-Matching – führen. Ziel dabei sollte es sein, die Fixpunktformel zu ermitteln, die allgemein zu den besten Ergebnissen führt, wenn es eine solche Formel gibt, oder Bedingungen festzuhalten, unter denen eine Formel bessere Resultate produziert als eine andere. Vorverarbeitungsphase Hat man die geeignetste Formel gefunden, muss untersucht werden, ob sie die Ergebnisse durch Abwandlung der Vorverarbeitungsphase verbessern lassen. Hierbei ist – vor allem wenn man das Ziel einer Anwendung auf großen Datenmengen berücksichtigt – besonders die Frage nach der Automatisierbarkeit relevant. Wie die Experimente gezeigt haben, ist eine Automatisierung zumindest teilweise möglich, was dem Benutzer viel Aufwand ersparen kann. In dem Zusammenhang ist die Frage zu klären, ob sich Domänenwissen, wie es in der Vorverarbeitung in Kapitel 7.3.5 als manuell eingegebene Information durch 74
den Benutzer berücksichtigt wurde, auch automatisch berücksichtigen lässt. Denkbar wären hier zum Beispiel eine Vorverarbeitung, die zum Teil auf domänenspezifischen Lexika und Thesauri basiert und daraus Anfangsähnlichkeiten ermittelt. Filterung der Ergebnisse Anschließend wäre die Filterung der Ergebnismenge näher zu untersuchen. Mit der Stable Marriage wurde im Rahmen dieser Arbeit ein möglicher Filter betrachtet, der aber nicht in jedem Fall geeignet ist. Ideal wäre es in diese Zusammenhang, wenn bereits anhand der Eingabewerte erkannt werden könnte, ob ein Filter geeignet ist oder nicht. Ob das möglich ist, wäre in Experimenten zu überprüfen. Ebenso stellt sich die Frage, welche Filter überhaupt geeignet sind, um die Ergebnismengen zu verkleinern. In Kapitel 4.4 wurden eine Reihe von Filtern vorgestellt. Diese müssten in weiteren Experimenten auf verschiedene Ergebnismengen des Similarity Flooding angewandt und verglichen werden, damit Aussagen darüber möglich sind, inwiefern ein Filter besser oder schlechter geeignet ist als ein anderer. Zusätzlich wäre auch hier interessant zu prüfen, ob bei bestimmten Eingaben bestimmte Filter besser geeignet sind als andere und ob das bereits an den Eingaben erkannt werden kann. Datenbankschemata als Eingabe Um das Similarity Flooding für Relationale Datenbankschemata einzusetzen, müssen auch hier noch einige Aspekte näher betrachtet werden. Zunächst ist die Transformation der Schemata in Graphen zu untersuchen. Zu überprüfen ist, ob andere Darstellungen der Schemata als Graphen zu allgemein besseren Ergebnisse führen als mit der im Rahmen dieser Arbeit verwendeten. Denkbar wäre es zum Beispiel, mehr Knoten für die Darstellung zu verwenden und so weniger Informationen in den Kantenmarkierungen zu speichern. Hier müssten also verschiedene Darstellungsweisen derselben Schemata experimentell verglichen werden, um so die optimale Transformation bzw. Darstellung der Schemata zu finden, sofern es eine solche gibt. Als nächstes wäre zu untersuchen, ob und wie Besonderheiten, die beim Matching der Schemata und deren Integration relevant sind, im Similarity Flooding zum Ausdruck gebracht werden können. Dazu gehören zum Beispiel Generalisierungen und Teilmengen- Beziehungen. Diese wurden in den Ergebnissen der Experimente bisher lediglich in Form von hohen Ähnlichkeitswerten erkannt. Hier ist zu überprüfen, ob es Möglichkeiten gibt, dass das Similarity Flooding solche Besonderheiten erkennt und entsprechend im Ergebnis kenntlich macht. Um das zu prüfen könnten etwa – wie bei der Vorverarbeitungsphase – domänenspezifische Lexika und Thesauri verwendet werden, um Ober- und Teilmengen zu ermitteln. Alternativ wäre zu klären, ob solche Beziehungen schon aus den Eingabe- Schemata zu erkennen sind. 75
Seite 1 und 2:
Leibniz Universität Hannover Insti
Seite 3 und 4:
Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6:
1. Einleitung 1.1. Motivation und S
Seite 7 und 8:
2. Grundlagen In diesem Kapitel sol
Seite 9 und 10:
Möglichkeiten erläutert, wie Mapp
Seite 11 und 12:
(etwa OLA oder Microsoft BizTalk Ma
Seite 13 und 14:
Abbildung 3.2.: Klassifizierung von
Seite 15 und 16:
4. Der Similarity Flooding Algorith
Seite 17 und 18:
Definition 4.1 Seien A und B zwei M
Seite 19 und 20:
Gemäß der Definition wird also zu
Seite 21 und 22:
Abbildung 4.3.: Similarity Propagat
Seite 23 und 24: durch die Formel darstellen, wobei
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31 und 32: 5. Vergleich mit anderen Verfahren
Seite 33 und 34: (vorgeschlagen ist ein Unterschied
Seite 35 und 36: durchgeführt werden müssen, um ei
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43 und 44: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 45 und 46: sich allein mit der Qualität des V
Seite 47 und 48: Die Graphen 3, 4 und 5 sind jeweils
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55 und 56: Knoten Iteration 1 2 3 10 20 30 40
Seite 57 und 58: gorithmus arbeiten muss, um zu eine
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61 und 62: Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 63 und 64: Einstellen niedriger Anfangsähnlic
Seite 65 und 66: eines Schemas in einen Graphen. Im
Seite 67 und 68: ER_MITARBEITER aus Schema 2 kann zu
Seite 69 und 70: 1 für α in der Vorverarbeitung da
Seite 71 und 72: Musiksammlung Bei den Musiksammlung
Seite 73: durch Festlegen von Anfangsähnlich
Seite 77 und 78: Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80: A. Anhang - Für Experimente verwen
Seite 81 und 82: A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84: A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86: Abbildung A.10.: Graph 4: Pairwise
Seite 93 und 94: Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96: B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98: Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100: Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102: B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104: Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106: Schema 1 Schema 2 Ähnlichkeitswert
Seite 119: Schema 1 Schema 2 Ähnlichkeitswert
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?