pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

3. Matching-Verfahren 3.1. Geschichte Matching-Verfahren existieren schon seit vielen Jahren. Bereits in den frühen 80er Jahren befasste man sich mit dem Problem, eine Menge unabhängiger Schemata zu integrieren. Ziel ist es, Zusammenhänge zwischen den oft sehr unterschiedlichen Schemata zu finden und zu nutzen. In den frühen 90er Jahren ging es bei solchen Matchings hauptsächlich darum, spezifische Programme zu entwickeln, um Daten umzuwandeln. Hintergrund davon war die immer stärkere Bedeutung des Web, sodass in diesem Zusammenhang etwa der L A TEX2HTML-Übersetzer entstanden ist, um Daten aus L A TEX in webkompatibles HTML umzuwandeln [Dra93]. Außerdem wurde die Integration von Daten in ein Data Warehouse populär, d.h. man versuchte verstärkt, Methoden zu finden, um Quelldaten in Form von Relationalen Schemata in ein Format umzuwandeln, in dem es mit dem Format des Data Warehouse kompatibel war ([RB01]). Das Ziel von Verfahren wie dem L A TEX2HTML-Übersetzer war es im Wesentlichen, die zeitaufwändige und fehleranfällige manuelle Integrationsarbeit zu automatisieren ([RB01]). Da die Verfahren zunächst sehr spezifisch für eine Aufgabe waren, musste hier viel Aufwand in die Programmierung investiert werden und für jedes Problem umfangreiches domänenspezifisches Wissen angeeignet werden ([MZ98]). Ab den späten 90er Jahren ging es deswegen vermehrt darum, generischere Verfahren zu entwickeln, um verschiedene Arten von Eingabedaten – wie XML-Dateien, Realtionale Schemata o.ä. – mit weniger Programmieraufwand matchen zu können. [MZ98] stellt mit TranScm ein solches Verfahren vor, dass gleichzeitig auch eines der ersten ist, welches Schemata graph-basiert matcht. Die Idee dabei ist, Quelldaten mit Hilfe eines regel-basierten Systems mit Zieldaten zu matchen, um anschließend die gematchten Quell- in die Zieldaten transformieren zu können. Dabei werden die Eingabedaten jeweils als Graphen dargestellt und anschließend Matches zwischen den Quellund Zieldaten gesucht, was durch eine Menge von Regeln geschieht, die auf die Graphen angewandt werden. Um die Jahrtausendwende herum entstanden eine ganze Reihe von Matching-Verfahren mit teils sehr unterschiedlichen Ansätzen. Beispiel für solche Verfahren sind etwa SKAT, LSD, ARTEMIS, CUPID und Similarity Flooding ([RB01]). Enorm wachsende Datenmengen im Web und im immer bedeutender werdenden E-Commerce-Bereich waren der Antrieb dafür, dass sich Autoren sehr stark mit der Entwicklung von Matching-Verfahren auseinandersetzten. Obwohl auch in den Jahren nach der Jahrtausendwende eine Reihe neuer Verfahren 10
(etwa OLA oder Microsoft BizTalk Mapper) oder Varianten bestehender Verfahren (z.B. NOM ) entstanden ([SE05]), stellte [Gal06] 2006 fest, dass sich trotz intensiver Forschung bislang keines der entwickelten Schema-Matching-Verfahren durchgesetzt hat. Stattdessen würden immer noch ad-hoc-Lösungen eingesetzt, obwohl das Ziel der Matching- Verfahren eigentlich ja genau die Vermeidung solcher Lösungen sein sollte. Neben den „klassischen“ Verfahren zum Matching von Schemata wurden vor allem in den letzten knapp 12 Jahren vermehrt Verfahren zum Matchen von Ontologien verwendet. [Rah11] nennt hier unter anderem Falcon und Rimom aus dem Jahr 2006 und Harmony, erstmals vorgestellt 2008. Trotz vieler Fortschritte, die bei der Entwicklung von Schema-Matching-Verfahren in den vorangegangenen Jahren gemacht wurden, bescheinigte [Rah11] diesen 2011 immer noch Schwierigkeiten bei large-scale-Matchings, also Matchings in großem Umfang und mit großen Datenmengen. So würden nach wie vor näherungsweise Mappings ermittelt werden können, Anpassungen durch menschliche Experten wären nach wie vor nötig und das Problem, gute Effektivität bei gleichzeitig guter Effizienz zu erreichen, wäre immer noch nicht gelöst. 3.2. Klassifizierung von Matching-Verfahren Da die Zahl von Matching-Verfahren stetig wächst, ist es sinnvoll, diese in bestimmte Kategorien einzuteilen, um den Überblick behalten zu können. In der Literatur wurde in [RB01] eine solche Klassifizierung vorgenommen, die in [SE05] in Teilen verändert und erweitert wurde. Diese Klassifizierungen sollen in diesem Abschnitt kurz erläutert werden. Da der Fokus dieser Arbeit auf dem Graph-Matching liegt, soll dabei insbesondere darauf eingegangen werden, an welcher Stelle sich dieses in den Kontext der Schema-Matching-Verfahren einordnen lässt. In [RB01] wird zunächst zwischen individuellen und kombinierten Matching-Ansätzen (auch als Matcher bezeichnet) unterschieden. Individuelle Ansätze verwenden ein einzelnes Kriterium für das Matching. Sie können entweder ausschließlich schema-basiert oder instanz-/inhalts-basiert sein. Kombinierte Matcher können entweder mehrere Ansätze zusammenfassen und anhand mehrerer Kriterien ihr Matching durchführen (hybride Matcher) oder die Ergebnisse mehrerer verschiedener Ansätze zusammenfassen (Komposition). Graph-Matching-Verfahren werden dabei den individuellen Matchern und dort den ausschließlich schema-basierten zugeordnet. Im Normalfall werden keinerlei Daten für das Matching benötigt, sondern lediglich Informationen aus den Schemata. Das Similarity Flooding, das in dieser Arbeit besonders intensiv betrachtet werden soll, kann dabei in gewissem Sinne als Ausnahme betrachtet werden, denn dabei wird für das Matching selbst zwar ausschließlich die Struktur der Schemata herangezogen, in der Vorverarbeitungsphase sind aber auch weitere Kriterien möglich, die eventuell andere Daten benötigen (wie zum Beispiel Wörterbücher oder Thesauri). Auf der nächst-niedrigeren, detaillierteren Ebene unterscheidet man bei den ausschließlich schema-basierten Matchern zwischen Element-Ebene und Struktur-Ebene. Auf 11
Seite 1 und 2: Leibniz Universität Hannover Insti
Seite 3 und 4: Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6: 1. Einleitung 1.1. Motivation und S
Seite 7 und 8: 2. Grundlagen In diesem Kapitel sol
Seite 9: Möglichkeiten erläutert, wie Mapp
Seite 13 und 14: Abbildung 3.2.: Klassifizierung von
Seite 15 und 16: 4. Der Similarity Flooding Algorith
Seite 17 und 18: Definition 4.1 Seien A und B zwei M
Seite 19 und 20: Gemäß der Definition wird also zu
Seite 21 und 22: Abbildung 4.3.: Similarity Propagat
Seite 23 und 24: durch die Formel darstellen, wobei
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31 und 32: 5. Vergleich mit anderen Verfahren
Seite 33 und 34: (vorgeschlagen ist ein Unterschied
Seite 35 und 36: durchgeführt werden müssen, um ei
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43 und 44: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 45 und 46: sich allein mit der Qualität des V
Seite 47 und 48: Die Graphen 3, 4 und 5 sind jeweils
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55 und 56: Knoten Iteration 1 2 3 10 20 30 40
Seite 57 und 58: gorithmus arbeiten muss, um zu eine
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61 und 62:
Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 63 und 64:
Einstellen niedriger Anfangsähnlic
Seite 65 und 66:
eines Schemas in einen Graphen. Im
Seite 67 und 68:
ER_MITARBEITER aus Schema 2 kann zu
Seite 69 und 70:
1 für α in der Vorverarbeitung da
Seite 71 und 72:
Musiksammlung Bei den Musiksammlung
Seite 73 und 74:
durch Festlegen von Anfangsähnlich
Seite 75 und 76:
den Benutzer berücksichtigt wurde,
Seite 77 und 78:
Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80:
A. Anhang - Für Experimente verwen
Seite 81 und 82:
A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84:
A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86:
Abbildung A.10.: Graph 4: Pairwise
Seite 87 und 88:
Seite 89 und 90:
Seite 91 und 92:
Seite 93 und 94:
Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96:
B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98:
Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100:
Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102:
B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104:
Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106:
Schema 1 Schema 2 Ähnlichkeitswert
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119:
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?