pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

gemerged werden können. Im Rahmen dieser Arbeit soll dieses Merging nicht näher betrachtet werden, sondern vielmehr die Schritte vorher – nämlich das Auffinden eines Mappings der Elemente der Modelle – in den Fokus treten. Wie beim Similarity Flooding werden bei Rondo zunächst intern die Modelle als Graphen – genauer gesagt gerichtete, azyklische und markierte Graphen – gespeichert. Knoten enthalten dabei die Informationen über die Elemente der Modelle – also etwa Relationen, Attribute, SQL-Anweisungen etc. – die durch Kanten in Beziehung gesetzt werden. Im Unterschied zum Similarity Flooding ist es hier zusätzlich möglich, zu den Kanten eine Sortierung zu speichern, sodass man zum Beispiel bei einer Tabelle mit zwei Spalten diese Spalten ordnen könnte. Außerdem erhält hier jeder Knoten einen eindeutigen Identifizierer. Zur Repräsentation von Mappings innerhalb der Modelle oder zwischen den Modellen werden Morphismen verwendet, d.h. binäre Relationen zwischen zwei Mengen von Objekten aus den Modellen. Diese Morphismen können weitere Informationen bekommen, wenn es etwa um Ähnlichkeitswerte zwischen den Mengen geht, die durch den Morphismus verbunden werden. Neben den Morphismen stellen die Autoren sogenannte Selector vor, die dazu dienen, eine Menge von Identifizierern von Knoten darzustellen. Zudem werden eine Reihe Operationen definiert, um bestimmte Bereiche der Graphen auswählen oder modifizieren zu können. Für die Berechnung eines Matchings innerhalb der Methode Match wird in der konkreten Implementierung das Similarity Flooding ohne wesentliche Änderungen an der in Kapitel 4 vorgestellten Variante übernommen. Für das abschließende Filtern der Ergebnisse wird hier der Filter verwendet, der das Stable-Marriage-Verfahren instrumentalisiert. Zusammenfassend lässt sich festhalten, dass die Autoren mit Rondo ein Verfahren entwickelt und implementiert haben, deren Fokus ganz klar auf der generischen Beschreibung und auf dem automatischen Merging der Eingabemodelle liegt. Da hier das Similarity Flooding ohne Modifikationen verwendet wird, eignet sich Rondo in dieser Form nicht für einen Vergleich mit anderen Verfahren, sondern kann eher als ein „Rahmen“ angesehen werden, in dem verschiedene Verfahren implementiert sein könnten. 5.3. SASMINT Ähnlich wie bei Rondo handelt es sich bei dem Ansatz von Semi Automatic Schema Matching and INTegration (SASMINT) nicht um ein eigenständiges Verfahren, das sich ad-hoc mit dem Similarity Flooding vergleichen ließe. Stattdessen stellen die Autoren von [UA10] mit SASMINT eine Möglichkeit dar, verschiedenste Verfahren und Metriken zu kombinieren, um so bessere Ergebnisse beim Schema-Matching und der Integration erzielen zu können als mit einem einzelnen Verfahren. Obwohl der Fokus von [UA10] stark auf der Integration und weniger auf dem Matching liegt, soll im Rahmen dieser Arbeit nicht weiter auf das Matching im Sinne von SASMINT eingegangen werden. Stattdessen sollen die Schritte beschrieben werden, die 34
durchgeführt werden müssen, um ein endgültiges Matching zu erhalten, und näher erläutert werden, an welcher Stelle und in welcher Form das Similarity Flooding bei SASMINT verwendet wird. Bevor in SASMINT Eingabedaten verarbeitet (also z.B. Schemata geladen) werden, werden Gewichte für alle Metriken und Algorithmen, die verwendet werden sollen, berechnet und entsprechend zugewiesen. Das geschieht standardmäßig durch Berechnung einer gewichteten Summer aller Metriken und Verfahren. Falls Bedarf besteht, kann hier auch ein Benutzer manuell Gewichte festlegen. Danach werden die Auswahlkriterien für die Ergebnisse des Matchings festgelegt. Hierbei sind Eingaben der Benutzer nötig, um Grenzwerte (Thresholds) festzulegen und zu bestimmen, ob alle Werte oberhalb dieser Grenzwerte ausgegeben werden sollen oder nur der jeweils größte. Nach diesen beiden Schritten werden die Schemata geladen und direkt dabei in gerichtete, azyklische Graphen überführt. In der anschließenden Vorverarbeitungsphase werden nacheinander die folgenden Operationen durchgeführt, ohne dass hier weiter darauf eingegangen werden soll: 1. Eliminierung von stop words und Sonderzeichen 2. Tokenization und Trennung von Wörtern 3. Erweiterung von Abkürzungen 4. Normalisierung von Termen in ihre Grundform mit Lemmatisierung Nun folgt in SASMINT das eigentliche Matching, das in zwei Schritte eingeteilt ist. Zuerst werden die Schemata linguistisch verglichen, anschließend strukturell. Beim linguistischen Vergleich werden die Elemente der Schemata zunächst syntaktisch vergleichen, wozu verschiedenste Metriken herangezogen werden können (etwa Levenshtein Distanz, tf-idf-Werte oder Jaccard-Koeffizienten). Anschließend werden semantische Ähnlichkeiten berechnet, wobei auch hier diverse Methoden vorstellbar sind. Beim strukturellen Vergleich werden die Ähnlichkeiten der Schemata basierend auf ihrer Struktur berechnet. Hierbei werden die Ergebnisse des linguistischen Vergleichs als Eingabewerte verwendet. In dieser Phase findet auch das Similarity Flooding Verwendung, es sind aber auch weitere Verfahren denkbar. Werden hier mehrere Verfahren zusammen verwendet, wird als Ergebnis die gewichtete Summe der Ergebnisse aller Verfahren verwendet. Obwohl in der Matching-Phase das Similarity Flooding in unveränderter Form verwendet werden kann und auch wird, gibt es einen bedeutsamen Unterschied zwischen den Ähnlichkeitswerten, die bei SASMINT berechnet werden, und denen, die das Similarity Flooding liefert. Während beim Similarity Flooding linguistische Ähnlichkeiten – sofern sie überhaupt berechnet werden – lediglich als Anfangsähnlichkeiten in den Algorithmus einfließen, im Nachhinein aber die Ähnlichkeitswerte nicht weiter beeinflussen, geht SASMINT eine Stufe weiter. Hier werden die Ähnlichkeitswerte sim(a, b) zweier Elemente a und b in der Matching-Phase durch folgende Formel berechnet: sim(a, b) = w linguistisch · sm linguistisch (a, b) + w strukturell · sm strukturell (a, b) 35
Seite 1 und 2: Leibniz Universität Hannover Insti
Seite 3 und 4: Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6: 1. Einleitung 1.1. Motivation und S
Seite 7 und 8: 2. Grundlagen In diesem Kapitel sol
Seite 9 und 10: Möglichkeiten erläutert, wie Mapp
Seite 11 und 12: (etwa OLA oder Microsoft BizTalk Ma
Seite 13 und 14: Abbildung 3.2.: Klassifizierung von
Seite 15 und 16: 4. Der Similarity Flooding Algorith
Seite 17 und 18: Definition 4.1 Seien A und B zwei M
Seite 19 und 20: Gemäß der Definition wird also zu
Seite 21 und 22: Abbildung 4.3.: Similarity Propagat
Seite 23 und 24: durch die Formel darstellen, wobei
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31 und 32: 5. Vergleich mit anderen Verfahren
Seite 33: (vorgeschlagen ist ein Unterschied
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43 und 44: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 45 und 46: sich allein mit der Qualität des V
Seite 47 und 48: Die Graphen 3, 4 und 5 sind jeweils
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55 und 56: Knoten Iteration 1 2 3 10 20 30 40
Seite 57 und 58: gorithmus arbeiten muss, um zu eine
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61 und 62: Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 63 und 64: Einstellen niedriger Anfangsähnlic
Seite 65 und 66: eines Schemas in einen Graphen. Im
Seite 67 und 68: ER_MITARBEITER aus Schema 2 kann zu
Seite 69 und 70: 1 für α in der Vorverarbeitung da
Seite 71 und 72: Musiksammlung Bei den Musiksammlung
Seite 73 und 74: durch Festlegen von Anfangsähnlich
Seite 75 und 76: den Benutzer berücksichtigt wurde,
Seite 77 und 78: Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80: A. Anhang - Für Experimente verwen
Seite 81 und 82: A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84: A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86:
Abbildung A.10.: Graph 4: Pairwise
Seite 87 und 88:
Seite 89 und 90:
Seite 91 und 92:
Seite 93 und 94:
Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96:
B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98:
Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100:
Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102:
B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104:
Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106:
Schema 1 Schema 2 Ähnlichkeitswert
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119:
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?