pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

Abbildung 7.1.: 4 Fälle bei der Schema-Transformation Umwandlung von Schemata in Graphen Das Programm, mit dem die Tests durchgeführt wurden, entspricht wie in Kapitel 7.2 dem in Kapitel 6 vorgestellten. Da hier statt Graphen Relationale Datenbankschemata als Eingabe dienen sollen, war es notwendig, eine Methode zu entwickeln, um diese Schemata in geeignete Graphen-Strukturen zu überführen. Für eine solche Transformation sind eine Reihe von Möglichkeiten denkbar, sie zu realisieren, die sich dadurch unterscheiden, welche Informationen der Schemata in welcher Form dargestellt werden. In [MGMR01] stellen die Autoren eine Methode dar, um eine solche Transformation durchzuführen, und führen sie anhand zweier Beispielschemata durch. Dabei werden sämtliche Informationen der Schemata in Form eigener Knoten und Kanten repräsentiert, was dazu führt, dass die auf diese Weise erzeugten Graphen vergleichsweise sehr groß sind. Für das eine der in [MGMR01] im Kapitel 2 verwendeten Beispielschemata mit einer Relation und vier Attributen wurden im Graphen auf diese Weise 31 Knoten benötigt, um es darzustellen, der Similarity Propagation Graph enthält sogar 211 Knoten. Im Rahmen dieser Arbeit sollen Experimente an größeren Schemata durchgeführt werden. Für die Transformation soll aus diesem Grund eine andere Methode zur Transformation verwendet werden, die im Vergleich kleinere Graphen erzeugt, dabei aber trotzdem wesentliche Aspekte der Schemata berücksichtigt. Die Transformation der Schemata in Graphen geschieht dabei folgendermaßen: Für jede Relation wird ein Knoten mit ihrem Namen erzeugt. Attribute bekommen ebenfalls Knoten, die der besseren Übersichtlichkeit halber in der Form „Relationsname.Attributname“ benannt werden. Relationsknoten werden durch Kanten mit den Attributknoten verbunden, wobei bei der Kantenmarkierung zwischen Fremdschlüsseln und sonstigen Attributen unterschieden wird. Kanten zu Fremdschlüsseln werden mit „has_foreign- _key“ markiert, die übrigen mit „has_attribute“. Fremdschlüsselknoten werden ihrerseits über eine Kante „references“ mit dem Relationsknoten verbunden, auf der der Fremdschlüssel verweist. Alle Attributknoten können außerdem noch Teil des Primärschlüssels sein, was durch eine Kante zu einem Spezialknoten „Primary Key“ dargestellt wird, die mit „constraints“ beschriftet ist. Abbildung 7.1 zeigt beispielhaft die vier möglichen Fälle a) - d) bei der Umwandlung 64
eines Schemas in einen Graphen. Im Quellcode des Testprogramms ist die Transformation wie in Kapitel 6 angedeutet in der Methoden transform_2 realisiert. Für die Vorverarbeitung zur Berechnung der Anfangsähnlichkeiten, wie sie in Kapitel 7.3.3 - Kapitel 7.3.4 durchgeführt wird, werden Namensvergleiche von Knoten als Grundlage verwendet. Für Attribute wird dabei nur der Attributname verglichen, auch wenn der Knoten mit „Relationsname.Attributname“ benannt ist. Bei der Transformation in [MGMR01] wurden neben der Art der Attribute auch deren Datentyp berücksichtigt. Datentypen können beim Matching eine wichtige Rolle spielen, da sie zusätzliche Informationen liefern können, welche Attribute zweier Relationen zu matchen sind. Im Rahmen dieser Arbeit wurde darauf verzichtet, Datentypen bei der Transformation zu berücksichtigen. Der Grund für diese Entscheidung ist, dass bei den hier verwendeten Schemata die Datentypen kaum neue Informationen liefern, die beim Matching helfen könnten. Stattdessen würden dadurch die Graphen nur wieder umfangreicher werden, worunter die Übersichtlichkeit im Rahmen der Experimente leiden würde. Was bei den hier verwendeten Beispielen sinnvoller als die Berücksichtigung von Datentypen ist, ist das Berücksichtigen von Domänenwissen. Damit sind Informationen gemeint, die in der Domäne, der die zu matchenden Schemata zugeordnet sind, bekannt sind. Zum Beispiel kann für eine Domäne bekannt sein, dass zwei Begriffe synonym verwendet werden, wodurch Informationen für das Matching zugänglich werden, die sonst nicht vorhanden sind. Domänenwissen ist somit noch mächtiger als die Berücksichtigung von Datentypen, kann allerdings nicht so einfach automatisch mit berücksichtigt werden. Bei den hier durchgeführten Experimenten wird Domänenwissen in Kapitel 7.3.4 und Kapitel 7.3.5 in Form von Korrekturen berücksichtigt, die vor bzw. nach einem Durchlauf des Algorithmus an den automatisch berechneten Anfangsähnlichkeiten vorgenommen werden. Im Rahmen der Experimente wurde neben der hier geschilderten Variante zur Transformation der Schemata auch noch mit einer weiteren experimentiert. Im Testprogramm kann diese Variante ausgewählt werden. Die Ergebnisse damit fielen alle schlechter aus als mit der hier verwendeten Variante, sodass nicht weiter darauf eingegangen werden soll. Verwendete Fixpunktformel In Kapitel 7.2 konnte festgestellt werden, dass sich die Ergebnisse, die das Similarity Flooding mit der Basis-Fixpunktformel liefert, durch Setzen der Anfangsähnlichkeiten kaum beeinflussen lässt, dieses aber mit der Fixpunktformel A möglich ist. Deshalb sollen die Tests in diesem Abschnitt mit Fixpunktformel A durchgeführt werden, um Hintergrundinformationen der Schemata in Form von Anfangsähnlichkeiten mit in die Experimente einfließen lassen zu können. 65
Seite 1 und 2:
Leibniz Universität Hannover Insti
Seite 3 und 4:
Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6:
1. Einleitung 1.1. Motivation und S
Seite 7 und 8:
2. Grundlagen In diesem Kapitel sol
Seite 9 und 10:
Möglichkeiten erläutert, wie Mapp
Seite 11 und 12:
(etwa OLA oder Microsoft BizTalk Ma
Seite 13 und 14: Abbildung 3.2.: Klassifizierung von
Seite 15 und 16: 4. Der Similarity Flooding Algorith
Seite 17 und 18: Definition 4.1 Seien A und B zwei M
Seite 19 und 20: Gemäß der Definition wird also zu
Seite 21 und 22: Abbildung 4.3.: Similarity Propagat
Seite 23 und 24: durch die Formel darstellen, wobei
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31 und 32: 5. Vergleich mit anderen Verfahren
Seite 33 und 34: (vorgeschlagen ist ein Unterschied
Seite 35 und 36: durchgeführt werden müssen, um ei
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43 und 44: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 45 und 46: sich allein mit der Qualität des V
Seite 47 und 48: Die Graphen 3, 4 und 5 sind jeweils
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55 und 56: Knoten Iteration 1 2 3 10 20 30 40
Seite 57 und 58: gorithmus arbeiten muss, um zu eine
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61 und 62: Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 63: Einstellen niedriger Anfangsähnlic
Seite 67 und 68: ER_MITARBEITER aus Schema 2 kann zu
Seite 69 und 70: 1 für α in der Vorverarbeitung da
Seite 71 und 72: Musiksammlung Bei den Musiksammlung
Seite 73 und 74: durch Festlegen von Anfangsähnlich
Seite 75 und 76: den Benutzer berücksichtigt wurde,
Seite 77 und 78: Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80: A. Anhang - Für Experimente verwen
Seite 81 und 82: A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84: A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86: Abbildung A.10.: Graph 4: Pairwise
Seite 93 und 94: Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96: B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98: Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100: Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102: B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104: Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106: Schema 1 Schema 2 Ähnlichkeitswert
Seite 115 und 116:
Schema 1 Schema 2 Ähnlichkeitswert
Seite 117 und 118:
Seite 119:
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?