pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

Verwendete Schemata Für die Experimente in diesem Kapitel wurden acht verschiedene Schemata verwendet, von denen jeweils zwei zu einem Themenbereich gehören und entsprechend gematcht werden sollen. Diese sollen hier kurz erläutert werden. Die Schemata sowie ihre graphische Repräsentationen sind in Anhang B zu finden. Wie erwähnt wurden Datentypen hier weggelassen. 1. Die ersten beiden zu matchenden Schemata sind unterschiedliche Darstellungen einer Musiksammlung. Schema 1 enthält dabei Informationen über CDs, Musikstücke und Interpreten sowie darüber. Schema 2 enthält zusätzlich Informationen über Produzenten und unterscheidet zwischen Alben und Samplern. Da es bei beiden Schemata um das Speichern einer Musiksammlung geht, gibt es hier eine Reihe von offensichtlichen Gemeinsamkeiten – etwa die Geburtsdaten in beiden INTERPRET-Relationen – und Unterschieden – etwa die Primärschlüssel der INTERPRET-Relationen der Schemata. Für die Experimente wesentlich interessanter sind allerdings die nicht-eindeutigen Punkte. So ließe sich die ENTHÄLT-Relation aus Schema 1 sowohl der ALBUMSONG- als auch der SAMPLERSONG-Relation aus Schema 2 sinnvoll zuordnen. Schema 1 ist also in Teilen eine Generalisierung von Schema 2, woraus sich für die Experimente die Frage ergibt, ob und wie das Similarity Flooding diese Generalisierung durch sinnvolle Matching-Kandidaten „ausdrücken“ kann. 2. Die nächsten zu matchenden Schemata sind unterschiedliche Möglichkeiten, um Informationen über Reisen mit Bussen darzustellen. Die Schemata wurden dabei aus [IntDB10] entnommen. Schema 1 enthält Informationen über Städte, Busse, Tagestouren und darüber, wann welche Tour mit welchem Bus welche Stadt besucht. Schema 2 enthält zusätzlich weitere Informationen über die Fahrer der Busse, gibt aber keine Auskünfte darüber, welche Städte befahren werden, sondern nur, welche Länder. Schema 1 stellt extensional im Wesentlichen eine Teilmenge von Schema 2 dar, sodass in den Experimenten zu überprüfen ist, wie das Similarity Flooding damit umgeht und ob Matching-Kandidaten geliefert werden, die diese Teilmengen- Beziehung sinnvoll zum Ausdruck bringen. 3. Bei den nächsten beiden Schemata handelt es sich um Informationen über Verlage. Schema 1 enthält Informationen über Autoren, Fotografen, Verlage, Artikel und Zeitschriften sowie darüber, welche Artikel von welchem Autoren verfasst werden, welcher Fotograf Fotos dazu liefert und in welcher Zeitschrift welcher Artikel erscheint. Schema 2 enthält Informationen über Redakteure, freie Mitarbeiter und Artikel und zusätzlich darüber, welche Gage ein Mitarbeiter für einen Artikel bekommt. Ähnlich wie bei den Musiksammlungs-Schemata sind hier Strukturen vorhanden, die bei einer Integration durch Generalisierungen gelöst werden müssten. FREI- 66
ER_MITARBEITER aus Schema 2 kann zum Beispiel als Generalisierung zu AU- TOR und FOTOGRAF aus Schema 1 aufgefasst werden. Auch hier stellt sich also die Frage, wie das Similarity Flooding das in den Ergebnissen zum Ausdruck bringt. Zusätzlich gibt es weitere strukturelle Unterschiede – wie etwa die Relation VERLAG in Schema 1 im Vergleich zum Attribut Verlag in Schema 2 –, die der Algorithmus sinnvoll lösen sollte. 4. Die letzten beiden Schemata gehören zum Bereich Filmdatenbank. Sie wurden beide [IntDB10] entnommen und stellen zwei Möglichkeiten dar, um Filminformationen zu speichern. Beide Schemata sind verglichen mit den anderen Schemata für die Experimente wesentlich komplexer. Außerdem weisen sie viele gleichartige Strukturen auf, die durch das Similarity Flooding gefunden werden sollten. Besonders hervorzuheben ist hier die Bedeutung von MOVIE in Schema 1 und PRODUCTION in Schema 2. Während MOVIE in Schema 1 die „zentrale“ Relation darstellt, auf die von nahezu jeder anderen Relation Fremdschlüssel verweisen, ist das in Schema 2 die Relation PRODUCTION. In den Experimenten ist zu erwarten, dass das Similarity Flooding aufgrund der vielen gemeinsamen Strukturen besonders gute Matching-Kandidaten liefert und speziell auch die Korrespondenz zwischen MOVIE und PRODUCTION korrekt erkennt. Außerdem ist davon auszugehen, dass eine Filterung mit Hilfe der Stable Marriage hier als sinnvolle Eingrenzung der Ergebnisse möglich ist. 7.3.2. Ergebnisse ohne Vorverarbeitung In dieser ersten Testreihe soll überprüft werden, welche Qualität die Ergebnisse des Similarity Flooding haben, wenn keinerlei Vorverarbeitung durchgeführt wird, sondern konstant gleiche Ähnlichkeitswerte verwendet werden. Dazu werden alle Anfangsähnlichkeitswerte auf 0.5 gesetzt. Dieser Wert wurde dabei gewählt, weil er dem mittleren Wert des möglichen Wertebereichs ist. Die Tabellen mit den Ergebniswerten zu den einzelnen Schemata sind in Tabelle C.1, Tabelle C.5, Tabelle C.1 und Tabelle C.13 in Anhang C abgedruckt. Bei den Ergebnissen fällt auf, dass die Ähnlichkeitswerte bis auf den Wert für (PRI- MARY KEY, PRIMARY KEY) in allen Beispielschemata relativ gering (zwischen 0.309 und 0) sind. Qualitativ liefert das Similarity Flooding bei keinem der Schemata zufriedenstellende Ergebnisse. Zwar steht etwa das Map Pair (MOVIE, PRODUCTION) bei der Filmdatenbank mit 0.165 an zweiter Stelle bei den nach Ähnlichkeitswerten geordneten Ergebnissen, die übrigen Map Pairs stellen allerdings kaum sinnvolle Matchings dar. Das bestätigt die Beobachtung aus Kapitel 7.2.2, dass mit der gewählten Fixpunktformel nur mit Hilfe einer Vorverarbeitungsphase gute Ergebnisse erzielt werden können. 67
Seite 1 und 2:
Leibniz Universität Hannover Insti
Seite 3 und 4:
Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6:
1. Einleitung 1.1. Motivation und S
Seite 7 und 8:
2. Grundlagen In diesem Kapitel sol
Seite 9 und 10:
Möglichkeiten erläutert, wie Mapp
Seite 11 und 12:
(etwa OLA oder Microsoft BizTalk Ma
Seite 13 und 14:
Abbildung 3.2.: Klassifizierung von
Seite 15 und 16: 4. Der Similarity Flooding Algorith
Seite 17 und 18: Definition 4.1 Seien A und B zwei M
Seite 19 und 20: Gemäß der Definition wird also zu
Seite 21 und 22: Abbildung 4.3.: Similarity Propagat
Seite 23 und 24: durch die Formel darstellen, wobei
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31 und 32: 5. Vergleich mit anderen Verfahren
Seite 33 und 34: (vorgeschlagen ist ein Unterschied
Seite 35 und 36: durchgeführt werden müssen, um ei
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43 und 44: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 45 und 46: sich allein mit der Qualität des V
Seite 47 und 48: Die Graphen 3, 4 und 5 sind jeweils
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55 und 56: Knoten Iteration 1 2 3 10 20 30 40
Seite 57 und 58: gorithmus arbeiten muss, um zu eine
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61 und 62: Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 63 und 64: Einstellen niedriger Anfangsähnlic
Seite 65: eines Schemas in einen Graphen. Im
Seite 69 und 70: 1 für α in der Vorverarbeitung da
Seite 71 und 72: Musiksammlung Bei den Musiksammlung
Seite 73 und 74: durch Festlegen von Anfangsähnlich
Seite 75 und 76: den Benutzer berücksichtigt wurde,
Seite 77 und 78: Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80: A. Anhang - Für Experimente verwen
Seite 81 und 82: A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84: A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86: Abbildung A.10.: Graph 4: Pairwise
Seite 93 und 94: Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96: B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98: Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100: Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102: B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104: Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106: Schema 1 Schema 2 Ähnlichkeitswert
Seite 117 und 118:
Schema 1 Schema 2 Ähnlichkeitswert
Seite 119:
Schema 1 Schema 2 Ähnlichkeitswert
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?