pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

Filmdatenbank Bei den Schemata zur Filmdatenbank lassen sich ohne nähere Kenntnisse über die Domäne bzw. die Schemata für einen Benutzer keinerlei sinnvolle Anpassungen vornehmen. Die Namen der Relationen und Attribute, die übereinstimmen, sind im Wesentlichen schon identisch, weitere Veränderungen der vorberechneten Anfangsähnlichkeitswerte erscheinen daher nicht sinnvoll. 7.3.5. Ergebnisse einer iterierten Anwendung In diesem Abschnitt sollen die Ergebnisse, die das Similarity Flooding in Kapitel 7.3.4 geliefert hat, als Grundlage für die iterative Wiederholung dienen. Die Testumgebung bietet die Möglichkeit, nach Berechnung der Ergebnisse das Verfahren erneut zu starten, wobei vorher Knoten gewählt werden können, deren Anfangsähnlichkeiten für die Wiederholung gesetzt werden sollen. Dem Benutzer wird es damit ermöglicht, bestimmte Matching-Vorschläge auszuwählen und andere abzuwählen, um im nächsten Durchlauf des Verfahrens noch bessere Ergebnisse bekommen zu können. Basierend auf dem Domänenwissen wurden für die Experimente scheinbar geeignete Knoten für die nächste Iteration gewählt, offensichtlich ungeeignete abgewählt. Bei der Filmdatenbank wurden so zum Beispiel die Zuordnungen von LOCATION zu PERSON und PERSON zu LOCATION abgewählt. In allen vier getesteten Schemata ließen sich durch diese Anpassungen in der nächsten Iteration noch einmal bessere Ergebnisse erzielen als in Kapitel 7.3.4. Die Ähnlichkeitswerte der gewählten – also in den Augen des Benutzers relevanten – Knoten waren verglichen zu Kapitel 7.3.4 teilweise wesentlich höher, der Unterschied zwischen deren Ähnlichkeitswerten und denen der nicht gewählten Knoten deutlich ausgeprägter. Zu erwähnen ist allerdings, dass die Qualität der Ergebnisse für die Iterationen des Verfahrens hierbei viel stärker von der Auswahl durch den Benutzer und somit von seinem Wissen über die Domäne abhängig ist. Durch schlechte Wahl der Knoten für die nächste Iteration kann die Qualität hier stark leiden. Tabelle C.16 in Anhang C stellt beispielhaft die Ergebnisse der Filmdatenbank dar, wie sie nach der Iteration des Verfahrens aussehen. Die Ergebnisse des ersten Durchgangs wurden dabei mittels Stable Marriage gefiltert und die danach zugeordneten Knoten für die nächste Iteration als relevant ausgewählt. Manuell wurden zusätzlich die Knoten (PART, PARENTS) und (REMARK, PLAYS) auf Basis des Domänenwissens abgewählt. 7.4. Zusammenfassung Wie die Experimente in diesem Kapitel gezeigt haben, ist das Similarity Flooding grundsätzlich in der Lage, Matching-Kandidaten für zwei zu matchende Modelle zu ermitteln. An den Graphen in Kapitel 7.2 konnte festgestellt werden, dass die Wahl der Fixpunktformel bereits im Vorfeld den Einfluss der Anfangsähnlichkeiten auf die Ergebnisse mitbestimmt. Während bei der Basis-Fixpunktformel die Möglichkeit, Ergebnisse gezielt 72
durch Festlegen von Anfangsähnlichkeiten zu beeinflussen, verloren geht, ist das mit der Fixpunktformel A möglich. Um die Qualität der Ergebnisse, die das Similarity Flooding liefert, an realen Beispielen zu überprüfen, wurden in Kapitel 7.3 Relationale Datenbankschemata als Eingabe für weitere Experimente verwendet. Hier hat sich gezeigt, dass ohne eine Vorverarbeitungsphase bei Verwendung der Fixpunktformel A keine guten Ergebnisse geliefert werden (vgl. Kapitel 7.3.2). Durch eine automatisierte Vorverarbeitung konnten in Kapitel 7.3.3 bessere, wenn auch nach wie vor nicht optimale, Ergebnisse erzielt werden. Manuelle Anpassungen der vorberechneten Anfangsähnlichkeitswerte, wie sie in Kapitel 7.3.4 vorgenommen wurden, konnten die Ergebnisse meist noch weiter verbessern, erfordern aber Kenntnisse über die Schemata bzw. die Domäne, in der sie angesiedelt sind, die nicht in jedem Fall wie in den hier verwendeten Beispielen allein anhand der Namen von Relationen und Attributen erkennbar sind. Die besten Resultate konnten in Kapitel 7.3.5 dadurch erzielt werden, dass aus den Ergebnissen des Ablauf des Similarity Flooding bestimmte Matching-Kandidaten gewählt und das Verfahren erneut ausgeführt wurde. Die Auswahl der Kandidaten muss dabei allerdings wie in Kapitel 7.3.4 manuell passieren, was Kenntnisse über die Domäne voraussetzt. 73
Seite 1 und 2:
Leibniz Universität Hannover Insti
Seite 3 und 4:
Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6:
1. Einleitung 1.1. Motivation und S
Seite 7 und 8:
2. Grundlagen In diesem Kapitel sol
Seite 9 und 10:
Möglichkeiten erläutert, wie Mapp
Seite 11 und 12:
(etwa OLA oder Microsoft BizTalk Ma
Seite 13 und 14:
Abbildung 3.2.: Klassifizierung von
Seite 15 und 16:
4. Der Similarity Flooding Algorith
Seite 17 und 18:
Definition 4.1 Seien A und B zwei M
Seite 19 und 20:
Gemäß der Definition wird also zu
Seite 21 und 22: Abbildung 4.3.: Similarity Propagat
Seite 23 und 24: durch die Formel darstellen, wobei
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31 und 32: 5. Vergleich mit anderen Verfahren
Seite 33 und 34: (vorgeschlagen ist ein Unterschied
Seite 35 und 36: durchgeführt werden müssen, um ei
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43 und 44: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 45 und 46: sich allein mit der Qualität des V
Seite 47 und 48: Die Graphen 3, 4 und 5 sind jeweils
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55 und 56: Knoten Iteration 1 2 3 10 20 30 40
Seite 57 und 58: gorithmus arbeiten muss, um zu eine
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61 und 62: Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 63 und 64: Einstellen niedriger Anfangsähnlic
Seite 65 und 66: eines Schemas in einen Graphen. Im
Seite 67 und 68: ER_MITARBEITER aus Schema 2 kann zu
Seite 69 und 70: 1 für α in der Vorverarbeitung da
Seite 71: Musiksammlung Bei den Musiksammlung
Seite 75 und 76: den Benutzer berücksichtigt wurde,
Seite 77 und 78: Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80: A. Anhang - Für Experimente verwen
Seite 81 und 82: A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84: A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86: Abbildung A.10.: Graph 4: Pairwise
Seite 93 und 94: Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96: B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98: Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100: Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102: B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104: Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106: Schema 1 Schema 2 Ähnlichkeitswert
Seite 119: Schema 1 Schema 2 Ähnlichkeitswert
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?