pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
ER_MITARBEITER aus Schema 2 kann zum Beispiel als Generalisierung zu AU-<br />
TOR <strong>und</strong> FOTOGRAF aus Schema 1 aufgefasst werden. Auch hier stellt sich<br />
also die Frage, wie das Similarity Flooding das in den Ergebnissen zum Ausdruck<br />
bringt. Zusätzlich gibt es weitere strukturelle Unterschiede – wie etwa die Relation<br />
VERLAG in Schema 1 im Vergleich zum Attribut Verlag in Schema 2 –, die der<br />
Algorithmus sinnvoll lösen sollte.<br />
4. Die letzten beiden Schemata gehören zum Bereich Filmdatenbank. Sie wurden<br />
beide [IntDB10] entnommen <strong>und</strong> stellen zwei Möglichkeiten dar, um Filminformationen<br />
zu speichern.<br />
Beide Schemata sind verglichen mit den anderen Schemata für die Experimente<br />
wesentlich komplexer. Außerdem weisen sie viele gleichartige Strukturen auf, die<br />
durch das Similarity Flooding gef<strong>und</strong>en werden sollten. Besonders hervorzuheben<br />
ist hier die Bedeutung von MOVIE in Schema 1 <strong>und</strong> PRODUCTION in Schema 2.<br />
Während MOVIE in Schema 1 die „zentrale“ Relation darstellt, auf die von nahezu<br />
jeder anderen Relation Fremdschlüssel verweisen, ist das in Schema 2 die Relation<br />
PRODUCTION.<br />
In den Experimenten ist zu erwarten, dass das Similarity Flooding aufgr<strong>und</strong> der<br />
vielen gemeinsamen Strukturen besonders gute Matching-Kandidaten liefert <strong>und</strong><br />
speziell auch die Korrespondenz zwischen MOVIE <strong>und</strong> PRODUCTION korrekt<br />
erkennt. Außerdem ist davon auszugehen, dass eine Filterung mit Hilfe der Stable<br />
Marriage hier als sinnvolle Eingrenzung der Ergebnisse möglich ist.<br />
7.3.2. Ergebnisse ohne Vorverarbeitung<br />
In dieser ersten Testreihe soll überprüft werden, welche Qualität die Ergebnisse des Similarity<br />
Flooding haben, wenn keinerlei Vorverarbeitung durchgeführt wird, sondern<br />
konstant gleiche Ähnlichkeitswerte verwendet werden. Dazu werden alle Anfangsähnlichkeitswerte<br />
auf 0.5 gesetzt. Dieser Wert wurde dabei gewählt, weil er dem mittleren<br />
Wert des möglichen Wertebereichs ist.<br />
Die Tabellen mit den Ergebniswerten zu den einzelnen Schemata sind in Tabelle C.1,<br />
Tabelle C.5, Tabelle C.1 <strong>und</strong> Tabelle C.13 in Anhang C abgedruckt.<br />
Bei den Ergebnissen fällt auf, dass die Ähnlichkeitswerte bis auf den Wert für (PRI-<br />
MARY KEY, PRIMARY KEY) in allen Beispielschemata relativ gering (zwischen 0.309<br />
<strong>und</strong> 0) sind. Qualitativ liefert das Similarity Flooding bei keinem der Schemata zufriedenstellende<br />
Ergebnisse. Zwar steht etwa das Map Pair (MOVIE, PRODUCTION) bei<br />
der Filmdatenbank mit 0.165 an zweiter Stelle bei den nach Ähnlichkeitswerten geordneten<br />
Ergebnissen, die übrigen Map Pairs stellen allerdings kaum sinnvolle Matchings dar.<br />
Das bestätigt die Beobachtung aus Kapitel 7.2.2, dass mit der gewählten Fixpunktformel<br />
nur mit Hilfe einer Vorverarbeitungsphase gute Ergebnisse erzielt werden können.<br />
67