30.01.2015 Aufrufe

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

ER_MITARBEITER aus Schema 2 kann zum Beispiel als Generalisierung zu AU-<br />

TOR <strong>und</strong> FOTOGRAF aus Schema 1 aufgefasst werden. Auch hier stellt sich<br />

also die Frage, wie das Similarity Flooding das in den Ergebnissen zum Ausdruck<br />

bringt. Zusätzlich gibt es weitere strukturelle Unterschiede – wie etwa die Relation<br />

VERLAG in Schema 1 im Vergleich zum Attribut Verlag in Schema 2 –, die der<br />

Algorithmus sinnvoll lösen sollte.<br />

4. Die letzten beiden Schemata gehören zum Bereich Filmdatenbank. Sie wurden<br />

beide [IntDB10] entnommen <strong>und</strong> stellen zwei Möglichkeiten dar, um Filminformationen<br />

zu speichern.<br />

Beide Schemata sind verglichen mit den anderen Schemata für die Experimente<br />

wesentlich komplexer. Außerdem weisen sie viele gleichartige Strukturen auf, die<br />

durch das Similarity Flooding gef<strong>und</strong>en werden sollten. Besonders hervorzuheben<br />

ist hier die Bedeutung von MOVIE in Schema 1 <strong>und</strong> PRODUCTION in Schema 2.<br />

Während MOVIE in Schema 1 die „zentrale“ Relation darstellt, auf die von nahezu<br />

jeder anderen Relation Fremdschlüssel verweisen, ist das in Schema 2 die Relation<br />

PRODUCTION.<br />

In den Experimenten ist zu erwarten, dass das Similarity Flooding aufgr<strong>und</strong> der<br />

vielen gemeinsamen Strukturen besonders gute Matching-Kandidaten liefert <strong>und</strong><br />

speziell auch die Korrespondenz zwischen MOVIE <strong>und</strong> PRODUCTION korrekt<br />

erkennt. Außerdem ist davon auszugehen, dass eine Filterung mit Hilfe der Stable<br />

Marriage hier als sinnvolle Eingrenzung der Ergebnisse möglich ist.<br />

7.3.2. Ergebnisse ohne Vorverarbeitung<br />

In dieser ersten Testreihe soll überprüft werden, welche Qualität die Ergebnisse des Similarity<br />

Flooding haben, wenn keinerlei Vorverarbeitung durchgeführt wird, sondern<br />

konstant gleiche Ähnlichkeitswerte verwendet werden. Dazu werden alle Anfangsähnlichkeitswerte<br />

auf 0.5 gesetzt. Dieser Wert wurde dabei gewählt, weil er dem mittleren<br />

Wert des möglichen Wertebereichs ist.<br />

Die Tabellen mit den Ergebniswerten zu den einzelnen Schemata sind in Tabelle C.1,<br />

Tabelle C.5, Tabelle C.1 <strong>und</strong> Tabelle C.13 in Anhang C abgedruckt.<br />

Bei den Ergebnissen fällt auf, dass die Ähnlichkeitswerte bis auf den Wert für (PRI-<br />

MARY KEY, PRIMARY KEY) in allen Beispielschemata relativ gering (zwischen 0.309<br />

<strong>und</strong> 0) sind. Qualitativ liefert das Similarity Flooding bei keinem der Schemata zufriedenstellende<br />

Ergebnisse. Zwar steht etwa das Map Pair (MOVIE, PRODUCTION) bei<br />

der Filmdatenbank mit 0.165 an zweiter Stelle bei den nach Ähnlichkeitswerten geordneten<br />

Ergebnissen, die übrigen Map Pairs stellen allerdings kaum sinnvolle Matchings dar.<br />

Das bestätigt die Beobachtung aus Kapitel 7.2.2, dass mit der gewählten Fixpunktformel<br />

nur mit Hilfe einer Vorverarbeitungsphase gute Ergebnisse erzielt werden können.<br />

67

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!