30.01.2015 Aufrufe

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Filmdatenbank<br />

Bei den Schemata zur Filmdatenbank lassen sich ohne nähere Kenntnisse über die Domäne<br />

bzw. die Schemata für einen Benutzer keinerlei sinnvolle Anpassungen vornehmen.<br />

Die Namen der Relationen <strong>und</strong> Attribute, die übereinstimmen, sind im Wesentlichen<br />

schon identisch, weitere Veränderungen der vorberechneten Anfangsähnlichkeitswerte<br />

erscheinen daher nicht sinnvoll.<br />

7.3.5. Ergebnisse einer iterierten Anwendung<br />

In diesem Abschnitt sollen die Ergebnisse, die das Similarity Flooding in Kapitel 7.3.4<br />

geliefert hat, als Gr<strong>und</strong>lage für die iterative Wiederholung dienen. Die Testumgebung<br />

bietet die Möglichkeit, nach Berechnung der Ergebnisse das Verfahren erneut zu starten,<br />

wobei vorher Knoten gewählt werden können, deren Anfangsähnlichkeiten für die Wiederholung<br />

gesetzt werden sollen. Dem Benutzer wird es damit ermöglicht, bestimmte<br />

Matching-Vorschläge auszuwählen <strong>und</strong> andere abzuwählen, um im nächsten Durchlauf<br />

des Verfahrens noch bessere Ergebnisse bekommen zu können.<br />

Basierend auf dem Domänenwissen wurden für die Experimente scheinbar geeignete<br />

Knoten für die nächste Iteration gewählt, offensichtlich ungeeignete abgewählt. Bei der<br />

Filmdatenbank wurden so zum Beispiel die Zuordnungen von LOCATION zu PERSON<br />

<strong>und</strong> PERSON zu LOCATION abgewählt.<br />

In allen vier getesteten Schemata ließen sich durch diese Anpassungen in der nächsten<br />

Iteration noch einmal bessere Ergebnisse erzielen als in Kapitel 7.3.4. Die Ähnlichkeitswerte<br />

der gewählten – also in den Augen des Benutzers relevanten – Knoten waren<br />

verglichen zu Kapitel 7.3.4 teilweise wesentlich höher, der Unterschied zwischen deren<br />

Ähnlichkeitswerten <strong>und</strong> denen der nicht gewählten Knoten deutlich ausgeprägter.<br />

Zu erwähnen ist allerdings, dass die Qualität der Ergebnisse für die Iterationen des<br />

Verfahrens hierbei viel stärker von der Auswahl durch den Benutzer <strong>und</strong> somit von<br />

seinem Wissen über die Domäne abhängig ist. Durch schlechte Wahl der Knoten für die<br />

nächste Iteration kann die Qualität hier stark leiden.<br />

Tabelle C.16 in Anhang C stellt beispielhaft die Ergebnisse der Filmdatenbank dar,<br />

wie sie nach der Iteration des Verfahrens aussehen. Die Ergebnisse des ersten Durchgangs<br />

wurden dabei mittels Stable Marriage gefiltert <strong>und</strong> die danach zugeordneten Knoten für<br />

die nächste Iteration als relevant ausgewählt. Manuell wurden zusätzlich die Knoten<br />

(PART, PARENTS) <strong>und</strong> (REMARK, PLAYS) auf Basis des Domänenwissens abgewählt.<br />

7.4. Zusammenfassung<br />

Wie die Experimente in diesem Kapitel gezeigt haben, ist das Similarity Flooding gr<strong>und</strong>sätzlich<br />

in der Lage, Matching-Kandidaten für zwei zu matchende Modelle zu ermitteln.<br />

An den Graphen in Kapitel 7.2 konnte festgestellt werden, dass die Wahl der Fixpunktformel<br />

bereits im Vorfeld den Einfluss der Anfangsähnlichkeiten auf die Ergebnisse mitbestimmt.<br />

Während bei der Basis-Fixpunktformel die Möglichkeit, Ergebnisse gezielt<br />

72

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!