pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Filmdatenbank<br />
Bei den Schemata zur Filmdatenbank lassen sich ohne nähere Kenntnisse über die Domäne<br />
bzw. die Schemata für einen Benutzer keinerlei sinnvolle Anpassungen vornehmen.<br />
Die Namen der Relationen <strong>und</strong> Attribute, die übereinstimmen, sind im Wesentlichen<br />
schon identisch, weitere Veränderungen der vorberechneten Anfangsähnlichkeitswerte<br />
erscheinen daher nicht sinnvoll.<br />
7.3.5. Ergebnisse einer iterierten Anwendung<br />
In diesem Abschnitt sollen die Ergebnisse, die das Similarity Flooding in Kapitel 7.3.4<br />
geliefert hat, als Gr<strong>und</strong>lage für die iterative Wiederholung dienen. Die Testumgebung<br />
bietet die Möglichkeit, nach Berechnung der Ergebnisse das Verfahren erneut zu starten,<br />
wobei vorher Knoten gewählt werden können, deren Anfangsähnlichkeiten für die Wiederholung<br />
gesetzt werden sollen. Dem Benutzer wird es damit ermöglicht, bestimmte<br />
Matching-Vorschläge auszuwählen <strong>und</strong> andere abzuwählen, um im nächsten Durchlauf<br />
des Verfahrens noch bessere Ergebnisse bekommen zu können.<br />
Basierend auf dem Domänenwissen wurden für die Experimente scheinbar geeignete<br />
Knoten für die nächste Iteration gewählt, offensichtlich ungeeignete abgewählt. Bei der<br />
Filmdatenbank wurden so zum Beispiel die Zuordnungen von LOCATION zu PERSON<br />
<strong>und</strong> PERSON zu LOCATION abgewählt.<br />
In allen vier getesteten Schemata ließen sich durch diese Anpassungen in der nächsten<br />
Iteration noch einmal bessere Ergebnisse erzielen als in Kapitel 7.3.4. Die Ähnlichkeitswerte<br />
der gewählten – also in den Augen des Benutzers relevanten – Knoten waren<br />
verglichen zu Kapitel 7.3.4 teilweise wesentlich höher, der Unterschied zwischen deren<br />
Ähnlichkeitswerten <strong>und</strong> denen der nicht gewählten Knoten deutlich ausgeprägter.<br />
Zu erwähnen ist allerdings, dass die Qualität der Ergebnisse für die Iterationen des<br />
Verfahrens hierbei viel stärker von der Auswahl durch den Benutzer <strong>und</strong> somit von<br />
seinem Wissen über die Domäne abhängig ist. Durch schlechte Wahl der Knoten für die<br />
nächste Iteration kann die Qualität hier stark leiden.<br />
Tabelle C.16 in Anhang C stellt beispielhaft die Ergebnisse der Filmdatenbank dar,<br />
wie sie nach der Iteration des Verfahrens aussehen. Die Ergebnisse des ersten Durchgangs<br />
wurden dabei mittels Stable Marriage gefiltert <strong>und</strong> die danach zugeordneten Knoten für<br />
die nächste Iteration als relevant ausgewählt. Manuell wurden zusätzlich die Knoten<br />
(PART, PARENTS) <strong>und</strong> (REMARK, PLAYS) auf Basis des Domänenwissens abgewählt.<br />
7.4. Zusammenfassung<br />
Wie die Experimente in diesem Kapitel gezeigt haben, ist das Similarity Flooding gr<strong>und</strong>sätzlich<br />
in der Lage, Matching-Kandidaten für zwei zu matchende Modelle zu ermitteln.<br />
An den Graphen in Kapitel 7.2 konnte festgestellt werden, dass die Wahl der Fixpunktformel<br />
bereits im Vorfeld den Einfluss der Anfangsähnlichkeiten auf die Ergebnisse mitbestimmt.<br />
Während bei der Basis-Fixpunktformel die Möglichkeit, Ergebnisse gezielt<br />
72