pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
7. Empirische Bef<strong>und</strong>e <strong>und</strong> Experimente<br />
zum Similarity Flooding<br />
Kapitel 4 befasste sich damit, wie der Similarity Flooding Algorithmus funktioniert <strong>und</strong><br />
wie mit Ergebnissen umgegangen werden kann. Das folgende Kapitel befasst sich nun<br />
mit der Frage, ob bzw. wie gut das Similarity Flooding dafür geeignet ist, Matchings zu<br />
finden, <strong>und</strong> ob bzw. wie man die Qualität der Ergebnisse verbessern kann. Dazu wird im<br />
Folgenden zunächst darauf eingegangen, wie das Thema in der Literatur behandelt wird<br />
<strong>und</strong> welche Ergebnisse es dort gibt, bevor anschließend eine Reihe eigener Experimente<br />
durchgeführt <strong>und</strong> beschrieben werden.<br />
7.1. Bef<strong>und</strong>e in der Literatur<br />
Um die Qualität des Similarity Flooding feststellen zu können, beschäftigen sich die<br />
Autoren von [MGMR01] mit der Frage, ob es überhaupt eine geeignete Metrik gibt, um<br />
diese zu ermitteln. Sie stellen schließlich eine solche Metrik vor, die im Wesentlichen auf<br />
dem Benutzeraufwand basiert, der benötigt wird, um die Ergebnisse, die automatisch von<br />
einem Algorithmus geliefert werden, in die gewünschten Ergebnisse zu transformieren.<br />
Ihre Wahl begründen sie damit, dass in vielen Anwendungsgebieten eines Matchings<br />
dessen Ziel stark von der Intention des Benutzers abhängt <strong>und</strong> man sich aus diesem<br />
Gr<strong>und</strong> nicht einfach einer vorhandenen Metrik bedienen kann.<br />
Die Autoren stellen – basierend auf ihrer Metrik – in Studien mit acht Benutzern,<br />
die mit Hilfe des Verfahrens Schemata matchen sollen, Folgendes fest: Auch wenn der<br />
Algorithmus nicht in jedem Fall sehr gute Ergebnisse liefert, können im Schnitt 52% des<br />
manuellen Aufwands durch ihn eingespart werden. In typischen Anwendungsfällen bescheinigen<br />
sie dem Algorithmus sogar eine noch weitaus größere Aufwandsersparnis. Bezüglich<br />
der Filter der Ergebnisse stellen sie fest, dass solche, welche die Stable-Marriage-<br />
Eigenschaft aufrechterhalten, besser geeignet sind als andere. Als Fixpunktformel empfehlen<br />
sie nach den Ergebnissen ihrer Studien die Formel C (vgl. Tabelle 4.3), welche<br />
am schnellsten konvergiert <strong>und</strong> von der Qualität her annähernd gleiche Ergebnisse liefert<br />
wie die anderen Formeln. Als Formel zur Errechnung der Propagation-Koeffizienten<br />
empfehlen sie – wie in Kapitel 4.2 erwähnt – den inversen Durchschnitt (vgl. Tabelle 4.1).<br />
Außerdem stellen sie fest, dass der Algorithmus „Fehlern“ bei den Anfangsähnlichkeiten<br />
gegenüber relativ tolerant ist, sich die Ergebnisse also kaum bzw. gar nicht ändern, selbst<br />
wenn Anfangsähnlichkeiten „falsch“ bestimmt wurden.<br />
Obwohl das Similarity Flooding in einer Reihe von weiteren Verfahren wie etwa SemInt<br />
verwendet wird, gibt es ansonsten in der Literatur relativ wenige Bef<strong>und</strong>e, die<br />
44