30.01.2015 Aufrufe

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

7. Empirische Bef<strong>und</strong>e <strong>und</strong> Experimente<br />

zum Similarity Flooding<br />

Kapitel 4 befasste sich damit, wie der Similarity Flooding Algorithmus funktioniert <strong>und</strong><br />

wie mit Ergebnissen umgegangen werden kann. Das folgende Kapitel befasst sich nun<br />

mit der Frage, ob bzw. wie gut das Similarity Flooding dafür geeignet ist, Matchings zu<br />

finden, <strong>und</strong> ob bzw. wie man die Qualität der Ergebnisse verbessern kann. Dazu wird im<br />

Folgenden zunächst darauf eingegangen, wie das Thema in der Literatur behandelt wird<br />

<strong>und</strong> welche Ergebnisse es dort gibt, bevor anschließend eine Reihe eigener Experimente<br />

durchgeführt <strong>und</strong> beschrieben werden.<br />

7.1. Bef<strong>und</strong>e in der Literatur<br />

Um die Qualität des Similarity Flooding feststellen zu können, beschäftigen sich die<br />

Autoren von [MGMR01] mit der Frage, ob es überhaupt eine geeignete Metrik gibt, um<br />

diese zu ermitteln. Sie stellen schließlich eine solche Metrik vor, die im Wesentlichen auf<br />

dem Benutzeraufwand basiert, der benötigt wird, um die Ergebnisse, die automatisch von<br />

einem Algorithmus geliefert werden, in die gewünschten Ergebnisse zu transformieren.<br />

Ihre Wahl begründen sie damit, dass in vielen Anwendungsgebieten eines Matchings<br />

dessen Ziel stark von der Intention des Benutzers abhängt <strong>und</strong> man sich aus diesem<br />

Gr<strong>und</strong> nicht einfach einer vorhandenen Metrik bedienen kann.<br />

Die Autoren stellen – basierend auf ihrer Metrik – in Studien mit acht Benutzern,<br />

die mit Hilfe des Verfahrens Schemata matchen sollen, Folgendes fest: Auch wenn der<br />

Algorithmus nicht in jedem Fall sehr gute Ergebnisse liefert, können im Schnitt 52% des<br />

manuellen Aufwands durch ihn eingespart werden. In typischen Anwendungsfällen bescheinigen<br />

sie dem Algorithmus sogar eine noch weitaus größere Aufwandsersparnis. Bezüglich<br />

der Filter der Ergebnisse stellen sie fest, dass solche, welche die Stable-Marriage-<br />

Eigenschaft aufrechterhalten, besser geeignet sind als andere. Als Fixpunktformel empfehlen<br />

sie nach den Ergebnissen ihrer Studien die Formel C (vgl. Tabelle 4.3), welche<br />

am schnellsten konvergiert <strong>und</strong> von der Qualität her annähernd gleiche Ergebnisse liefert<br />

wie die anderen Formeln. Als Formel zur Errechnung der Propagation-Koeffizienten<br />

empfehlen sie – wie in Kapitel 4.2 erwähnt – den inversen Durchschnitt (vgl. Tabelle 4.1).<br />

Außerdem stellen sie fest, dass der Algorithmus „Fehlern“ bei den Anfangsähnlichkeiten<br />

gegenüber relativ tolerant ist, sich die Ergebnisse also kaum bzw. gar nicht ändern, selbst<br />

wenn Anfangsähnlichkeiten „falsch“ bestimmt wurden.<br />

Obwohl das Similarity Flooding in einer Reihe von weiteren Verfahren wie etwa SemInt<br />

verwendet wird, gibt es ansonsten in der Literatur relativ wenige Bef<strong>und</strong>e, die<br />

44

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!