pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Knoten<br />
Iteration<br />
1 2 3 10 15 20 30 34 35 36<br />
(a, b) 1 0.93 0.968 1 1 1 1 1 1 1<br />
(a 1 , b) 0.636 0.547 0.49 0.173 0.085 0.041 0.01 0.006 0.005 0.004<br />
(a 1 , b 1 ) 0.118 0.266 0.319 0.38 0.382 0.383 0.383 0.383 0.383 0.383<br />
(a 1 , b 2 ) 0.867 0.785 0.8 0.714 0.708 0.707 0.707 0.707 0.707 0.707<br />
(a 2 , b 1 ) 0.957 1 1 0.93 0.925 0.924 0.924 0.924 0.924 0.924<br />
(a 2 , b 2 ) 0.636 0.547 0.49 0.173 0.085 0.041 0.01 0.006 0.005 0.004<br />
Tabelle 7.8.: Entwicklung der Ähnlichkeitswerte über mehrere Iterationen (Graph 1) für<br />
Fall 5<br />
deren ZHK über die Iterationen hinweg immer stärker gegen 0 konvergieren <strong>und</strong> im<br />
Fixpunkt wenig aussagekräftige Matching-Kandidaten liefern.<br />
Außerdem konnte festgestellt werden, dass das Similarity Flooding relativ robust gegenüber<br />
veränderten Anfangsähnlichkeiten ist. Nur in Fall 3 konnte durch gezieltes „Ausblenden“<br />
kompletter ZHK des PCGs erreicht werden, dass sich ein anderer Fixpunkt<br />
einstellt. Der Fixpunkt, der sich dort eingestellt hat, liefert jedoch keine zufriedenstellenden<br />
Matching-Kandidaten. Nur in dem speziell konstruierten Beispiel von Graph 7<br />
konnte in Fall 4 <strong>und</strong> Fall 5 das Ergebnis durch die Anfangsähnlichkeiten so beeinflusst<br />
werden, dass von den zwei dort möglichen, gleich „guten“ Zuordnungen eine bevorzugt<br />
wurde.<br />
Abschließend lässt sich bezüglich der Anfangsähnlichkeiten festhalten, dass diese wie<br />
von den Autoren in [MGMR01] dargestellt die Ergebnisse des Similarity Flooding nicht<br />
wesentlich beeinflussen. Egal, ob nun gezielt potentiell gute Matching-Kandidaten mit<br />
hohen Anfangsähnlichkeiten belegt, Zufallswerte verwendet oder nur ein einziger Kandidat<br />
mit einem Wert belegt wurde, hatte auf die Ergebnisse keinerlei Einfluss, sondern<br />
lediglich auf die Anzahl der Iterationen, die bis zum Erreichen dieses Ergebnisses notwendig<br />
waren. Die Beeinflussungen, die in Fall 3 festgestellt werden konnten, können in<br />
realen Anwendungen als irrelevant angesehen werden, denn sie würden bedeuten, dass<br />
in einer Vorverarbeitungsphase des Algorithmus komplett falsche Anfangsähnlichkeiten<br />
(<strong>und</strong> vor allem Werte von 0 für eigentlich gute Matching-Kandidaten) berechnet werden<br />
müssten, was extrem unwahrscheinlich erscheint. Ebenso sind die Beeinflussungen, die<br />
an den Testergebnissen bei Graph 7 festgestellt werden konnten, vermutlich eher theoretisch<br />
relevant als in der Praxis. Dass es dort Fälle gibt, in denen zwei Modelle so gestaltet<br />
sind, dass eines der Modelle mit gleicher Wahrscheinlichkeit zu einem oder dem anderen<br />
Teil des zweiten Modells passt, scheint doch eher unwahrscheinlich.<br />
Bezogen auf die zu Beginn des Kapitels angesprochene Berechnung von Anfangsähnlichkeiten<br />
in der Vorverarbeitungsphase kann man sagen, dass die Ergebnisse der hier<br />
durchgeführten Experimente deren Nutzen in Frage stellen. Ob nun in einer Vorverarbeitungsphase<br />
Ähnlichkeiten berechnet <strong>und</strong> als Anfangsähnlichkeiten in den Algorithmus<br />
einbezogen werden oder ob direkt Zufallswerte oder konstante Werte ungleich 0 für die<br />
Ähnlichkeiten verwendet werden, wirkt sich offenbar nur darauf aus, wie lange der Al-<br />
56