pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
duktformel verwendet. Der Propagation-Koeffizient ω((a 4 , b 2 ), (a 2 , b 3 )) = 0.5 der Kante<br />
zwischen (a 4 , b 2 ) <strong>und</strong> (a 2 , b 3 ) kommt demnach dadurch zustande, dass es vom Knoten<br />
(a 4 , b 2 ) genau zwei ausgehende l 2 -Kanten gibt, sodass sich der Wert als ω((a 4 , b 2 ), (a 2 , b 3 )) =<br />
1<br />
2<br />
= 0.5 ergibt.<br />
Der Propagation-Koeffizient ω((a 2 , b 2 ), (a 1 , b 1 )) = 1.0 ergibt sich deshalb, weil nur<br />
eine einzige mit l 1 beschriftete Kante aus a 2 b 2 ausgeht bzw. in a 1 b 1 eingeht.<br />
Die zweite hier vorgestellte Möglichkeit für die Berechnung der Propagation-Koeffizienten<br />
ist die Verwendung der inversen Durchschnittsfunktion. Diese berechnet π wie folgt:<br />
⎧<br />
⎨<br />
2<br />
card<br />
π {l,r} (〈x, p, A〉, 〈y, q, B〉) = {l,r} (x,p,A)+card {l,r} (y,q,B) , wenn p = q<br />
⎩0, wenn p ≠ q<br />
Hier wird also statt einer Produktbildung der Kardinalitäten wie in der inversen Produktformel<br />
auf die Durchschnittsbildung zurückgegriffen. Der Propagation-Koeffizient<br />
ω((a 4 , b 2 ), (a 2 , b 3 )) des Graphen aus Abbildung 4.3 würde in diesem Fall den Wert 0.6<br />
ergeben, weil es in Modell A zwei ausgehende l 2 -Kanten von a 4 sowie eine von b 2 gibt,<br />
2<br />
sodass sich der Wert als<br />
2+1 = 2 3<br />
= 0.6 ergibt.<br />
Die Autoren bescheinigen dabei der inversen Durchschnittsfunktion eine bessere Performanz<br />
<strong>und</strong> verweisen diesbezüglich auf von ihnen durchgeführte empirische Studien,<br />
die das belegen.<br />
4.3. Iteratives Berechnung der Ähnlichkeiten<br />
Nachdem die Modelle nun in einen Similarity Propagation Graph überführt vorliegen,<br />
beginnt der eigentliche Ablauf des Algorithmus.<br />
Definition 4.3 Seien A <strong>und</strong> B zwei Modelle. Dann bezeichnet σ(x, y) ≥ 0 die Ähnlichkeit<br />
zweier Knoten x ∈ A <strong>und</strong> y ∈ B, definiert als totale Funktion über A × B.<br />
σ wird dabei als Mapping bezeichnet <strong>und</strong> seine Werte iterativ berechnet. σ i gibt das<br />
Mapping zwischen A <strong>und</strong> B nach der i-ten Iteration an, σ 0 die anfängliche Ähnlichkeit<br />
(oder Anfangsähnlichkeit) zwischen den Knoten von A <strong>und</strong> B. Diese Anfangsähnlichkeit<br />
kann dabei zum Beispiel mit Hilfe von Zeichenketten-Vergleichen der Knoten-Label<br />
berechnet werden.<br />
Ist zu Beginn keine Ähnlichkeit zwischen Knoten verfügbar (wie es im Beispiel in<br />
Kapitel 4.2 der Fall ist), kann hier ein Wert von σ 0 (x, y) = 1.0 für alle (x, y) ∈ A × B<br />
angenommen werden. Wie der Ablauf des Algorithmus durch die Wahl der Anfangsähnlichkeiten<br />
beeinflusst wird, wird in Kapitel 7 genauer untersucht. Zur Veranschaulichung<br />
des Verfahrens soll hier die Vereinfachung mit gleichen Werten 1.0 reichen.<br />
Im i-ten Iterationsschritt des Similarity Flooding wird der Wert von σ i+1 eines Map<br />
Pairs (x, y) aus dem alten Wert σ i von (x, y), den σ-Werten der Nachbarknoten <strong>und</strong> den<br />
Propagation-Koeffizienten der Kanten, die von den Nachbarknoten zu (x, y) bzw. von<br />
(x, y) zu den Nachbarknoten führen, neu berechnet. Formell lässt sich diese Berechnung<br />
22