30.01.2015 Aufrufe

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

duktformel verwendet. Der Propagation-Koeffizient ω((a 4 , b 2 ), (a 2 , b 3 )) = 0.5 der Kante<br />

zwischen (a 4 , b 2 ) <strong>und</strong> (a 2 , b 3 ) kommt demnach dadurch zustande, dass es vom Knoten<br />

(a 4 , b 2 ) genau zwei ausgehende l 2 -Kanten gibt, sodass sich der Wert als ω((a 4 , b 2 ), (a 2 , b 3 )) =<br />

1<br />

2<br />

= 0.5 ergibt.<br />

Der Propagation-Koeffizient ω((a 2 , b 2 ), (a 1 , b 1 )) = 1.0 ergibt sich deshalb, weil nur<br />

eine einzige mit l 1 beschriftete Kante aus a 2 b 2 ausgeht bzw. in a 1 b 1 eingeht.<br />

Die zweite hier vorgestellte Möglichkeit für die Berechnung der Propagation-Koeffizienten<br />

ist die Verwendung der inversen Durchschnittsfunktion. Diese berechnet π wie folgt:<br />

⎧<br />

⎨<br />

2<br />

card<br />

π {l,r} (〈x, p, A〉, 〈y, q, B〉) = {l,r} (x,p,A)+card {l,r} (y,q,B) , wenn p = q<br />

⎩0, wenn p ≠ q<br />

Hier wird also statt einer Produktbildung der Kardinalitäten wie in der inversen Produktformel<br />

auf die Durchschnittsbildung zurückgegriffen. Der Propagation-Koeffizient<br />

ω((a 4 , b 2 ), (a 2 , b 3 )) des Graphen aus Abbildung 4.3 würde in diesem Fall den Wert 0.6<br />

ergeben, weil es in Modell A zwei ausgehende l 2 -Kanten von a 4 sowie eine von b 2 gibt,<br />

2<br />

sodass sich der Wert als<br />

2+1 = 2 3<br />

= 0.6 ergibt.<br />

Die Autoren bescheinigen dabei der inversen Durchschnittsfunktion eine bessere Performanz<br />

<strong>und</strong> verweisen diesbezüglich auf von ihnen durchgeführte empirische Studien,<br />

die das belegen.<br />

4.3. Iteratives Berechnung der Ähnlichkeiten<br />

Nachdem die Modelle nun in einen Similarity Propagation Graph überführt vorliegen,<br />

beginnt der eigentliche Ablauf des Algorithmus.<br />

Definition 4.3 Seien A <strong>und</strong> B zwei Modelle. Dann bezeichnet σ(x, y) ≥ 0 die Ähnlichkeit<br />

zweier Knoten x ∈ A <strong>und</strong> y ∈ B, definiert als totale Funktion über A × B.<br />

σ wird dabei als Mapping bezeichnet <strong>und</strong> seine Werte iterativ berechnet. σ i gibt das<br />

Mapping zwischen A <strong>und</strong> B nach der i-ten Iteration an, σ 0 die anfängliche Ähnlichkeit<br />

(oder Anfangsähnlichkeit) zwischen den Knoten von A <strong>und</strong> B. Diese Anfangsähnlichkeit<br />

kann dabei zum Beispiel mit Hilfe von Zeichenketten-Vergleichen der Knoten-Label<br />

berechnet werden.<br />

Ist zu Beginn keine Ähnlichkeit zwischen Knoten verfügbar (wie es im Beispiel in<br />

Kapitel 4.2 der Fall ist), kann hier ein Wert von σ 0 (x, y) = 1.0 für alle (x, y) ∈ A × B<br />

angenommen werden. Wie der Ablauf des Algorithmus durch die Wahl der Anfangsähnlichkeiten<br />

beeinflusst wird, wird in Kapitel 7 genauer untersucht. Zur Veranschaulichung<br />

des Verfahrens soll hier die Vereinfachung mit gleichen Werten 1.0 reichen.<br />

Im i-ten Iterationsschritt des Similarity Flooding wird der Wert von σ i+1 eines Map<br />

Pairs (x, y) aus dem alten Wert σ i von (x, y), den σ-Werten der Nachbarknoten <strong>und</strong> den<br />

Propagation-Koeffizienten der Kanten, die von den Nachbarknoten zu (x, y) bzw. von<br />

(x, y) zu den Nachbarknoten führen, neu berechnet. Formell lässt sich diese Berechnung<br />

22

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!