pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Weitere Magazine

Empfehlungen

Info

duktformel verwendet. Der Propagation-Koeffizient ω((a 4 , b 2 ), (a 2 , b 3 )) = 0.5 der Kante zwischen (a 4 , b 2 ) und (a 2 , b 3 ) kommt demnach dadurch zustande, dass es vom Knoten (a 4 , b 2 ) genau zwei ausgehende l 2 -Kanten gibt, sodass sich der Wert als ω((a 4 , b 2 ), (a 2 , b 3 )) = 1 2 = 0.5 ergibt. Der Propagation-Koeffizient ω((a 2 , b 2 ), (a 1 , b 1 )) = 1.0 ergibt sich deshalb, weil nur eine einzige mit l 1 beschriftete Kante aus a 2 b 2 ausgeht bzw. in a 1 b 1 eingeht. Die zweite hier vorgestellte Möglichkeit für die Berechnung der Propagation-Koeffizienten ist die Verwendung der inversen Durchschnittsfunktion. Diese berechnet π wie folgt: ⎧ ⎨ 2 card π {l,r} (〈x, p, A〉, 〈y, q, B〉) = {l,r} (x,p,A)+card {l,r} (y,q,B) , wenn p = q ⎩0, wenn p ≠ q Hier wird also statt einer Produktbildung der Kardinalitäten wie in der inversen Produktformel auf die Durchschnittsbildung zurückgegriffen. Der Propagation-Koeffizient ω((a 4 , b 2 ), (a 2 , b 3 )) des Graphen aus Abbildung 4.3 würde in diesem Fall den Wert 0.6 ergeben, weil es in Modell A zwei ausgehende l 2 -Kanten von a 4 sowie eine von b 2 gibt, 2 sodass sich der Wert als 2+1 = 2 3 = 0.6 ergibt. Die Autoren bescheinigen dabei der inversen Durchschnittsfunktion eine bessere Performanz und verweisen diesbezüglich auf von ihnen durchgeführte empirische Studien, die das belegen. 4.3. Iteratives Berechnung der Ähnlichkeiten Nachdem die Modelle nun in einen Similarity Propagation Graph überführt vorliegen, beginnt der eigentliche Ablauf des Algorithmus. Definition 4.3 Seien A und B zwei Modelle. Dann bezeichnet σ(x, y) ≥ 0 die Ähnlichkeit zweier Knoten x ∈ A und y ∈ B, definiert als totale Funktion über A × B. σ wird dabei als Mapping bezeichnet und seine Werte iterativ berechnet. σ i gibt das Mapping zwischen A und B nach der i-ten Iteration an, σ 0 die anfängliche Ähnlichkeit (oder Anfangsähnlichkeit) zwischen den Knoten von A und B. Diese Anfangsähnlichkeit kann dabei zum Beispiel mit Hilfe von Zeichenketten-Vergleichen der Knoten-Label berechnet werden. Ist zu Beginn keine Ähnlichkeit zwischen Knoten verfügbar (wie es im Beispiel in Kapitel 4.2 der Fall ist), kann hier ein Wert von σ 0 (x, y) = 1.0 für alle (x, y) ∈ A × B angenommen werden. Wie der Ablauf des Algorithmus durch die Wahl der Anfangsähnlichkeiten beeinflusst wird, wird in Kapitel 7 genauer untersucht. Zur Veranschaulichung des Verfahrens soll hier die Vereinfachung mit gleichen Werten 1.0 reichen. Im i-ten Iterationsschritt des Similarity Flooding wird der Wert von σ i+1 eines Map Pairs (x, y) aus dem alten Wert σ i von (x, y), den σ-Werten der Nachbarknoten und den Propagation-Koeffizienten der Kanten, die von den Nachbarknoten zu (x, y) bzw. von (x, y) zu den Nachbarknoten führen, neu berechnet. Formell lässt sich diese Berechnung 22
durch die Formel darstellen, wobei gilt: ϕ(σ i (x, y)) = + σ i+1 (x, y) = σ i (x, y) + ϕ(σ i )(x, y) ∑ (a u,p,x)∈A,(b u,p,y)∈B ∑ (x,p,a v)∈A,(y,p,b v)∈B σ i (a u , b u ) · ω((a u , b u ), (x, y)) σ i (a v , b b ) · ω((a v , b v ), (x, y)) Aufgrund der Berechnung des neuen σ-Wertes als Summe würden die Ähnlichkeitswerte im Verlauf der Iterationen monoton wachsen, weshalb eine Normalisierung der σ-Werte nach jeder Iteration nötig ist. Das bedeutet, dass alle Werte am Ende einer Iteration durch den maximalen σ-Wert, der in der Iteration berechnet wurde, dividiert werden. Anschließend hat man somit nur Ähnlichkeitswerte im Bereich von 0 bis 1 für die nächste Iteration. Pseudocode 4.3 stellt die Funktion berechneÄhnlichkeiten dar, die die iterativen Berechnungen der σ-Werte für jeden Knoten eines gegebenen SPG durchführt. Dabei führt die normalisieren-Funktion die oben genannte Normalisierung durch. Die Komplexität der Methode ist dabei O(n Knoten ∗ n Kanten ), wobei n Knoten und n Kanten die Anzahl der Knoten bzw. Kanten im SPG sind. Pseudocode 4.3: berechneÄhnlichkeiten(SPG spg) for each Knoten (a 1 , b 1 ) ∈ spg do σ neu (a 1 , b 1 ) ← σ(a 1 , b 1 ) for each Kante ((a 1 , b 1 ), l, (a 2 , b 2 )) ∈ spg do // ausgehende Kanten σ neu (a 1 , b 1 ) = σ neu (a 1 , b 1 ) + σ(a 2 , b 2 ) · ω((a 1 , b 1 ), (a 2 , b 2 )); for each Kante ((a 2 , b 2 ), l, (a 1 , b 1 )) ∈ spg do // eingehende Kanten σ neu (a 1 , b 1 ) = σ neu (a 1 , b 1 ) + σ(a 2 , b 2 ) · ω((a 2 , b 2 ), (a 1 , b 1 )); for each Knoten (a 1 , b 1 ) ∈ spg do σ(a 1 , b 1 ) = normalisieren(σ neu (a 1 , b 1 )) Tabelle 4.2 stellt den Verlauf der normalisierten Ähnlichkeitswerte des SPG aus Abbildung 4.3 über mehrere Iterationen dar. Als Anfangsähnlichkeiten wurde hier σ 0 = 1.0 für alle Map Pairs angenommen. Gemäß der Formel berechnet sich zum Beispiel der Wert für σ 1 (a 1 , b 3 ) als σ 1 (a 1 , b 3 ) = σ 0 (a 1 , b 3 )+σ 0 (a 1 , b 3 )·ω((a 1 , b 3 ), (a 2 , b 1 )) = 1.0+1.0·1.0 = 2.0, aufgrund der Normalisierung mit dem maximal erreichten Wert in der Iteration (in diesem Fall der Wert 3.0) ergibt sich daraus σ 0 (a 1 , b 3 ) = 2 3 = 0.6. Schon nach den dargestellen fünf Iterationen kann man erkennen, dass der Ähnlichkeitswert für (a 1 , b 1 ) konstant bei 1.0 bleibt, die Werte für (a 2 , b 2 ) und (a 3 , b 4 ) gegen 0.71 konvergieren und die Ähnlichkeiten der restlichen Map Pairs immer weiter gegen 0 konvergieren. Würde man noch weitere Iterationen durchführen, könnte man beobachten, dass die Ähnlichkeitswerte für (a 1 , b 3 ), (a 2 , b 1 ), (a 2 , b 3 ), (a 3 , b 3 ) und (a 4 , b 2 ) tatsächlich 23
Seite 1 und 2: Leibniz Universität Hannover Insti
Seite 3 und 4: Inhaltsverzeichnis 1. Einleitung 5
Seite 5 und 6: 1. Einleitung 1.1. Motivation und S
Seite 7 und 8: 2. Grundlagen In diesem Kapitel sol
Seite 9 und 10: Möglichkeiten erläutert, wie Mapp
Seite 11 und 12: (etwa OLA oder Microsoft BizTalk Ma
Seite 13 und 14: Abbildung 3.2.: Klassifizierung von
Seite 15 und 16: 4. Der Similarity Flooding Algorith
Seite 17 und 18: Definition 4.1 Seien A und B zwei M
Seite 19 und 20: Gemäß der Definition wird also zu
Seite 21: Abbildung 4.3.: Similarity Propagat
Seite 25 und 26: Tabelle 4.3 dargestellt sind. Währ
Seite 27 und 28: Abbildung 4.4.: Bipartiter Graph (l
Seite 29 und 30: Das Zuordnungsproblem Beim Zuordnun
Seite 31 und 32: 5. Vergleich mit anderen Verfahren
Seite 33 und 34: (vorgeschlagen ist ein Unterschied
Seite 35 und 36: durchgeführt werden müssen, um ei
Seite 37 und 38: 6. Implementierung der Testumgebung
Seite 39 und 40: Abbildung 6.4.: Menü mit den Anfan
Seite 41 und 42: Abbildung 6.7.: Filterung der Ergeb
Seite 43 und 44: AUTOR(Name (PK), Geburtsdatum); BUC
Seite 45 und 46: sich allein mit der Qualität des V
Seite 47 und 48: Die Graphen 3, 4 und 5 sind jeweils
Seite 49 und 50: Graph 1 2 3 4 5 6 7 |Knoten| 6 15 8
Seite 51 und 52: wie sich das allgemein auf das Simi
Seite 53 und 54: Knoten Iteration 1 (a, b) 0 (a 1 ,
Seite 55 und 56: Knoten Iteration 1 2 3 10 20 30 40
Seite 57 und 58: gorithmus arbeiten muss, um zu eine
Seite 59 und 60: Die Beobachtung, dass sich die Kand
Seite 61 und 62: Knoten Iteration 1 2 3 4 5 6 7 8 9
Seite 63 und 64: Einstellen niedriger Anfangsähnlic
Seite 65 und 66: eines Schemas in einen Graphen. Im
Seite 67 und 68: ER_MITARBEITER aus Schema 2 kann zu
Seite 69 und 70: 1 für α in der Vorverarbeitung da
Seite 71 und 72: Musiksammlung Bei den Musiksammlung
Seite 73 und 74:
durch Festlegen von Anfangsähnlich
Seite 75 und 76:
den Benutzer berücksichtigt wurde,
Seite 77 und 78:
Literaturverzeichnis [DMR02] [Dra93
Seite 79 und 80:
A. Anhang - Für Experimente verwen
Seite 81 und 82:
A.2. Graph 2 Abbildung A.4.: Graph
Seite 83 und 84:
A.3. Graph 3 Abbildung A.7.: Graph
Seite 85 und 86:
Abbildung A.10.: Graph 4: Pairwise
Seite 87 und 88:
Seite 89 und 90:
Seite 91 und 92:
Seite 93 und 94:
Abbildung B.3.: Graph zu Schema 1 9
Seite 95 und 96:
B.2. Bustouren STADT (Name, Highlig
Seite 97 und 98:
Abbildung B.8.: Graph zu Schema 2 9
Seite 99 und 100:
Abbildung B.11.: Graph zu Schema 1
Seite 101 und 102:
B.4. Filmdatenbank MOVIE (movie, ti
Seite 103 und 104:
Abbildung B.16.: Graph zur Schema 2
Seite 105 und 106:
Schema 1 Schema 2 Ähnlichkeitswert
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119:
Alle anzeigen

pdf (18647 Kb) - Fachgebiet Datenbanken und Informationssysteme ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?