78 KAPITEL 7. HIERARCHISCHES NACHBARSCHAFTSGRAPHEN CLUSTERING Die Definition besagt, dass zwei Clusterdichten dann als gleich betrachtet werden, wenn ihre Erwartungswerte im Toleranzbereich der jeweils anderen Clusterdichte liegen (Abb. 7.4). Wie man sieht, berechnen wir für die Kompatibilitätstests kein explizites Ähnlichkeitsmaß (oder Distanzmaß), jedoch lässt sich einfach zeigen, dass Definition 7.4.2 zu einem Ähnlichkeitsmaß in Beziehung steht, wenn man Definition 7.4.2 durch die äquivalente Bedingung ersetzt, aus der sich dann ein Ähnlichkeitsmaß, wie folgt definieren lässt: |D(X) − D(Y)| min {V(X), V(Y)} ≤ 1 (7.4) s(X, Y) = { 1 − |D(X)−D(Y)| min{V(X),V(Y)} falls |D(X) − D(Y)| ≤min {V(X), V(Y)} 0 sonst . (7.5) In gleicher Weise ist es auch möglich, die Abstands-Kompatibilität, nach Definition 7.4.1, durch ein geeignetes Ähnlichkeitsmaß zu ersetzen, wie z.B. durch die Ähnlichkeitsfunktion s(X, Y) = 1 3 (s MD X (X, Y)+s MDY (X, Y)+s VD (X, Y)) mit (7.6) { 1 − |MD(X,Y)−D(X)| s MDX (X, Y) = V(X) falls |MD(X, Y) − D(X)| ≤V(X) und (7.7) 0 sonst { 1 − |MD(X,Y)−D(Y)| s MDY (X, Y) = V(Y) falls |MD(X, Y) − D(Y)| ≤V(Y) und (7.8) 0 sonst { |∆(X,Y)| 1 − s VD (X, Y) = min{|T(X)|,|T(Y)|} falls |∆(X, Y)| ≤min {|T(X)| , |T(Y)|} . (7.9) 0 sonst Da der Erwartungswert für die Kantenlänge eines nicht regulären Clusters 0 ist und reguläre Cluster einen Erwartungswert ungleich 0 haben und im allgemeinen einen Toleranzbereich, der nicht die 0 enthält, können im allgemeinen Fall diese Cluster nach der strengen Definition mit regulären Clustern nicht vereinigt werden. Insbesondere bei regelmäßigen Strukturen kann es jedoch durch die in unserem Verfahren implizit definierten Abarbeitungsreihenfolge, die durch die Anordnung der Cluster in der Prioritätswarteschlange entsteht, dazu führen, dass nicht reguläre Cluster von regulären Clustern eingeschlossen sind und somit niemals gruppiert werden. Wir bezeichnen Cluster, die auf diese Weise entstehen, als Sackgassen-Cluster. In Abbildung 7.5 werden exemplarisch 4 mögliche Konstellationen von 1-, 2-, 3- oder 4-fach Sackgassen-Cluster in einem regelmäßigen 3×3 Gitter dargestellt. Selbstverständlich sind noch mehr Konstellationen möglich und es ist auch nicht zwingend eine regelmäßige Struktur nötig, um Sackgassen-Cluster zu erzeugen. Für nicht reguläre Cluster müssen wir deshalb Definition 7.4.2 wie folgt abschwächen: Definition 7.4.3 (Intra-Dichte-Kompatibilität bei nicht regulären Clustern) Zwei Cluster X und Y, von denen mindestens einer nicht regulär ist, werden dann als verträglich (kompatibel) bezüglich ihrer Dichte betrachtet, wenn folgende Bedingung erfüllt ist: D(X) ⊆ T(Y) oder D(Y) ⊆ T(X) . Bei nicht regulären Clustern genügt es also schon, wenn einer der Erwartungswerte im Toleranzbereich des anderen Clusters liegt. Das entspricht dem Fall V in Abbildung 7.4. Was uns noch fehlt, ist ein geeignetes Homogenitätsmaß. Unser Ziel ist es, möglichst homogene Cluster zu bilden, d.h. also Cluster mit geringer Varianz. Deshalb fordern wir, dass die Varianz der Dichte des vereinigten Clusters mindestens kleiner ist als die Varianz eines der beiden einzelnen Cluster.
7.4. MEDIANBASIERTE ÄHNLICHKEITSRELATION ZWEIER CLUSTER 79 Abbildung 7.4: Intra-Dichte-Kompatibilität: Erwartungswerte (Kreise) und zugehörige Toleranzintervalle besitzen jeweils die gleiche Farbe. Die Intervalle in den Fällen I und II sind kompatibel. Die Intervalle in den Fällen III, IV und V sind dagegen nicht kompatibel. Im Falle eines nicht regulären Clusters gilt der Fall V dagegen als kompatibel (siehe Text). (a) (b) (c) (d) Abbildung 7.5: Beispiele für Sackgassen-Cluster (weiß)