PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
72 KAPITEL 7. HIERARCHISCHES NACHBARSCHAFTSGRAPHEN CLUSTERING<br />
7.1 Warum Nachbarschaftsgraphen?<br />
Wie schon in Kapitel 4 erwähnt, benötigt jedes Clusterverfahren eine Definition der Ähnlichkeit zwischen zwei<br />
Elementen aus der zu gruppierenden Objektmenge. Das Wort Element kann hier direkt als Synonym für Zahl,<br />
Attribut, Datum, etc. angesehen werden. Als ganz natürliche Definition für Ähnlichkeit zwischen zwei Elementen<br />
bietet sich dann eine Metrik an (siehe Kapitel 5, Def. 5.3.2). – eine Funktion also, die zwei Elemente der<br />
Objektmenge in den Raum der positiven reellen Zahlen inklusive der Null abbildet. Zwei Objekte sind nach<br />
dieser Definition dann identisch, wenn die Distanz zwischen beiden gleich Null ist und sie sind sich um so<br />
unähnlicher, jegrößer der Abstand zwischen beiden ist. Ein Clusterverfahren hat nun die Aufgabe zu lösen, die<br />
Menge der Objekte in Teilmengen gleicher Ähnlichkeit einzuteilen, wobei im allgemeinen davon auszugehen ist,<br />
dass es keine identischen Objekte gibt.<br />
Die menschliche Wahrnehmung zeigt uns, dass wir Menschen automatisch Objekte in Gruppen einteilen, innerhalb<br />
derer ein homogener Abstand besteht und zusätzlich wirken Gruppen von Objekten mit geringem Abstand<br />
untereinander besonders interessant (Abbildung 7.2 und 4.1). Es gilt hier Toblers Gesetz ”<br />
Everything is related<br />
to everything else, but near things are more related than distant things“ (Tobler 1970). Auf dieser Eigenschaft<br />
bauen nun die sogenannten dichtebasierten Clusterverfahren auf. Diese Verfahren versuchen, die Dichte von<br />
Objekten zu schätzen und Objekte gleicher Dichte zusammenzufassen.<br />
a) b) c)<br />
Abbildung 7.2: Gestalt-Gesetze: a) Gesetz der Ähnlichkeit, b) Gesetz der Nähe, c) Gesetz der guten Fortsetzung.<br />
Physikalisch definiert sich die Dichte als Anzahl von Teilchen pro Volumeneinheit. Zur Schätzung der Dichte<br />
bieten sich nun mehrere Möglichkeiten an. In den meisten praktischen Problemfällen lassen sich die zu gruppierenden<br />
Objekte in einen n-dimensionalen Vektorraum abbilden. In solchen metrischen Räumen bietet es sich<br />
zum Beispiel an, den Objektraum in ein gleichmäßiges Zellraster mit vorgegebener Kantenlänge einzuteilen<br />
und die Anzahl der Objekte innerhalb einer Zelle zu bestimmen. Die Dichte ergibt sich dann aus dem Quotienten<br />
von Objektanzahl und Zellenfläche. Jedem Objekt in einer Zelle wird dann die entsprechende Dichte<br />
zugeordnet. Eine andere Möglichkeit ist es, anstatt eines Rasters einen festen Radius vorzugeben und um jeden<br />
Objektpunkt eine n-dimensionale Sphäre zu legen (Abb. 6.8), um dann die Anzahl der Objekte innerhalb der<br />
Sphäre zu bestimmen. Die Anzahl der Objekte ist dann ein Maß für die Dichte. Ester et al. (1996) führen auf<br />
dieser Basis den Begriff density reachable ein. Bei graphbasierten Verfahren bietet es sich zum Beispiel an, die<br />
Familie der k-NNG ((Jarvis & Patrick 1973), (Eppstein et al. 1997), (Karypis et al. 1999)) zu verwenden und<br />
die mittlere Kantenlänge aller inzidenter Kanten einer Ecke als deren Dichte zu definieren. Kantenlänge und<br />
Mittelwert müssen dabei natürlich in geeigneter Weise definiert werden. In den meisten Fällen wird die Distanz<br />
der zur Kante gehörenden Ecken verwendet, die wiederum von der gewählten Metrik abhängt. Als Mittelwert<br />
wird meistens das arithmetische Mittel verwendet.<br />
All diese Methoden haben jedoch den Nachteil, dass sie mindestens einen Parameter benötigen (Zellengröße,<br />
Radius, Anzahl der zu betrachtenden Nachbarobjekte), um die Dichtebestimmung durchführen zu können.<br />
Nachbarschaftsgraphen haben nun, wie im Kapitel 6 beschrieben, die Eigenschaft, Nachbarschaft in einer eindeutigen<br />
mathematischen (natürlichen) Weise zu definieren. Wiederum kann der Begriff Nachbarschaft in Merkmalsräumen<br />
mit dem Begriff Ähnlichkeit gleichgesetzt werden. Wenn wirnunnocheineMetrikaufderMenge<br />
der Objekte des betrachteten Merkmalraums definieren können und diesen Distanzwert der Kante zwischen den<br />
beiden Ecken des zugeordneten Nachbarschaftsgraphen zuweisen, haben wir damit auch den Begriff der Dichte<br />
in Nachbarschaftsgraphen eingeführt.<br />
Die Hierarchie der Nachbarschaftsgraphen wiederum definiert auf eine natürliche Weise eine Generalisierung des<br />
Begriffs Nachbarschaft und stellt uns somit eine Art Lupeneffekt zur Verfügung, den wir für einen verallgemeinerten<br />
Buffergrowing Algorithmus verwenden können. Die zugrunde liegende Idee ist, dass wir für eine robuste