25.12.2013 Aufrufe

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

72 KAPITEL 7. HIERARCHISCHES NACHBARSCHAFTSGRAPHEN CLUSTERING<br />

7.1 Warum Nachbarschaftsgraphen?<br />

Wie schon in Kapitel 4 erwähnt, benötigt jedes Clusterverfahren eine Definition der Ähnlichkeit zwischen zwei<br />

Elementen aus der zu gruppierenden Objektmenge. Das Wort Element kann hier direkt als Synonym für Zahl,<br />

Attribut, Datum, etc. angesehen werden. Als ganz natürliche Definition für Ähnlichkeit zwischen zwei Elementen<br />

bietet sich dann eine Metrik an (siehe Kapitel 5, Def. 5.3.2). – eine Funktion also, die zwei Elemente der<br />

Objektmenge in den Raum der positiven reellen Zahlen inklusive der Null abbildet. Zwei Objekte sind nach<br />

dieser Definition dann identisch, wenn die Distanz zwischen beiden gleich Null ist und sie sind sich um so<br />

unähnlicher, jegrößer der Abstand zwischen beiden ist. Ein Clusterverfahren hat nun die Aufgabe zu lösen, die<br />

Menge der Objekte in Teilmengen gleicher Ähnlichkeit einzuteilen, wobei im allgemeinen davon auszugehen ist,<br />

dass es keine identischen Objekte gibt.<br />

Die menschliche Wahrnehmung zeigt uns, dass wir Menschen automatisch Objekte in Gruppen einteilen, innerhalb<br />

derer ein homogener Abstand besteht und zusätzlich wirken Gruppen von Objekten mit geringem Abstand<br />

untereinander besonders interessant (Abbildung 7.2 und 4.1). Es gilt hier Toblers Gesetz ”<br />

Everything is related<br />

to everything else, but near things are more related than distant things“ (Tobler 1970). Auf dieser Eigenschaft<br />

bauen nun die sogenannten dichtebasierten Clusterverfahren auf. Diese Verfahren versuchen, die Dichte von<br />

Objekten zu schätzen und Objekte gleicher Dichte zusammenzufassen.<br />

a) b) c)<br />

Abbildung 7.2: Gestalt-Gesetze: a) Gesetz der Ähnlichkeit, b) Gesetz der Nähe, c) Gesetz der guten Fortsetzung.<br />

Physikalisch definiert sich die Dichte als Anzahl von Teilchen pro Volumeneinheit. Zur Schätzung der Dichte<br />

bieten sich nun mehrere Möglichkeiten an. In den meisten praktischen Problemfällen lassen sich die zu gruppierenden<br />

Objekte in einen n-dimensionalen Vektorraum abbilden. In solchen metrischen Räumen bietet es sich<br />

zum Beispiel an, den Objektraum in ein gleichmäßiges Zellraster mit vorgegebener Kantenlänge einzuteilen<br />

und die Anzahl der Objekte innerhalb einer Zelle zu bestimmen. Die Dichte ergibt sich dann aus dem Quotienten<br />

von Objektanzahl und Zellenfläche. Jedem Objekt in einer Zelle wird dann die entsprechende Dichte<br />

zugeordnet. Eine andere Möglichkeit ist es, anstatt eines Rasters einen festen Radius vorzugeben und um jeden<br />

Objektpunkt eine n-dimensionale Sphäre zu legen (Abb. 6.8), um dann die Anzahl der Objekte innerhalb der<br />

Sphäre zu bestimmen. Die Anzahl der Objekte ist dann ein Maß für die Dichte. Ester et al. (1996) führen auf<br />

dieser Basis den Begriff density reachable ein. Bei graphbasierten Verfahren bietet es sich zum Beispiel an, die<br />

Familie der k-NNG ((Jarvis & Patrick 1973), (Eppstein et al. 1997), (Karypis et al. 1999)) zu verwenden und<br />

die mittlere Kantenlänge aller inzidenter Kanten einer Ecke als deren Dichte zu definieren. Kantenlänge und<br />

Mittelwert müssen dabei natürlich in geeigneter Weise definiert werden. In den meisten Fällen wird die Distanz<br />

der zur Kante gehörenden Ecken verwendet, die wiederum von der gewählten Metrik abhängt. Als Mittelwert<br />

wird meistens das arithmetische Mittel verwendet.<br />

All diese Methoden haben jedoch den Nachteil, dass sie mindestens einen Parameter benötigen (Zellengröße,<br />

Radius, Anzahl der zu betrachtenden Nachbarobjekte), um die Dichtebestimmung durchführen zu können.<br />

Nachbarschaftsgraphen haben nun, wie im Kapitel 6 beschrieben, die Eigenschaft, Nachbarschaft in einer eindeutigen<br />

mathematischen (natürlichen) Weise zu definieren. Wiederum kann der Begriff Nachbarschaft in Merkmalsräumen<br />

mit dem Begriff Ähnlichkeit gleichgesetzt werden. Wenn wirnunnocheineMetrikaufderMenge<br />

der Objekte des betrachteten Merkmalraums definieren können und diesen Distanzwert der Kante zwischen den<br />

beiden Ecken des zugeordneten Nachbarschaftsgraphen zuweisen, haben wir damit auch den Begriff der Dichte<br />

in Nachbarschaftsgraphen eingeführt.<br />

Die Hierarchie der Nachbarschaftsgraphen wiederum definiert auf eine natürliche Weise eine Generalisierung des<br />

Begriffs Nachbarschaft und stellt uns somit eine Art Lupeneffekt zur Verfügung, den wir für einen verallgemeinerten<br />

Buffergrowing Algorithmus verwenden können. Die zugrunde liegende Idee ist, dass wir für eine robuste

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!