25.12.2013 Aufrufe

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

PDF-Download - Deutsche Geodätische Kommission

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

9.2. AUSBLICK 111<br />

• Neben der expliziten Berücksichtigung der Form eines Clusters ist auch die Definition und Verwendung<br />

von Rauschmodellen eine offene Frage und bietet ein breites Feld an Forschungsmöglichkeiten.<br />

• Auch wenn es unser Ziel war, ein vollständig parameterfreies Verfahren zu definieren, so wäre die Angabe<br />

eines Qualitätsmaßes wünschenswert, wie z.B. finde die Gruppen von Objekten, die mit 90% Wahrscheinlichkeit<br />

zusammengehören. Eine andere Möglichkeit wäre, dass das Verfahren zu jedem Cluster einen<br />

Wahrscheinlichkeitswert oder ein Konfidenzintervall liefert, denn unser Verfahren liefert nur den MAD<br />

(Homogenität) der Clusterdichte als Qualitätsmaß eines Clusters. Um eine fundierte qualitative Beurteilung<br />

zu ermöglichen, müsste untersucht werden, wie unser Verfahren mit einem verteilungsunabhängigen<br />

Testverfahren (parameterfreie Statistik) erweitert werden kann, denn eine Annahme über die Art der<br />

Verteilung sollte weiterhin nicht notwendig sein.<br />

• Das Fundament unseres beschriebenen Verfahrens ist die Delaunay-Triangulation, da aus ihr in effizienter<br />

Weise alle anderen Nachbarschaftsgraphen abgeleitet werden können und sie es uns zusätzlich ermöglicht,<br />

mit Hilfe der äußeren und inneren Kantenmengen eine Randbeschreibung der gefundenen Cluster angeben<br />

zu können. So schön dieser formale Ansatz auch ist, so hat er in der Praxis jedoch einen wesentlichen<br />

Nachteil. Im Falle großer und hochdimensionaler (d >4) Datensätze ist die Delaunay-Triangulation im<br />

allgemeinen nicht geeignet, denn die Zeitkomplexität zur Berechnung der Delaunay-Triangulation beträgt<br />

für d>2dannO(n ⌈ d 2 ⌉ ), gegenüber O(nlogn) im zweidimensionalen Fall, und die Speicherkomplexität<br />

ist dann ebenfalls nicht mehr linear sondern O(n 2 ). Der relative Nachbarschaftsgraph und der<br />

Gabriel-Graph weisen zwar bei direkter Berechnung eine etwas günstigere Zeitkomplexität auf, sie besitzen<br />

jedoch ebenfalls für d>3 keine lineare Speicherkomplexität mehr. In diesen Fällen erweisen sich die<br />

k-Nächsten-Nachbargraphen und der minimal spannende Baum als erheblich günstiger, da sie im allgemeinen<br />

für beliebige Dimensionen eine Speicherkomplexität von O(n) besitzen. In (Kleinberg 1997) und<br />

(Eppstein 1998) werden effiziente Methoden zur Berechnung von Nächsten-Nachbargraphen für beliebige<br />

Dimensionen beschrieben. Es wäre deshalb sehr interessant zu untersuchen, wie sich die Hierarchie der<br />

k-Nächsten-Nachbargraphen verhält und ob unser Verfahren mit diesen Graphen ähnliche oder vielleicht<br />

sogar bessere Ergebnisse liefert. Welche k-Nächsten-Nachbargraphen wären notwendig (z.B. 1, 2, 3, 4 oder<br />

5)? Verhält sich diese Hierarchie bezüglich der Clusteranzahl in gleicher Weise, wie die von uns verwendete<br />

Hierarchie?<br />

• Als letztes sei noch unser iterativer Clusteransatz erwähnt. Das von uns definierte Modell wurde eingesetzt,<br />

da es eine einzige einheitliche Clusterdefinition und Aggregationsvorschrift für den nicht-iterativen und<br />

iterativen Fall ermöglicht und somit nicht zwischen Clustern von Clustern und Clustern von einzelnen<br />

Objekten unterschieden werden muss. Bei diesem Modell gehen jedoch alle gewonnenen Informationen über<br />

ein Cluster bei jedem Iterationsschritt verloren, was besonders bei regelmäßig angeordneten Strukturen zur<br />

Gruppierung benachbarter Cluster unterschiedlicher Dichte führt (siehe Testergebnisse für die künstlichen<br />

Testdaten in Abbildung 8.13 auf Seite 97). Es stellt sich somit die Frage, ob, und wenn ja wie, unser Modell<br />

erweitert werden kann, um ein einheitliches Modell zu erhalten, das nur die iterative Gruppierung von<br />

regelmäßig angeordneten Clustern gleicher Dichte erlaubt und Cluster unterschiedlicher Dichte verbietet.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!