PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
PDF-Download - Deutsche Geodätische Kommission
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
9.2. AUSBLICK 111<br />
• Neben der expliziten Berücksichtigung der Form eines Clusters ist auch die Definition und Verwendung<br />
von Rauschmodellen eine offene Frage und bietet ein breites Feld an Forschungsmöglichkeiten.<br />
• Auch wenn es unser Ziel war, ein vollständig parameterfreies Verfahren zu definieren, so wäre die Angabe<br />
eines Qualitätsmaßes wünschenswert, wie z.B. finde die Gruppen von Objekten, die mit 90% Wahrscheinlichkeit<br />
zusammengehören. Eine andere Möglichkeit wäre, dass das Verfahren zu jedem Cluster einen<br />
Wahrscheinlichkeitswert oder ein Konfidenzintervall liefert, denn unser Verfahren liefert nur den MAD<br />
(Homogenität) der Clusterdichte als Qualitätsmaß eines Clusters. Um eine fundierte qualitative Beurteilung<br />
zu ermöglichen, müsste untersucht werden, wie unser Verfahren mit einem verteilungsunabhängigen<br />
Testverfahren (parameterfreie Statistik) erweitert werden kann, denn eine Annahme über die Art der<br />
Verteilung sollte weiterhin nicht notwendig sein.<br />
• Das Fundament unseres beschriebenen Verfahrens ist die Delaunay-Triangulation, da aus ihr in effizienter<br />
Weise alle anderen Nachbarschaftsgraphen abgeleitet werden können und sie es uns zusätzlich ermöglicht,<br />
mit Hilfe der äußeren und inneren Kantenmengen eine Randbeschreibung der gefundenen Cluster angeben<br />
zu können. So schön dieser formale Ansatz auch ist, so hat er in der Praxis jedoch einen wesentlichen<br />
Nachteil. Im Falle großer und hochdimensionaler (d >4) Datensätze ist die Delaunay-Triangulation im<br />
allgemeinen nicht geeignet, denn die Zeitkomplexität zur Berechnung der Delaunay-Triangulation beträgt<br />
für d>2dannO(n ⌈ d 2 ⌉ ), gegenüber O(nlogn) im zweidimensionalen Fall, und die Speicherkomplexität<br />
ist dann ebenfalls nicht mehr linear sondern O(n 2 ). Der relative Nachbarschaftsgraph und der<br />
Gabriel-Graph weisen zwar bei direkter Berechnung eine etwas günstigere Zeitkomplexität auf, sie besitzen<br />
jedoch ebenfalls für d>3 keine lineare Speicherkomplexität mehr. In diesen Fällen erweisen sich die<br />
k-Nächsten-Nachbargraphen und der minimal spannende Baum als erheblich günstiger, da sie im allgemeinen<br />
für beliebige Dimensionen eine Speicherkomplexität von O(n) besitzen. In (Kleinberg 1997) und<br />
(Eppstein 1998) werden effiziente Methoden zur Berechnung von Nächsten-Nachbargraphen für beliebige<br />
Dimensionen beschrieben. Es wäre deshalb sehr interessant zu untersuchen, wie sich die Hierarchie der<br />
k-Nächsten-Nachbargraphen verhält und ob unser Verfahren mit diesen Graphen ähnliche oder vielleicht<br />
sogar bessere Ergebnisse liefert. Welche k-Nächsten-Nachbargraphen wären notwendig (z.B. 1, 2, 3, 4 oder<br />
5)? Verhält sich diese Hierarchie bezüglich der Clusteranzahl in gleicher Weise, wie die von uns verwendete<br />
Hierarchie?<br />
• Als letztes sei noch unser iterativer Clusteransatz erwähnt. Das von uns definierte Modell wurde eingesetzt,<br />
da es eine einzige einheitliche Clusterdefinition und Aggregationsvorschrift für den nicht-iterativen und<br />
iterativen Fall ermöglicht und somit nicht zwischen Clustern von Clustern und Clustern von einzelnen<br />
Objekten unterschieden werden muss. Bei diesem Modell gehen jedoch alle gewonnenen Informationen über<br />
ein Cluster bei jedem Iterationsschritt verloren, was besonders bei regelmäßig angeordneten Strukturen zur<br />
Gruppierung benachbarter Cluster unterschiedlicher Dichte führt (siehe Testergebnisse für die künstlichen<br />
Testdaten in Abbildung 8.13 auf Seite 97). Es stellt sich somit die Frage, ob, und wenn ja wie, unser Modell<br />
erweitert werden kann, um ein einheitliches Modell zu erhalten, das nur die iterative Gruppierung von<br />
regelmäßig angeordneten Clustern gleicher Dichte erlaubt und Cluster unterschiedlicher Dichte verbietet.