Visual Analytics for Trajectory Clustering - Universität Stuttgart

Visual Analytics for Trajectory Clustering 

Hermann Pflüger 

Seminar "Visual Analytics". Universität Stuttgart, 2010 

Abstract. Die Analyse großer Datenmengen erfordert den Einsatz von 

Computern und geeignete Algorithmen. Dabei ist es wünschenswert, das 

Wissen und die Intuition des Analysten mit einzubeziehen. Die 

vorliegende Arbeit ist Teil einer Reihe von Seminarbeiträgen, die sich mit 

diesem Thema befassen, hier eingeschränkt auf die Analyse von 

Trajektorien. Exemplarisch wird anhand zweier Beispiele gezeigt, wie 

diese Interaktion mit grafischen Hilfsmittel geschehen kann. Basis der 

Arbeit sind die Artikel [1] und [2]. 

1 Einführung 

Die Analyse großer Datenmengen wird häufig mit Clustering Methoden 

durchgeführt. Dabei werden im Merkmalsraum nahe beiananderliegenede Objekte zu 

Klassen zusammengefasst. Ein geeigneter Vertreter einer Klasse kann dann als ein 

typisches Objekt der Datenmenge betrachtet werden. 

Ein Problem bei der Verwendung von Clustering Methoden ist, geeignete 

Merkmale zu bestimmen, und damit dann ein Ähnlichkeitsmaß für die Objekte zu 

definieren. Denn was Objekte ähnlich oder verschieden macht, hängt sehr stark von 

der Art der Objekte, der Anwendung und der Sichtweise des Analysten ab. 

Bei visuell wahrnehmbaren Objekten unterscheidet die menschliche Wahrnehmung 

sehr differenziert und genau, aber im wesentlichen intuitiv [5]. Daher gelingt es dem 

Analysten in der Regel nicht, Merkmale und Abstansmaß formal so zu definieren, 

dass sie dann mit Clustering Methoden ausreichend gute Ergebnisse liefern. 

Auf der anderen Seite ist bei großen Datensätze die Analyse, nur durch die 

Betrachtung des Analysten, nicht machbar. 

Ziel der visuellen Analyse ist es daher, in einem interaktiven Prozess, Clustering 

Methoden mit der Fähigkeit der Menschen, grafischen Objekte schnell und intuitiv zu 

erfassen und zu klassifizieren, zu koppeln. Ein einfaches Schema dafür zeigt 

folgendes Diagramm:

Insbesondere die Visualisierung der Objekte und Cluster erfordert eine 

objektabhängige Vorgehensweise. In dieser Arbeit wird die Analyse von Trajektorien 

behandelt, aber auch die Einschränkung auf Trajektorien führt nicht zu einem 

einheitlichen Verfahren. Anhand von zwei Beispielen werden deshalb 

unterschiedliche Vorgehensweisen exemplarisch behandelt. 

2 Trajektorien 

Eine Trajektorie ist hier der Bewegungspfad eines Objektes in einem euklidischen 

Raum. Sie kann als eine Abbildung: [0, 1] → R n definiert werden. Der Raum in dem 

sich das Objekt bewegt, kann ein geographischer oder ein abstrakter Raum sein. 

In Bsp. 1 bestanden die zu analysierenden Objekte aus einem Datensatz von 5500 

Trajektorien. Jede Trajektorie beschreibt den Gewinn/Risiko Faktor einer 

Finanzanlage an 5 Wochentagen:

Ziel der Analyse in Bsp. 1 war, typische Verläufe zu finden und diese im 

Zusammenhang darzustellen. 

Bsp. 2 war ein Datensatz von 17000 Fahrtrouten in und in der Nähe von Milano. Die 

Fahrtrouten stellen den Strassenverkehr in Milano an den 5 Wochentage einer 

gewöhnlichen Woche dar: 

Ziel dieser Analyse war, typische stark befahrene Fahrtrouten im Berufsverkehr zu 

ermitteln, und daraus entsprechende Repräsentanten/Klassifaktoren zu generieren. 

Mit diesen Repräsentanten können Verkehrsplaner Strassennetze optimieren. Die 

Analyse sollte nur auf den Daten erfolgen, die für die Verkehsplanung bedeutsam 

sind. Umgehungsverkehr und Rauschen sollte rausgefiltert werden.

3 Abstandsfunktion 

Um Objekte miteinader vergleichen zu können bestimmt man objekttypische 

Merkmale. Diese Merkmale spannen dann einen Merkmalsraum auf. Clustering 

Methoden ermitteln dann Objekte im Merkmalsraum, die nahe beiananderliegen, und 

fassen diese zu Cluster zusammen. Um die Ähnlichkeit zweier Objekte quantitativ zu 

bestimmen, muss ein Abstandsmass definiert werden. 

Im ersten Beispiel ist der Gewinn/Risiko Faktor von Finanzanlagen an allen 

Wochentage einer Woche gegeben. Die x/y Koordinaten der 5 Stützstellen im 

Gewinn/Risiko Raum können als objekttypische Merkmale der Trajektorien 

verwendet werden. Der euklidische Abstand im Merkmalsraum kann dann als 

Abstandsmaß verwendet werden: 

Merkmale: x1, y1, x2, ..., y5 

→ 10 dim. Merkmalsraum 

→ 2 Kurven ähnlich, wenn 

eukl. Abstand klein 

Dass ein durch die Stützstellen der Trajektorien definierter Merkmalsraum, 

zusammen mit dem euklidische Abstandmaß, nicht immer ein geeigneter Weg zur 

Beschreibung von Ähnlichkeit ist, zeigen folgende Beispiele: 

Zudem können Trajektorien nicht immer sinnvoll auf eine einheitliche Länge und auf 

gemeinsame Stüzstellen normiert werden. Auch können weitere Merkmale für den 

Vergleich zweier Trajektorien eine Bedeutung haben. So könnte bei Beispiel 2 der 

Fahrtgrund (z.B. Freizeit, Weg zur Arbeitstelle, berufliche Fahrt) der meistens mit 

erhoben wird, eine Rolle bei der Analyse spielen. Die explizite Angabe eines

Merkmalsraumes mit geeigneter Skalierung der einzelnen Dimensionen ist also 

schwierig. 

Einfacher ist dann, eine Funtion zu programmieren, die mit einer geeigneten 

Heuristik einen Abstandswert berechnet. Die Clustering Methoden in Beispiel 2 

arbeiten mit so einer Abstandfunktion. 

4 Verfahren I 

Trajektorien: Mit diesem Verfahren wurden die Gewinn/Risiko Faktoren von 

Finanzanlagen (wie oben beschrieben) analysiert. Diese Trajektorien sind bereits 

normiert. Sie haben gleiche Länge und 5 äquidistante Stützstellen. Als 

unterscheidende Merkmale werden die x/y Koordinaten der 5 Stützstellen gewählt. 

Daraus folgt dann ein 10-dim. Merkmalsraum. Der euklidische Abstand darin wird 

als Abstandmaß verwendet. 

Clustering Methode: Als Clustering Methode wird Clustering mir einem Kohonen 

Netz verwendet. Trainiert wird das Netz mit dem kompletten Datensatz. Das 

Verfahren ermittelt beim Trainingsvorgang nicht nur die im Merkmalsraum 

vorhandene Cluster und Repräsentanten, sondern ordnet die Repräsentanten der 

Cluster so den Knotenpunkten eines 2-dim Netzes zu, dass die Repräsentanten, die im 

Kohonennetz nahe beieinander liegen auch benachbarte Clustergebiete im 

Merkmalsraum beschreiben. 

Clustering mit Kohonen Netzen ist ein Standardverfahren und wird z.B. in [3], 

oder auch in Wikipedia beschrieben. 

Visualisierung: Jeder Knoten des Kohonen Netzes wird als kleines Quadrat mit dem 

Kurvenverlauf des entsprechenden Cluster Repräsentanten dargestellt. Startpunkte 

sind grün markiert, Endpunkte rot. Zusätzliche Informationen können durch farbliche 

Hinterlegung der Quadrate angezeigt werden (siehe auch nachfolgende Beispiele). 

Initialisierung: Bereits bei der Initialisierung kann der Anwender sein Wissen und 

seine Intuition mit einbringen. Neben der Option, die initialen Repräsentanten mit 

zufällig gewählten Trajektorien der Trainingsmenge zu belegen, besteht die 

Möglichkeit, konkrete Repräsentanten vorzugeben. Dadurch wird nicht nur die 

Clusterbildung beeinflusst, sondern auch die Verteilung im Kohonen Netz. Folgende 

Abbildung zeigt die Initialisierung von ausgewählten Knotenpunkten.

Werden initiale Repräsentanten vom Anwender vorgegeben, werden die intialen 

Repräsentanten der nicht bearbeiteten Knotenpunkten durch Interpolation berechnet. 

Berechnung der Cluster Repräsentanten: Während der iterativen Berechnung der 

Cluster Repräsentanten wird immer der aktuelle Stand der Berechnung angezeigt. Der 

Anwender hat jederzeit die Möglichkeit, die Iteration zu unterbrechen und den 

weiteren Berechnungsverlauf zu beeinflussen. 

Zusätzliche Informationen können optional durch farbliche Hinterlegung der 

Quadrate angezeigt werden: 

• Der mittlere Abstand aller Clusterelemente zum Cluster Repräsentanten 

• Der mittlere Abstand der Cluster Repräsentanten zu den Nachbar Repräsentanten 

• Der nächstliegende Nachbar Repräsentanten durch einfach Verbindungslinien 

Diese zusätzlichen Information kennzeichnen den Stand der Iteration, und den 

Zusammenhang der Cluster Repräsentanten. 

Folgende Abbildung zeigt die Visualisierung des initialen Zustands und des 

Zustands nach einer Anzahl von Iterationsschritten. Bei den unteren Darstellungen ist 

der mittlere Abstand aller Clusterelemente zum Cluster Repräsentanten durch Farbe 

visualisiert (dunkelviolett: großer Abstand, gelb: kleiner Abstand).

Während einer Unterbrechung der Iteration hat der Anwender folgende 

Einflussmöglichkeiten: 

• Jeder Repräsentant eines Knotens kann editiert oder überschrieben werden. 

• Die Repräsentanten können beliebig vertauscht werden. 

• Es können einige Knoten ausgewählt werden, und mit diesen eine neue 

Initialisierung durchgeführt werden. 

• Die Verfahrensparameter (siehe [3]) können sowohl für das ganze Netz, als auch 

für Teile davon verändert werden. 

• Bestimmte Repräsentanten können fixiert werden (im obigen Bild die rot 

gerahmten). Z.B. an den initialisierten Knoten. 

• Eine andere Möglichkeit, einen bestimmten Repräsentanten im Netz zu 

erzwingen, besteht darin, diesen immer wieder als Trainingsobjekt einzufügen. 

Dadurch wird er besser als im vorigen Fall ins Netz adaptiert. 

Postprocessing: Nach dem Trainingsprozess kann das Kohonen Netz nachbearbeitet 

werden: 

• Jeder Repräsentant eines Knotens kann editiert oder überschrieben werden. 

• Es können einige Knoten ausgewählt werden. Mit diesen können dann die 

restlichen Knoten interpoliert werden. 

• Die Repräsentanten der einzelnen Knoten können vertauscht werden, damit kann 

das Layout des Netzes beliebig verändert werden. 

• Teile des Netzes können durch weitere Lernprozesse verfeinert werden. 

5 Verfahren II 

Trajektorien: Mit diesem Verfahren wurden 17000 Fahrtrouten in Milano und 

Umgebung (wie oben beschrieben) analysiert. Beim Vergleich der Fahrtrouten sind 

z.B. die Streckenlänge oder gemeinsam benutzte Strassen von Bedeutung, so dass 

sich diese Trajektorien nicht wie im 1. Beispiel normieren lassen. Die hier 

verwendeten Cluster Methoden arbeiten daher mit einer Abstandsfunktion, die der 

Anwender zu Verfügung stellen muss. Der Merkmalsraum ist nur implizit durch die 

Abstandsfunktion gegeben. 

Clustering Methode: Als Clustering Methode werden zwei dichtebasierte Clustering 

Methoden verwendet. 

Das erste Verfahren ermittelt Cluster in denen jedes Element in einem dichten 

Bereich des Merkmalsraumes liegt. Das Verfahren ist in [4] detailiert beschrieben. 

Der Vorteil des Verfahrens ist, dass keine Initialisierung benötigt wird, und das 

Rauschen, z.B. ungewöhnliche Fahrtrouten, automatisch durch das Verfahren erkannt 

und entfernt wird. Nachteilig ist, dass Objekte des Clusters zwar in einem dichten, 

zusammenhängenden Bereich des Merkmalsraumes liegen, jedoch untereinander 

große Abstände haben können, d.h sich unähnlich sein können. Außerdem können für 

diese Cluster keine sinnvolle Repräsentanten berechnet werden. 

Daher wird ein zweites Verfahren verwendet, dass die Cluster des ersten 

Verfahrens weiter unterteilt. Es arbeitet auch dichtebasiert, verhindert jedoch, dass

die Cluster zu groß werden. Das Verfahren hat eine hohe Zeitkomplexität und wird 

daher einzeln auf die bisherigen Cluster angewandt. Es werden also Subcluster 

berechnet. Außerdem werden Klassifikatioren für diese Subcluster berechnet. Ein 

Klassifikator besteht dabei aus einem Repräsentanten und einem max. Abstandswert: 

• Repräsentant: Eine Mittelswertbildung ist nicht möglich, weil der Merkmalsraum 

nicht explizit gegeben ist. Deswegen wird die Trajektorie, deren mittlerer Abstand zu 

den anderen Trajektorien im Subcluster am geringsten ist, als Repräsentant gewählt. 

• Max. Abstandswert: Da die Subcluster verschiedene 'Durchmesser' im 

Merkmalsraum haben, muss zur korrketen Klassifikation der maximale Abstand, den 

ein Objket zum Repräsentanten haben darf, angegeben werden. 

Das Verfahren wird in [2] ausführlich beschrieben. 

Visualisierung: Die Visualisierung ist stark anwendungsbezogen. Die Fahrtrouten 

eines Clusters oder Subclusters werden auf einer Strassenkarte, die im Hintergrung 

abgebildet ist, übereinandergezeichnet. Einzelne Fahrtrouten können dabei farblich 

markiert werden (siehe auch nachfolgende Beispiele). 

Berechnung der Klassifikatoren: Die Berechnung erfolgt in drei Schritten: 

1.Schritt: Der Anwender erstellt eine geeignete Abstandsfunktion, betimmt eine 

verteilungsrepräsentative Trainingsmenge (z.B. Berufsverkehr an einem Wochentag) 

und legt die Verfahrensparameter der ersten Clustering Methode fest. Das Verfahren 

läuft dann ohne Beeinflussung des Anwenders. 

Im Anschluss können die Cluster interaktiv bearbeitet werden. Cluster können 

dabei geteilt, zusammengefasst, oder ganz entfernt werden. Es kann auch ein erneute 

Berechnung mit geänderten Verfahrensparameter oder geänderter Abstandsfunktion 

sinnvoll sein. Im folgenden Beispiel wurden die ersten beiden Cluster entfernt, da sie 

nur Fahrtrouten ausserhalb Milanos beinhalten, die für die Verkehrsplanung hier 

keine Rolle spielten. 

2. Schritt: Im zweiten Bearbeitungsschritt werden die Cluster aus Schritt 1 einzeln in 

Subcluster unterteilt, und für jedes Subcluster wird ein Klassifikator berechnet. 

Nachdem der Anwender die Verfahrensparameter festgelegt hat, läuft das Verfahren 

automatisch. 

Nach der Berechnung hat der Anwender umfangreiche Möglichkeiten die Subcluster 

interaktiv zu bearbeiten:

• Ein Subcluster kann in zwei Subcluster aufgeteilt werden. 

• Mehrere Subcluster können zu einem Subcluster zusammengefasst werden. 

• Die Objekte eines Subclusters können auf andere Subcluster aufgeteilt werden. 

• Ein Subcluster kann entfernt werden, d.h. seine Objekte werden als Rauschen 

interpretiert. 

• Aus einem oder mehreren Subcluster kann ein neues Cluster generiert werden, 

dass dann wieder mit obigen Verfahren verfeinert werden kann. 

Wird ein Subcluster geändert, wird automatisch ein neuer Repräsentant zusammen 

mit einem entsprechnden max. Abstandswert berechnet. 

Das folgende Beispiel wurde das Subcluster in zwei Subcluster unterteilt: 

Im nächsten Beispiel wurde eine Trajektorie entfernt: 

3.Schritt: 

Zunächst sollten die nun gwonnenen Klassifikatoren auf andere Trainingsmengen 

angewandet werden, um sicher zu stellen, dass die ursprüngliche Trainingsmenge 

verteilungsrepräsentativ war. Hier wurden dazu die Fahrtrouten mehrerer 

Wochentage miteinander verglichen. Zum Abschluss werden die Klassifikatoren auf 

den gesamten Datensatz angewandt. 

Die Subcluster können jederzeit mit den Methoden aus Schritt 2 optimiert werden. 

Folgendes Bild zeigt einige Ergebnisse des im Beispiel bearbeiteten Datensatzes.

6 Vergleich der Verfahren 

Beispiel I 

Die übersichtliche Visualisierung der Cluster ergibt sich schon aus dem verwendeten 

Clustering Verfahren. Durch die Initialisierung, und durch die interaktive 

Beeinflussung des Verfahrens schon während der iterativen Berechnung, kann die 

Darstellung noch optimieret und den Bedürfnissen der Anwendung angepasst werden. 

Durch die übersichtliche Darstellung der Cluster, durch die Darstellung der 

Clustereigenschaften und durch Informationen wie benachbarte Cluster 

zusammenhängen, bekommt man eine gute Vorstellung von der Struktur der Cluster 

und damit auch von der Struktur der Datenmenge. 

Diese Eigenschaften macht das Verfahren für die Exploration von großen 

Datenmengen geeignet. 

Für komplexe Objekte ist das Verfahren nicht so gut geeignet, da dann eine geeignete 

Normierung schwierig wird. Auch sind dann für die Darstellung der Trajektorien 

zusätzliche Informationen, wie z.B. die Strassenkarte in Bsp. 2, sinnvoll, was hier 

aber nicht vorgesehen ist. 

Beispiel II

Das Verfahren erkennt Rauschen. Es bietet zudem gute Möglichkeiten die 

Trennschärfe der Klassifikatoren interaktiv durch Anwenderwissen und 

Anwenderintuition zu verbessern. 

Das Verfahren eignet sich daher gut für die Klassifikation großer Datenmengen 

Da die Trajektorien Fahrtrouten im realen Strassenverkehr sind, ist für die 

Visualisierung die Darstellung einer Strassenkarte als Zusatzinformation notwendig. 

Damit ist natürlich der Einsatzbereich stark eingeschränkt. 

7 Literatur 

[1] T. Schreck, J.Bernard, T. Tekusova, J.Kohlhammer. Visual Cluster Analysis of 

Trajectory Data With Interactive Kohonen Maps. Frauenhofer Institut for 

Computer Graphics, Darmstadt. 

[2] G.Andrienko, N. Andrienko, S. Rinzvillo, M. Nanni, D. Pedreschi, F. Giannotti. 

Interaktive Visual Clustering of Large Collections of Trajectories. Frauenhofer 

Institute, Sankt Augustin. 

[3] T. Kohonen. Self-Organizing Maps. Springer, Berlin. 

[4] M. Ankerst, M. M. Breunig, H. Kriegel, J. Sander. Optics:Ordering points to 

identify the clustering structure. ACM SIGMOD 

[5] Irvin Rock. Wahrnehmung. Spektrum, Heidelberg.

Visual Analytics for Trajectory Clustering - Universität Stuttgart

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?