Visualisierung hochdimensionaler Daten

Visualisierung hochdimensionaler Daten 

Hauptseminar SS11 

Michael Kircher

Inhalt 

 

Einführung zu hochdimensionalen Daten 

 

Visualisierungsmöglichkeiten 

dimensionale Teilmengen 

dimensionale Schachtelung 

Achsenumgestaltung 

Algorithmen zur Dimensionsreduktion 

 

Zusammenfassung 

Visualisierung hochdimensionaler Daten Michael Kircher 2


 

Daten bestehen aus einer Menge von n-Tupel 

n gibt Dimension an 

Komponenten können nominal, ordinal oder quantitativ sein 

 

Größenordnung: 

Datenelemente ca. 10 6 bis 10 9 

Dimensionen ≤ 10 2 


Rohdaten Beispiel 

[6] 


Inhalt 

 


 






 



Dimensionale Teilmengen – Scatterplot Matrix 

 

 

n 2 Matrix mit allen 

Kombinationen 

symmetrisch 

 

für große n nicht 

geeignet 


Inhalt 

 


 






 



Dimensionale Schachtelung – Dimension Stacking 

3 - 4 5 - 6 7 - 8 



3 - 4 5 - 6 7 - 8 



3 - 4 5 - 6 7 - 8 

Cylinders: 

MPG: 

Horsepower: 

Weight: 

Acceleration: 

Year 

6 

20.2 

88.0 

3060.0 

17.1 

81 


Dimension Stacking 

 

 

geeignet für wenige Datenpunkte 

wenig Werte pro Dimension 

 

 

nicht geeignet für große n 

Dimensionen schlecht ablesbar 


Inhalt 

 


 






 



Achsenumgestaltung – Parallele Koordinaten 

 

 

Dimensionen werden als parallele Achsen angeordnet 

n-Dimensionaler Punkt ergibt Linie mit n-1 Segmente 

Interessant sind Bereiche zwischen Achsen 

zeigen Korrelation 


Parallele Koordinaten – Analyse 










Parallele Koordinaten – Probleme 

Datensatz mit ≈16.000 Elemente: 

Doppeldeutigkeit: 

[1] 

[1] 


Hierarchische Parallele Koordinaten – Clustering 

 

Gruppierung von „nahe“ beieinander liegenden Elementen 

 

Cluster sind hierarchisch geschachtelt 

Wurzel-Cluster enthält alle Datenelemente 

Blatt-Cluster enthält genau ein Element 

{x 0 , x 1 , x 2 , x 3 } 

{x 0 , x 1 } {x 2 , x 3 } 

{x 0 } {x 1 } {x 2 } {x 3 } 

Durchschnitt 

Min und Max 

pro Dimension 


Hierarchische Parallele Koordinaten 

 

230.000 Elemente bei verschiedenen Clusterebenen 

[1] 


Parallele Koordinaten 

 

 

Korrelationen zwischen Dimensionen gut erkennbar 

theoretisch keine Einschränkung auf Anzahl der Dimensionen 

praktisch sinnvoll bis n ≈ 12 

 

starkes Überzeichnen bei vielen Daten 

 

Clustering stellt interessanten Ansatz dar 

→ Interaktive Visualisierung 

Umordnen von Achsen 

Brushing: hervorheben von bestimmten Datensätzen 


Inhalt 

 


 






 



Dimensionsreduktion 

 

Algorithmus bildet hochdimensionale Daten auf niedrigere 

Dimension ab 

 

typisch 2D oder 3D 

 

Verfahren: 

Self-Organizing Map (SOM) 

Multidimensional Scaling (MDS) 



 

Map besteht aus Gitterstruktur 

 

 

jeder Knoten besitzt einen 

Gewichtungsvektor 

Eingabeschicht ist mit jedem 

Knoten verbunden 

 

Vergleich von Eingabevektor mit Gewichtungsvektoren 

 

Zuweisung zu „Gewinnerknoten“ 

 

Training- und Mappingphase 


Self-Organizing Map – Training 

 

Anpassung der Gewichte 

geringer Einfluss auf Randknoten 

Einflussradius nimmt pro Iteration ab 

r 

Einfluss 

[5] 


Self-Organizing Map – Demo 

 

40 x 40 Map 

 

 

Daten: 3D Vektoren 

Rot, Grün, Blau 

8 Eingabevektoren 

[5] 


Self-Organizing Map – Demo 

 

40 x 40 Map 

 

 

Daten: 3D Vektoren 

Rot, Grün, Blau 

8 Eingabevektoren 

[5] 


Inhalt 

 


 








 




 

versucht Abstände der Datenpunkte in hoher Dimension auf niedrige 

Dimension zu übertragen 

SMACOF 

Dimension D = 3 Dimension L = 2 

 

Optimierungsproblem: iterative Berechnung über SMACOF 

 

Scaling by Majorizing a COmplicated Function 


MDS – SMACOF 

 

Eingabe: N x N Matrix (Δ = [δ ij ]) für Unähnlichkeiten zwischen 

Datenpunkten 

 

symmetrisch: δ ij = δ ji 

positiv: δ ij ≥ 0 

Diagonalelemente sind Null: δ ii = 0 

 

Ausgabe: Konfiguration X im niedrig dimensionalen Raum 

 

N x L Matrix 

 

Evaluation von X durch STRESS: 

σ ( X )= ∑ 

i< j ⩽N 

w ij 

(d ij 

( X ) − δ ij 

) 2 


SMACOF – Majorisierung 

[3] 

 

Eigenschaften einer Majorisierungsfunktion g(x, z): 

Minimum von g(x, z) sollte einfach zu finden sein 

ursprüngliche Funktion ist immer kleiner: f(x) ≤ g(x, z) 

Gleichheit am Hilfspunkt: f(z) = g(z, z) 

→ 

f (x min 

) ⩽ g ( x min 

, z) ⩽ g (z , z)= f (z) 


SMACOF Algorithmus 

Start: set initial X [0] , 

compute σ [0] , k := 0 

 

Initialisierung mit Zufallswerten 

k := k + 1 

Update X [k] by 

Guttman transform 

Compute σ [k] 

 

Guttman Transformation: 

X [ k ] =V + B( X [ k−1] ) X [ k−1] 

b ij = Verhältnis δ ij / d ij (X [k-1] ) 

v ij = Gewichte w ij 

no 

(σ [k-1] - σ [k] < ε) 

or (k = MAX) 

yes 

 

neuen STRESS Wert bestimmen 

End 

[nach 3] 


Probleme des SMACOF Algorithmus 

 

 

 

Konvergenz kann beliebig lange dauern 

Laufzeit O(N²) 

Speicher O(N²) 

für N = 100.000 Datenpunkte, 8 Byte Double-Precision für Abstände 

eine N x N Matrix braucht 80 GB Hauptspeicher 

SMACOF nutzt 6 N x N Matrizen → 480 GB Hauptspeicher 


Optimierung SMACOF 

 

 

Matrixmultiplikation über mehrere Rechner verteilen 

Matrix in p Blöcke aufteilen 

je ein Block pro Prozess → 1/p des Speichers 

(Zwischen-) Ergebnisse werden über Netzwerk gesendet 

(N x N) (N x L) (N x L) 

1 

2 

3 

1 

[2] 


Ergebnisse nach Optimierung 

 

 

Daten: chemische Strukturen mit 166 Dimensionen 

8.000 Iterationen 

 

Cluster 

32 Knoten 

Intel Xeon 2,4 GHz, 6 Cores 

→ mehr Netzwerkverkehr bei 

steigender Parallelisierung 

[2] 


Ergebnisse nach Optimierung 

 

 

Daten: chemische Strukturen mit 166 Dimensionen 

100.000 Elemente 

[2] 


Inhalt 

 


 






 




 

Visualisierung hochdimensionaler Daten: 

 

Parallele Koordinaten eignen sich gut für direkte Visualisierung 

 

Scatterplot Matrizen + Dimensionale Schachtelung schwierig zu lesen bei 

größeren Dimensionen 

 

Dimensionsreduktion eignet sich für sehr große n, um Cluster in den Daten 

zu erkennen 


Vielen Dank!

Literatur 

[1] Ying-Huey Fua, Matthew O. Ward and Elke A. Rundensteiner. Hierarchical Parallel 

Coordinates for Exploration of Large Datasets. Visualization '99 Proceedings, 1999. 

[2] Jong Youl Choi, Seung-Hee Bae, Xiaohong Qiu and Geoffrey Fox. High Performance 

Dimension Reduction and Visualization for Large High-Dimensional Data Analysis. 10th 

IEEE/ACM International Conference on Cluster, Cloud and Grid Computing, 2010. 

[3] Ingwer Borg, Patrick Groenen. Modern Multidimensional Scaling - Theory and 

Applications. Springer-Verlag NY, 1997. 

[4] R. Kosara. Parallel Coordinates. (Stand 22. Mai 2011) 

http://eagereyes.org/techniques/parallel-coordinates 


Literatur 

[5] Kohonen's Self Organizing Feature Maps. (Stand 06. Juni 2011) 

http://www.ai-junkie.com/ann/som/som1.html 

[6] Harold V. Henderson, Paul F. Velleman. Building Multiple Regression Models 

Interactively. Biometrics Vol. 37, No. 2. Jun. 1981.

Visualisierung hochdimensionaler Daten

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?