Visualisierung multivariater stetigen Variablen - Lehrstuhl für ...
Visualisierung multivariater stetigen Variablen - Lehrstuhl für ...
Visualisierung multivariater stetigen Variablen - Lehrstuhl für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse462.2 Plots für multivariate stetige Daten• Für die <strong>Visualisierung</strong> und graphische Analyse vonmultivariaten <strong>stetigen</strong> Daten– Splom (Matrizen von Streudiagrammen)– Trellis Plots (Lattice in R)– Parallele Koordinaten Plots– Glyphen
Multivariate Statistische Verfahren – SS2007 47<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse<strong>Visualisierung</strong> hochdim. stetiger Daten• Auch hier gelten die Überlegungen wie für kategorielleDaten:– Linking kann nur bedingt helfen– Dimensionsreduktion kann helfen, liefert aber Interpretationsprobleme• Bei n Beobachtungen und k <strong>Variablen</strong> müssen nk <strong>Variablen</strong>visualisiert werden.• Paradoxon: der hochdimensionale Raum wird immer “leerer”– Wahrscheinlichkeit p, dass ein Punkt aus X ~ N(0,I) innerhalb der Kugelmit Radius 1.96, 2.58, 3.29 liegt:P(naeher zu 0)0.0 0.2 0.4 0.6 0.8 1.05 10 15 20Dimensionen
Multivariate Statistische Verfahren – SS2007 48<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseKanonische Darstellung:• Scatterplots1-dim: DotplotMPG3515 20 25 30 35 40303-dim: Rotationsplot2-dim: ScatterplotMPG2520HorsepowerWeightMPG1.50 2.25 3.00 3.75Weight
Multivariate Statistische Verfahren – SS2007 49<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseScatterplots für n-dim Daten:• Grand Tour (siehe später)• Scatterplot Matrix(SPLOM):• Olive Oils Daten
Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse50SPLOM (Scatterplot Matrix)• Definition– eine Sammlung von 2-d Projektionen– Jede Variable wird gegen jede andere in Streudiagrammen geplottet– Die Diagonale wird für <strong>Variablen</strong>namen, Histogramme, Dichteschätzeroder Normal QQ Plots verwendet• Stärken– viel Information auf einmal– Linking und Einfärbungen sind informativ• Schwächen– zuviele Plots– Redundanz– Probleme mit überlappenden Punkten
Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse51DataDeskSPLOMOlive OilsDaten
Multivariate Statistische Verfahren – SS2007 52<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseWeitere Alternative: Trellis Plots• Stellen viele Dimensionen über bedingte Plots dar• Verwenden die Stufen der kategorielle Daten um bedingte Plotszu erstellen, z.B. Gewicht ~ Größe | Geschlecht * Alter• Graphiken werden in einem matrixartigen Layout angeordnet• Damit können 5 kategorielle und 2 stetige <strong>Variablen</strong> wie folgt in“einem” Trellis Plot dargestellt werden:– kategoriell 1: Zeilen– kategoriell 2: Spalten– kategoriell 3: Seiten– stetig 1: X– stetig 2: Y– kategoriell 4: Farben– kategoriell 5: Symbole
Multivariate Statistische Verfahren – SS2007 53<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseTrellis Beispiel 1: Singers60 65 70 75 8060 65 70 75 80Soprano 2Soprano 1Soprano 2Soprano 1400.253020100.200.150.100.05Alto 2 Alto 10● ● ●●● ● ●● ● ●Alto 2● ●●● ●●● ● ●Alto 10.00400.25Percent of Total3020100Tenor 2Tenor 140302010Density0.200.150.100.050.00●●●●●●●Tenor 2● ● ●● ● ●●●● ● ● ●Tenor 10.250.200.150.100.05Bass 2 Bass 10● ● ●●● ●Bass 2●● ●●●● ●●●● ● ●Bass 1●0.00400.2530200.200.150.10100.0500.00● ●● ●● ●●● ●●● ● ●●●● ●●60 65 70 75 80Height (inches)60 65 70 75 80Height (inches)
Multivariate Statistische Verfahren – SS2007 54<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseTrellis Beispiel 2: Barley20 30 40 50 60Waseca1932Waseca1931●●●Crookston1932Crookston1931●●Morris1932Morris1931●●●University Farm1932University Farm1931●●●●Duluth1932Duluth1931●●Grand Rapids1932Grand Rapids1931●●●20 30 40 50 60Barley Yield (bushels/acre)
Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse55Trellis• Stärken– Verteilungen, Streudiagrammen nach Gruppen– Vergleiche von Untergruppen• Schwächen– nicht interaktiv, so dass die Reihenfolge, die Formatierung, die Größemüssen alle über Kommandos eingestellt werden– <strong>Variablen</strong> sind oftmals nicht kategoriell und werden künstlichdiskretisiert (shingling)– Untergruppen können leer oder fast leer sein• (Begrenzte) Alternativen– Parallel Boxplots Y (stetig) nach X (diskret)– Multiple Barcharts Variation von Mosaicplots
Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse56Parallele Koordinaten Plots• Inselberg (die Geometrie), Wegman (die Anwendung)• Optionen:– Boxplots– Gleichskalierung– Neuskalierung– Ausrichten (Alignment)– Umordnen oder Sortieren der Achsen– Alphablending
Multivariate Statistische Verfahren – SS2007 57<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseParallele Koordinaten• Vorteile– Achsen werden parallel verteilt Platz wird effizient ausgenutzt– Viele <strong>Variablen</strong> auf einen Blick – Vergleich von Profilen– Geometrische Eigenschaften im R k übersetzen sich in 2-dimensionale Ansicht– Ordnung auf <strong>Variablen</strong> wird unterstützt• Nachteile– Strukturen nur bei benachbarten <strong>Variablen</strong> sichtbar– Ohne interaktives Sortieren und Skalieren für explorative Analyse kaum geeignet– Stärkeres Overplotting als bei Scatterplots– Bei k <strong>Variablen</strong> gibt es k! Permutationen die je schon k − 1 Nachbarschaftenabdecken. Es existieren nur k(k−1)2verschiedene Nachbarschaften, so dasssich die Zahl der benötigten Reihenfolgen auf ⌊k+1⌋2Permutationen veringert
Multivariate Statistische Verfahren – SS2007 58<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse“Paralleles Denken I”Linien:66634320-30-2 -1y0 1-2x-40-3-6xy-6xyEbene:2.50y1.25zx0.00-1.25-2.50x y z
Multivariate Statistische Verfahren – SS2007 59<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse“Paralleles Denken II”Kreis:1.01.00.50.50.00.0y-0.5-0.5-1.0-1.0-1.0 -0.5 0.0 0.5Hyperebene (k=6):xxy1.00.50.0-0.5-1.0x1 x2 x3 x4 x5 x6
Multivariate Statistische Verfahren – SS2007 60<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse“Paralleles Denken III”Parabel:Segmente:42.503231.2521210.001-00-0-1.25-1-2 -1 0 1-2.50-2 -1 0 1-2Hyperbel:Unstetig:407.542305.03120102.52100.0-0-10.4 0.8 1.2 1.6-2.5-2 -1 0 1-2
Multivariate Statistische Verfahren – SS2007 61<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalysePCP: Unregelmäßiger Support5.062.5330.0-2.50-30-3-5.0-1 0 1-61.01.00.50.50.00.0-0.5-0.5-1.0-0.5 0.0 0.5xy
Multivariate Statistische Verfahren – SS2007 62<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalysePCP: Anwendung in der Datenanalyse• Korrelation0.9 0.75 0.5 0.0 -0.5
Multivariate Statistische Verfahren – SS2007 63<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalysePCP: Anwendung in der Datenanalyse• Clusterentlang beider Achsen:y642210-0-1-2.5 0.0 2.5 5.0x-2xy2.505.01.25entlang einer Achsen:y2.50.000.0-2.5-1.25-1.25 0.00 1.25 2.50-2.50xxy342entlang keiner Achse:y0-410-1-8-2-1.25 0.00 1.25 2.50-3xxy
Multivariate Statistische Verfahren – SS2007 64<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseVariationen von PCPs• Parallele BoxplotsNicht zu verwechslen mit Boxplots Y gegen X!!
Multivariate Statistische Verfahren – SS2007 65<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseVariationen von PCPs• α-Blending gegen Overplotting• Jedes Objekt wird nur mit α% Deckkraft gezeichnetüberlagerte Objekte werden intensiver
Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse66Glyphen• Jeder Fall wird mit einem Glyph dargestellt, deren Form vonder <strong>Variablen</strong>werten abhängt. Hier sind vier verschiedeneGlyphen für den selben Olivenöl mit 8 <strong>Variablen</strong>:Die <strong>Variablen</strong> müssen alle standardisiert werden (so dassAusreisser einen großen Einfluss haben können).Die Reihenfolge der <strong>Variablen</strong>, die Wahl der <strong>Variablen</strong>, dieGlyphform haben alle Einfluss auf die Darstellung.
Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse67Beispiel: ein Auszug aus den Olivenöldaten
Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse68GAUGUIN für Glyphen• Glyphen können interaktiv mit der Software GAUGUINvon Alexander Gribov verwendet werden• http://stats.math.uni-augsburg.de/software/Gauguin/gauguin.html• Mit GAUGUIN kann man interaktiv– Fälle abfragen– <strong>Variablen</strong> ein- und ausschalten– aus vier Glyphformen wählen– die Glyphen sortieren– lokales Zooming machen– SPLOMs zeichnen– Clusteranalysen und MDS (via Rserve) durchführen– Einfärben nach Gruppen
Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse69Glyphen• Stärken– Multivariate Darstellung von einzelnen Fällen– <strong>Visualisierung</strong> von Clustern– viele Darstellungsmöglichkeiten• Schwächen– eine begrenzte Anzahl von Fällen kann gleichzeitig dargestellt werden– Strukturen sind nicht immer klar zu erkennen– (bis jetzt) keine Regeln zur Bestimmung der Reihenfolge der <strong>Variablen</strong>,der Form des Glyphs oder zur Behandlung von Ausreißern
Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse70Multivariate stetige Daten: <strong>Visualisierung</strong>• Für die <strong>Visualisierung</strong> und graphische Analyse vonmultivariaten <strong>stetigen</strong> Daten– Splom (Matrizen von Streudiagrammen)– Trellis Plots (Lattice in R)– Parallele Koordinaten Plots– Glyphen