11.07.2015 Aufrufe

Visualisierung multivariater stetigen Variablen - Lehrstuhl für ...

Visualisierung multivariater stetigen Variablen - Lehrstuhl für ...

Visualisierung multivariater stetigen Variablen - Lehrstuhl für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse462.2 Plots für multivariate stetige Daten• Für die <strong>Visualisierung</strong> und graphische Analyse vonmultivariaten <strong>stetigen</strong> Daten– Splom (Matrizen von Streudiagrammen)– Trellis Plots (Lattice in R)– Parallele Koordinaten Plots– Glyphen


Multivariate Statistische Verfahren – SS2007 47<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse<strong>Visualisierung</strong> hochdim. stetiger Daten• Auch hier gelten die Überlegungen wie für kategorielleDaten:– Linking kann nur bedingt helfen– Dimensionsreduktion kann helfen, liefert aber Interpretationsprobleme• Bei n Beobachtungen und k <strong>Variablen</strong> müssen nk <strong>Variablen</strong>visualisiert werden.• Paradoxon: der hochdimensionale Raum wird immer “leerer”– Wahrscheinlichkeit p, dass ein Punkt aus X ~ N(0,I) innerhalb der Kugelmit Radius 1.96, 2.58, 3.29 liegt:P(naeher zu 0)0.0 0.2 0.4 0.6 0.8 1.05 10 15 20Dimensionen


Multivariate Statistische Verfahren – SS2007 48<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseKanonische Darstellung:• Scatterplots1-dim: DotplotMPG3515 20 25 30 35 40303-dim: Rotationsplot2-dim: ScatterplotMPG2520HorsepowerWeightMPG1.50 2.25 3.00 3.75Weight


Multivariate Statistische Verfahren – SS2007 49<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseScatterplots für n-dim Daten:• Grand Tour (siehe später)• Scatterplot Matrix(SPLOM):• Olive Oils Daten


Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse50SPLOM (Scatterplot Matrix)• Definition– eine Sammlung von 2-d Projektionen– Jede Variable wird gegen jede andere in Streudiagrammen geplottet– Die Diagonale wird für <strong>Variablen</strong>namen, Histogramme, Dichteschätzeroder Normal QQ Plots verwendet• Stärken– viel Information auf einmal– Linking und Einfärbungen sind informativ• Schwächen– zuviele Plots– Redundanz– Probleme mit überlappenden Punkten


Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse51DataDeskSPLOMOlive OilsDaten


Multivariate Statistische Verfahren – SS2007 52<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseWeitere Alternative: Trellis Plots• Stellen viele Dimensionen über bedingte Plots dar• Verwenden die Stufen der kategorielle Daten um bedingte Plotszu erstellen, z.B. Gewicht ~ Größe | Geschlecht * Alter• Graphiken werden in einem matrixartigen Layout angeordnet• Damit können 5 kategorielle und 2 stetige <strong>Variablen</strong> wie folgt in“einem” Trellis Plot dargestellt werden:– kategoriell 1: Zeilen– kategoriell 2: Spalten– kategoriell 3: Seiten– stetig 1: X– stetig 2: Y– kategoriell 4: Farben– kategoriell 5: Symbole


Multivariate Statistische Verfahren – SS2007 53<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseTrellis Beispiel 1: Singers60 65 70 75 8060 65 70 75 80Soprano 2Soprano 1Soprano 2Soprano 1400.253020100.200.150.100.05Alto 2 Alto 10● ● ●●● ● ●● ● ●Alto 2● ●●● ●●● ● ●Alto 10.00400.25Percent of Total3020100Tenor 2Tenor 140302010Density0.200.150.100.050.00●●●●●●●Tenor 2● ● ●● ● ●●●● ● ● ●Tenor 10.250.200.150.100.05Bass 2 Bass 10● ● ●●● ●Bass 2●● ●●●● ●●●● ● ●Bass 1●0.00400.2530200.200.150.10100.0500.00● ●● ●● ●●● ●●● ● ●●●● ●●60 65 70 75 80Height (inches)60 65 70 75 80Height (inches)


Multivariate Statistische Verfahren – SS2007 54<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseTrellis Beispiel 2: Barley20 30 40 50 60Waseca1932Waseca1931●●●Crookston1932Crookston1931●●Morris1932Morris1931●●●University Farm1932University Farm1931●●●●Duluth1932Duluth1931●●Grand Rapids1932Grand Rapids1931●●●20 30 40 50 60Barley Yield (bushels/acre)


Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse55Trellis• Stärken– Verteilungen, Streudiagrammen nach Gruppen– Vergleiche von Untergruppen• Schwächen– nicht interaktiv, so dass die Reihenfolge, die Formatierung, die Größemüssen alle über Kommandos eingestellt werden– <strong>Variablen</strong> sind oftmals nicht kategoriell und werden künstlichdiskretisiert (shingling)– Untergruppen können leer oder fast leer sein• (Begrenzte) Alternativen– Parallel Boxplots Y (stetig) nach X (diskret)– Multiple Barcharts Variation von Mosaicplots


Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse56Parallele Koordinaten Plots• Inselberg (die Geometrie), Wegman (die Anwendung)• Optionen:– Boxplots– Gleichskalierung– Neuskalierung– Ausrichten (Alignment)– Umordnen oder Sortieren der Achsen– Alphablending


Multivariate Statistische Verfahren – SS2007 57<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseParallele Koordinaten• Vorteile– Achsen werden parallel verteilt Platz wird effizient ausgenutzt– Viele <strong>Variablen</strong> auf einen Blick – Vergleich von Profilen– Geometrische Eigenschaften im R k übersetzen sich in 2-dimensionale Ansicht– Ordnung auf <strong>Variablen</strong> wird unterstützt• Nachteile– Strukturen nur bei benachbarten <strong>Variablen</strong> sichtbar– Ohne interaktives Sortieren und Skalieren für explorative Analyse kaum geeignet– Stärkeres Overplotting als bei Scatterplots– Bei k <strong>Variablen</strong> gibt es k! Permutationen die je schon k − 1 Nachbarschaftenabdecken. Es existieren nur k(k−1)2verschiedene Nachbarschaften, so dasssich die Zahl der benötigten Reihenfolgen auf ⌊k+1⌋2Permutationen veringert


Multivariate Statistische Verfahren – SS2007 58<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse“Paralleles Denken I”Linien:66634320-30-2 -1y0 1-2x-40-3-6xy-6xyEbene:2.50y1.25zx0.00-1.25-2.50x y z


Multivariate Statistische Verfahren – SS2007 59<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse“Paralleles Denken II”Kreis:1.01.00.50.50.00.0y-0.5-0.5-1.0-1.0-1.0 -0.5 0.0 0.5Hyperebene (k=6):xxy1.00.50.0-0.5-1.0x1 x2 x3 x4 x5 x6


Multivariate Statistische Verfahren – SS2007 60<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse“Paralleles Denken III”Parabel:Segmente:42.503231.2521210.001-00-0-1.25-1-2 -1 0 1-2.50-2 -1 0 1-2Hyperbel:Unstetig:407.542305.03120102.52100.0-0-10.4 0.8 1.2 1.6-2.5-2 -1 0 1-2


Multivariate Statistische Verfahren – SS2007 61<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalysePCP: Unregelmäßiger Support5.062.5330.0-2.50-30-3-5.0-1 0 1-61.01.00.50.50.00.0-0.5-0.5-1.0-0.5 0.0 0.5xy


Multivariate Statistische Verfahren – SS2007 62<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalysePCP: Anwendung in der Datenanalyse• Korrelation0.9 0.75 0.5 0.0 -0.5


Multivariate Statistische Verfahren – SS2007 63<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalysePCP: Anwendung in der Datenanalyse• Clusterentlang beider Achsen:y642210-0-1-2.5 0.0 2.5 5.0x-2xy2.505.01.25entlang einer Achsen:y2.50.000.0-2.5-1.25-1.25 0.00 1.25 2.50-2.50xxy342entlang keiner Achse:y0-410-1-8-2-1.25 0.00 1.25 2.50-3xxy


Multivariate Statistische Verfahren – SS2007 64<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseVariationen von PCPs• Parallele BoxplotsNicht zu verwechslen mit Boxplots Y gegen X!!


Multivariate Statistische Verfahren – SS2007 65<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und DatenanalyseVariationen von PCPs• α-Blending gegen Overplotting• Jedes Objekt wird nur mit α% Deckkraft gezeichnetüberlagerte Objekte werden intensiver


Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse66Glyphen• Jeder Fall wird mit einem Glyph dargestellt, deren Form vonder <strong>Variablen</strong>werten abhängt. Hier sind vier verschiedeneGlyphen für den selben Olivenöl mit 8 <strong>Variablen</strong>:Die <strong>Variablen</strong> müssen alle standardisiert werden (so dassAusreisser einen großen Einfluss haben können).Die Reihenfolge der <strong>Variablen</strong>, die Wahl der <strong>Variablen</strong>, dieGlyphform haben alle Einfluss auf die Darstellung.


Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse67Beispiel: ein Auszug aus den Olivenöldaten


Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse68GAUGUIN für Glyphen• Glyphen können interaktiv mit der Software GAUGUINvon Alexander Gribov verwendet werden• http://stats.math.uni-augsburg.de/software/Gauguin/gauguin.html• Mit GAUGUIN kann man interaktiv– Fälle abfragen– <strong>Variablen</strong> ein- und ausschalten– aus vier Glyphformen wählen– die Glyphen sortieren– lokales Zooming machen– SPLOMs zeichnen– Clusteranalysen und MDS (via Rserve) durchführen– Einfärben nach Gruppen


Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse69Glyphen• Stärken– Multivariate Darstellung von einzelnen Fällen– <strong>Visualisierung</strong> von Clustern– viele Darstellungsmöglichkeiten• Schwächen– eine begrenzte Anzahl von Fällen kann gleichzeitig dargestellt werden– Strukturen sind nicht immer klar zu erkennen– (bis jetzt) keine Regeln zur Bestimmung der Reihenfolge der <strong>Variablen</strong>,der Form des Glyphs oder zur Behandlung von Ausreißern


Multivariate Statistische Verfahren – SS2007<strong>Lehrstuhl</strong> für Rechnerorientierte Statistik und Datenanalyse70Multivariate stetige Daten: <strong>Visualisierung</strong>• Für die <strong>Visualisierung</strong> und graphische Analyse vonmultivariaten <strong>stetigen</strong> Daten– Splom (Matrizen von Streudiagrammen)– Trellis Plots (Lattice in R)– Parallele Koordinaten Plots– Glyphen

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!