Visualisierung I 5. Statistische Graphiken - IWR
Visualisierung I 5. Statistische Graphiken - IWR
Visualisierung I 5. Statistische Graphiken - IWR
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Visualisierung</strong> I<br />
<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />
Vorlesung: Mi, 9:00 – 11:00, INF 368 – 532<br />
Übung: Do, 14:00 – 16:00, INF 350 – OMZ R U011<br />
JProf. Dr. Heike Jänicke – http://www.iwr.uni-heidelberg.de/groups/CoVis/
Inhaltsverzeichnis<br />
1. Einführung<br />
2. Visuelle Wahrnehmung<br />
3. Datentypen und Datenrepräsentation<br />
4. Skalardaten<br />
<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />
6. Interaktion und Datenexploration<br />
7. Darstellung von Graphen<br />
8. Vektordaten<br />
9. Tensordaten<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 2
Inhaltsverzeichnis<br />
<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />
1. <strong>Statistische</strong> Grundlagen<br />
2. Stamm-Blatt-Diagramm<br />
3. Histogramme<br />
4. <strong>Statistische</strong> Maßzahlen<br />
<strong>5.</strong> Boxplot<br />
6. Streudiagramm<br />
7. Hauptkomponentenanalyse<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 3
Beispiel Autokauf<br />
●<br />
●<br />
●<br />
Wir möchten uns ein neues Auto kaufen<br />
und haben uns dazu einige Modelle<br />
ausgesucht, die unseren Anforderungen<br />
entsprechen.<br />
Der nun ausschlaggebende Faktor ist der<br />
Preis und es sollen die Preise der<br />
verschiedenen Wagen verglichen werden.<br />
Die <strong>Visualisierung</strong> soll uns nun bei der<br />
Entscheidungsfindung helfen.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 4
Direkte <strong>Visualisierung</strong><br />
●<br />
Ein erster Ansatz ist die direkte <strong>Visualisierung</strong> der Originaldaten:<br />
Preis<br />
Ford<br />
Ford<br />
Nissan<br />
Ford<br />
Ford<br />
Nissan<br />
Vauxhall<br />
Nissan<br />
Jeep<br />
Land Rover<br />
Ford<br />
Ford<br />
Mercedes<br />
Saab<br />
Ford<br />
Rover<br />
Morgan<br />
BMW<br />
Rolls<br />
BMW<br />
Saab<br />
Mercedes<br />
Mercedes<br />
BMW<br />
£0 £10.000 £20.000 £30.000 £40.000 £50.000 £60.000<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 5
Direkte <strong>Visualisierung</strong><br />
●<br />
Die gezeigten <strong>Visualisierung</strong>en haben folgende Stärken und Schwächen:<br />
●<br />
●<br />
Positiv:<br />
– Minimum und Maximum können leicht abgelesen werden.<br />
– Man kann die allgemeine Verteilung sehen.<br />
– Cluster kann man erkennen.<br />
Negativ:<br />
– Die Darstellung (noch) größerer Datenmenge ist schwierig. Entweder kommt es<br />
zu Überlappungen/Verdeckung oder man benötigt sehr viel Platz.<br />
– Das Labeling (Annotieren von Datenpunkten) ist schwierig.<br />
●<br />
Die Interpretation großer Datenmengen kann durch Aggregation vereinfacht werden.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 6
Aggregation – Histogramm<br />
●<br />
●<br />
Das Histogramm ist die wohl am häufigsten vorkommende<br />
Darstellung aggregierter Information. Hierbei wird für jede<br />
Klasse (Autos mit einem Preis in einem bestimmten<br />
Bereich) angezeigt, wieviele Elemente diese Klasse enthält.<br />
Wir können ablesen:<br />
– In welcher Preisspanne bewegen sich die ausgewählten<br />
Autos?<br />
– In welchen Preisklassen gibt es viele bzw. wenige<br />
Fahrzeuge?<br />
– Preisspannen in denen es zu Häufungen kommt (ein<br />
Bereich vs. mehrere).<br />
– Lokale Maxima, d.h. in welchem Preissegment haben<br />
wir eine große Auswahl.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 7
Aggregation – Boxplot<br />
●<br />
●<br />
●<br />
●<br />
●<br />
Ein Boxplot ist eine visuelle Darstellung<br />
wichtiger statistischer Merkmale und gibt<br />
Antworten auf relevante Fragen:<br />
In welcher Preisspanne bewegen sich die<br />
Autos?<br />
Was ist der durchschnittliche Preis für ein Auto<br />
in der gewählten Klasse?<br />
In welchem Bereich liegen 50% der Wagen?<br />
Gibt es Wagen, die extrem teuer oder billig<br />
sind?<br />
sehr teuer<br />
Mittelwert<br />
50% der Autos<br />
sehr günstig<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 8
Darstellung mit und ohne Aggregation<br />
Ford<br />
Ford<br />
Nissan<br />
Nissan<br />
Land Rover<br />
Ford<br />
Preis<br />
Saab<br />
Rover<br />
BMW<br />
BMW<br />
Mercedes<br />
BMW<br />
£0 £20.000 £40.000 £60.000<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 9
Inhaltsverzeichnis<br />
<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />
1. <strong>Statistische</strong> Grundlagen<br />
2. Stamm-Blatt-Diagramm<br />
3. Histogramm<br />
4. <strong>Statistische</strong> Maßzahlen<br />
<strong>5.</strong> Boxplot<br />
6. Streudiagramm<br />
7. Hauptkomponentenanalyse<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 10
Merkmal oder <strong>Statistische</strong> Variable<br />
●<br />
●<br />
●<br />
Die Objekte, auf die sich eine statistische Analyse bezieht, heißen<br />
Untersuchungseinheiten (z.B. Personen, Staaten, Datenpunkte). Die<br />
Zusammenfassung aller Untersuchungseinheiten bildet die Grundgesamtheit.<br />
Bestimmte Aspekte oder Eigenschaften einer Untersuchungseinheit bezeichnet man<br />
als Merkmal oder statistische Variable X (z.B. Körpergröße, Einwohnerzahl,<br />
Temperatur).<br />
Bei jeder Untersuchungseinheit nimmt das Merkmal X eine mögliche Ausprägung x<br />
aus dem Merkmalsraum (Menge der möglichen x-Werte) an (z.B. 1,76m, 82 Mio.,<br />
24°C).<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 11
Häufigkeiten<br />
●<br />
●<br />
●<br />
Die absolute Häufigkeit n j<br />
ist die Anzahl der Untersuchungseinheiten, die die<br />
Merkmalsausprägung a j<br />
, j = 1, ..., k besitzen.<br />
Die Summe der absoluten Häufigkeiten aller Merkmalsausprägungen ergibt die<br />
Gesamtzahl n der Beobachtungen:<br />
k<br />
∑<br />
j=1<br />
n j<br />
=n<br />
Für den vom Stichprobenumfang unabhängigen Vergleich von Untersuchungen<br />
benötigt man die relativen Häufigkeiten f j<br />
:<br />
f j<br />
=f a j<br />
= n j<br />
n , j=1,,k.<br />
Sie geben den Anteil der Untersuchungseinheiten an, die die Ausprägung a j<br />
besitzen.<br />
●<br />
Die Summe der relativen Häufigkeiten aller Merkmalsausprägungen ergibt 1:<br />
k<br />
∑<br />
j=1<br />
f j<br />
=1<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 12
Empirische Verteilungsfunktion<br />
●<br />
Sind die Beobachtungen x 1<br />
, ..., x n<br />
des Merkmals X der Größe nach als x 1<br />
≤ x 2<br />
≤ ... ≤ x n<br />
geordnet und ist das Datenniveau mindestens ordinal, so ist die empirische<br />
Verteilungsfunktion an der Stelle x die kumulierte relative Häufigkeit aller Merkmalsausprägungen<br />
a j<br />
, die kleiner oder gleich x sind:<br />
F x=∑<br />
a j<br />
x<br />
f a j<br />
<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 13
Inhaltsverzeichnis<br />
<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />
1. <strong>Statistische</strong> Grundlagen<br />
2. Stamm-Blatt-Diagramm<br />
3. Histogramm<br />
4. <strong>Statistische</strong> Maßzahlen<br />
<strong>5.</strong> Boxplot<br />
6. Streudiagramm<br />
7. Hauptkomponentenanalyse<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 14
Abfahrtszeiten<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 15
Stamm-Blatt-Diagramm<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 16
Stamm-Blatt-Diagramm – Konstruktion<br />
●<br />
●<br />
●<br />
●<br />
●<br />
Ein Stamm-Blatt-Diagramm besteht aus zwei Spalten: dem Stamm und den Blättern.<br />
Der Stamm entspricht den Äquivalenzklassen, in die die Grundgesamtheit unterteilt<br />
wird (z.B. volle Stunde, ersten n Stellen einer ganzen Zahl, ganzzahliger Anteil einer<br />
Gleitkommazahl).<br />
Die Blätter sind eine Auflistung aller Elemente/Untersuchungseinheiten, die in der<br />
jeweiligen Äquivalenzklasse auftreten.<br />
Als Daumenregel für die Anzahl der Äquivalenzklassen gilt 10∙log 10<br />
(n).<br />
Ist die Einheit der Blätter nicht intuitiv klar, sollte diese separat angegeben werden.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 17
Inhaltsverzeichnis<br />
<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />
1. <strong>Statistische</strong> Grundlagen<br />
2. Stamm-Blatt-Diagramm<br />
3. Histogramm<br />
4. <strong>Statistische</strong> Maßzahlen<br />
<strong>5.</strong> Boxplot<br />
6. Streudiagramm<br />
7. Hauptkomponentenanalyse<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 18
Histogramm<br />
●<br />
●<br />
●<br />
Bei metrischen Merkmalen helfen Balkendiagramme oft nicht weiter, da viele<br />
Merkmalsausprägungen nur einmal auftreten (z.B. Temperaturmessung auf 6<br />
Nachkommastellen genau).<br />
Um eine sinnvolle Häufigkeitsverteilung zu erhalten, muss das Merkmal zunächst<br />
klassifiziert werden (z.B. Temperatur auf ganze Zahl runden). Die hieraus<br />
resultierenden Häufigkeitsverteilung kann dann in einem Histogramm grafisch<br />
veranschaulicht werden.<br />
Die Histogrammflächen sind proportional zu<br />
den relativen Häufigkeiten f j<br />
, die Höhe h j<br />
des<br />
Rechtecks über der j-ten Klasse berechnet<br />
sich somit gemäß:<br />
h j<br />
= f j<br />
d j<br />
mit der Klassenbreite d j<br />
= e j<br />
– e j-1<br />
. Dabei ist e j<br />
die obere Klassengrenze des j-ten Intervalls<br />
und e j-1<br />
die untere.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 19
Kumuliertes Histogramm<br />
●<br />
●<br />
●<br />
Während beim Histogramm häufig die Häufigkeitsverteilung/Dichtefunktion eines<br />
Merkmals dargestellt wird, kann ebensogut die empirische/kumulierte<br />
Verteilungsfunktion abgetragen werden.<br />
Man kann nun ablesen wie der Grenzwert x gewählt werden muss, so dass k% der<br />
Daten unterhalb dieses Wertes liegen und (100-k)% der Daten oberhalb.<br />
Die Abstände zwischen benachbarten<br />
Balken geben die relativen Häufigkeiten<br />
der einzelnen Klassen an.<br />
Anteil (< Filmlänge)<br />
1<br />
0,9<br />
0,8<br />
0,7<br />
0,6<br />
0,5<br />
0,4<br />
0,3<br />
0,32<br />
0,64<br />
0,72 0,76 0,84 0,88 0,96<br />
1<br />
0,2<br />
0,1<br />
0,08<br />
0<br />
70 80 90 100 110 120 130 140 150<br />
Filmlänge<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 20
Histogramm – Anzahl der Klassen<br />
●<br />
●<br />
●<br />
Ein Parameter, der dem Histogrammalgorithmus gegeben werden muss ist die<br />
Anzahl der Klassen. Wählt man diese falsch kann es zu folgenden Problemen<br />
kommen:<br />
Zu viele Klassen:<br />
Es ist schwer die tatsächlich zugrunde liegende<br />
Struktur abzulesen, da lokale zufällige<br />
Schwankungen starken Einfluss haben.<br />
Zu wenige Klassen:<br />
Lokale Eigenschäften/Unterschiede werden<br />
durch zu das Zusammenfassen verschiedener<br />
Klassen eliminiert und können nicht mehr<br />
erkannt werden.<br />
140<br />
120<br />
100<br />
80<br />
60<br />
40<br />
20<br />
600<br />
500<br />
400<br />
300<br />
200<br />
100<br />
[Shimazaki 2005]<br />
0<br />
0.100 0.250 0.400 0.550 0.700 0.850 1.000<br />
0.025 0.175 0.325 0.475 0.625 0.775 0.925<br />
0<br />
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 21
Histogramm – Anzahl der Klassen<br />
●<br />
●<br />
Allgemein gilt: Es ist sehr schwierig automatisch einen guten Grenzwert für die<br />
Anzahl der Klassen anzugeben. Je nach Datenlage kann dieser Wert stark variieren.<br />
Deshalb erweist es sich meist als günstig, wenn der Nutzer die Klassenzahl interaktiv<br />
variieren kann.<br />
Grobe Richtlinien wären etwa:<br />
Anzahl der<br />
Messungen<br />
Anzahl an<br />
Klassen<br />
250 10 bis 20<br />
●<br />
Es gibt auch wissenschaftliche Untersuchungen, die u.a. zu folgenden Empfehlungen<br />
kommen:<br />
– Sturges: k = ceil( log 2<br />
n + 1 )<br />
– Scott: k = 3.5 σ / n 1/3 , wobei σ die Standardabweichung in den Daten ist.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 22
Inhaltsverzeichnis<br />
<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />
1. <strong>Statistische</strong> Grundlagen<br />
2. Stamm-Blatt-Diagramm<br />
3. Histogramm<br />
4. <strong>Statistische</strong> Maßzahlen<br />
<strong>5.</strong> Boxplot<br />
6. Streudiagramm<br />
7. Hauptkomponentenanalyse<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 23
Modalwert<br />
●<br />
Als Modalwert x M bezeichnet man den häufigsten Wert einer Verteilung.<br />
x M =a j ⇔n j =max {n 1, n 2, ,n k }.<br />
●<br />
Die Angabe des Modalwertes ist meist nur sinnvoll, wenn es in den Daten nur einen<br />
„Gipfel“ gibt.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 24
Median und Quantile<br />
●<br />
Der Median teilt die Daten in zwei gleichgroße Bereich. Die eine Hälfte der Daten ist<br />
kleiner als der Median, die andere größer als er.<br />
●<br />
Der Median wir mit Q 0.5<br />
bezeichnet und durch die Forderung FQ definiert.<br />
={<br />
x n1/2 falls n ungerade<br />
}<br />
0.5<br />
=0.5<br />
Q 0.5 1<br />
2 x n/2x n/ 21<br />
falls n gerade<br />
●<br />
Das Quantil ist eine Verallgemeinerung des Medians. Das α-Quantil wird durch die<br />
Forderung F( Q <br />
) = α definiert. Bei diskreten Daten bedeutet dies, dass höchstens<br />
n(1 – α) Werte größer oder gleich sind.<br />
Q <br />
={<br />
x ceiln falls n nicht ganzzahlig<br />
}<br />
Q 1<br />
2 x nx n1<br />
falls n ganzzahlig<br />
●<br />
Quartile sind die Quantile zum 25%- bzw. 75%-Niveau. Q oder heißt unteres<br />
.25<br />
Q 1<br />
Quartil, Q .75<br />
oder Q heißt oberes Quartil.<br />
3<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 25
Median und Quantile<br />
[fao.org]<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 26
Mittelwert und Streuungsmaße<br />
●<br />
Das arithmetische Mittel (oft auch Mittelwert) x ist der Durchschnittswert aller<br />
Beobachtungen:<br />
n<br />
x= 1 n ∑ i=1<br />
x i.<br />
●<br />
Der Quartilsabstand (IQR) ist gegeben durch<br />
d Q =Q 0.75 −Q 0.25<br />
●<br />
Er definiert den zentralen Bereich einer Verteilung, in dem 50% der Werte liegen.<br />
Die Varianz σ² misst die mittlere quadratische Abweichung vom arithmetischen Mittel:<br />
n<br />
2 = 1 n ∑ i=1<br />
x i<br />
−x 2.<br />
●<br />
Die Standardabweichung σ ist die positive Wurzel aus der Varianz:<br />
= 1 ∑ n<br />
n i=1<br />
x i<br />
−x 2 .<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 27
Inhaltsverzeichnis<br />
<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />
1. <strong>Statistische</strong> Grundlagen<br />
2. Stamm-Blatt-Diagramm<br />
3. Histogramm<br />
4. <strong>Statistische</strong> Maßzahlen<br />
<strong>5.</strong> Boxplot<br />
6. Streudiagramm<br />
7. Hauptkomponentenanalyse<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 28
Boxplot<br />
●<br />
●<br />
Boxplots sind eine graphische Darstellung wichtiger statistischer Kenngrößen:<br />
– Median<br />
– unteres und oberes Quartil<br />
– Ausreißer<br />
– „Normalbereich“<br />
Folgende Informationen können<br />
leicht abgelesen werden:<br />
– Minimum und Maximum<br />
– Mittlerer Wert<br />
– Was ist normal?<br />
– Welche Werte sind ungewöhnlich?<br />
– Spannweite der Daten<br />
größter Wert mit<br />
x j<br />
≤ Q 3<br />
+ 1.5 IQR<br />
Median = Q 2<br />
kleinster Wert mit<br />
x j<br />
≤ Q 1<br />
- 1.5 IQR<br />
Extremwert<br />
Ausreißer<br />
Q 3<br />
Q 1<br />
Ausreißer<br />
Extremwert<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 29
Beispiele Boxplots<br />
Autopreise<br />
Anzahl der Geburten nach Wochentag<br />
[C. Schwarz, www.math.sfu.ca]<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 30
Inhaltsverzeichnis<br />
<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />
1. <strong>Statistische</strong> Grundlagen<br />
2. Stamm-Blatt-Diagramm<br />
3. Histogramm<br />
4. <strong>Statistische</strong> Maßzahlen<br />
<strong>5.</strong> Boxplot<br />
6. Streudiagramm<br />
7. Hauptkomponentenanalyse<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 31
Zusammenhänge zwischen zwei Variablen<br />
# Schlafzimmer Preis<br />
1 £25,000<br />
1 £48,000<br />
1 £60,000<br />
1 £80,000<br />
1 £98,000<br />
1 £275,000<br />
2 £57,000<br />
2 £81,000<br />
2 £100,000<br />
2 £120,000<br />
2 £140,000<br />
2 £175,000<br />
2 £280,000<br />
3 £125,000<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 32
Streudiagramm<br />
●<br />
●<br />
●<br />
Ein Streudiagramm ist eine visuelle Darstellung von bivariaten Daten (Daten mit zwei<br />
Merkmalen). Die x-Achse wird entsprechend dem einen Merkmal skaliert, die y-<br />
Achse entsprechend dem anderen Merkmal. Die Wertepaare der einzelnen<br />
Messwerte werden nun als 2D Datenpunkte in das Diagramm eingetragen.<br />
Das Streudiagramm gibt Auskunft über<br />
– Existenz und Art von Korrelationen.<br />
– Clusterbildung.<br />
– Ausreißer in bivariaten Daten, d.h. die Kombination der beiden Werte ist<br />
ungewöhnlich.<br />
Ein wichtiger Aspekt bei der Darstellung von Streudiagrammen ist die Skalierung der<br />
Achsen. Häufig werden die beiden Verteilungen normiert und mit gleicher<br />
Ausdehnung abgetragen. Dies kann auf den ersten Blick einen falschen Eindruck<br />
vermitteln, wenn die eine Variable stark variiert und die andere nur wenig um einen<br />
bestimmten Wert schwankt. Betrachtung der Varianz kann hier helfen.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 33
Streudiagramm – Beispiele für verschiedene Korrelationen<br />
keine Korrelation positive lineare Korrelation negative lineare Korrelation<br />
quadratischer<br />
Zusammenhang<br />
exponentieller<br />
Zusammenhang<br />
Ausreißer<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 34
Streudiagramm – Beispiele<br />
[boston.com]<br />
[Piotr Deuar]<br />
Zusammensetzung von Olivenöl<br />
[M. Daszykowski, 2005]<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 35
Kontinuierliche Streudiagramme<br />
Hurricane Isabel data set: These two images show a continuous and a discrete scatterplot of the<br />
hurricane Isabel data set. The continuous version was created with the tetrahedral approach as<br />
described in the paper "Continuous Scatterplots". This data set is the downsampled version with a size<br />
of 128 x 128 x 30. In the discrete scatterplot, near-vertically aligned clusters of points are visible. Those<br />
clusters are misleading, since they originate solely from the low sampling density in the z-dimension.<br />
(See next example for a high-resolution version of this data set.)<br />
[S. Bachthaler and D. Weiskopf: Continuous Scatterplots, TVCG, 2008]<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 36
Streudiagramm Matrizen<br />
[Originlab]<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 37
Inhaltsverzeichnis<br />
<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />
1. <strong>Statistische</strong> Grundlagen<br />
2. Stamm-Blatt-Diagramm<br />
3. Histogramm<br />
4. <strong>Statistische</strong> Maßzahlen<br />
<strong>5.</strong> Boxplot<br />
6. Streudiagramm<br />
7. Hauptkomponentenanalyse<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 38
Beispiel<br />
●<br />
Gegeben sei eine Kugel die an einer Feder gleichmäßig hoch und runter schwingt.<br />
Die Bewegung der Kugel wird von 3 Kameras aufgezeichnet und ergibt zu jedem<br />
Zeitpunkt t i<br />
6 Messung (jeweils x- und y-Koordinate im Kamerabild).<br />
t t 1<br />
t 2<br />
<br />
x A x A1 x A2 <br />
y A<br />
y A1<br />
y A2<br />
<br />
x B x B1 x B2 <br />
y B<br />
y B1<br />
y B2<br />
<br />
x C<br />
x C1<br />
x C2<br />
<br />
y C y C1 y C2 <br />
●<br />
●<br />
Im 7D Raum ergäben die Datenpunkte eine perfekt Linie und es würde ausreichen<br />
die Messung mit Hilfe eines Parameters (Auslenkung der Kugel entlang der Achse zu<br />
beschreiben).<br />
Die PCA hilft so eine niederparametrige Darstellung zu finden, indem das<br />
Koordinatensystem neu ausgerichtet wird.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 39
Basistransformation<br />
●<br />
●<br />
Verallgemeinert untersuchen wir Daten mit m Variablen (Kamerapositionen) und n<br />
Datenpunkten (Zeitschritte).<br />
Die naive bisher gewählte Basis für unsere Daten ist dann gegeben durch:<br />
1 0 0<br />
B=[b b 2<br />
0 1 0<br />
⋮ ⋮ ⋮ ⋱ ⋮<br />
b m]=[1 0 0 1]=I<br />
●<br />
Mit dieser Basis können die Datenpunkte wie folgt dargestellt werden:<br />
X i =[x Ai<br />
y Ai<br />
x Bi<br />
y Bi<br />
x Ci<br />
y Ci]<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 40
Basistransformation<br />
●<br />
●<br />
Die Hauptkomponentenanalyse berechnet eine lineare Transformation P der<br />
Originalbasis, die die Daten besser charakterisiert.<br />
Seien X und Y m×n-Matrizen und P eine lineare Transformation (m×m-Matrix)<br />
P X=Y<br />
●<br />
Die Gleichung kann wie folgt interpretiert werden:<br />
– Die Matrix P transformiert X nach Y.<br />
– Geometrisch betrachtet entspricht P einer Rotation und Skalierung, die ebenfalls<br />
X nach Y transformiert.<br />
– Die Zeilen von P, {p 1<br />
, ..., p m<br />
}, bilden die neuen Basisvektoren zur Darstellung der<br />
Spalten in X.<br />
P X=[<br />
p 1 ⋅x 1 p 1 ⋅x n<br />
⋮ ⋱ ⋮<br />
p m<br />
⋅x 1<br />
p m<br />
⋅x n]=Y<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 41
Welche Transformation?<br />
●<br />
Wir haben gesehen, dass wir mittels einer linearen Transformation die Daten in ein<br />
neues Koordinatensystem abbilden können. Zwei Fragen bleiben bestehen:<br />
– Was ist die beste neue Darstellung der Originaldaten in X?<br />
– Was ist eine gute Wahl für P?<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 42
Information in den Daten<br />
●<br />
●<br />
●<br />
●<br />
Die neue Darstellung der Daten soll die enthaltene Information erhalten und leicht<br />
sichtbar machen.<br />
Die zwei wichtigsten Aspekte, die die Aussage von Daten unkenntlich machen sind<br />
– Rauschen und<br />
– Redundanz.<br />
Rauschen entsteht z.B. durch kleine Fehler in der Messung.<br />
Redundanz entsteht wenn eine Ursache sich auf mehrere Variablen auswirkt oder die<br />
gleichen Daten unterschiedlich gemessen werden.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 43
Varianz und Kovarianz<br />
●<br />
●<br />
Sowohl das Rauschen (Signal-Rausch-Verhältnis) als auch Redundanz in den Daten<br />
kann mittels der Kovarianz ausgedrückt werden.<br />
Seien zwei simultane Messung mit arithmetisches Mittel = 0 gegeben:<br />
A={a 1, a 2, ,a n } B={b 1, b 2, ,b n }<br />
●<br />
●<br />
Die Varianz in A und B ist gegeben durch:<br />
Die Kovarianz zwischen A und B ist gegeben durch:<br />
mit<br />
2 A<br />
= 1 ∑ n<br />
n−1 i=1<br />
– σ² AB<br />
= 0 gdw. A und B völlig unkorreliert sind.<br />
a i<br />
2<br />
2 AB<br />
= 1 ∑ n<br />
n−1 i=1<br />
2 B<br />
= 1 ∑ n<br />
n−1 i=1<br />
a i<br />
b i<br />
b i<br />
2<br />
– σ² AA<br />
= σ² A<br />
●<br />
Man kann die Kovarianz nun als Skalarprodukt formulieren:<br />
2 a b<br />
= 1<br />
n−1 a bT a=[a 1<br />
a 2<br />
a n<br />
] b=[b 1<br />
b 2<br />
b n<br />
]<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 44
Kovarianzmatrix<br />
●<br />
Werde nun nicht zwei einzelnen Messungen betrachtet, sondern viele Messungen,<br />
kann man diese in einer Matrix X speichern.<br />
11 x 12 x 1n<br />
X=[x x 21 x 22 x 2n<br />
⋮ ⋮ ⋱ ⋮<br />
x m1<br />
x m2<br />
x mn]<br />
●<br />
Die Kovarianzmatrix ist definiert durch:<br />
mit folgenden Einträgen:<br />
S X ≡ 1<br />
n−1 X XT<br />
– Der Eintrag an der Stelle (i,j) entspricht der Kovarianz zwischen x i<br />
und x j<br />
.<br />
– S X<br />
ist eine symmetrische m×m-Matrix.<br />
– Die Einträge auf der Hauptdiagonale sind die Varianzen in den einzelnen<br />
Variablen.<br />
– Alle anderen Einträge sind die Kovarianzen zwischen verschiedenen Variablen.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 45
Kovarianz<br />
●<br />
Angenommen wir würden nicht die Daten manipulieren, sondern die Kovarianzmatrix.<br />
Welche Eigenschaften wollten wir erzielen?<br />
– Um die Redundanz möglichst klein zu halten, sollten die Daten in den<br />
verschiedenen Variablen möglichst wenig voneinander abhängen.<br />
→ Dies kann erreicht werden indem nur noch die Einträge auf der<br />
Hauptdiagonale ≠ 0 sind.<br />
– Die Daten sollen geordnet sein, so dass wir bestimmen können in welcher<br />
Variable die größte/kleinste Varianz besteht.<br />
→ Wir benötigen also neben den neuen Basisvektoren noch einen Wert der dies<br />
quantifiziert. Dies wird die Varianz in Richtung der neuen Achsen sein.<br />
– Die neue Basis soll orthonormal sein.<br />
→ Hierdurch lässt sich das Problem u.a. leicht lösen. Außerdem sind die neuen<br />
Richtung nun unkorreliert.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 46
Hauptkomponenten<br />
●<br />
●<br />
Wir suchen also eine Matrix P mit Y = PX, so dass die Kovarianzmatrix<br />
S Y<br />
= YY T /(n-1) eine Diagonalmatrix ist. Die Zeilen in P sind dann die Hauptachsen<br />
(principal components) von X.<br />
Zuerst formulieren wir die Kovarianzmatrix um:<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 47
Hauptkomponenten<br />
●<br />
Die Matrix A = XX T kann diagonalisiert werden, indem man mit einer Matrix E<br />
multipliziert, deren Spalten die Eigenvektoren (EV) von A sind:<br />
A=EDE T<br />
mit D = diag(λ 1<br />
, λ 2<br />
, ..., λ n<br />
) und E = [ EV(λ 1<br />
) EV(λ 1<br />
) ... EV(λ 1<br />
)].<br />
●<br />
Jetzt wählen wir die Matrix P so, dass die Zeilen von P den Eigenvektoren von A =<br />
XX T entspricht.<br />
●<br />
Nun gilt P ≡ E T , A = P T DP und außerdem P -1 = PT. Hiermit erhalten wir:<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 48
Hauptkomponentenanalyse – Ergebnisse<br />
●<br />
Eigenschaften:<br />
– Aufgrund der gegebenen Wahl von P wird S Y<br />
diagonalisiert. (Das Ziel der PCA.)<br />
– Die Hauptkomponenten sind die Eigenvektoren<br />
von XX T .<br />
– Der i-te Eintrag in der Kovarianzmatrix S Y<br />
ist<br />
die Varianz von X in Richtung der i-ten Hauptkomponente.<br />
●<br />
Algorithmus:<br />
– Berechne das arithmetische Mittel über alle Datenpunkte in jeder Variable.<br />
– Subtrahiere das arithmetische Mittel von den Daten.<br />
– Ordne die n Datenpunkte mit m Variablen in einer m×n-Matrix X an.<br />
– Berechne die Kovarianzmatrix S X<br />
= XX T .<br />
– Berechne die Eigenwerte und Eigenvektoren der Kovarianzmatrix S X<br />
.<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 49
Referenzen<br />
Die Erklärungen folgen den Beschreibungen in:<br />
●<br />
A. C. Telea. Data Visualization: Principles and Practice, A K Peters, Ltd., 2008.<br />
●<br />
H. Toutenburg, M. Schomaker, M. Wißmann, C. Heumann: Arbeitsbuch zur<br />
deskriptiven und induktiven Statistik, Springer, 2009. (online über Heidi verfügbar).<br />
●<br />
R.Spence: Information visualization, Addison-Wesley, 2001.<br />
●<br />
S. H. and Shinomoto S., A method for selecting the bin size of a time histogram<br />
Neural Computation (2007) Vol. 19(6), 1503-1527<br />
●<br />
J. Shlens: A Tutorial on Principal Component Analysis, 2003<br />
<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 50