11.03.2014 Aufrufe

Visualisierung I 5. Statistische Graphiken - IWR

Visualisierung I 5. Statistische Graphiken - IWR

Visualisierung I 5. Statistische Graphiken - IWR

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Visualisierung</strong> I<br />

<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />

Vorlesung: Mi, 9:00 – 11:00, INF 368 – 532<br />

Übung: Do, 14:00 – 16:00, INF 350 – OMZ R U011<br />

JProf. Dr. Heike Jänicke – http://www.iwr.uni-heidelberg.de/groups/CoVis/


Inhaltsverzeichnis<br />

1. Einführung<br />

2. Visuelle Wahrnehmung<br />

3. Datentypen und Datenrepräsentation<br />

4. Skalardaten<br />

<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />

6. Interaktion und Datenexploration<br />

7. Darstellung von Graphen<br />

8. Vektordaten<br />

9. Tensordaten<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 2


Inhaltsverzeichnis<br />

<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />

1. <strong>Statistische</strong> Grundlagen<br />

2. Stamm-Blatt-Diagramm<br />

3. Histogramme<br />

4. <strong>Statistische</strong> Maßzahlen<br />

<strong>5.</strong> Boxplot<br />

6. Streudiagramm<br />

7. Hauptkomponentenanalyse<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 3


Beispiel Autokauf<br />

●<br />

●<br />

●<br />

Wir möchten uns ein neues Auto kaufen<br />

und haben uns dazu einige Modelle<br />

ausgesucht, die unseren Anforderungen<br />

entsprechen.<br />

Der nun ausschlaggebende Faktor ist der<br />

Preis und es sollen die Preise der<br />

verschiedenen Wagen verglichen werden.<br />

Die <strong>Visualisierung</strong> soll uns nun bei der<br />

Entscheidungsfindung helfen.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 4


Direkte <strong>Visualisierung</strong><br />

●<br />

Ein erster Ansatz ist die direkte <strong>Visualisierung</strong> der Originaldaten:<br />

Preis<br />

Ford<br />

Ford<br />

Nissan<br />

Ford<br />

Ford<br />

Nissan<br />

Vauxhall<br />

Nissan<br />

Jeep<br />

Land Rover<br />

Ford<br />

Ford<br />

Mercedes<br />

Saab<br />

Ford<br />

Rover<br />

Morgan<br />

BMW<br />

Rolls<br />

BMW<br />

Saab<br />

Mercedes<br />

Mercedes<br />

BMW<br />

£0 £10.000 £20.000 £30.000 £40.000 £50.000 £60.000<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 5


Direkte <strong>Visualisierung</strong><br />

●<br />

Die gezeigten <strong>Visualisierung</strong>en haben folgende Stärken und Schwächen:<br />

●<br />

●<br />

Positiv:<br />

– Minimum und Maximum können leicht abgelesen werden.<br />

– Man kann die allgemeine Verteilung sehen.<br />

– Cluster kann man erkennen.<br />

Negativ:<br />

– Die Darstellung (noch) größerer Datenmenge ist schwierig. Entweder kommt es<br />

zu Überlappungen/Verdeckung oder man benötigt sehr viel Platz.<br />

– Das Labeling (Annotieren von Datenpunkten) ist schwierig.<br />

●<br />

Die Interpretation großer Datenmengen kann durch Aggregation vereinfacht werden.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 6


Aggregation – Histogramm<br />

●<br />

●<br />

Das Histogramm ist die wohl am häufigsten vorkommende<br />

Darstellung aggregierter Information. Hierbei wird für jede<br />

Klasse (Autos mit einem Preis in einem bestimmten<br />

Bereich) angezeigt, wieviele Elemente diese Klasse enthält.<br />

Wir können ablesen:<br />

– In welcher Preisspanne bewegen sich die ausgewählten<br />

Autos?<br />

– In welchen Preisklassen gibt es viele bzw. wenige<br />

Fahrzeuge?<br />

– Preisspannen in denen es zu Häufungen kommt (ein<br />

Bereich vs. mehrere).<br />

– Lokale Maxima, d.h. in welchem Preissegment haben<br />

wir eine große Auswahl.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 7


Aggregation – Boxplot<br />

●<br />

●<br />

●<br />

●<br />

●<br />

Ein Boxplot ist eine visuelle Darstellung<br />

wichtiger statistischer Merkmale und gibt<br />

Antworten auf relevante Fragen:<br />

In welcher Preisspanne bewegen sich die<br />

Autos?<br />

Was ist der durchschnittliche Preis für ein Auto<br />

in der gewählten Klasse?<br />

In welchem Bereich liegen 50% der Wagen?<br />

Gibt es Wagen, die extrem teuer oder billig<br />

sind?<br />

sehr teuer<br />

Mittelwert<br />

50% der Autos<br />

sehr günstig<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 8


Darstellung mit und ohne Aggregation<br />

Ford<br />

Ford<br />

Nissan<br />

Nissan<br />

Land Rover<br />

Ford<br />

Preis<br />

Saab<br />

Rover<br />

BMW<br />

BMW<br />

Mercedes<br />

BMW<br />

£0 £20.000 £40.000 £60.000<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 9


Inhaltsverzeichnis<br />

<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />

1. <strong>Statistische</strong> Grundlagen<br />

2. Stamm-Blatt-Diagramm<br />

3. Histogramm<br />

4. <strong>Statistische</strong> Maßzahlen<br />

<strong>5.</strong> Boxplot<br />

6. Streudiagramm<br />

7. Hauptkomponentenanalyse<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 10


Merkmal oder <strong>Statistische</strong> Variable<br />

●<br />

●<br />

●<br />

Die Objekte, auf die sich eine statistische Analyse bezieht, heißen<br />

Untersuchungseinheiten (z.B. Personen, Staaten, Datenpunkte). Die<br />

Zusammenfassung aller Untersuchungseinheiten bildet die Grundgesamtheit.<br />

Bestimmte Aspekte oder Eigenschaften einer Untersuchungseinheit bezeichnet man<br />

als Merkmal oder statistische Variable X (z.B. Körpergröße, Einwohnerzahl,<br />

Temperatur).<br />

Bei jeder Untersuchungseinheit nimmt das Merkmal X eine mögliche Ausprägung x<br />

aus dem Merkmalsraum (Menge der möglichen x-Werte) an (z.B. 1,76m, 82 Mio.,<br />

24°C).<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 11


Häufigkeiten<br />

●<br />

●<br />

●<br />

Die absolute Häufigkeit n j<br />

ist die Anzahl der Untersuchungseinheiten, die die<br />

Merkmalsausprägung a j<br />

, j = 1, ..., k besitzen.<br />

Die Summe der absoluten Häufigkeiten aller Merkmalsausprägungen ergibt die<br />

Gesamtzahl n der Beobachtungen:<br />

k<br />

∑<br />

j=1<br />

n j<br />

=n<br />

Für den vom Stichprobenumfang unabhängigen Vergleich von Untersuchungen<br />

benötigt man die relativen Häufigkeiten f j<br />

:<br />

f j<br />

=f a j<br />

= n j<br />

n , j=1,,k.<br />

Sie geben den Anteil der Untersuchungseinheiten an, die die Ausprägung a j<br />

besitzen.<br />

●<br />

Die Summe der relativen Häufigkeiten aller Merkmalsausprägungen ergibt 1:<br />

k<br />

∑<br />

j=1<br />

f j<br />

=1<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 12


Empirische Verteilungsfunktion<br />

●<br />

Sind die Beobachtungen x 1<br />

, ..., x n<br />

des Merkmals X der Größe nach als x 1<br />

≤ x 2<br />

≤ ... ≤ x n<br />

geordnet und ist das Datenniveau mindestens ordinal, so ist die empirische<br />

Verteilungsfunktion an der Stelle x die kumulierte relative Häufigkeit aller Merkmalsausprägungen<br />

a j<br />

, die kleiner oder gleich x sind:<br />

F x=∑<br />

a j<br />

x<br />

f a j<br />

<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 13


Inhaltsverzeichnis<br />

<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />

1. <strong>Statistische</strong> Grundlagen<br />

2. Stamm-Blatt-Diagramm<br />

3. Histogramm<br />

4. <strong>Statistische</strong> Maßzahlen<br />

<strong>5.</strong> Boxplot<br />

6. Streudiagramm<br />

7. Hauptkomponentenanalyse<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 14


Abfahrtszeiten<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 15


Stamm-Blatt-Diagramm<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 16


Stamm-Blatt-Diagramm – Konstruktion<br />

●<br />

●<br />

●<br />

●<br />

●<br />

Ein Stamm-Blatt-Diagramm besteht aus zwei Spalten: dem Stamm und den Blättern.<br />

Der Stamm entspricht den Äquivalenzklassen, in die die Grundgesamtheit unterteilt<br />

wird (z.B. volle Stunde, ersten n Stellen einer ganzen Zahl, ganzzahliger Anteil einer<br />

Gleitkommazahl).<br />

Die Blätter sind eine Auflistung aller Elemente/Untersuchungseinheiten, die in der<br />

jeweiligen Äquivalenzklasse auftreten.<br />

Als Daumenregel für die Anzahl der Äquivalenzklassen gilt 10∙log 10<br />

(n).<br />

Ist die Einheit der Blätter nicht intuitiv klar, sollte diese separat angegeben werden.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 17


Inhaltsverzeichnis<br />

<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />

1. <strong>Statistische</strong> Grundlagen<br />

2. Stamm-Blatt-Diagramm<br />

3. Histogramm<br />

4. <strong>Statistische</strong> Maßzahlen<br />

<strong>5.</strong> Boxplot<br />

6. Streudiagramm<br />

7. Hauptkomponentenanalyse<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 18


Histogramm<br />

●<br />

●<br />

●<br />

Bei metrischen Merkmalen helfen Balkendiagramme oft nicht weiter, da viele<br />

Merkmalsausprägungen nur einmal auftreten (z.B. Temperaturmessung auf 6<br />

Nachkommastellen genau).<br />

Um eine sinnvolle Häufigkeitsverteilung zu erhalten, muss das Merkmal zunächst<br />

klassifiziert werden (z.B. Temperatur auf ganze Zahl runden). Die hieraus<br />

resultierenden Häufigkeitsverteilung kann dann in einem Histogramm grafisch<br />

veranschaulicht werden.<br />

Die Histogrammflächen sind proportional zu<br />

den relativen Häufigkeiten f j<br />

, die Höhe h j<br />

des<br />

Rechtecks über der j-ten Klasse berechnet<br />

sich somit gemäß:<br />

h j<br />

= f j<br />

d j<br />

mit der Klassenbreite d j<br />

= e j<br />

– e j-1<br />

. Dabei ist e j<br />

die obere Klassengrenze des j-ten Intervalls<br />

und e j-1<br />

die untere.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 19


Kumuliertes Histogramm<br />

●<br />

●<br />

●<br />

Während beim Histogramm häufig die Häufigkeitsverteilung/Dichtefunktion eines<br />

Merkmals dargestellt wird, kann ebensogut die empirische/kumulierte<br />

Verteilungsfunktion abgetragen werden.<br />

Man kann nun ablesen wie der Grenzwert x gewählt werden muss, so dass k% der<br />

Daten unterhalb dieses Wertes liegen und (100-k)% der Daten oberhalb.<br />

Die Abstände zwischen benachbarten<br />

Balken geben die relativen Häufigkeiten<br />

der einzelnen Klassen an.<br />

Anteil (< Filmlänge)<br />

1<br />

0,9<br />

0,8<br />

0,7<br />

0,6<br />

0,5<br />

0,4<br />

0,3<br />

0,32<br />

0,64<br />

0,72 0,76 0,84 0,88 0,96<br />

1<br />

0,2<br />

0,1<br />

0,08<br />

0<br />

70 80 90 100 110 120 130 140 150<br />

Filmlänge<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 20


Histogramm – Anzahl der Klassen<br />

●<br />

●<br />

●<br />

Ein Parameter, der dem Histogrammalgorithmus gegeben werden muss ist die<br />

Anzahl der Klassen. Wählt man diese falsch kann es zu folgenden Problemen<br />

kommen:<br />

Zu viele Klassen:<br />

Es ist schwer die tatsächlich zugrunde liegende<br />

Struktur abzulesen, da lokale zufällige<br />

Schwankungen starken Einfluss haben.<br />

Zu wenige Klassen:<br />

Lokale Eigenschäften/Unterschiede werden<br />

durch zu das Zusammenfassen verschiedener<br />

Klassen eliminiert und können nicht mehr<br />

erkannt werden.<br />

140<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

600<br />

500<br />

400<br />

300<br />

200<br />

100<br />

[Shimazaki 2005]<br />

0<br />

0.100 0.250 0.400 0.550 0.700 0.850 1.000<br />

0.025 0.175 0.325 0.475 0.625 0.775 0.925<br />

0<br />

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 21


Histogramm – Anzahl der Klassen<br />

●<br />

●<br />

Allgemein gilt: Es ist sehr schwierig automatisch einen guten Grenzwert für die<br />

Anzahl der Klassen anzugeben. Je nach Datenlage kann dieser Wert stark variieren.<br />

Deshalb erweist es sich meist als günstig, wenn der Nutzer die Klassenzahl interaktiv<br />

variieren kann.<br />

Grobe Richtlinien wären etwa:<br />

Anzahl der<br />

Messungen<br />

Anzahl an<br />

Klassen<br />

250 10 bis 20<br />

●<br />

Es gibt auch wissenschaftliche Untersuchungen, die u.a. zu folgenden Empfehlungen<br />

kommen:<br />

– Sturges: k = ceil( log 2<br />

n + 1 )<br />

– Scott: k = 3.5 σ / n 1/3 , wobei σ die Standardabweichung in den Daten ist.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 22


Inhaltsverzeichnis<br />

<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />

1. <strong>Statistische</strong> Grundlagen<br />

2. Stamm-Blatt-Diagramm<br />

3. Histogramm<br />

4. <strong>Statistische</strong> Maßzahlen<br />

<strong>5.</strong> Boxplot<br />

6. Streudiagramm<br />

7. Hauptkomponentenanalyse<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 23


Modalwert<br />

●<br />

Als Modalwert x M bezeichnet man den häufigsten Wert einer Verteilung.<br />

x M =a j ⇔n j =max {n 1, n 2, ,n k }.<br />

●<br />

Die Angabe des Modalwertes ist meist nur sinnvoll, wenn es in den Daten nur einen<br />

„Gipfel“ gibt.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 24


Median und Quantile<br />

●<br />

Der Median teilt die Daten in zwei gleichgroße Bereich. Die eine Hälfte der Daten ist<br />

kleiner als der Median, die andere größer als er.<br />

●<br />

Der Median wir mit Q 0.5<br />

bezeichnet und durch die Forderung FQ definiert.<br />

={<br />

x n1/2 falls n ungerade<br />

}<br />

0.5<br />

=0.5<br />

Q 0.5 1<br />

2 x n/2x n/ 21<br />

falls n gerade<br />

●<br />

Das Quantil ist eine Verallgemeinerung des Medians. Das α-Quantil wird durch die<br />

Forderung F( Q <br />

) = α definiert. Bei diskreten Daten bedeutet dies, dass höchstens<br />

n(1 – α) Werte größer oder gleich sind.<br />

Q <br />

={<br />

x ceiln falls n nicht ganzzahlig<br />

}<br />

Q 1<br />

2 x nx n1<br />

falls n ganzzahlig<br />

●<br />

Quartile sind die Quantile zum 25%- bzw. 75%-Niveau. Q oder heißt unteres<br />

.25<br />

Q 1<br />

Quartil, Q .75<br />

oder Q heißt oberes Quartil.<br />

3<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 25


Median und Quantile<br />

[fao.org]<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 26


Mittelwert und Streuungsmaße<br />

●<br />

Das arithmetische Mittel (oft auch Mittelwert) x ist der Durchschnittswert aller<br />

Beobachtungen:<br />

n<br />

x= 1 n ∑ i=1<br />

x i.<br />

●<br />

Der Quartilsabstand (IQR) ist gegeben durch<br />

d Q =Q 0.75 −Q 0.25<br />

●<br />

Er definiert den zentralen Bereich einer Verteilung, in dem 50% der Werte liegen.<br />

Die Varianz σ² misst die mittlere quadratische Abweichung vom arithmetischen Mittel:<br />

n<br />

2 = 1 n ∑ i=1<br />

x i<br />

−x 2.<br />

●<br />

Die Standardabweichung σ ist die positive Wurzel aus der Varianz:<br />

= 1 ∑ n<br />

n i=1<br />

x i<br />

−x 2 .<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 27


Inhaltsverzeichnis<br />

<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />

1. <strong>Statistische</strong> Grundlagen<br />

2. Stamm-Blatt-Diagramm<br />

3. Histogramm<br />

4. <strong>Statistische</strong> Maßzahlen<br />

<strong>5.</strong> Boxplot<br />

6. Streudiagramm<br />

7. Hauptkomponentenanalyse<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 28


Boxplot<br />

●<br />

●<br />

Boxplots sind eine graphische Darstellung wichtiger statistischer Kenngrößen:<br />

– Median<br />

– unteres und oberes Quartil<br />

– Ausreißer<br />

– „Normalbereich“<br />

Folgende Informationen können<br />

leicht abgelesen werden:<br />

– Minimum und Maximum<br />

– Mittlerer Wert<br />

– Was ist normal?<br />

– Welche Werte sind ungewöhnlich?<br />

– Spannweite der Daten<br />

größter Wert mit<br />

x j<br />

≤ Q 3<br />

+ 1.5 IQR<br />

Median = Q 2<br />

kleinster Wert mit<br />

x j<br />

≤ Q 1<br />

- 1.5 IQR<br />

Extremwert<br />

Ausreißer<br />

Q 3<br />

Q 1<br />

Ausreißer<br />

Extremwert<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 29


Beispiele Boxplots<br />

Autopreise<br />

Anzahl der Geburten nach Wochentag<br />

[C. Schwarz, www.math.sfu.ca]<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 30


Inhaltsverzeichnis<br />

<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />

1. <strong>Statistische</strong> Grundlagen<br />

2. Stamm-Blatt-Diagramm<br />

3. Histogramm<br />

4. <strong>Statistische</strong> Maßzahlen<br />

<strong>5.</strong> Boxplot<br />

6. Streudiagramm<br />

7. Hauptkomponentenanalyse<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 31


Zusammenhänge zwischen zwei Variablen<br />

# Schlafzimmer Preis<br />

1 £25,000<br />

1 £48,000<br />

1 £60,000<br />

1 £80,000<br />

1 £98,000<br />

1 £275,000<br />

2 £57,000<br />

2 £81,000<br />

2 £100,000<br />

2 £120,000<br />

2 £140,000<br />

2 £175,000<br />

2 £280,000<br />

3 £125,000<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 32


Streudiagramm<br />

●<br />

●<br />

●<br />

Ein Streudiagramm ist eine visuelle Darstellung von bivariaten Daten (Daten mit zwei<br />

Merkmalen). Die x-Achse wird entsprechend dem einen Merkmal skaliert, die y-<br />

Achse entsprechend dem anderen Merkmal. Die Wertepaare der einzelnen<br />

Messwerte werden nun als 2D Datenpunkte in das Diagramm eingetragen.<br />

Das Streudiagramm gibt Auskunft über<br />

– Existenz und Art von Korrelationen.<br />

– Clusterbildung.<br />

– Ausreißer in bivariaten Daten, d.h. die Kombination der beiden Werte ist<br />

ungewöhnlich.<br />

Ein wichtiger Aspekt bei der Darstellung von Streudiagrammen ist die Skalierung der<br />

Achsen. Häufig werden die beiden Verteilungen normiert und mit gleicher<br />

Ausdehnung abgetragen. Dies kann auf den ersten Blick einen falschen Eindruck<br />

vermitteln, wenn die eine Variable stark variiert und die andere nur wenig um einen<br />

bestimmten Wert schwankt. Betrachtung der Varianz kann hier helfen.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 33


Streudiagramm – Beispiele für verschiedene Korrelationen<br />

keine Korrelation positive lineare Korrelation negative lineare Korrelation<br />

quadratischer<br />

Zusammenhang<br />

exponentieller<br />

Zusammenhang<br />

Ausreißer<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 34


Streudiagramm – Beispiele<br />

[boston.com]<br />

[Piotr Deuar]<br />

Zusammensetzung von Olivenöl<br />

[M. Daszykowski, 2005]<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 35


Kontinuierliche Streudiagramme<br />

Hurricane Isabel data set: These two images show a continuous and a discrete scatterplot of the<br />

hurricane Isabel data set. The continuous version was created with the tetrahedral approach as<br />

described in the paper "Continuous Scatterplots". This data set is the downsampled version with a size<br />

of 128 x 128 x 30. In the discrete scatterplot, near-vertically aligned clusters of points are visible. Those<br />

clusters are misleading, since they originate solely from the low sampling density in the z-dimension.<br />

(See next example for a high-resolution version of this data set.)<br />

[S. Bachthaler and D. Weiskopf: Continuous Scatterplots, TVCG, 2008]<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 36


Streudiagramm Matrizen<br />

[Originlab]<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 37


Inhaltsverzeichnis<br />

<strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong><br />

1. <strong>Statistische</strong> Grundlagen<br />

2. Stamm-Blatt-Diagramm<br />

3. Histogramm<br />

4. <strong>Statistische</strong> Maßzahlen<br />

<strong>5.</strong> Boxplot<br />

6. Streudiagramm<br />

7. Hauptkomponentenanalyse<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 38


Beispiel<br />

●<br />

Gegeben sei eine Kugel die an einer Feder gleichmäßig hoch und runter schwingt.<br />

Die Bewegung der Kugel wird von 3 Kameras aufgezeichnet und ergibt zu jedem<br />

Zeitpunkt t i<br />

6 Messung (jeweils x- und y-Koordinate im Kamerabild).<br />

t t 1<br />

t 2<br />

<br />

x A x A1 x A2 <br />

y A<br />

y A1<br />

y A2<br />

<br />

x B x B1 x B2 <br />

y B<br />

y B1<br />

y B2<br />

<br />

x C<br />

x C1<br />

x C2<br />

<br />

y C y C1 y C2 <br />

●<br />

●<br />

Im 7D Raum ergäben die Datenpunkte eine perfekt Linie und es würde ausreichen<br />

die Messung mit Hilfe eines Parameters (Auslenkung der Kugel entlang der Achse zu<br />

beschreiben).<br />

Die PCA hilft so eine niederparametrige Darstellung zu finden, indem das<br />

Koordinatensystem neu ausgerichtet wird.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 39


Basistransformation<br />

●<br />

●<br />

Verallgemeinert untersuchen wir Daten mit m Variablen (Kamerapositionen) und n<br />

Datenpunkten (Zeitschritte).<br />

Die naive bisher gewählte Basis für unsere Daten ist dann gegeben durch:<br />

1 0 0<br />

B=[b b 2<br />

0 1 0<br />

⋮ ⋮ ⋮ ⋱ ⋮<br />

b m]=[1 0 0 1]=I<br />

●<br />

Mit dieser Basis können die Datenpunkte wie folgt dargestellt werden:<br />

X i =[x Ai<br />

y Ai<br />

x Bi<br />

y Bi<br />

x Ci<br />

y Ci]<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 40


Basistransformation<br />

●<br />

●<br />

Die Hauptkomponentenanalyse berechnet eine lineare Transformation P der<br />

Originalbasis, die die Daten besser charakterisiert.<br />

Seien X und Y m×n-Matrizen und P eine lineare Transformation (m×m-Matrix)<br />

P X=Y<br />

●<br />

Die Gleichung kann wie folgt interpretiert werden:<br />

– Die Matrix P transformiert X nach Y.<br />

– Geometrisch betrachtet entspricht P einer Rotation und Skalierung, die ebenfalls<br />

X nach Y transformiert.<br />

– Die Zeilen von P, {p 1<br />

, ..., p m<br />

}, bilden die neuen Basisvektoren zur Darstellung der<br />

Spalten in X.<br />

P X=[<br />

p 1 ⋅x 1 p 1 ⋅x n<br />

⋮ ⋱ ⋮<br />

p m<br />

⋅x 1<br />

p m<br />

⋅x n]=Y<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 41


Welche Transformation?<br />

●<br />

Wir haben gesehen, dass wir mittels einer linearen Transformation die Daten in ein<br />

neues Koordinatensystem abbilden können. Zwei Fragen bleiben bestehen:<br />

– Was ist die beste neue Darstellung der Originaldaten in X?<br />

– Was ist eine gute Wahl für P?<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 42


Information in den Daten<br />

●<br />

●<br />

●<br />

●<br />

Die neue Darstellung der Daten soll die enthaltene Information erhalten und leicht<br />

sichtbar machen.<br />

Die zwei wichtigsten Aspekte, die die Aussage von Daten unkenntlich machen sind<br />

– Rauschen und<br />

– Redundanz.<br />

Rauschen entsteht z.B. durch kleine Fehler in der Messung.<br />

Redundanz entsteht wenn eine Ursache sich auf mehrere Variablen auswirkt oder die<br />

gleichen Daten unterschiedlich gemessen werden.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 43


Varianz und Kovarianz<br />

●<br />

●<br />

Sowohl das Rauschen (Signal-Rausch-Verhältnis) als auch Redundanz in den Daten<br />

kann mittels der Kovarianz ausgedrückt werden.<br />

Seien zwei simultane Messung mit arithmetisches Mittel = 0 gegeben:<br />

A={a 1, a 2, ,a n } B={b 1, b 2, ,b n }<br />

●<br />

●<br />

Die Varianz in A und B ist gegeben durch:<br />

Die Kovarianz zwischen A und B ist gegeben durch:<br />

mit<br />

2 A<br />

= 1 ∑ n<br />

n−1 i=1<br />

– σ² AB<br />

= 0 gdw. A und B völlig unkorreliert sind.<br />

a i<br />

2<br />

2 AB<br />

= 1 ∑ n<br />

n−1 i=1<br />

2 B<br />

= 1 ∑ n<br />

n−1 i=1<br />

a i<br />

b i<br />

b i<br />

2<br />

– σ² AA<br />

= σ² A<br />

●<br />

Man kann die Kovarianz nun als Skalarprodukt formulieren:<br />

2 a b<br />

= 1<br />

n−1 a bT a=[a 1<br />

a 2<br />

a n<br />

] b=[b 1<br />

b 2<br />

b n<br />

]<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 44


Kovarianzmatrix<br />

●<br />

Werde nun nicht zwei einzelnen Messungen betrachtet, sondern viele Messungen,<br />

kann man diese in einer Matrix X speichern.<br />

11 x 12 x 1n<br />

X=[x x 21 x 22 x 2n<br />

⋮ ⋮ ⋱ ⋮<br />

x m1<br />

x m2<br />

x mn]<br />

●<br />

Die Kovarianzmatrix ist definiert durch:<br />

mit folgenden Einträgen:<br />

S X ≡ 1<br />

n−1 X XT<br />

– Der Eintrag an der Stelle (i,j) entspricht der Kovarianz zwischen x i<br />

und x j<br />

.<br />

– S X<br />

ist eine symmetrische m×m-Matrix.<br />

– Die Einträge auf der Hauptdiagonale sind die Varianzen in den einzelnen<br />

Variablen.<br />

– Alle anderen Einträge sind die Kovarianzen zwischen verschiedenen Variablen.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 45


Kovarianz<br />

●<br />

Angenommen wir würden nicht die Daten manipulieren, sondern die Kovarianzmatrix.<br />

Welche Eigenschaften wollten wir erzielen?<br />

– Um die Redundanz möglichst klein zu halten, sollten die Daten in den<br />

verschiedenen Variablen möglichst wenig voneinander abhängen.<br />

→ Dies kann erreicht werden indem nur noch die Einträge auf der<br />

Hauptdiagonale ≠ 0 sind.<br />

– Die Daten sollen geordnet sein, so dass wir bestimmen können in welcher<br />

Variable die größte/kleinste Varianz besteht.<br />

→ Wir benötigen also neben den neuen Basisvektoren noch einen Wert der dies<br />

quantifiziert. Dies wird die Varianz in Richtung der neuen Achsen sein.<br />

– Die neue Basis soll orthonormal sein.<br />

→ Hierdurch lässt sich das Problem u.a. leicht lösen. Außerdem sind die neuen<br />

Richtung nun unkorreliert.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 46


Hauptkomponenten<br />

●<br />

●<br />

Wir suchen also eine Matrix P mit Y = PX, so dass die Kovarianzmatrix<br />

S Y<br />

= YY T /(n-1) eine Diagonalmatrix ist. Die Zeilen in P sind dann die Hauptachsen<br />

(principal components) von X.<br />

Zuerst formulieren wir die Kovarianzmatrix um:<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 47


Hauptkomponenten<br />

●<br />

Die Matrix A = XX T kann diagonalisiert werden, indem man mit einer Matrix E<br />

multipliziert, deren Spalten die Eigenvektoren (EV) von A sind:<br />

A=EDE T<br />

mit D = diag(λ 1<br />

, λ 2<br />

, ..., λ n<br />

) und E = [ EV(λ 1<br />

) EV(λ 1<br />

) ... EV(λ 1<br />

)].<br />

●<br />

Jetzt wählen wir die Matrix P so, dass die Zeilen von P den Eigenvektoren von A =<br />

XX T entspricht.<br />

●<br />

Nun gilt P ≡ E T , A = P T DP und außerdem P -1 = PT. Hiermit erhalten wir:<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 48


Hauptkomponentenanalyse – Ergebnisse<br />

●<br />

Eigenschaften:<br />

– Aufgrund der gegebenen Wahl von P wird S Y<br />

diagonalisiert. (Das Ziel der PCA.)<br />

– Die Hauptkomponenten sind die Eigenvektoren<br />

von XX T .<br />

– Der i-te Eintrag in der Kovarianzmatrix S Y<br />

ist<br />

die Varianz von X in Richtung der i-ten Hauptkomponente.<br />

●<br />

Algorithmus:<br />

– Berechne das arithmetische Mittel über alle Datenpunkte in jeder Variable.<br />

– Subtrahiere das arithmetische Mittel von den Daten.<br />

– Ordne die n Datenpunkte mit m Variablen in einer m×n-Matrix X an.<br />

– Berechne die Kovarianzmatrix S X<br />

= XX T .<br />

– Berechne die Eigenwerte und Eigenvektoren der Kovarianzmatrix S X<br />

.<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 49


Referenzen<br />

Die Erklärungen folgen den Beschreibungen in:<br />

●<br />

A. C. Telea. Data Visualization: Principles and Practice, A K Peters, Ltd., 2008.<br />

●<br />

H. Toutenburg, M. Schomaker, M. Wißmann, C. Heumann: Arbeitsbuch zur<br />

deskriptiven und induktiven Statistik, Springer, 2009. (online über Heidi verfügbar).<br />

●<br />

R.Spence: Information visualization, Addison-Wesley, 2001.<br />

●<br />

S. H. and Shinomoto S., A method for selecting the bin size of a time histogram<br />

Neural Computation (2007) Vol. 19(6), 1503-1527<br />

●<br />

J. Shlens: A Tutorial on Principal Component Analysis, 2003<br />

<strong>Visualisierung</strong> I – <strong>5.</strong> <strong>Statistische</strong> <strong>Graphiken</strong> 50

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!