05.11.2012 Aufrufe

Einheit 6 - Fakultät für Mathematik - Otto-von-Guericke-Universität ...

Einheit 6 - Fakultät für Mathematik - Otto-von-Guericke-Universität ...

Einheit 6 - Fakultät für Mathematik - Otto-von-Guericke-Universität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Dipl.-Math. Robert Offinger Wintersemester 2004/05<br />

<strong>Otto</strong>-<strong>von</strong>-<strong>Guericke</strong>-<strong>Universität</strong> Magdeburg<br />

<strong>Fakultät</strong> <strong>für</strong> <strong>Mathematik</strong><br />

” Statistik II <strong>für</strong> Wirtschaftswissenschaften“<br />

Materialien zur Hauptübung<br />

1. Test 2 (siehe extra)<br />

<strong>Einheit</strong> 6 ∗<br />

2. Pseudo-Inverse der Verteilungsfunktion<br />

3. Erzeugen <strong>von</strong> Zufallszahlen zu gegebener Verteilungsfunktion<br />

4. QQ-Plots<br />

5. Quantile und QQ-Plots in R<br />

6. kσ-Bereiche und die Chebyshev-Ungleichung<br />

7. Schwaches Gesetz der großen Zahlen<br />

8. Beispiel: starkes Gesetz großer Zahlen<br />

9. Histogramm, Stamm- und Blattdarstellung, Boxplot, Streudiagramm,<br />

Balkendiagramm und Kreisdiagramm in R<br />

∗ Im Internet verfügbar unter http://www.math.uni-magdeburg.de/~rooff/wiwi<br />

1


Pseudo-Inverse der Verteilungsfunktion<br />

Eng verwandt mit dem Begriff des Quantils:<br />

” verallgemeinerte Umkehrfunktion <strong>von</strong> F“ (Pseudo-Inverse)<br />

F − (q) = sup{x : F (x) < q} = inf{x : F (x) ≥ q}<br />

” kleinstes q-Quantil“ (auch: unteres q-Quantil)<br />

Wenn die Verteilungsfunktion F stetig und streng monoton, dann ist F − die Umkehrfunktion<br />

F −1<br />

Beispiel: X exponential-(λ)-verteilt, d.h.<br />

F (x) =<br />

�<br />

0 , x ≤ 0<br />

1 − exp(−λx) , x > 0<br />

Für q ∈ (0, 1): F −1 (q) = − log(1 − q)/λ (vgl. Aufgabe 18)<br />

Damit Median: x0.5 = F −1 (0.5) = log(2)/λ ≈ 0.69/λ ( ” Halbwertszeit“)<br />

Erzeugen <strong>von</strong> Zufallszahlen zu gegebener Verteilungsfunktion<br />

Sei Z auf [0; 1] gleichverteilt und F − die Pseudo-Inverse einer Verteilungsfunktion. Setzt<br />

man X = F − (Z), dann hat X die Verteilungsfunktion F .<br />

Begründung:<br />

P (X ≤ x) = P (F − (Z) ≤ x) = P (Z ≤ F (x)) = F (x)<br />

Umgekehrt ist <strong>für</strong> stetige Zufallsvariablen X mit streng monotoner Verteilungsfunktion<br />

F die Zufallsvariable U = F (X) gleichverteilt auf [0, 1], denn<br />

P (U ≤ u) = P (F (X) ≤ u) = P (X ≤ F −1 (u)) = F (F −1 (u)) = u<br />

QQ-Plots<br />

Bei QQ-Plots werden die Quantile einer bestimmten Verteilung mit den ” empirischen<br />

Quantilen“ verglichen werden:<br />

Hat man unabhängige Beobachtungen X1, X2, . . . , Xn und ordnet diese an, so entstehen<br />

die Werte X(1), X(2), . . . , X(n).<br />

Nach obigem Argument verhalten sich dann F (X(1)), . . . , F (X(n)) wie unabhängige, auf<br />

[0, 1] gleichverteilte Beobachtungen, die man angeordnet hat. Daher hofft man, dass<br />

F (X(i)) ≈<br />

i − 1/2<br />

n − 1<br />

<strong>für</strong> i = 1, . . . , n<br />

(in Randpunkten besseres Verhalten als das vielleicht naheliegendere i/n). Daher plotet<br />

man die Punkte � F −1� � � i−1/2<br />

, X(i) <strong>für</strong> i = 1, . . . , n und hofft, dass diese annähernd auf<br />

n−1<br />

der Winkelhalbierenden liegen.<br />

Will man überprüfen, ob die Beobachtungen normal-(µ, σ)-verteilt sind, dann hofft man<br />

daher, dass<br />

X(i) − µ<br />

≈ Φ<br />

σ<br />

−1<br />

�<br />

i − 1/2<br />

�<br />

<strong>für</strong> i = 1, . . . , n bzw.<br />

n − 1<br />

X(i) ≈ Φ −1<br />

�<br />

i − 1/2<br />

�<br />

· σ + µ <strong>für</strong> i = 1, . . . , n.<br />

n − 1<br />

2


Also plotet man die Punkte � Φ−1� � � i−1/2<br />

, X(i) und prüft, wie gut diese auf einer Geraden<br />

n−1<br />

liegen.<br />

Quantile und QQ-Plots in R<br />

Quantile zu den Verteilungen beginnen in R mit dem Anfangsbuchstaben ” q“. So lautet<br />

der R-Code zur Übungsaufgabe 19b:<br />

qbinom(0.5,6,0.6)<br />

qbinom(0.25,6,0.6)<br />

qbinom(0.75,6,0.6)<br />

qbinom(0.75,6,0.6)-qbinom(0.25,6,0.6)<br />

qbinom(0.95,6,0.6)<br />

Dies berechnet Median, unteres und oberes Quartil, Interquartilsabstand, und das 90%-<br />

Quantil einer binomial-(n = 6, p = 0.6)-verteilten Zufallsvariablen.<br />

Die Quantile sind auch im R-Commander im Menü ” Distributions“ verfügbar: Der<br />

Menüeintrag ” Binomial distribution→Binomial quantiles“, anschließend die Werte 0.25,<br />

0.75, 0.95 unter ” Probabilities“, 6 bei ” Binomial trials“ und 0.6 bei ” Probability of success“<br />

liefern die gewünschten Quantile.<br />

Ist das Quantil nicht eindeutig, so liefert R das kleinste Quantil, d.h. die Quantilfunktionen<br />

sind genau die Pseudo-Inversen.<br />

Für Übungsaufgabe 18 lautet der R-Code<br />

qexp(0.5,1/437)<br />

qexp(0.1,1/437)<br />

qexp(0.95,1/437)<br />

1-pexp(437,1/437)<br />

Dies berechnet Median, 10%-Quantil,<br />

95%-Quantil und P (X > 437) einer<br />

exponential-(λ = 1/437)-verteilten Zufallsvariablen<br />

X.<br />

Beispiel <strong>für</strong> einen QQ-Plot:<br />

x


Fall ist wohl keine Normalverteilung gegeben:<br />

Davis$weight<br />

40 60 80 100 120 140 160<br />

●<br />

● ● ●●●●●●●●● ●● ● ● ● ●●●●●<br />

●●●●●●●●●●●● ●<br />

●● ●<br />

●● ●<br />

−3 −2 −1 0 1 2 3<br />

norm quantiles<br />

kσ-Bereiche und die Chebyshev-Ungleichung<br />

Für reelle Zufallsvariable X mit µ = E(X) und σ 2 = Var(X) sollte<br />

P (µ − kσ ≤ X ≤ µ + kσ) = P (|X − µ| ≤ kσ)<br />

groß sein, wenn k hinreichend groß.<br />

Normal-(µ, σ)-verteilte Zufallsvariable X (vgl. Aufgabe 12)<br />

P (|X − µ| ≤ kσ) = 2Φ(k) − 1<br />

k 1 2 3 4<br />

2Φ(k) − 1 0.6827 0.9545 0.9973 0.9999<br />

Exponential-(λ)-verteilte Zufallsvariable X (µ = 1/λ, σ = 1/λ):<br />

�<br />

1 − k 1 + k<br />

� �<br />

k≥1<br />

P (|X − µ| ≤ kσ) =P ≤ X ≤ = P X ≤<br />

λ λ<br />

�<br />

1 + k<br />

�<br />

=F = 1 − exp(−(1 + k))<br />

λ<br />

k 1 2 3 4<br />

1 − exp(−(1 + k)) 0.8647 0.9502 0.9817 0.9933<br />

4<br />

●<br />

●<br />

1 + k<br />

�<br />

λ


Für beliebige Zufallsvariable untere Schranke <strong>für</strong> die Wahrscheinlichkeit <strong>von</strong> kσ-Bereichen:<br />

Satz: Chebyshev-Ungleichung (Tschebyscheff)<br />

X reelle Zufallsvariable, µ = E(X), σ 2 = Var(X). Dann gilt <strong>für</strong> jedes k > 0:<br />

P (|X − µ| ≤ kσ) ≥ 1 − 1<br />

k2 oder äquivalent<br />

P (|X − µ| > kσ) ≤ 1<br />

k2 oder äquivalent<br />

P (|X − E(X)| ≥ ɛ) ≤ 1<br />

· Var(X) <strong>für</strong> ɛ > 0<br />

ɛ2 Begründung: Setze Z(X) = 1<br />

ɛ2 (X − E(X)) 2 und<br />

�<br />

Y (X) =<br />

1<br />

0<br />

, |X − E(X)| ≥ ɛ<br />

, sonst<br />

Dann Y (X) ≤ Z(X) und somit<br />

P (|X − E(X)| ≥ ɛ) = E(Y (X)) ≤ E(Z(X)) = 1<br />

· Var(X)<br />

ɛ2 Die anderen beiden Gleichungen folgen mittels ɛ = kσ und durch Übergang zum Gegenereignis.<br />

0.0 1.0<br />

E(X) − ε E(X) E(X) + ε<br />

Z(X)<br />

Y(X)<br />

k 1 2 3 4<br />

1 − 1<br />

k 2 0 0.75 0.89 0.94<br />

5


Schwaches Gesetz der großen Zahlen<br />

Es seien X1, . . . , Xn, . . . unabhängige reelle Zufallsvariablen mit gleichem Erwartungswert<br />

µ und gleicher Varianz σ 2 .<br />

Wir zeigen das schwache Gesetz der großen Zahlen:<br />

Begründung:<br />

lim<br />

n→∞ P (|Xn − µ| ≥ ɛ) = 0 <strong>für</strong> jedes ɛ > 0 oder äquivalent:<br />

lim<br />

n→∞ P (|Xn − µ| < ɛ) = 1 <strong>für</strong> jedes ɛ > 0<br />

E(Xn) = 1<br />

n<br />

Var(Xn) = 1<br />

n 2<br />

n�<br />

i=1<br />

n�<br />

i=1<br />

E(Xi) = 1<br />

· n · µ = µ<br />

n<br />

Var(Xi) = 1<br />

n2 · nσ2 = 1<br />

· σ2<br />

n<br />

Somit folgt (mit X = Xn) aus der Chebyshev-Ungleichung:<br />

0 ≤ P (|Xn − µ| ≥ ɛ) ≤ 1<br />

ɛ2 · Var(Xn) = 1 1<br />

·<br />

ɛ2 −→ 0<br />

n · σ2 n→∞<br />

Beispiel: starkes Gesetz großer Zahlen<br />

Wir betrachten folgendes Spiel, beginnend mit dem Startkapital Y0 = 1:<br />

In jeder Runde wird eine Münze geworfen und das momentane Kapital halbiert, falls<br />

Wappen erscheint bzw. um 70% erhöht, falls Zahl erscheint. Setzt man<br />

Zi =<br />

�<br />

0.5 , falls Wappen im i-ten Wurf,<br />

1.7 , falls Zahl im i-ten Wurf,<br />

dann ist der Kapitalstand nach dem n-ten Wurf Yn = Z1 · Z2 · · · Zn.<br />

Der erwartete Kapitalstand nach dem n-ten Wurf:<br />

E(Yn) = E(Z1 · · · Zn) = E(Z1) · · · E(Zn) = 1.1 n ,<br />

denn E(Zi) = 0.5 · 0.5 + 0.5 · 1.7 = 1.1. Somit limn→∞ E(Yn) = ∞.<br />

Wir wenden das Gesetz der großen Zahlen <strong>für</strong> die Zufallsvariablen Xi = log Zi und<br />

Xn = 1<br />

n<br />

� n<br />

i=1 Xi = 1<br />

n<br />

� n<br />

i=1 log Zi = 1<br />

n log Yn an.<br />

µ = E(Xi) = E(log Zi) = 0.5 · log 0.5 + 0.5 log 1.7 ≈ −0.081 < 0<br />

Somit<br />

P � 1 n→∞<br />

log Yn −→ µ<br />

n � = 1<br />

d.h.<br />

1<br />

n→∞<br />

log Yn(ω) −→ µ < 0<br />

n<br />

<strong>für</strong> fast alle ω ∈ Ω<br />

d.h. Yn ≈ e µ·n <strong>für</strong> großes n und da µ < 0 strebt also der Kapitalstand (exponentiell<br />

schnell) fast sicher gegen 0!<br />

6


E(Yn) ist trotzdem groß, weil man (<strong>für</strong> endliches n) mit kleiner Wahrscheinlichkeit enorm<br />

hohe Gewinne machen kann und diese <strong>für</strong> größeres n immer größer werden können,<br />

auch wenn sie immer unwahrscheinlicher werden. Hätte man dagegen bei ” Zahl“ sogar<br />

verdoppelt, dann wäre auf lange Sicht der Kapitalstand fast sicher konstant, auch wenn<br />

nach wie vor der Erwartungswert mit n steigt.<br />

Histogramm, Stamm- und Blattdarstellung, Boxplot, Streudiagramm, Balkendiagramm<br />

und Kreisdiagramm in R<br />

Wir laden den mitgelieferten Datensatz ” Davis“ (Data→Data in Packages→Read data<br />

set from an attached package).<br />

Unter Graphs→Histogram können wir eine Variable des Datensatzes auswählen, um<br />

ein Histogramm zu erstellen, etwa ” height“. Wie viele Balken er zeichnen soll, können<br />

wir dem Programm überlassen ( ” auto“) oder selbst bestimmen. Ferner können wir noch<br />

festlegen, ob er die y-Achse gemäß den absoluten Häufigkeiten, den relativen Häufigkeiten<br />

oder so beschriften soll, als ob die entstehende Grafik eine Wahrscheinlichkeitsdichte<br />

wäre.<br />

Der nächste Menüeintrag, stem-and-leaf-diagram des Menüs Graphs erstellt eine Stammund<br />

Blattdarstellung, eine Darstellungsform aus dem Computersteinzeitalter. Dieses Zifferndiagramm<br />

ist wie ein um 90 Grad gedrehtes Histogramm, bei dem allerdings die<br />

Balkenhöhe durch die letztes Ziffern der Datenwerte gebildet wird, hier am Beispiel der<br />

Variable ” height“. Dadurch hat man im Gegensatz zum Histogramm mehr Variableninformation<br />

und weiß, dass neben dem Ausreißer <strong>von</strong> 57cm der kleinste Wert 148cm ist<br />

oder genau 4 Personen 185cm groß sind. In der Standardeinstellung gibt das Programm<br />

noch Ausreißer (den Datenfehler 57 als Ausreißer nach unten, ” LO“) und die kumulierten<br />

absoluten Häufigkeiten <strong>von</strong> den Randwerten her an, während die Zeile mit dem Median<br />

mit ihrer absoluten Häufigkeit in Klammern beschriftet ist. Wir gehen hier nicht weiter<br />

auf Einzelheiten ein, weil solch eine Grafik heutzutage nicht mehr präsentabel ist.<br />

1 | 2: represents 12<br />

leaf unit: 1<br />

n: 200<br />

LO: 57<br />

2 14. | 8<br />

6 15* | 0234<br />

18 15. | 567777788899<br />

55 16* | 0000011111122222222333333333334444444<br />

100 16. | 555555555556666666666777777788888899999999999<br />

(32) 17* | 00000000111112222233333333344444<br />

68 17. | 5555555566666777778888888888889999<br />

34 18* | 000001122223333334444<br />

13 18. | 5555677899<br />

3 19* | 11<br />

1 19. | 7<br />

7


Unter dem Menüeintrag Boxplot kann man neben der gewünschten Variablen noch<br />

auswählen, ob man einzelne Punkte nachher mit der Maus identifizieren will und ob<br />

man den Datensatz nach Faktoren (kategorielle Variablen) aufspalten will, die man vorher<br />

als solche definiert hat. Hier ist die Variable ” sex“ als Faktor definiert, so dass man<br />

nach Auswahl <strong>von</strong> ” Plot by groups“ und Auswahl <strong>von</strong> ” sex“ den Boxplot jeweils <strong>für</strong><br />

Männer und Frauen getrennt erhält.<br />

height<br />

60 80 100 120 140 160 180 200<br />

12<br />

●<br />

●<br />

F M<br />

Der nächste Menüeintrag Quantile-comparison plot erstellt den weiter oben schon<br />

erwähnten QQ-Plot.<br />

Ehe wir die nächste Grafik erstellen, korrigieren wir den (vorher mit der linken Maustaste<br />

identifizierten ∗ ) Datensatz Nr. 12, bei dem Gewicht und Größe vertauscht wurden, indem<br />

wir auf den Button ” Edit data set“ klicken.<br />

Mit dem Menüeintrag Scatterplot erstellen wir ein Streudiagramm. Wir wählen height“<br />

”<br />

als x-Variable, weight“ als y-Variable, wählen noch unter Plot by groups“ sex“ aus<br />

” ” ”<br />

und belassen ansonsten die Voreinstellungen: Boxplots am Rande <strong>für</strong> die beiden Variablen,<br />

Regressionsgeraden <strong>für</strong> beide Gruppen und eine smooth line“, die die Daten<br />

”<br />

” glättet“. Auf der Grafik müssen wir dann noch mit einem Klick der linken Maustaste<br />

auswählen, wo die Legende ( F“,“M“) gezeichnet werden soll.<br />

”<br />

sex<br />

∗ Beenden des Identifizierens mit der rechten Maustaste<br />

8


●<br />

●<br />

weight<br />

40 60 80 100 120<br />

●<br />

●<br />

● F M<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

● ● ● ● ●<br />

● ●<br />

●<br />

● ● ●<br />

● ●<br />

● ●<br />

●<br />

●<br />

● ●<br />

● ● ● ●<br />

● ● ● ● ● ●<br />

● ● ●<br />

● ●<br />

●<br />

● ● ● ● ●<br />

● ● ● ● ●<br />

●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

● ● ●<br />

● ●<br />

●<br />

● ●<br />

●<br />

● ● ●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

150 160 170 180 190<br />

●<br />

height<br />

Schließlich werfen wir noch einen kurzen Blick in die Menüeinträge Bar graph und Pie<br />

Chart, wo nach Auswahl der Variablen sex“ ein Balkendiagramm bzw. ein Kreisdia-<br />

”<br />

gramm erstellt wird.<br />

Frequency<br />

0 20 40 60 80<br />

F M<br />

sex<br />

9<br />

●<br />

F<br />

sex<br />

M

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!