Einheit 6 - Fakultät für Mathematik - Otto-von-Guericke-Universität ...
Einheit 6 - Fakultät für Mathematik - Otto-von-Guericke-Universität ...
Einheit 6 - Fakultät für Mathematik - Otto-von-Guericke-Universität ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Dipl.-Math. Robert Offinger Wintersemester 2004/05<br />
<strong>Otto</strong>-<strong>von</strong>-<strong>Guericke</strong>-<strong>Universität</strong> Magdeburg<br />
<strong>Fakultät</strong> <strong>für</strong> <strong>Mathematik</strong><br />
” Statistik II <strong>für</strong> Wirtschaftswissenschaften“<br />
Materialien zur Hauptübung<br />
1. Test 2 (siehe extra)<br />
<strong>Einheit</strong> 6 ∗<br />
2. Pseudo-Inverse der Verteilungsfunktion<br />
3. Erzeugen <strong>von</strong> Zufallszahlen zu gegebener Verteilungsfunktion<br />
4. QQ-Plots<br />
5. Quantile und QQ-Plots in R<br />
6. kσ-Bereiche und die Chebyshev-Ungleichung<br />
7. Schwaches Gesetz der großen Zahlen<br />
8. Beispiel: starkes Gesetz großer Zahlen<br />
9. Histogramm, Stamm- und Blattdarstellung, Boxplot, Streudiagramm,<br />
Balkendiagramm und Kreisdiagramm in R<br />
∗ Im Internet verfügbar unter http://www.math.uni-magdeburg.de/~rooff/wiwi<br />
1
Pseudo-Inverse der Verteilungsfunktion<br />
Eng verwandt mit dem Begriff des Quantils:<br />
” verallgemeinerte Umkehrfunktion <strong>von</strong> F“ (Pseudo-Inverse)<br />
F − (q) = sup{x : F (x) < q} = inf{x : F (x) ≥ q}<br />
” kleinstes q-Quantil“ (auch: unteres q-Quantil)<br />
Wenn die Verteilungsfunktion F stetig und streng monoton, dann ist F − die Umkehrfunktion<br />
F −1<br />
Beispiel: X exponential-(λ)-verteilt, d.h.<br />
F (x) =<br />
�<br />
0 , x ≤ 0<br />
1 − exp(−λx) , x > 0<br />
Für q ∈ (0, 1): F −1 (q) = − log(1 − q)/λ (vgl. Aufgabe 18)<br />
Damit Median: x0.5 = F −1 (0.5) = log(2)/λ ≈ 0.69/λ ( ” Halbwertszeit“)<br />
Erzeugen <strong>von</strong> Zufallszahlen zu gegebener Verteilungsfunktion<br />
Sei Z auf [0; 1] gleichverteilt und F − die Pseudo-Inverse einer Verteilungsfunktion. Setzt<br />
man X = F − (Z), dann hat X die Verteilungsfunktion F .<br />
Begründung:<br />
P (X ≤ x) = P (F − (Z) ≤ x) = P (Z ≤ F (x)) = F (x)<br />
Umgekehrt ist <strong>für</strong> stetige Zufallsvariablen X mit streng monotoner Verteilungsfunktion<br />
F die Zufallsvariable U = F (X) gleichverteilt auf [0, 1], denn<br />
P (U ≤ u) = P (F (X) ≤ u) = P (X ≤ F −1 (u)) = F (F −1 (u)) = u<br />
QQ-Plots<br />
Bei QQ-Plots werden die Quantile einer bestimmten Verteilung mit den ” empirischen<br />
Quantilen“ verglichen werden:<br />
Hat man unabhängige Beobachtungen X1, X2, . . . , Xn und ordnet diese an, so entstehen<br />
die Werte X(1), X(2), . . . , X(n).<br />
Nach obigem Argument verhalten sich dann F (X(1)), . . . , F (X(n)) wie unabhängige, auf<br />
[0, 1] gleichverteilte Beobachtungen, die man angeordnet hat. Daher hofft man, dass<br />
F (X(i)) ≈<br />
i − 1/2<br />
n − 1<br />
<strong>für</strong> i = 1, . . . , n<br />
(in Randpunkten besseres Verhalten als das vielleicht naheliegendere i/n). Daher plotet<br />
man die Punkte � F −1� � � i−1/2<br />
, X(i) <strong>für</strong> i = 1, . . . , n und hofft, dass diese annähernd auf<br />
n−1<br />
der Winkelhalbierenden liegen.<br />
Will man überprüfen, ob die Beobachtungen normal-(µ, σ)-verteilt sind, dann hofft man<br />
daher, dass<br />
X(i) − µ<br />
≈ Φ<br />
σ<br />
−1<br />
�<br />
i − 1/2<br />
�<br />
<strong>für</strong> i = 1, . . . , n bzw.<br />
n − 1<br />
X(i) ≈ Φ −1<br />
�<br />
i − 1/2<br />
�<br />
· σ + µ <strong>für</strong> i = 1, . . . , n.<br />
n − 1<br />
2
Also plotet man die Punkte � Φ−1� � � i−1/2<br />
, X(i) und prüft, wie gut diese auf einer Geraden<br />
n−1<br />
liegen.<br />
Quantile und QQ-Plots in R<br />
Quantile zu den Verteilungen beginnen in R mit dem Anfangsbuchstaben ” q“. So lautet<br />
der R-Code zur Übungsaufgabe 19b:<br />
qbinom(0.5,6,0.6)<br />
qbinom(0.25,6,0.6)<br />
qbinom(0.75,6,0.6)<br />
qbinom(0.75,6,0.6)-qbinom(0.25,6,0.6)<br />
qbinom(0.95,6,0.6)<br />
Dies berechnet Median, unteres und oberes Quartil, Interquartilsabstand, und das 90%-<br />
Quantil einer binomial-(n = 6, p = 0.6)-verteilten Zufallsvariablen.<br />
Die Quantile sind auch im R-Commander im Menü ” Distributions“ verfügbar: Der<br />
Menüeintrag ” Binomial distribution→Binomial quantiles“, anschließend die Werte 0.25,<br />
0.75, 0.95 unter ” Probabilities“, 6 bei ” Binomial trials“ und 0.6 bei ” Probability of success“<br />
liefern die gewünschten Quantile.<br />
Ist das Quantil nicht eindeutig, so liefert R das kleinste Quantil, d.h. die Quantilfunktionen<br />
sind genau die Pseudo-Inversen.<br />
Für Übungsaufgabe 18 lautet der R-Code<br />
qexp(0.5,1/437)<br />
qexp(0.1,1/437)<br />
qexp(0.95,1/437)<br />
1-pexp(437,1/437)<br />
Dies berechnet Median, 10%-Quantil,<br />
95%-Quantil und P (X > 437) einer<br />
exponential-(λ = 1/437)-verteilten Zufallsvariablen<br />
X.<br />
Beispiel <strong>für</strong> einen QQ-Plot:<br />
x
Fall ist wohl keine Normalverteilung gegeben:<br />
Davis$weight<br />
40 60 80 100 120 140 160<br />
●<br />
● ● ●●●●●●●●● ●● ● ● ● ●●●●●<br />
●●●●●●●●●●●● ●<br />
●● ●<br />
●● ●<br />
−3 −2 −1 0 1 2 3<br />
norm quantiles<br />
kσ-Bereiche und die Chebyshev-Ungleichung<br />
Für reelle Zufallsvariable X mit µ = E(X) und σ 2 = Var(X) sollte<br />
P (µ − kσ ≤ X ≤ µ + kσ) = P (|X − µ| ≤ kσ)<br />
groß sein, wenn k hinreichend groß.<br />
Normal-(µ, σ)-verteilte Zufallsvariable X (vgl. Aufgabe 12)<br />
P (|X − µ| ≤ kσ) = 2Φ(k) − 1<br />
k 1 2 3 4<br />
2Φ(k) − 1 0.6827 0.9545 0.9973 0.9999<br />
Exponential-(λ)-verteilte Zufallsvariable X (µ = 1/λ, σ = 1/λ):<br />
�<br />
1 − k 1 + k<br />
� �<br />
k≥1<br />
P (|X − µ| ≤ kσ) =P ≤ X ≤ = P X ≤<br />
λ λ<br />
�<br />
1 + k<br />
�<br />
=F = 1 − exp(−(1 + k))<br />
λ<br />
k 1 2 3 4<br />
1 − exp(−(1 + k)) 0.8647 0.9502 0.9817 0.9933<br />
4<br />
●<br />
●<br />
1 + k<br />
�<br />
λ
Für beliebige Zufallsvariable untere Schranke <strong>für</strong> die Wahrscheinlichkeit <strong>von</strong> kσ-Bereichen:<br />
Satz: Chebyshev-Ungleichung (Tschebyscheff)<br />
X reelle Zufallsvariable, µ = E(X), σ 2 = Var(X). Dann gilt <strong>für</strong> jedes k > 0:<br />
P (|X − µ| ≤ kσ) ≥ 1 − 1<br />
k2 oder äquivalent<br />
P (|X − µ| > kσ) ≤ 1<br />
k2 oder äquivalent<br />
P (|X − E(X)| ≥ ɛ) ≤ 1<br />
· Var(X) <strong>für</strong> ɛ > 0<br />
ɛ2 Begründung: Setze Z(X) = 1<br />
ɛ2 (X − E(X)) 2 und<br />
�<br />
Y (X) =<br />
1<br />
0<br />
, |X − E(X)| ≥ ɛ<br />
, sonst<br />
Dann Y (X) ≤ Z(X) und somit<br />
P (|X − E(X)| ≥ ɛ) = E(Y (X)) ≤ E(Z(X)) = 1<br />
· Var(X)<br />
ɛ2 Die anderen beiden Gleichungen folgen mittels ɛ = kσ und durch Übergang zum Gegenereignis.<br />
0.0 1.0<br />
E(X) − ε E(X) E(X) + ε<br />
Z(X)<br />
Y(X)<br />
k 1 2 3 4<br />
1 − 1<br />
k 2 0 0.75 0.89 0.94<br />
5
Schwaches Gesetz der großen Zahlen<br />
Es seien X1, . . . , Xn, . . . unabhängige reelle Zufallsvariablen mit gleichem Erwartungswert<br />
µ und gleicher Varianz σ 2 .<br />
Wir zeigen das schwache Gesetz der großen Zahlen:<br />
Begründung:<br />
lim<br />
n→∞ P (|Xn − µ| ≥ ɛ) = 0 <strong>für</strong> jedes ɛ > 0 oder äquivalent:<br />
lim<br />
n→∞ P (|Xn − µ| < ɛ) = 1 <strong>für</strong> jedes ɛ > 0<br />
E(Xn) = 1<br />
n<br />
Var(Xn) = 1<br />
n 2<br />
n�<br />
i=1<br />
n�<br />
i=1<br />
E(Xi) = 1<br />
· n · µ = µ<br />
n<br />
Var(Xi) = 1<br />
n2 · nσ2 = 1<br />
· σ2<br />
n<br />
Somit folgt (mit X = Xn) aus der Chebyshev-Ungleichung:<br />
0 ≤ P (|Xn − µ| ≥ ɛ) ≤ 1<br />
ɛ2 · Var(Xn) = 1 1<br />
·<br />
ɛ2 −→ 0<br />
n · σ2 n→∞<br />
Beispiel: starkes Gesetz großer Zahlen<br />
Wir betrachten folgendes Spiel, beginnend mit dem Startkapital Y0 = 1:<br />
In jeder Runde wird eine Münze geworfen und das momentane Kapital halbiert, falls<br />
Wappen erscheint bzw. um 70% erhöht, falls Zahl erscheint. Setzt man<br />
Zi =<br />
�<br />
0.5 , falls Wappen im i-ten Wurf,<br />
1.7 , falls Zahl im i-ten Wurf,<br />
dann ist der Kapitalstand nach dem n-ten Wurf Yn = Z1 · Z2 · · · Zn.<br />
Der erwartete Kapitalstand nach dem n-ten Wurf:<br />
E(Yn) = E(Z1 · · · Zn) = E(Z1) · · · E(Zn) = 1.1 n ,<br />
denn E(Zi) = 0.5 · 0.5 + 0.5 · 1.7 = 1.1. Somit limn→∞ E(Yn) = ∞.<br />
Wir wenden das Gesetz der großen Zahlen <strong>für</strong> die Zufallsvariablen Xi = log Zi und<br />
Xn = 1<br />
n<br />
� n<br />
i=1 Xi = 1<br />
n<br />
� n<br />
i=1 log Zi = 1<br />
n log Yn an.<br />
µ = E(Xi) = E(log Zi) = 0.5 · log 0.5 + 0.5 log 1.7 ≈ −0.081 < 0<br />
Somit<br />
P � 1 n→∞<br />
log Yn −→ µ<br />
n � = 1<br />
d.h.<br />
1<br />
n→∞<br />
log Yn(ω) −→ µ < 0<br />
n<br />
<strong>für</strong> fast alle ω ∈ Ω<br />
d.h. Yn ≈ e µ·n <strong>für</strong> großes n und da µ < 0 strebt also der Kapitalstand (exponentiell<br />
schnell) fast sicher gegen 0!<br />
6
E(Yn) ist trotzdem groß, weil man (<strong>für</strong> endliches n) mit kleiner Wahrscheinlichkeit enorm<br />
hohe Gewinne machen kann und diese <strong>für</strong> größeres n immer größer werden können,<br />
auch wenn sie immer unwahrscheinlicher werden. Hätte man dagegen bei ” Zahl“ sogar<br />
verdoppelt, dann wäre auf lange Sicht der Kapitalstand fast sicher konstant, auch wenn<br />
nach wie vor der Erwartungswert mit n steigt.<br />
Histogramm, Stamm- und Blattdarstellung, Boxplot, Streudiagramm, Balkendiagramm<br />
und Kreisdiagramm in R<br />
Wir laden den mitgelieferten Datensatz ” Davis“ (Data→Data in Packages→Read data<br />
set from an attached package).<br />
Unter Graphs→Histogram können wir eine Variable des Datensatzes auswählen, um<br />
ein Histogramm zu erstellen, etwa ” height“. Wie viele Balken er zeichnen soll, können<br />
wir dem Programm überlassen ( ” auto“) oder selbst bestimmen. Ferner können wir noch<br />
festlegen, ob er die y-Achse gemäß den absoluten Häufigkeiten, den relativen Häufigkeiten<br />
oder so beschriften soll, als ob die entstehende Grafik eine Wahrscheinlichkeitsdichte<br />
wäre.<br />
Der nächste Menüeintrag, stem-and-leaf-diagram des Menüs Graphs erstellt eine Stammund<br />
Blattdarstellung, eine Darstellungsform aus dem Computersteinzeitalter. Dieses Zifferndiagramm<br />
ist wie ein um 90 Grad gedrehtes Histogramm, bei dem allerdings die<br />
Balkenhöhe durch die letztes Ziffern der Datenwerte gebildet wird, hier am Beispiel der<br />
Variable ” height“. Dadurch hat man im Gegensatz zum Histogramm mehr Variableninformation<br />
und weiß, dass neben dem Ausreißer <strong>von</strong> 57cm der kleinste Wert 148cm ist<br />
oder genau 4 Personen 185cm groß sind. In der Standardeinstellung gibt das Programm<br />
noch Ausreißer (den Datenfehler 57 als Ausreißer nach unten, ” LO“) und die kumulierten<br />
absoluten Häufigkeiten <strong>von</strong> den Randwerten her an, während die Zeile mit dem Median<br />
mit ihrer absoluten Häufigkeit in Klammern beschriftet ist. Wir gehen hier nicht weiter<br />
auf Einzelheiten ein, weil solch eine Grafik heutzutage nicht mehr präsentabel ist.<br />
1 | 2: represents 12<br />
leaf unit: 1<br />
n: 200<br />
LO: 57<br />
2 14. | 8<br />
6 15* | 0234<br />
18 15. | 567777788899<br />
55 16* | 0000011111122222222333333333334444444<br />
100 16. | 555555555556666666666777777788888899999999999<br />
(32) 17* | 00000000111112222233333333344444<br />
68 17. | 5555555566666777778888888888889999<br />
34 18* | 000001122223333334444<br />
13 18. | 5555677899<br />
3 19* | 11<br />
1 19. | 7<br />
7
Unter dem Menüeintrag Boxplot kann man neben der gewünschten Variablen noch<br />
auswählen, ob man einzelne Punkte nachher mit der Maus identifizieren will und ob<br />
man den Datensatz nach Faktoren (kategorielle Variablen) aufspalten will, die man vorher<br />
als solche definiert hat. Hier ist die Variable ” sex“ als Faktor definiert, so dass man<br />
nach Auswahl <strong>von</strong> ” Plot by groups“ und Auswahl <strong>von</strong> ” sex“ den Boxplot jeweils <strong>für</strong><br />
Männer und Frauen getrennt erhält.<br />
height<br />
60 80 100 120 140 160 180 200<br />
12<br />
●<br />
●<br />
F M<br />
Der nächste Menüeintrag Quantile-comparison plot erstellt den weiter oben schon<br />
erwähnten QQ-Plot.<br />
Ehe wir die nächste Grafik erstellen, korrigieren wir den (vorher mit der linken Maustaste<br />
identifizierten ∗ ) Datensatz Nr. 12, bei dem Gewicht und Größe vertauscht wurden, indem<br />
wir auf den Button ” Edit data set“ klicken.<br />
Mit dem Menüeintrag Scatterplot erstellen wir ein Streudiagramm. Wir wählen height“<br />
”<br />
als x-Variable, weight“ als y-Variable, wählen noch unter Plot by groups“ sex“ aus<br />
” ” ”<br />
und belassen ansonsten die Voreinstellungen: Boxplots am Rande <strong>für</strong> die beiden Variablen,<br />
Regressionsgeraden <strong>für</strong> beide Gruppen und eine smooth line“, die die Daten<br />
”<br />
” glättet“. Auf der Grafik müssen wir dann noch mit einem Klick der linken Maustaste<br />
auswählen, wo die Legende ( F“,“M“) gezeichnet werden soll.<br />
”<br />
sex<br />
∗ Beenden des Identifizierens mit der rechten Maustaste<br />
8
●<br />
●<br />
weight<br />
40 60 80 100 120<br />
●<br />
●<br />
● F M<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
● ● ● ● ●<br />
● ●<br />
●<br />
● ● ●<br />
● ●<br />
● ●<br />
●<br />
●<br />
● ●<br />
● ● ● ●<br />
● ● ● ● ● ●<br />
● ● ●<br />
● ●<br />
●<br />
● ● ● ● ●<br />
● ● ● ● ●<br />
●<br />
●<br />
● ● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
● ● ●<br />
● ●<br />
●<br />
● ●<br />
●<br />
● ● ●<br />
● ●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
150 160 170 180 190<br />
●<br />
height<br />
Schließlich werfen wir noch einen kurzen Blick in die Menüeinträge Bar graph und Pie<br />
Chart, wo nach Auswahl der Variablen sex“ ein Balkendiagramm bzw. ein Kreisdia-<br />
”<br />
gramm erstellt wird.<br />
Frequency<br />
0 20 40 60 80<br />
F M<br />
sex<br />
9<br />
●<br />
F<br />
sex<br />
M