Einheit 6 - Fakultät für Mathematik - Otto-von-Guericke-Universität ...

Dipl.-Math. Robert Offinger Wintersemester 2004/05 

Otto-von-Guericke-Universität Magdeburg 

Fakultät für Mathematik 

” Statistik II für Wirtschaftswissenschaften“ 

Materialien zur Hauptübung 

1. Test 2 (siehe extra) 

Einheit 6 ∗ 

2. Pseudo-Inverse der Verteilungsfunktion 

3. Erzeugen von Zufallszahlen zu gegebener Verteilungsfunktion 

4. QQ-Plots 

5. Quantile und QQ-Plots in R 

6. kσ-Bereiche und die Chebyshev-Ungleichung 

7. Schwaches Gesetz der großen Zahlen 

8. Beispiel: starkes Gesetz großer Zahlen 

9. Histogramm, Stamm- und Blattdarstellung, Boxplot, Streudiagramm, 

Balkendiagramm und Kreisdiagramm in R 

∗ Im Internet verfügbar unter http://www.math.uni-magdeburg.de/~rooff/wiwi 

1

Pseudo-Inverse der Verteilungsfunktion 

Eng verwandt mit dem Begriff des Quantils: 

” verallgemeinerte Umkehrfunktion von F“ (Pseudo-Inverse) 

F − (q) = sup{x : F (x) < q} = inf{x : F (x) ≥ q} 

” kleinstes q-Quantil“ (auch: unteres q-Quantil) 

Wenn die Verteilungsfunktion F stetig und streng monoton, dann ist F − die Umkehrfunktion 

F −1 

Beispiel: X exponential-(λ)-verteilt, d.h. 

F (x) = 

� 

0 , x ≤ 0 

1 − exp(−λx) , x > 0 

Für q ∈ (0, 1): F −1 (q) = − log(1 − q)/λ (vgl. Aufgabe 18) 

Damit Median: x0.5 = F −1 (0.5) = log(2)/λ ≈ 0.69/λ ( ” Halbwertszeit“) 

Erzeugen von Zufallszahlen zu gegebener Verteilungsfunktion 

Sei Z auf [0; 1] gleichverteilt und F − die Pseudo-Inverse einer Verteilungsfunktion. Setzt 

man X = F − (Z), dann hat X die Verteilungsfunktion F . 

Begründung: 

P (X ≤ x) = P (F − (Z) ≤ x) = P (Z ≤ F (x)) = F (x) 

Umgekehrt ist für stetige Zufallsvariablen X mit streng monotoner Verteilungsfunktion 

F die Zufallsvariable U = F (X) gleichverteilt auf [0, 1], denn 

P (U ≤ u) = P (F (X) ≤ u) = P (X ≤ F −1 (u)) = F (F −1 (u)) = u 

QQ-Plots 

Bei QQ-Plots werden die Quantile einer bestimmten Verteilung mit den ” empirischen 

Quantilen“ verglichen werden: 

Hat man unabhängige Beobachtungen X1, X2, . . . , Xn und ordnet diese an, so entstehen 

die Werte X(1), X(2), . . . , X(n). 

Nach obigem Argument verhalten sich dann F (X(1)), . . . , F (X(n)) wie unabhängige, auf 

[0, 1] gleichverteilte Beobachtungen, die man angeordnet hat. Daher hofft man, dass 

F (X(i)) ≈ 

i − 1/2 

n − 1 

für i = 1, . . . , n 

(in Randpunkten besseres Verhalten als das vielleicht naheliegendere i/n). Daher plotet 

man die Punkte � F −1� � � i−1/2 

, X(i) für i = 1, . . . , n und hofft, dass diese annähernd auf 

n−1 

der Winkelhalbierenden liegen. 

Will man überprüfen, ob die Beobachtungen normal-(µ, σ)-verteilt sind, dann hofft man 

daher, dass 

X(i) − µ 

≈ Φ 

σ 

−1 

� 

i − 1/2 

� 

für i = 1, . . . , n bzw. 

n − 1 

X(i) ≈ Φ −1 

� 

i − 1/2 

� 

· σ + µ für i = 1, . . . , n. 

n − 1 

2

Also plotet man die Punkte � Φ−1� � � i−1/2 

, X(i) und prüft, wie gut diese auf einer Geraden 

n−1 

liegen. 

Quantile und QQ-Plots in R 

Quantile zu den Verteilungen beginnen in R mit dem Anfangsbuchstaben ” q“. So lautet 

der R-Code zur Übungsaufgabe 19b: 

qbinom(0.5,6,0.6) 

qbinom(0.25,6,0.6) 

qbinom(0.75,6,0.6) 

qbinom(0.75,6,0.6)-qbinom(0.25,6,0.6) 

qbinom(0.95,6,0.6) 

Dies berechnet Median, unteres und oberes Quartil, Interquartilsabstand, und das 90%- 

Quantil einer binomial-(n = 6, p = 0.6)-verteilten Zufallsvariablen. 

Die Quantile sind auch im R-Commander im Menü ” Distributions“ verfügbar: Der 

Menüeintrag ” Binomial distribution→Binomial quantiles“, anschließend die Werte 0.25, 

0.75, 0.95 unter ” Probabilities“, 6 bei ” Binomial trials“ und 0.6 bei ” Probability of success“ 

liefern die gewünschten Quantile. 

Ist das Quantil nicht eindeutig, so liefert R das kleinste Quantil, d.h. die Quantilfunktionen 

sind genau die Pseudo-Inversen. 

Für Übungsaufgabe 18 lautet der R-Code 

qexp(0.5,1/437) 

qexp(0.1,1/437) 

qexp(0.95,1/437) 

1-pexp(437,1/437) 

Dies berechnet Median, 10%-Quantil, 

95%-Quantil und P (X > 437) einer 

exponential-(λ = 1/437)-verteilten Zufallsvariablen 

X. 

Beispiel für einen QQ-Plot: 

x

Fall ist wohl keine Normalverteilung gegeben: 

Davis$weight 

40 60 80 100 120 140 160 

● 

● ● ●●●●●●●●● ●● ● ● ● ●●●●● 

●●●●●●●●●●●● ● 

●● ● 

●● ● 

−3 −2 −1 0 1 2 3 

norm quantiles 

kσ-Bereiche und die Chebyshev-Ungleichung 

Für reelle Zufallsvariable X mit µ = E(X) und σ 2 = Var(X) sollte 

P (µ − kσ ≤ X ≤ µ + kσ) = P (|X − µ| ≤ kσ) 

groß sein, wenn k hinreichend groß. 

Normal-(µ, σ)-verteilte Zufallsvariable X (vgl. Aufgabe 12) 

P (|X − µ| ≤ kσ) = 2Φ(k) − 1 

k 1 2 3 4 

2Φ(k) − 1 0.6827 0.9545 0.9973 0.9999 

Exponential-(λ)-verteilte Zufallsvariable X (µ = 1/λ, σ = 1/λ): 

� 

1 − k 1 + k 

� � 

k≥1 

P (|X − µ| ≤ kσ) =P ≤ X ≤ = P X ≤ 

λ λ 

� 

1 + k 

� 

=F = 1 − exp(−(1 + k)) 

λ 

k 1 2 3 4 

1 − exp(−(1 + k)) 0.8647 0.9502 0.9817 0.9933 

4 

● 

● 

1 + k 

� 

λ

Für beliebige Zufallsvariable untere Schranke für die Wahrscheinlichkeit von kσ-Bereichen: 

Satz: Chebyshev-Ungleichung (Tschebyscheff) 

X reelle Zufallsvariable, µ = E(X), σ 2 = Var(X). Dann gilt für jedes k > 0: 

P (|X − µ| ≤ kσ) ≥ 1 − 1 

k2 oder äquivalent 

P (|X − µ| > kσ) ≤ 1 

k2 oder äquivalent 

P (|X − E(X)| ≥ ɛ) ≤ 1 

· Var(X) für ɛ > 0 

ɛ2 Begründung: Setze Z(X) = 1 

ɛ2 (X − E(X)) 2 und 

� 

Y (X) = 

1 

0 

, |X − E(X)| ≥ ɛ 

, sonst 

Dann Y (X) ≤ Z(X) und somit 

P (|X − E(X)| ≥ ɛ) = E(Y (X)) ≤ E(Z(X)) = 1 

· Var(X) 

ɛ2 Die anderen beiden Gleichungen folgen mittels ɛ = kσ und durch Übergang zum Gegenereignis. 

0.0 1.0 

E(X) − ε E(X) E(X) + ε 

Z(X) 

Y(X) 

k 1 2 3 4 

1 − 1 

k 2 0 0.75 0.89 0.94 

5

Schwaches Gesetz der großen Zahlen 

Es seien X1, . . . , Xn, . . . unabhängige reelle Zufallsvariablen mit gleichem Erwartungswert 

µ und gleicher Varianz σ 2 . 

Wir zeigen das schwache Gesetz der großen Zahlen: 

Begründung: 

lim 

n→∞ P (|Xn − µ| ≥ ɛ) = 0 für jedes ɛ > 0 oder äquivalent: 

lim 

n→∞ P (|Xn − µ| < ɛ) = 1 für jedes ɛ > 0 

E(Xn) = 1 

n 

Var(Xn) = 1 

n 2 

n� 

i=1 

n� 

i=1 

E(Xi) = 1 

· n · µ = µ 

n 

Var(Xi) = 1 

n2 · nσ2 = 1 

· σ2 

n 

Somit folgt (mit X = Xn) aus der Chebyshev-Ungleichung: 

0 ≤ P (|Xn − µ| ≥ ɛ) ≤ 1 

ɛ2 · Var(Xn) = 1 1 

· 

ɛ2 −→ 0 

n · σ2 n→∞ 

Beispiel: starkes Gesetz großer Zahlen 

Wir betrachten folgendes Spiel, beginnend mit dem Startkapital Y0 = 1: 

In jeder Runde wird eine Münze geworfen und das momentane Kapital halbiert, falls 

Wappen erscheint bzw. um 70% erhöht, falls Zahl erscheint. Setzt man 

Zi = 

� 

0.5 , falls Wappen im i-ten Wurf, 

1.7 , falls Zahl im i-ten Wurf, 

dann ist der Kapitalstand nach dem n-ten Wurf Yn = Z1 · Z2 · · · Zn. 

Der erwartete Kapitalstand nach dem n-ten Wurf: 

E(Yn) = E(Z1 · · · Zn) = E(Z1) · · · E(Zn) = 1.1 n , 

denn E(Zi) = 0.5 · 0.5 + 0.5 · 1.7 = 1.1. Somit limn→∞ E(Yn) = ∞. 

Wir wenden das Gesetz der großen Zahlen für die Zufallsvariablen Xi = log Zi und 

Xn = 1 

n 

� n 

i=1 Xi = 1 

n 

� n 

i=1 log Zi = 1 

n log Yn an. 

µ = E(Xi) = E(log Zi) = 0.5 · log 0.5 + 0.5 log 1.7 ≈ −0.081 < 0 

Somit 

P � 1 n→∞ 

log Yn −→ µ 

n � = 1 

d.h. 

1 

n→∞ 

log Yn(ω) −→ µ < 0 

n 

für fast alle ω ∈ Ω 

d.h. Yn ≈ e µ·n für großes n und da µ < 0 strebt also der Kapitalstand (exponentiell 

schnell) fast sicher gegen 0! 

6

E(Yn) ist trotzdem groß, weil man (für endliches n) mit kleiner Wahrscheinlichkeit enorm 

hohe Gewinne machen kann und diese für größeres n immer größer werden können, 

auch wenn sie immer unwahrscheinlicher werden. Hätte man dagegen bei ” Zahl“ sogar 

verdoppelt, dann wäre auf lange Sicht der Kapitalstand fast sicher konstant, auch wenn 

nach wie vor der Erwartungswert mit n steigt. 

Histogramm, Stamm- und Blattdarstellung, Boxplot, Streudiagramm, Balkendiagramm 

und Kreisdiagramm in R 

Wir laden den mitgelieferten Datensatz ” Davis“ (Data→Data in Packages→Read data 

set from an attached package). 

Unter Graphs→Histogram können wir eine Variable des Datensatzes auswählen, um 

ein Histogramm zu erstellen, etwa ” height“. Wie viele Balken er zeichnen soll, können 

wir dem Programm überlassen ( ” auto“) oder selbst bestimmen. Ferner können wir noch 

festlegen, ob er die y-Achse gemäß den absoluten Häufigkeiten, den relativen Häufigkeiten 

oder so beschriften soll, als ob die entstehende Grafik eine Wahrscheinlichkeitsdichte 

wäre. 

Der nächste Menüeintrag, stem-and-leaf-diagram des Menüs Graphs erstellt eine Stammund 

Blattdarstellung, eine Darstellungsform aus dem Computersteinzeitalter. Dieses Zifferndiagramm 

ist wie ein um 90 Grad gedrehtes Histogramm, bei dem allerdings die 

Balkenhöhe durch die letztes Ziffern der Datenwerte gebildet wird, hier am Beispiel der 

Variable ” height“. Dadurch hat man im Gegensatz zum Histogramm mehr Variableninformation 

und weiß, dass neben dem Ausreißer von 57cm der kleinste Wert 148cm ist 

oder genau 4 Personen 185cm groß sind. In der Standardeinstellung gibt das Programm 

noch Ausreißer (den Datenfehler 57 als Ausreißer nach unten, ” LO“) und die kumulierten 

absoluten Häufigkeiten von den Randwerten her an, während die Zeile mit dem Median 

mit ihrer absoluten Häufigkeit in Klammern beschriftet ist. Wir gehen hier nicht weiter 

auf Einzelheiten ein, weil solch eine Grafik heutzutage nicht mehr präsentabel ist. 

1 | 2: represents 12 

leaf unit: 1 

n: 200 

LO: 57 

2 14. | 8 

6 15* | 0234 

18 15. | 567777788899 

55 16* | 0000011111122222222333333333334444444 

100 16. | 555555555556666666666777777788888899999999999 

(32) 17* | 00000000111112222233333333344444 

68 17. | 5555555566666777778888888888889999 

34 18* | 000001122223333334444 

13 18. | 5555677899 

3 19* | 11 

1 19. | 7 

7

Unter dem Menüeintrag Boxplot kann man neben der gewünschten Variablen noch 

auswählen, ob man einzelne Punkte nachher mit der Maus identifizieren will und ob 

man den Datensatz nach Faktoren (kategorielle Variablen) aufspalten will, die man vorher 

als solche definiert hat. Hier ist die Variable ” sex“ als Faktor definiert, so dass man 

nach Auswahl von ” Plot by groups“ und Auswahl von ” sex“ den Boxplot jeweils für 

Männer und Frauen getrennt erhält. 

height 

60 80 100 120 140 160 180 200 

12 

● 

● 

F M 

Der nächste Menüeintrag Quantile-comparison plot erstellt den weiter oben schon 

erwähnten QQ-Plot. 

Ehe wir die nächste Grafik erstellen, korrigieren wir den (vorher mit der linken Maustaste 

identifizierten ∗ ) Datensatz Nr. 12, bei dem Gewicht und Größe vertauscht wurden, indem 

wir auf den Button ” Edit data set“ klicken. 

Mit dem Menüeintrag Scatterplot erstellen wir ein Streudiagramm. Wir wählen height“ 

” 

als x-Variable, weight“ als y-Variable, wählen noch unter Plot by groups“ sex“ aus 

” ” ” 

und belassen ansonsten die Voreinstellungen: Boxplots am Rande für die beiden Variablen, 

Regressionsgeraden für beide Gruppen und eine smooth line“, die die Daten 

” 

” glättet“. Auf der Grafik müssen wir dann noch mit einem Klick der linken Maustaste 

auswählen, wo die Legende ( F“,“M“) gezeichnet werden soll. 

” 

sex 

∗ Beenden des Identifizierens mit der rechten Maustaste 

8

● 

● 

weight 

40 60 80 100 120 

● 

● 

● F M 

● 

● ● 

● 

● 

● 

● 

● ● ● ● ● 

● ● 

● 

● ● ● 

● ● 

● ● 

● 

● 

● ● 

● ● ● ● 

● ● ● ● ● ● 

● ● ● 

● ● 

● 

● ● ● ● ● 

● ● ● ● ● 

● 

● 

● ● ● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● ● 

● 

● 

● ● ● 

● ● 

● 

● ● 

● 

● ● ● 

● ● 

● ● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

● 

150 160 170 180 190 

● 

height 

Schließlich werfen wir noch einen kurzen Blick in die Menüeinträge Bar graph und Pie 

Chart, wo nach Auswahl der Variablen sex“ ein Balkendiagramm bzw. ein Kreisdia- 

” 

gramm erstellt wird. 

Frequency 

0 20 40 60 80 

F M 

sex 

9 

● 

F 

sex 

M

Einheit 6 - Fakultät für Mathematik - Otto-von-Guericke-Universität ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?