Statistik II für Statistiker, Mathematiker und Informatiker (SS ... - LMU

Inhalt der Vorlesung 

Statistik II für Statistiker, 

Mathematiker und Informatiker 

(SS 2007) 

Christian Heumann, LMU München 

Inhalt der Vorlesung 

Kapitel 7: Mehr über Zufallsvariablen und Verteilungen 

Kapitel 8: Mehrdimensionale Zufallsvariablen 

Kapitel 9: Schätzen 

Kapitel 10: Testen: Einführung und Konzepte 

Kapitel 11: Spezielle Testprobleme 

Kapitel 12: Regressionsanalyse 

Statistik II für Statistiker, Mathematiker und Informatiker im SS 2007 1 

7. Mehr über Zufallsvariablen und Verteilungen 

7. Mehr über Zufallsvariablen und Verteilungen 7.1 Gesetz der großen Zahlen und Grenzwertsätze 

7. Mehr über Zufallsvariablen und Verteilungen 

7.1 Gesetz der großen Zahlen und Grenzwertsätze 

7.2 Approximation von Verteilungen 

7.3 Zufallszahlen und Simulation 

7.4 Einige Ergänzungen 

7.1 Gesetz der großen Zahlen und Grenzwertsätze 

Erinnerung: Bernoulli-Kette 

X i = 

X = 

{ 1 , falls A eintritt 

0 , falls A nicht eintritt 

⇒ X ∼ B(1,π = P(A)) 

{ 

1, falls A im i-ten Versuch eintritt 

0, falls A im i-ten Versuch nicht eintritt 

⇒ X i ∼ B(1,P(A)) 


Statistik II für Statistiker, Mathematiker und Informatiker im SS 2007 3



Indikatorvariablen X 1 ,...,X n unabhängig und identisch wie X ∼ B(1,π) 

verteilt. 

f n (A) = f n (X = 1) = 1 n (X 1 + ... + X n ) relative Häufigkeit 

“Gesetz großer Zahlen”: f n (A) → P(A) 

relative H. 

1.0 • 

0.8 

0.6 

0.4 

0.2 

• • • • • ••• • •• • 

• • • • • 

• • • •• • ••• • •• • •• • •• • • ••• 

• 

•• • 

•••••••••••••••••••••••••••••••••••••••••••••••••••• 

• • 

• 

0.0 

n 

0 20 40 60 80 100 

Relative Häufigkeit f n , durch Punkte markiert, nach n unabhängigen 

Wiederholungen eines Bernoulli-Versuchs mit π = 0.4 




Allgemein: X beliebige diskrete oder stetige Zufallsvariable mit Verteilungsfunktion 

F(x),E(X) = µ,V ar(X) = σ 2 . 

Zu X gehörender Zufallsvorgang wird n-mal unabhängig wiederholt. 

Zufallsvariablen X i , i = 1, ...,n, geben an, welchen Wert X im i-ten Versuch 

annehmen wird. 

⇒ X 1 , ...,X n unabhängig und identisch verteilt wie X. 

Ergebnisse x 1 ,...,x n nach Durchführung sind Realisierungen der Zufallsvariablen 

X 1 , ...,X n . 


7.1.1 Das Gesetz der großen Zahlen und der Hauptsatz der Statistik 

Voraussetzung: X 1 , ...,X n i.i.d. wie X ∼ F(x) mit E(X) = µ,V ar(X) = σ 2 

Zufallsvariable Arithmetisches Mittel ¯X n = 1 n (X 1 + ... + X n ) 

mit Realisierung ¯x n = 1 n (x 1 + . .. + x n ) 

Es gilt: E( ¯X n ) = µ, V ar( ¯X n ) = σ2 

n 

Beweis: 

Kurz: X 1 ,...,X n i.i.d. (independent and identically distributed) wie X ∼ F(x) 





Das Gesetz der großen Zahlen 

Für beliebig kleines c > 0 gilt 

P(| ¯X n − µ| ≤ c) −→ 1 für n −→ ∞ . 

Man sagt: ¯Xn konvergiert nach Wahrscheinlichkeit gegen µ. 

Spezialfall: X 1 , ...,X n Bernoulli-Kette 

⇒ Theorem von Bernoulli 

Die relative Häufigkeit, mit der ein Ereignis A bei n unabhängigen Wiederholungen 

eines Zufallsvorgangs eintritt, konvergiert nach Wahrscheinlichkeit gegen P(A). 

Interpretation: 





Spezialfall: A = {X ≤ x}, X beliebige Zufallsvariable 

P(A) = P(X ≤ x) = F(x), f n (A) = F n (x) empirische Verteilungsfunktion 

1.0 

F(x) 

1.0 

F(x) 

⇒ 

F n (x) −→ F(x) nach Wahrscheinlichkeit 

0.8 

0.8 

Stärkere Aussage: Hauptsatz der Statistik (Satz von Glivenko-Cantelli) 

Sei X eine Zufallsvariable mit der Verteilungsfunktion F(x). Dann gilt für die zu 

unabhängigen und identisch wie X verteilten X 1 , ...,X n gebildete Verteilungsfunktion 

F n (x) 

P(sup |F n (x) − F(x)| ≤ c) −→ 1 für n −→ ∞. 

x∈R 

0.6 

0.4 

0.2 

0.0 

x 

-3 -2 -1 0 1 2 3 

0.6 

0.4 

0.2 

0.0 

x 

-4 -2 0 2 4 

Empirische Verteilungsfunktion (—) von 100 (links) und 1000 (rechts) 

standardnormalverteilten Zufallszahlen im Vergleich mit der 

Verteilungsfunktion der Standardnormalverteilung ( ) 




7.1.2 Der zentrale Grenzwertsatz 

X beliebig verteilte Zufallsvariable mit E(X) = µ,V ar(X) = σ 2 > 0 

X 1 , ...,X n i.i.d. wie X 

⇒ E(X 1 + ... + X n ) = nµ,V ar(X 1 + . .. + X n ) = nσ 2 

Zentraler Grenzwertsatz: 

X 1 + ... + X n 

a 

∼ N(nµ, nσ 2 ) 

a 

∼ bedeutet: approximativ bzw. asymptotisch für n → ∞ verteilt wie 

Exakte Formulierung mit standardisierter Summe 


Der zentrale Grenzwertsatz 

X 1 , ...,X n seien unabhängig identisch verteilte Zufallsvariablen mit E(X i ) = µ 

und V ar(X i ) = σ 2 > 0 . 

Dann konvergiert die Verteilungsfunktion F n (z) = P(Z n ≤ z) der standardisierten 

Summe 

Z n = X 1 + ... + X n − nµ 

√ = 1 ∑ n 

X 

√ i − µ 

nσ n σ 

für n −→ ∞ an jeder Stelle z ∈ R gegen die Verteilungsfunktion Φ(z) der 

Standardnormalverteilung: 

F n (z) −→ Φ(z) . 

Kurz: 

Z n 

a 

∼ N(0, 1). 

i=1 




f(x) 

f(x) 

0.0 0.2 0.4 0.6 0.8 1.0 

0.0 0.2 0.4 0.6 0.8 1.0 

(a) 

−4 −2 0 2 4 

(c) 

x 

−4 −2 0 2 4 

x 

f(x) 

f(x) 

0.0 0.2 0.4 0.6 0.8 1.0 

(b) 

−4 −2 0 2 4 

x 

−4 −2 0 2 4 

Dichten von (a) X 1 ∼ f(x), (b) X 1 + X 2 , (c) X 1 + X 2 + 

X 3 , (d) X 1 + . . . + X 6 und approximierende Normalverteilungsdichte 

ϕ(x) 

0.0 0.2 0.4 0.6 0.8 1.0 

(d) 

x 


Spezialfall: X 1 , ...,X n i.i.d. ∼ B(1,π) ⇒ X 1 + ... + X n = H n ∼ B(n,π) 

⇒ 

Grenzwertsatz von de Moivre 

Für n −→ ∞ konvergiert die Verteilung der standardisierten absoluten Häufigkeit 

H n − nπ 

√ 

nπ(1 − π) 

gegen eine Standardnormalverteilung. Für großes n gilt 

H n 

a 

∼ N(nπ, nπ(1 − π)) , 

d.h. die B(n,π)-Verteilung läßt sich durch eine Normalverteilung mit µ = nπ, 

σ 2 = nπ(1−π) approximieren. Für die relative Häufigkeit H n /n gilt entsprechend 

H n /n a ∼ N(π, π(1 − π)/n) . 



7. Mehr über Zufallsvariablen und Verteilungen 7.2 Approximation von Verteilungen 


7.2 Approximation von Verteilungen 

Ziel: Regeln zur Approximation von komplexeren Verteilungen durch einfachere 

Verteilungen 

Theoretische Grundlage oft: Zentraler Grenzwertsatz 

Beispiel: Normalverteilungsapproximation der Binomialverteilung beruht auf Satz 

von de Moivre 

( ) 

X ∼ B(n,π) ⇒ P(X ≤ x) ∼ a x − nπ 

Φ √ 

nπ(1 − π) 

Approximation der Binomialverteilung mit Stetigkeitskorrektur 

Sei X ∼ B(n, π)-verteilt. Falls nπ und n(1 − π) groß genug sind, gilt 

P(X ≤ x) = B(x|n, π) a ∼ Φ 

P(X = x) a ∼ Φ 

Faustregel: nπ ≥ 5 , n(1 − π) ≥ 5 

( ) 

x + 0.5 − nπ 

√ 

nπ(1 − π) 

( ) ( ) 

x + 0.5 − nπ x − 0.5 − nπ 

√ − Φ √ 

nπ(1 − π) nπ(1 − π) 

Verbesserung der Approximation durch Stetigkeitskorrektur 




n = 10, π = 0.1 n = 30, π = 0.1 

0.4 

✻ 

0.24 

✻ 

0.3 

0.18 

0.2 

0.12 

0.1 

0.06 

0 

✲ 0 

. 

-3 -2 -1 0 1 2 3 4 5 6 7 

0.4 

✻ 

0.24 

0.3 

0.18 

0.2 

0.12 

0.1 

0.06 

0 

✲ 0 

. 

0 1 2 3 4 5 6 7 8 9 10 

-5 -2 1 4 7 10 13 16 19 22 25 

n = 10, π = 0.5 n = 30, π = 0.5 

✻ 

0 3 6 9 12 15 18 21 24 27 30 

Approximation von Wahrscheinlichkeitshistogrammen durch Dichtekurven der Normalverteilung 

. 

. 

✲ 

✲ 


Approximationen im Überblick 

❄ 

B(n, π) 

π = M/N 

n/N ≤ 0.05 

µ = nπ 

σ 2 = nπ(1 − π) 

nπ ≥ 5 

n(1 − π) ≥ 5 

H(n, N, M) 

❄ 

λ = nπ n > 30, π ≤ 0.05 

✲ Po(λ) 

µ = nM/N 

σ 2 = nM/N(1 − M/N) 

n/N ≤ 0.05 

nM/N ≥ 5 

n(1 − M/N) ≥ 5 

❄ 

❘ 

N(µ, σ 2 ✠ 

) 

λ = nM/N 

n/N ≤ 0.05 

n ≥ 30 

M/N ≤ 0.05 

µ = λ 

σ 2 = λ 

λ ≥ 10 

Approximationsmöglichkeiten und Reproduktionseigenschaften der Verteilungen I 





Zwei Beispiele als Anmerkung 

χ 2 (n) 

n ≥ 30 

Transformation: 

Z = √ 2X − √ 2n − 1 n ≥ 30 

✲ N(0,1) ✛ 

t(n) 

Approximationsmöglichkeiten und Reproduktionseigenschaften der Verteilungen II 

• Bernoulli-Experiment mit sich ändernder Wahrscheinlichkeit 

• Mittelwert ¯X n einer Cauchy–Verteilung. Die Dichte ist 

1 

f(x) = [ 

πs 1 + ( ) 

x−l 2 

] = 1 π 

s 

s 

s 2 + (x − l) 2 

mit Lageparameter l und Skalenparameter s. Für l = 0 und s = 1 gilt 

f(x) = 1 π 

1 

1 + x 2 





Cauchy−Verteilung 

Relative Häufigkeit 

0.0 0.1 0.2 0.3 0.4 0.5 

Bernoulli−Experiment 

Arithmetisches Mittel 

−6 −4 −2 0 2 

0 10000 20000 30000 40000 50000 

Stichprobenumfang n 

0 1000 2000 3000 4000 5000 

Stichprobenumfang n 



7. Mehr über Zufallsvariablen und Verteilungen 7.3 Zufallszahlen und Simulation 


7.3 Zufallszahlen und Simulation 

Erzeugung von (Pseudo-)Zufallszahlen am Computer ist Grundlage für Simulation 

von Zufallsvorgängen und sogenannte Monte-Carlo-Methoden. 

Grundlage: Erzeugung von Zufallszahlen x 1 , ...,x n , die sich in sehr guter Näherung 

als Realisierungen von unabhängigen, auf [0,1] gleichverteilten Zufallsvariablen 

X 1 , ...,X n auffassen lassen mit speziellen Algorithmen. 

Zufallszahlen zu anderen Verteilungen werden daraus durch Transformation gewonnen. 

Empirische Verteilungsfunktion F n (x) der Zufallszahlen x 1 , ...,x n konvergiert für 

n → ∞ gegen Verteilungsfunktion F(x) der Zufallsvariable X (Hauptsatz der 

Statistik). 

f(x) 

0.14 

0.12 

f(x) 

0.14 

0.12 

0.10 

0.10 

0.08 

0.08 

0.06 

0.06 

0.04 

0.04 

0.02 

0.02 

0.0 

0.0 

0.0 0.2 0.4 0.6 0.8 1.0 x 

0.0 0.2 0.4 0.6 0.8 1.0 x 

Empirische Häufigkeitsverteilungen beim Ziehen von n = 100 (links) 

und n = 1000 rechts auf [0,1] gleichverteilten Zufallszahlen 





Erzeugen von Zufallszahlen für andere Verteilungen 

• Bernoulli-Verteilung, X ∼ B(1,π) 

– Ziehe gleichverteilte Zufallszahlen u 1 ,...,u n 

– Setze 

{ 1 falls ui ≤ π 

x i = 

0 sonst 

⇒ x 1 , ...,x n Bernoulli-verteilte Zufallszahlen 

x = x 1 + ... + x n B(n,π)- verteilte Zufallszahl 

• Exponentialverteilung, X ∼ Ex(λ) 

Überlegung: X ∼ Ex(λ) ⇒ F(x) = P(X ≤ x) = 1 − e −λx 

Mit Umkehrfunktion F −1 (x) = − 1 λ 

log(1 − x) gilt 

F(x) = u ⇔ x = F −1 (u). 

⇒ Transformierte Zufallsvariable U = F(X) ist auf [0, 1] gleichverteilt 

Beweis: 





⇒ x i = F −1 (u i ) = − 1 λ log(1 − u i), i = 1,...,n 

exponentialverteilte Zufallszahlen 

0.8 

0.6 

f(x) 

0.8 

0.6 

f(x) 

• Allgemein: X ∼ F(x) 

⇒ U = F(X) [0, 1]−gleichverteilt 

0.4 

0.4 

0.2 

0.2 

0.0 

0 2 4 6 8 10 x 

0.0 

0 2 4 6 8 10 x 

Histogramme zu n = 100 (links) und n = 1000 (rechts) auf [0, 1] 

exponentialverteilten Zufallszahlen 




7. Mehr über Zufallsvariablen und Verteilungen 7.4 Ergänzungen 

f(x) 

0.25 

0.20 

0.15 

Zufallsvariablen als Abbildung 

7.4 Ergänzungen 

Gegeben sei ein Zufallsexperiment mit der Ergebnismenge Ω. Eine Zufallsvariable 

X ist eine Abbildung, die jedem ω ∈ Ω eine reelle Zahl X(ω) = x zuordnet, kurz 

0.10 

0.05 

X :Ω −→ R 

ω ↦→ X(ω) = x . 

0.0 

x 

-4 -3 -2 -1 0 1 2 3 4 5 6 7 8 

Dichte der N(2,2)-Verteilung, Histogramm und Dichtekurve ( ) der 

empirischen Verteilung 

Der Wert x, den X bei Durchführung des Zufallsexperiments annimmt, heißt 

Realisierung von X. 





Durch die Zufallsvariable X werden Ereignisse festgelegt, beispielsweise von der 

Art: 

wobei I ein Intervall ist. 

{X = x} = {ω ∈ Ω|X(ω) = x} , 

{X ≤ x} = {ω ∈ Ω|X(ω) ≤ x} , 

{a ≤ X ≤ b} = {ω ∈ Ω|a ≤ X(ω) ≤ b} , 

{X ∈ I} = {ω ∈ Ω|X(ω) ∈ I}, 

Verteilungsfunktionen 

Allgemeine Definition: 

Sei X eine Zufallsvariable. Die Funktion F(x), die jedem x ∈ R die Wahrscheinlichkeit 

P(X ≤ x) zuordnet, d.h. 

heißt Verteilungsfunktion von X. 

F(x) = P(X ≤ x) , 





Eigenschaften von Verteilungsfunktionen: 

Beweise: 

1. F(x) ist monoton wachsend: F(x 1 ) ≤ F(x 2 ) für x 1 < x 2 . 

2. Es gilt: limF(x) = 0 , limF(x) = 1 . 

x → −∞ x → +∞ 

3. F(x) ist rechtsseitig stetig: limF(x + h) = F(x). 

h → 0 

Mit dem linksseitigen Grenzwert limF(x − h) = F(x − ) gilt 

h → 0 

F(x) − F(x − ) = P(X = x) . 

Die Sprunghöhe F(x) − F(x − ) ist also gleich der Wahrscheinlichkeit für das 

Ereignis {X = x}. 





Ungleichung von Tschebyscheff 

Für eine Zufallsvariable X mit E(X) = µ und V ar(X) = σ 2 gelten für beliebiges 

c > 0 folgende Ungleichungen: 

P(|X − µ| ≥ c) ≤ σ2 

c 2 

und P(|X − µ| < c) ≥ 1 − σ2 

c 2 . 



8. Mehrdimensionale Zufallsvariablen 



8.1 Begriff mehrdimensionaler Zufallsvariablen 

8.2 Zweidimensionale diskrete Zufallsvariablen 

Ziele: Stochastische Analoga zu Begriffen der multivariaten deskriptiven Statistik 

(Kapitel 3), insbesondere gemeinsame und bedingte Verteilungen 

Maßzahlen für Zusammenhang (Kovarianz und Korrelation) 

Beispiele: 

8.3 Zweidimensionale stetige Zufallsvariablen 

8.4 Unabhängigkeit von Zufallsvariablen 

8.5 Kovarianz und Korrelation 

8.6 Die zweidimensionale Normalverteilung 



8. Mehrdimensionale Zufallsvariablen 8.1 Begriff mehrdimensionaler Zufallsvariablen 

8.1 Begriff mehrdimensionaler Zufallsvariablen 

Durch zufälliges Ziehen von statistischen Einheiten bei einer Stichprobe werden 

Merkmale X,Y,Z zu Zufallsvariablen. 


Beispiel: Roulette 

Annahme: Die Zahlen 0, 1, ...,37 treten je mit Wahrscheinlichkeit 1 37 auf. 

Definiere die Zufallsvariablen 

⎧ 

⎨ 

Farbe X = 

⎩ 

⎧ 

⎨ 

Typ Y = 

⎩ 

1 rote Zahl 

2 schwarze Zahl 

3 Zero 

1 gerade Zahl 

2 ungerade Zahl 

3 Zero. 

34 

31 

28 

25 

22 

19 

16 

13 

10 

7 

4 

1 

35 

32 

29 

26 

23 

20 

17 

14 

11 

8 

5 

2 

0 

36 

33 

30 

27 

24 

21 18 15 12 9 6 3 





Gemeinsame Wahrscheinlichkeitsfunktion 

Y 

P(X = i, Y = j) gerade ungerade Zero 

1 2 3 

rot 1 8/37 10/37 0 

X schwarz 2 10/37 8/37 0 

Zero 3 0 0 1/37 

Definition: Mehrdimensionale Zufallsvariablen 

Ergeben sich die Werte von Merkmalen X 1 ,X 2 , . ..,X n als Ergebnisse eines 

Zufallsvorgangs, so heißen X 1 ,X 2 , . ..,X n mehrdimensionale Zufallsvariablen. 

Neben eindimensionalen Verteilungen / Wahrscheinlichkeiten wie P(X 1 ∈ B 1 ) 

etc. interessieren nun gemeinsame Verteilungen / Wahrscheinlichkeiten, etwa 

P(X 1 ∈ B 1 ,X 2 ∈ B 2 , ...,X n ∈ B n ), 

wobei B 1 , B 2 ,...,B n z.B. Intervalle. 

Im weiteren: vor allem zweidimensionale Zufallsvariablen X,Y 



8. Mehrdimensionale Zufallsvariablen 8.2 Zweidimensionale diskrete Zufallsvariablen 


8.2 Zweidimensionale diskrete Zufallsvariablen 

X,Y diskrete Zufallsvariablen mit Wertebereich {x 1 ,x 2 , ...} bzw. {y 1 , y 2 ,...} 

Definition: Gemeinsame Wahrscheinlichkeitsfunktion 

Die Wahrscheinlichkeitsfunktion der bivariaten diskreten Zufallsvariable (X, Y ) 

ist bestimmt durch 

{ 

P(X = x, Y = y) für (x, y) ∈ {(x1 , y 

f(x,y) = 

1 ),(x 1 , y 2 ),...} 

0 sonst. 

Wir bezeichnen die Wahrscheinlichkeitsfunktion auch als (gemeinsame) diskrete 

Dichte oder (gemeinsame) Verteilung. 

Oft: X ∈ {x 1 ,...,x k },Y ∈ {y 1 , ...,y l } endlich 

Darstellung der Wahrscheinlichkeiten 

in Kontingenztabelle: 

p ij = P(X = x i , Y = y j ) = f(x i ,y j ) 

y 1 . .. y m 

x 1 p 11 . .. p 1m 

. . . 

x k p k1 . .. p km 




Darstellung durch Stabdiagramm: 


Randwahrscheinlichkeiten 

P(X = x i ) = p i· = ∑ j 

P(Y = y j ) = p·j = ∑ i 

p ij (Zeilensumme i) 

p ij (Zeilensumme j) 

Stabdiagramm zu den Zufallsvariablen “Farbe” (1: rot, 2: 

schwarz, 3: Zero) und “Zahltyp” (1: gerade, 2: ungerade, 3: 

Zero) beim Roulette 





Bedingte Wahrscheinlichkeiten 

P(X = x i |Y = y j ) = P(X=x i,Y =y j ) 

P(Y =y j ) 

P(Y = y j |X = x i ) = P(X=x i,Y =y j ) 

P(X=x i ) 

= p ij 

p·j 

i = 1, 2, ... 

= p ij 

p i· 

j = 1,2, . .. 

Bedingte Wahrscheinlichkeitsfunktion von X bzw. Y , gegeben Y = y j bzw. 

X = x i 

Beispiel: Roulette 

Y 

P(X = i, Y = j) gerade ungerade Zero 

1 2 3 

rot 1 8/37 10/37 0 18/37 o 

X schwarz 2 10/37 8/37 0 18/37 

Zero 3 0 0 1/37 1/37 

18/37 18/37 1/37 1 

| {z } 

f Y 

f X 




8. Mehrdimensionale Zufallsvariablen 8.3 Zweidimensionale stetige Zufallsvariablen 

Gemeinsame Verteilungsfunktion 

Als gemeinsame Verteilungsfunktion zu X und Y erhält man 

F(x,y) = P(X ≤ x, Y ≤ y) = ∑ ∑ 

f(x i , y j ). 

x i ≤x y j ≤y 

Randverteilungsfunktionen 

8.3 Zweidimensionale stetige Zufallsvariablen 

X und Y stetige Zufallsvariablen 

Univariat: 

P(a ≤ X ≤ b) = 

∫ b 

a 

f(x) dx 

Bivariat: 

P(a ≤ X ≤ b, c ≤ Y ≤ d) = ? 





Definition: Gemeinsame stetige Verteilung und Dichte 

Die Zufallsvariablen X und Y sind gemeinsam stetig verteilt, wenn es eine 

zweidimensionale Dichtefunktion f(x, y) ≥ 0 gibt, so daß 

P(a ≤ X ≤ b,c ≤ Y ≤ d) = 

∫ b ∫ d 

a 

c 

f(x, y) dy dx. 

0 

-2 

-1 

0 

1 

2 

3 

4 

5 

0 

-1 

-2 

1 

2 

3 

4 

5 

6 

Form einer zweidimensionalen Dichte f(x, y) 




Definition: Randdichte 

Die Randdichte von X ist gegeben durch 

f X (x) = 

die Randdichte von Y durch 

f Y (y) = 

∫ ∞ 

−∞ 

∫ ∞ 

−∞ 

f(x, y) dy, 

f(x,y) dx. 


Definition: Bedingte Dichte 

Die bedingte Dichte von Y unter der Bedingung X = x, kurz Y |X = x, ist für 

festen Wert x und f X (x) ≠ 0 bestimmt durch 

f Y (y|x) = 

f(x, y) 

f X (x) . 

Für f X (x) = 0 legt man f Y (y|x) = 0 fest. 

Die bedingte Dichte von X unter der Bedingung Y = y, kurz X|Y = y, ist für 

festen Wert y und f Y (y) ≠ 0 bestimmt durch 

f X (x|y) = 

f(x, y) 

f Y (y) . 

Für f Y (y) = 0 legt man f X (x|y) = 0 fest. 




Definition: Gemeinsame Verteilungsfunktion 

Die gemeinsame Verteilungsfunktion zu (X,Y ) erhält man aus 

8. Mehrdimensionale Zufallsvariablen 8.4 Unabhängigkeit von Zufallsvariablen 

8.4 Unabhängigkeit von Zufallsvariablen 

Zunächst für diskrete Zufallsvariablen X, Y : 

Definition: X und Y unabhängig, wenn für alle Wertepaare (x i , y i ) 

F(x, y) = P(X ≤ x, Y ≤ y) = 

∫ x ∫ y 

−∞ −∞ 

f(u,v) dv du. 

P(X = x i , Y = y j ) = P(X = x i ) · P(Y = y j ) 

f(x, y) = f X (x) · f Y (y) 

für alle x, y ∈ {(x i , y j ),i, j = 1,2, ...} 

Für endliche Zufallsvariablen X,Y mit Wertetabelle (p ij ): 

p ij = p i· · p·j für alle (i, j). 

bzw. 




Äquivalente Definition: 

Bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = 

Rand-Wahrscheinlichkeitsfunktion von X 

Bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = 

Rand-Wahrscheinlichkeitsfunktion von Y 


Für stetige Zufallsvariablen X, Y : Übertragung der Definition für Wahrscheinlichkeitsfunktionen 

auf Dichten 

Definition: X und Y unabhängig, wenn für alle (x, y) gilt: 

Bemerkung: Äquivalent dazu ist 

f(x,y) = f X (x)f Y (y) 

⇔ f X (x|y) = f X (x) ⇔ f Y (y|x) = f Y (y) 

P(X ∈ A, Y ∈ B) = P(X ∈ A) · P(Y ∈ A) 

für beliebige Intervalle A,B. Speziell 

P(X ≤ x, Y ≤ y) = P(X ≤ x) · P(Y ≤ y) 




8. Mehrdimensionale Zufallsvariablen 8.5 Kovarianz und Korrelation 

8.5 Kovarianz und Korrelation 

E(X) = µ X , E(Y ) = µ Y ; V ar(X) = σX 2 ,V ar(Y ) = σ2 Y 

X und Y definiert, z.B. 

wie bisher separat für 

Verallgemeinerung für n > 2 Zufallsvariablen: 

Die Zufallsvariablen X 1 , ...,X n heißen unabhängig, wenn für alle x 1 ,...,x n gilt 

P(X 1 ≤ x 1 ,...,X n ≤ x n ) = P(X 1 ≤ x n ) · . .. · P(X n ≤ x n ). 

Äquivalent dazu ist die Produktbedingung 

f(x 1 ,...,x n ) = f X1 (x 1 ) · . .. · f Xn (x n ), 

wobei f(x 1 ,...,x n ) die gemeinsame Dichte von X 1 , ...,X n und f Xi (x i ) die 

Dichte der Zufallsvariable X i bezeichnen (i = 1,...,n). 

µ X = ∑ x i p i·, σ 2 X = ∑ (x i − µ X ) 2 p i· 

= ∑ x i f X (x i ), = ∑ (x i − µ X ) 2 f X (x i ) 

∫ 

∫ 

bzw. µ X = xf X (x) dx, σX 2 = (x − µ X ) 2 f X (x) dx 

• Kovarianz und Korrelation wichtigste Maßzahlen für Zusammenhang zwischen 

X und Y . 

• Definition in Analogie zu empirischer Kovarianz und empirischer Korrelation 

aus Kapitel 3. 





Definition: Kovarianz Cov(X, Y ) zwischen X und Y 

• X,Y diskret: 

Cov(X, Y ) = ∑ i 

∑ 

j 

(x i − µ X )(y j − µ Y ) f(x i ,y j ) 

} {{ } 

p ij 

Bemerkung: 

Für diskrete Zufallsvariablen völlige Analogie zu empirischer Kovarianz: 

µ X = ¯x, µ Y = ȳ, f ij = p ij 

Auch Interpretation analog. 

• X,Y stetig: ∑ −→ ∫ 

∫ ∫ 

Cov(X, Y ) = 

(x − µ X )(y − µ Y )f(x, y) dy dx 

Für stetige Zufallsvariablen werden entsprechende Beiträge 

(x − µ X )(y − µ Y )f(x, y) aufintegriert statt aufsummiert. 





Zusammenfassende Definition: 

Die Kovarianz der Zufallsvariablen X und Y ist bestimmt durch 

Cov(X, Y ) = E([X − E(X)][Y − E(Y )]). 

Eigenschaften: 

• Verschiebungssatz: 

• Symmetrie 

Cov(X, Y ) = E(XY ) − E(X) · E(Y ) 

Cov(X, Y ) = Cov(Y, X) 

• Lineare Transformation 

Die Kovarianz der transformierten Zufallsvariablen ˜X = a X X + b X , 

Ỹ = a Y Y + b Y ist bestimmt durch 

Cov( ˜X, Ỹ ) = a X a Y Cov(X, Y ) . 





Bemerkungen: 

Beispiel: 




Definition: Korrelationskoeffizient ρ 

Eigenschaften: 

ρ = ρ(X,Y ) = 

1. −1 ≤ ρ(X, Y ) ≤ 1 

Cov(X, Y ) 

√ 

V ar(X) 

√ 

V ar(Y ) 

= Cov(X, Y ) 

σ X σ Y 

. 

2. ρ(X,Y ) = ±1 ⇔ Y = aX + b mit a > 0 bzw. a < 0 

3. Maßstabsunabhänigigkeit gegenüber linearer Transformation 

˜X = a X X + b X , Ỹ = a Y Y + b Y mit a X ≠ 0, a Y ≠ 0 

⇒ ρ( ˜X,Ỹ ) = a Xa Y 

|a X ||a Y | ρ(X,Y ) 


Definition: Unkorreliertheit 

Zwei Zufallsvariablen X und Y heißen unkorreliert, wenn gilt 

ρ(X,Y ) = 0. 

Wenn ρ(X,Y ) ≠ 0 gilt, heißen sie korreliert. 

Sind zwei Zufallsvariablen unabhängig, so sind sie auch unkorreliert, d.h. es gilt 

ρ(X,Y ) = 0. 

Bemerkung: 

• X,Y unabhängig ⇒ E(X · Y ) = E(X) · E(Y ) 

Verschiebungssatz ⇒ Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = 0 

• Umkehrung “X,Y unkorreliert ⇒ X,Y unabhängig” im allgemeinen falsch! 

Ausnahme: X,Y gemeinsam normalverteilt 





Varianz der Summe von Zufallszahlen 

V ar(X 1 + X 2 ) = V ar(X 1 ) + V ar(X 2 ) + 2Cov(X 1 , X 2 ). 

Beispiel: Portfolio-Analyse 

V ar(a 1 X 1 + ... + a n X n ) = a 2 1V ar(X 1 ) + · · · + a 2 nV ar(X n ) 

+ 2a 1 a 2 Cov(X 1 ,X 2 ) + 2a 1 a 3 Cov(X 1 ,X 3 ) + ... 

n∑ 

= a 2 iV ar(X i ) + 2 ∑ a i a j Cov(X i ,X j ). 

i=1 i


8. Mehrdimensionale Zufallsvariablen 8.6 Die zweidimensionale Normalverteilung 

8.6 Die zweidimensionale Normalverteilung 

Erinnerung: Eindimensionale Normalverteilung 

{ 

f(x) = √ 1 exp − 1 2πσ 2 

( ) } 2 x − µ 

, µ = E(X), σ 2 = V ar(X) 

σ 





Parameter für zweidimensionale Normalverteilung: 

µ 1 =E(X) Erwartungswert von X 

µ 2 =E(Y ) Erwartungswert von Y 

σ 2 1 =V ar(X) 

σ 2 2 =V ar(Y ) 

ρ = Cov(X, Y ) 

σ 1 σ 2 

Varianz von X 

Varianz von Y 

Korrelation zwischen X und Y 

Definition: Zweidimensionale Normalverteilung 

Die Zufallsvariablen X und Y heißen gemeinsam normalverteilt, wenn die Dichte 

bestimmt ist durch 

1 

f(x, y) = p 

2πσ 1 σ 2 1 − ρ 

2 

( 

" „x « 

1 − 2 „ « „ « „ « 

µ1 x − µ1 y − µ2 y − 

2 

#) 

µ2 

× exp − 

− 2ρ 

+ 

2(1 − ρ 2 ) 

σ 1 σ 2 σ 2 

σ 1 





0.2 

0.2 

0.1 

0.1 

0.2 

0.2 

3 

2 

1 

0 

0 

-2 

-1 

-1 

0 

-2 

1 

2 

3 

Zweidimensionale Normalverteilungsdichte für 

unkorrelierte Merkmale, ρ = 0, mit 

µ 1 = µ 2 = 0, σ 1 = σ 2 = 1.0 

3 

2 

1 

0 

0 

-2 

-1 

-1 

0 

-2 

1 

2 

3 

Zweidimensionale Normalverteilungsdichte für 

unkorrelierte Merkmale, ρ = 0, mit 

µ 1 = µ 2 = 0, σ 1 = 1.5, σ 2 = 1.0 

0.1 

2 

1 

0 

0 

-2 

-1 

-1 

0 

-2 

1 

2 

3 

Zweidimensionale Normalverteilungsdichte, 

ρ = 0.8, µ 1 = µ 2 = 0, σ 1 = σ 2 = 1.0 

3 

0.1 

3 

2 

1 

0 

0 

-2 

-1 

-1 

0 

-2 

1 

2 

3 

Zweidimensionale Normalverteilungsdichte, 

ρ = −0.8, µ 1 = µ 2 = 0, σ 1 = σ 2 = 1.0 





Unabhängigkeit und Korrelation bei normalverteilten Zufallsvariablen 

Mehrdimensionale Zufallsvariablen in Matrixnotation 

Für gemeinsam normalverteilte Zufallsvariablen X und Y gilt: 

X und Y sind unabhängig genau dann, wenn sie unkorreliert sind. 

Beweis: 




9. Schätzen 

9. Schätzen 

Induktive Statistik 

Schlüsse von einer Stichprobe oder von Daten aus einem Zufallsvorgang auf eine 

zugrundeliegende Grundgesamtheit oder Gesetzmäßigkeit mit Hilfe von Stochastik 

Zentrale Konzepte 

• Schätzen von Parametern und Verteilungen 

• Testen von Hypothesen 



9. Schätzen 

Inhalt von Kapitel 9 

9. Schätzen 9.1 Zufällige Stichproben 

9.1 Zufällige Stichproben 

9.1 Stichproben 

9.2 Schätzer und ihre Eigenschaften 

9.3 Konstruktion von Schätzfunktionen 

9.4 Konfidenzintervalle 

9.5 Nichtparametrische Dichteschätzung 

Wir unterscheiden 

• Zufällige Stichproben (Definition folgt) 

• Nichtzufällige Stichproben, wie zum Beispiel Auswahl aufs Geratewohl, Quotenverfahren, 

typische Fälle (Medizin) 

Nur zufällige Stichproben ermöglichen Rückschlüsse durch Wahrscheinlichkeitsaussagen 





9.1.1 Grundbegriffe 

X Merkmal bzw. Zufallsvariable 

Grundsätzlich zwei Typen von “Stichproben”: 

Fall A: 

G konkrete (endliche) Grundgesamtheit mit N Elementen; daraus werden n Elemente 

zufällig gezogen. 

X i 

ist die Zufallsvariable, die angibt, welchen Wert von X das i-te Element 

in der Auswahl (Stichprobe) haben wird, i = 1, ...,n. 

Situation vor der Ziehung. 

x i beobachteter Wert von X beim i-ten Element, d.h. Realisierung von X i . 

Situation nach der Ziehung. 

Fall B: 

Ein Zufallsvorgang wird n-mal wiederholt. 

X i ist die Zufallsvariable, die angibt, welchen Wert X beim i-ten 

Versuch annehmen wird. 

Situation vor Durchführung des Zufallsvorgangs. 

x i der beim i-ten Versuch beobachtete Wert von X. 

Situation nach Durchführung des Zufallsvorgangs. 

In beiden Fällen: 

X 1 ,...,X n Stichprobenvariablen für X 

x 1 ,...,x n Stichprobenwerte oder (beobachtete) Stichprobe 

n Stichprobenumfang 





Situation in induktiver Statistik 

Verteilung von X nicht oder nicht vollständig bekannt. 

Ziel: Schätzen der Verteilung oder von Parametern der Verteilung. 

Fall A: Verteilung gleich der Verteilung von X in Grundgesamtheit, 

kurz: Verteilung der Grundgesamtheit 

Fall B: Verteilung der Zufallsvariable 

Im Fall A: 

G = {1, ...,j, ...,N}, 

ξ j Ausprägung (Wert) des Merkmals X für j ∈ G. 

Häufigkeitsverteilung von X in G: 

F G (x) = 1 N [ Anzahl der Elemente j mit ξ j ≤ x] 

= empirische Verteilung zu ξ 1 , ...,ξ j , ...,ξ N 

= diskrete Verteilung 





Bei großem N betrachtet man oft eine Modellverteilung für X, mit Verteilungsfunktion 

F(x). Im Sinne eines Modells stimmt F im allgemeinen nicht exakt, 

sondern nur approximativ mit F G überein: 

F(x) ≈ F G (x) 

Falls Abweichung vernachlässigbar: Es wird 

gesetzt. 

F(x) ! = F G (x) 

⇒ Für Fall A bzw. B: 

“Verteilung von X” und “Verteilung der Grundgesamtheit” identisch 

⇒ Für Fall A: 

E(X) = µ = 1 N 

N∑ 

ξ j = ¯ξ 

j=1 

V ar(X) = σ 2 = 1 N 

N∑ 

(ξ j − ¯ξ) 2 

j=1 

Für Fall B: 

µ,σ 2 lassen sich nur als Verteilungsparameter von X auffassen 




Spezialfall: X dichotom (binär) 

Fall B: 

Fall A: 

j = 1, ...,N. 

ξ j = 

X = 

{ 

1, A tritt ein 

0, Ā tritt ein 

π = P(X = 1) = P(A), 

µ = π, σ 2 = π(1 − π) 

X ∼ B(1,π) 

{ 

1, Element j ∈ G hat Eigenschaft A 

0, Element j ∈ G hat Eigenschaft A nicht , 

µ = π = 1 N 

N∑ 

j=1 

ξ j 


⇒ 

N∑ 

(ξ j − π) 2 = 

j=1 

= 

N∑ N∑ 

ξj 2 − 2π 

j=1 

N∑ 

j=1 

ξ j 

} {{ } 

Nπ 

j=1 

ξ j + Nπ 2 ξ2 j =ξ j 

= 

−2πNπ + Nπ 2 = 

= Nπ − Nπ 2 = Nπ(1 − π) 

⇒ σ 2 = V ar(X) = π(1 − π) = 1 N 

Also: A und B passen für µ, σ 2 exakt zusammen. 

N∑ 

(ξ j − π) 2 

j=1 





Identisch und/oder unabhängig verteilte Stichproben 

• Stichprobe heißt identisch verteilt oder einfach: 

⇔ Stichprobenvariablen X 1 , ...,X n sind identisch wie X verteilt 

• Stichprobe heißt unabhängig: ⇔ X 1 , ...,X n unabhängig 

• X 1 ,...,X n u.i.v./i.i.d. wie X verteilt: 

⇔ Stichprobe identisch und unabhängig verteilt (independent and identically 

distributed) 

• Fall B: Wird Zufallsvorgang für X n-mal unabhängig wiederholt 

⇒ X 1 ,...,X n i.i.d. wie X ∼ F(x) 

• Fall A: Ob eine einfache und/oder unabhängige Stichprobe vorliegt, hängt vom 

Auswahlverfahren ab, siehe 9.1.2. 

• In jedem Fall gilt: Falls ohne Zurücklegen gezogen wird, sind X 1 , ...,X n 

voneinander abhängig. Bei Ziehen mit Zurücklegen: “X 1 ,...,X n unabhängig” 

ist sinnvolle Annahme (vgl. Urnenmodell). 




9.1.2 Rein zufällige Stichproben aus endlichen Grundgesamtheiten 

Erinnerung: Nur Zufallsstichproben erlauben induktive Schlüsse mit Wahrscheinlichkeitstheorie 

Einige nichtzufällige Stichproben: 

Auswahl aufs Geratewohl, “Experten”-Auswahl, Quotenverfahren,.. . 

Reine (oder uneingeschränkte) Zufallsstichprobe mit Zurücklegen: ⇔ 

• Einzelne Ziehungen sind voneinander unabhängig. 

• Jedes Element hat bei jeder Ziehung dieselbe Wahrscheinlichkeit 1 N gezogen 

zu werden. 

Es gilt: Eine reine Zufallsstichprobe mit Zurücklegen ist eine identisch und 

unabhängig verteilte Stichprobe, d.h. X 1 , ...,X n i.i.d. wie X. 


Beweis: Sei F G (x) die Verteilungsfunktion von X in G. 

a) Zu zeigen: P(X i ≤ x) = F G (x) 

Sei G x = {j ∈ G : ξ j ≤ x}. 

{ 

1, falls j ∈ G beim i-ten Zug gezogen wird 

Z ji = 

0, sonst 

P(Z ji = 1) = 1 N , 

dann ist 

P(X i ≤ x) = ∑ 

P(Z ji = 1) = [ Anzahl der Elemente von G x ] · 1 

N = 

j∈G x 

= F G (x). 

b) Unabhängigkeit der X i folgt aus Unabhängigkeit der Ziehung. 




Reine Zufallsstichprobe ohne Zurücklegen: ⇔ 

• n-mal ohne Zurücklegen ziehen 

• Falls nacheinander gezogen wird, hat nach jeder Ziehung eines Elements jedes 

noch in der Grundgesamtheit vorhandene Element die gleiche Wahrscheinlichkeit 

als nächstes Element gezogen zu werden. Beim i-ten Zug ist diese 

Wahrscheinlichkeit 

1 

, i = 1, ...,n. 

N − (i − 1) 

Äquivalent dazu ist: Jede Teilmenge von n Elementen aus G hat die gleiche 

Wahrscheinlichkeit, als Stichprobe aufzutreten, also ( N 

n) −1. 


Folgerungen aus der Definition: 

1. Für jedes Element aus G ist die Wahrscheinlichkeit, in die Stichprobe 

zu gelangen (also bei n Ziehungen ausgewählt zu werden) gleich 

n 

N 

(“Auswahlsatz”). 

2. Vor Beginn der Ziehungen ist für jedes Element aus G die Wahrscheinlichkeit, 

genau beim i-ten Zug gewählt zu werden gleich 

1 

N . 

3. X 1 ,...,X n sind identisch wie X verteilt, d.h. eine reine Zufallsstichprobe 

ohne Zurücklegen ist eine identisch verteilte Stichprobe. 




“Beweise:” 

2. ⇒ 3.: Wie bei Ziehen mit Zurücklegen 

1. ⇒ 2.: Innerhalb einer Stichprobe ohne Zurücklegen ist die Auswahl der 

ersten i Elemente ebenfalls eine reine Zufallsauswahl vom Umfang i 

Sei A ji “Element j ∈ G wird genau bei i-ten Zug gewählt”, 

B ji “Element j ∈ G wird innerhalb der ersten i Züge gewählt”. 


Auswahltechniken: 

• Zufallszahlen am Rechner 

• Weitere Techniken in Vorlesung “Stichproben” 

P(A ji ) = P(B ji ) − P(B j(i−1) ) = 1. i N − i − 1 

N 

= 1 N 

Beweis von 1.: Kombinatorik 

) 

P(...) = 

( N−1 

n−1 

( N 

n 

) = n N 




Wie schätzt man µ = 1 N 

Naheliegend durch 

N∑ 

ξ j = E(X)? 

j=1 

¯x = 1 n (x 1 + ... + x n ) arithmetisches Mittel der Stichprobenwerte. 

Dazu gehört die Zufallsvariable 

¯X = 1 n (X 1 + ... + X n ). 


Beim Ziehen mit Zurücklegen 

V ar( ¯X m ) = 1 n 2 · nσ2 = σ2 

n , da X 1,...,X n unabhängig. 

Aber: beim Ziehen ohne Zurücklegen 

V ar( ¯X o ) =? 

Beim Ziehen mit und ohne Zurücklegen gilt 

E( ¯X) = 1 n (E(X } {{ 1) + ... + E(X 

} 

n )) = nµ } {{ } n = µ. 

=µ =µ 




9.1.3 Geschichtete Stichproben 

G in k Schichten G 1 ,...,G j ,...,G k zerlegt: 

Dann: Reine Zufallsstichprobe ohne bzw. mit Zurücklegen separat in jeder Schicht. 

Fragestellungen: 

• Wie wählt man Schichten? 

“Schichten in sich möglichst homogen, untereinander möglichst heterogen bzgl. 

der x-Werte” → Vorlesung “Stichproben” 

• Wie wählt man Stichprobenumfänge n j in den Schichten G j , j = 1, ...,k? 

• Wie schätzt man µ? 


• Notationen 

N j = Anzahl der Elemente der j-ten Schicht in der Grundgesamtheit 

(Umfang der Schicht j) 

ξ ji = Wert von X, den das i-te Element in der j-ten Schicht besitzt 

N 

µ j = 1 ∑ j 

N j 

ξ ji = Mittelwert der j-ten Schicht 

i=1 

N 

σj 2 = 1 ∑ j 

N j 

(ξ ji − µ j ) 2 = Varianz der j-ten Schicht 

n j 

i=1 

= Umfang der aus der j-ten Schicht gezogenen reinen Zufallsstichprobe 

⇒ N = N 1 + ... + N k , n = n 1 + . .. + n k 

µ = 1 N 

k∑ 

N j ∑ 

j=1 i=1 

ξ ji = 1 N 

k∑ 

N j µ j 

j=1 




Sei X j1 , . ..,X jnj Teilstichprobe aus j-ter Schicht G j . 

Schätzung für µ ist gewichtetes Stichprobenmittel 

¯X = 1 N 

k∑ 

N j ¯X j 

j=1 


• Frage: Wie legt man n 1 , ...,n k fest? 

Im wesentlichen zwei Varianten: Proportionale oder optimale Aufteilung 

• Proportional geschichtete Stichprobe 

Auswahlsatz n j 

N j 

in jeder Schicht gleich groß, d.h. 

n 1 

N 1 

= n 2 

N 2 

= ... = n k 

N k 

n 

mit ¯X j = 1 ∑ j 

n j 

i=1 

X ji . 

⇒ n j = n N N j 

bzw. 

n j 

n = N j 

N 

• Schätzung ¯X prop 

¯X prop = 1 N 

k∑ 

N j ¯Xj = 1 N 

j=1 

k∑ 

j=1 

N j · 1 ∑ 

n j 

X ji = 1 n j n 

i=1 

k∑ 

j=1 

∑ 

n j 

X ji 

i=1 





⇒ ¯Xprop ungewichtetes Stichprobenmittel 

In einer geschichteten Stichprobe kann in den Schichten mit oder ohne Zurücklegen 

gezogen werden. 

In beiden Fällen gilt: 

Eine proportional geschichtete Stichprobe stellt eine gleichgewichtete, aber 

keine reine Zufallsstichprobe dar. 

Gleichgewichtet heißt: Vor Beginn der Ziehungen hat jedes Element die gleiche 

Wahrscheinlichkeit, in die Stichprobe zu gelangen. 

• Optimal geschichtete Stichprobe: “Stichproben-Theorie” 

Klumpen-(Cluster-)Stichproben 

G in Klumpen (Cluster) zerlegt 

Klumpen in sich möglichst heterogen, 

untereinander möglichst homogen. 

D.h.: Jeder Klumpen möglichst repräsentativ 

für G. 

Aus M Klumpen werden m Klumpen durch reine Zufallsauswahl gewählt. Dann 

Totalerhebungen in den ausgewählten Klumpen. 





Schätzen von µ: 

Zweistufige Zufallsauswahl 

Y i Summe der x-Werte aller Elemente aus Klumpen i 

⇒ Ŷ = M m 

m∑ 

i=1 

Y i 

Schätzung für Gesamtsumme der x-Werte in G 

⇒ ¯X km = 1 N Ŷ = 1 N 

M 

m 

m∑ 

Y i Schätzung für µ 

i=1 



9. Schätzen 9.2 Schätzer für Parameter und ihre Eigenschaften 


9.2 Schätzer für Parameter und ihre Eigenschaften 

Generelle Notation 

Beispiel 

9.2.1 Problemstellung/Definitionen 

X Merkmal bzw. Zufallsvariable 

Parameter: 

• Kennwerte einer (unbekannten) Verteilung, z.B. 

E(X),V ar(X), Median, ρ(X,Y ), ... 

• (unbekannte) Parameter eines Verteilungstyps, z.B. 

λ bei Po(λ); µ, σ 2 bei N(µ,σ 2 ); π bei B(n,π), . .. 

X ∼ F(x|θ) 

θ = µ = E(X) 

θ unbekannter Parameter(-vektor) X ∼ N(µ, σ 2 ),θ = (µ,σ 2 ) 

θ ∈ Θ Parameterraum Θ = R bzw. Θ = R × R + 

Gesucht: Schätzer bzw. Schätzwert für 

θ : ˆθ ≡ t = g(x1 , ...,x n ) µ : ¯x = 1 n (x 1 + . . . + x n ) 

σ 2 : s 2 = 1 ∑ n 

n−1 i=1 (x i − ¯x) 2 

X 1 , ...,X n Stichprobenvariablen, hier: i.i.d. wie X 

x 1 , ...,x n Stichprobenwerte 




Definition: Schätzer (Schätzfunktion, Schätzstatistik) 

Zufallsvariable T = g(X 1 ,...,X n ) 

(Deterministische) Funktion der Stichprobenvariablen X 1 ,...,X n heißt Schätzer. 

Schätzwert t = g(x 1 ,...,x n ) ist Realisierung von T in der Stichprobe. 

Beispiele für Schätzer/Schätzwerte 

• Arithmetisches Mittel 


• Spezialfall: X binär 

P(X = 1) = π = E(X), P(X = 0) = 1 − π 

¯X = 1 n (X 1 + . .. + X n ) = H für π = E(X), 

n 

wobei H die absolute Häufigkeit von Einsen in der Stichprobe ist. 

¯X = 1 n (X 1 + . .. + X n ) 

Schätzer für µ = E(X) 

¯X = H n 

relative Häufigkeit 

¯x = 1 n (x 1 + . .. + x n ) 

Schätzwert für µ = E(X) 





• Stichprobenvarianz 

S 2 = 1 

n − 1 

• Oder: Empirische Varianz 

n∑ 

(X i − ¯X) 2 für σ 2 = V ar(X) 

i=1 

˜S 2 = 1 n 

n∑ 

(X i − ¯X) 2 

i=1 

Frage: Wie “gut” sind solche Schätzer ? ⇒ 9.2.2 - 9.2.4 

Beispiel: ¯X Schätzer für µ = E(X) 

9.2.2 Erwartungstreue 

X Zufallsvariable mit µ = E(X); X 1 , ...,X n i.i.d. wie X. 

µ unbekannter, aber fester Wert 

⇒ E( ¯X) = E( 1 n (X 1 + . .. + X n )) = 1 n (E(X } {{ 1) + ... + E(X 

} 

n )) = µ 

} {{ } 

µ 

µ 

Also: Unabhängig davon, welchen wahren (aber unbekannten) Wert µ tatsächlich 

besitzt, gilt 

E( ¯X) = µ . 

D.h.: Der erwartete Wert von ¯X, in objektiver oder subjektiver Interpretation, ist 

µ. Damit: 

Keine systematische “Verzerrung” beim Schätzen. 





Definition: Erwartungstreue und Verzerrung 

Interpretation: 

• T = g(X 1 , ...,X n ) heißt erwartungstreu (unverzerrt) für θ:⇔ 

E(T) = θ 

für alle θ ∈ Θ 

• T heißt verzerrt:⇔ 

E(T) ≠ θ 

E(T) − θ heißt Verzerrung (Bias). 

• T = g(X 1 , ...,X n ) heißt asymptotisch erwartungstreu:⇔ 

lim E(T) = θ 

n→∞ 





Beispiele: 

• E( ¯X) = µ, d.h. ¯X für µ unverzerrt 

• H n 

für π unverzerrt 

• E(˜S 2 ) = E( 1 n 

⇒ ˜S 2 verzerrt 

∑i (X i − ¯X) 2 ) = n−1 

n σ2 

Bias(˜S 2 ) = E(˜S 2 ) − σ 2 = n−1 

n σ2 − σ 2 = − σ2 

n 

˜S 2 asymptotisch ewartungstreu, da Verzerrung − σ2 

n → 0 für n → ∞ 

Beweise zu Erwartungstreue/Bias von Schätzern für σ 2 = V ar(X) 

a) µ = E(X) sei bekannt. 

[ ] 

n∑ 

1 

⇒ E (X i − µ) 2 ↓ 

n 

i=1 

Linearität von E 

= 1 n 

i=1 

b) µ unbekannt; durch ¯X geschätzt 

⇒ ˜S 

n∑ 

2 = 1 n 

(X i − ¯X) 2 , aber E[˜S 2 ] = n−1 

i=1 

⇒ ˜S 2 verzerrt! 

n∑ 

E [ (X i − µ) 2] = 1 

} {{ } n · nσ2 = σ 2 

V ar(X i )=σ 2 

n σ2 

• E(S 2 ) = σ 2 , 

S 2 unverzerrt 





Beweis zu b): 

1 

n 

= 1 n 

= 1 n 

= 1 n 

n∑ 

(X i − ¯X) 2 = 1 n 

i=1 

n∑ 

(X i − µ + µ − ¯X) 2 = 

↓ 

i=1 

n∑ 

(X i − µ) 2 + 2 n (µ − ¯X) · 

i=1 

i=1 

ausquadrieren 

n∑ 

(X i − µ) + 1 n n( ¯X − µ) 2 = 

i=1 

n∑ 

(X i − µ) 2 − 2 n ( ¯X − µ) · ( ¯X − µ) · n + ( ¯X − µ) 2 = 

↑ P X i =n ¯X 

n∑ 

(X i − µ) 2 − ( ¯X − µ) 2 

i=1 

E 

c) S 2 = 1 

[ 

1 

n 

] 

n∑ 

(X i − ¯X) 2 = E 

i=1 

n−1 

i=1 

n∑ 

(X i − ¯X) 2 = n 

[ 

1 

n 

] 

n∑ 

(X i − µ) 2 −E( ¯X − µ) 

} {{ } 

2 = 

i=1 

} {{ } 

siehe a) 

= σ 2 − σ2 

n = n − 1 

n 

n−1 · 1 

n 

i=1 

σ2 

n∑ 

(X i − ¯X) 2 = n 

E(S 2 ) = E( n ˜S 2 n−1 

) = n 

n−1 · E(˜S 2 ) = 

} {{ } 

n 

n−1 · n−1 

n σ2 = σ 2 

siehe a) 

S 2 unverzerrter Schätzer für σ 2 

V ar( 

n−1 ˜S 2 

¯X)= σ2 

n 




9.2.3 Varianz, MSE und Konsistenz 

Neben E(T) − θ ist auch V ar(T), d.h. die Varianz bzw. “Ungenauigkeit” des 

Schätzers ein Maß für die Güte von T. 


Definition: Varianz und Standardabweichung eines Schätzers 

Bemerkung: 

T = g(X 1 ,...,X n ) Schätzer 

V ar(T) = V ar{g(X 1 ,...,X n )} Varianz von T 

σ T = + √ V ar(T) Standardabweichung von T 

Exakte analytische Formeln nur in einfachen Fällen angebbar; oft Approximation 

für großes n. 

Beispiel: ¯X 

σ 2¯X = V ar( ¯X) = σ2 

n , σ2 = V ar(X), σ 2 aber unbekannt 

√ 

n∑ 

Schätzer: ˆσ ¯X = √ S n 

= √ 1 1 

n 

(X i − ¯X) 2 

n−1 

i=1 





Definition: Erwartete quadratische Abweichung, Mean Square Error 

Bemerkung: 

MSE(T) = E{(T − θ) 2 } = V ar(T) + (Bias(T) 2 ) 

Der Mean Square Error MSE(T) fasst als Erwartungswert der quadratischen 

Abweichung (T − θ) 2 des Schätzers T vom zu schätzenden Parameter θ die 

Varianz und die quadrierte Verzerrung in einem gemeinsamen Gütekriterium für 

T zusammen. 

Beweis der zweiten Gleichung: 

Definition: Konsistenz 

• T heißt (MSE-)konsistent für θ :⇔ MSE(T) → 0 für n → ∞ 

• T heißt (schwach) konsistenz für θ :⇔ P(|T − θ| < ǫ) → 1 ∀ǫ > 0 und für 

n → ∞ 

Bemerkungen: 

• Damit MSE(T) = V ar(T) + (Bias(T)) 2 → 0 geht, muss V ar(T) → 0 und 

Bias(T) → 0 gelten. 

• Aus MSE-Konsistenz folgt schwache Konsistenz mit Hilfe des Satzes von 

Tschebyscheff. 





Beispiele 

• MSE( ¯X) = σ2 

n 

2 

+ (Bias( ¯X)) = 

} {{ } 

σ2 

n → 0 für n → ∞ 

=0 

Annahme: X 1 , ...,X n iid N(µ,σ 2 ). Dann gilt: 

• MSE(S 2 ) = 

• MSE(˜S 2 ) = 

Herleitung: 





−−− S 2 − − − S ~2 

0.0 0.5 1.0 1.5 2.0 

5 10 15 20 25 30 

Stichprobenumgang n 




Beispiel: Bernoulli–Verteilung 






−−− X − − − p_M ... p_G 

0.000 0.005 0.010 0.015 0.020 0.025 

−−− X − − − p_M ... p_G 

0.000 0.002 0.004 0.006 0.008 

0.0 0.2 0.4 0.6 0.8 1.0 

Stichprobenumgang n=10 

0.0 0.2 0.4 0.6 0.8 1.0 






9.2.4 Effiziente (oder “wirksamste”) Schätzstatistiken 

MSE(T) Maß für Güte von T 

−−− X − − − p_M ... p_G 

0.0000 0.0002 0.0004 0.0006 0.0008 0.0010 0.0012 

V ar(T) Maß für Varianz von T 

⇒ Man kann zwei Schätzer T 1 ,T 2 bzgl. MSE (oder auch V ar) vergleichen. 

Definition: T 1 (MSE-)effizienter als T 2 :⇔ 

MSE(T 1 ) ≤ MSE(T 2 ) 

Bei erwartungstreuen Schätzern T 1 , T 2 : 

Bias(T 1 ) = Bias(T 2 ) = 0 ⇒ MSE(T i ) = V ar(T i ), i = 1, 2 

⇒ T 1 effizienter als T 2 ⇔ V ar(T 1 ) ≤ V ar(T 2 ) 

0.0 0.2 0.4 0.6 0.8 1.0 





9. Schätzen 9.3 Konstruktion von Schätzfunktionen 

Definition: 

Ist ein Schätzer T besser als alle zur “Konkurrenz” zugelassenen anderen Schätzer 

˜T, so heißt T (MSE-)effizient für θ. 

Ziel: 

9.3 Konstruktion von Schätzfunktionen 

Einführung in generelle Ansätze/Konzepte, wie man Schätzer insbesondere 

auch in komplexeren Nicht-Standardsituationen findet bzw. konstruiert 

und berechnet. 

Beispiele: 

• ¯X für µ, unter allen erwartungstreuen Schätzern für µ. 

• ¯X für µ, falls X normalverteilt ist; 

alternative Schätzer dürfen dann auch verzerrt sein! 

Konzepte/Methoden: 

• Maximum-Likelihood-Schätzung 

• Kleinste-Quadrate-Schätzung 

• Bayes-Schätzung 

• Momenten-Methode 

Schwerpunkt: Maximum-Likelihood-Methode 




9.3.1 Maximum-Likelihood-Schätzung 

Voraussetzung hier: 

Stichprobenvariablen X 1 , ...,X n i.i.d. wie X ∼ f(x|θ) 

f(x|θ) diskrete Dichte (Wahrscheinlichkeitsfunktion) oder stetige Dichte 


Grundidee für diskretes X: 

Sei X 1 = x 1 ,...,X n = x n die konkrete Stichprobe. 

Gesucht: Schätzwert ˆθ (bzw. T) für θ 

Konzept: Bestimme/konstruiere ˆθ so, dass die Wahrscheinlichkeit für Auftreten 

der Stichprobe maximal wird, d.h. ˆθ so, dass 

Es ist 

P(X 1 = x 1 , ...,X n = x n |θ) → max . 

θ 

P(X 1 = x 1 ,...,X n = x n |θ) = f(x 1 , ...,x n |θ) = 

} {{ } 

gemeinsame W’fkt. 

= P(X 1 = x 1 |θ) · . .. · P(X n = x n |θ) = f(x 1 |θ) · ... · f(x n |θ). 

↑ 

X 1 , . . . , Xn i.i.d. 





Definition: Likelihoodfunktion 

Bei gegebenen x 1 , ...,x n heißt 

Likelihoodfunktion für θ. 

L(θ) = f(x 1 , ...,x n |θ) = f(x 1 |θ) · ... · f(x n |θ) 

Definition: Likelihood-Prinzip/Maximum-Likelihood-Schätzung 

Bestimme ˆθ so, dass 

L(ˆθ) = max L(θ). 

θ 

Für stetige Zufallsvariablen X mit Dichte f(x|θ) überträgt man das Konzept in 

völliger Analogie: 

Wähle θ so, dass die gemeinsame Dichte L(θ) = f(x 1 , ...,x | θ) = f(x 1 |θ) · ... · 

f(x n |θ) maximal wird: 

L(ˆθ) = max L(θ). 

θ 

I.a. ist ˆθ eine (komplizierte, nichtlineare) Funktion von x 1 , ...,x n : 

ˆθ = g(x 1 , ...,x n ). 

Setzt man statt der Realisierungen x 1 ,...,x n die Stichprobenvariablen 

X 1 , ...,X n ein, wird T ≡ ˆθ zum Maximum-Likelihood-Schätzer. 




Konkrete Berechnung erfolgt meist durch Maximieren der log-Likelihood 

log L(θ) =log f(x 1 |θ) + ... + log f(x n |θ) = 

n∑ 

= log f(x i |θ) 

i=1 

Maxima ˆθ von L(θ) und log L(θ) sind identisch, da log eine streng monotone 

Transformation ist. 

Das Maximum wird i.a. durch Nullsetzen der ersten Ableitung berechnet. 


Beispiele 

• Poisson-Verteilung 

X 1 ,...,X 4 i.i.d. Po(λ) mit Realisierungen x 1 = 2, x 2 = 4,x 3 = 6, x 4 = 3. 

⇒ Likelihoodfunktion 

L(λ) = f(x 1 |λ) · · · f(x 4 |λ) = e −λλ2 

2! e−λλ4 

4! e−λλ6 

6! e−λλ3 

3! 

= e −4λ λ 15 1 

2! 4! 6! 3! 

⇒ Log-Likelihoodfunktion 

Ableiten und Nullsetzen 

log L(λ) = −4λ + 15 log λ − log(2! 4! 6! 3!). 

⇒ 

∂ log L(λ) 

= −4 + 15ˆλ = 0 ⇔ 

∂λ 

ˆλ = 15 4 





Likelihood 

0e+00 1e−04 2e−04 3e−04 4e−04 5e−04 6e−04 

Log−Likelihood 

−18 −16 −14 −12 −10 −8 

2 4 6 8 10 

lambda 

2 4 6 8 10 

lambda 





• Normalverteilung 

X 1 ,...,X n i.i.d. N(µ,σ 2 ) mit Realisierungen x 1 ,...,x n 

Kern der Log−Likelihood 

−4 −2 0 2 4 

⇒ L(µ, σ) = √ 1 e −(x 1 −µ)2 1 

2σ 2 · . .. · √ e −(xn−µ)2 2σ 2 

2πσ 2πσ 

log L(µ,σ) = 

= 

n∑ 

[ ( ) 1 

log √ − (x i − µ) 2 ] 

2πσ 2σ 2 

n∑ 

[− log √ 2π − log σ − (x i − µ) 2 ] 

2σ 2 

i=1 

i=1 

2 4 6 8 10 

lambda 





9.3.2 Bayes-Schätzung 

⇒ 

∂ log L(µ,σ) 

= 

∂µ 

∂ log L(µ,σ) 

∂σ 

= 

⇒ ˆµ = ¯x, ˆσ = 

n∑ x i − ˆµ 

= 0 

ˆσ 2 

n∑ 

(− 1ˆσ + 2(x i − ˆµ) 2 ) 

= 0 

2ˆσ 3 

i=1 

i=1 

√ 

n∑ 

(x i − ¯x) 2 

1 

n 

i=1 

Basiert auf subjektivem Wahrscheinlichkeitsbegriff; dennoch enge Verbindung 

zur Likelihood-Schätzung. Besonders für hochdimensionale, komplexe Modelle 

geeignet; “Revival” etwa seit 1990. 

“Subjektives” Grundverständnis: 

• θ wird als Realisierung einer Zufallsvariablen Θ aufgefasst 

• Unsicherheit/Unkenntnis über θ wird durch eine priori-Verteilung (stetige oder 

diskrete Dichte) 

f(θ) 

bewertet. Meist: Θ stetige Zufallsvariable; f(θ) stetige Dichte. 

Die Bayes-Inferenz beruht auf der posteriori-Verteilung von Θ, gegeben die Daten 

x 1 , ...,x n . Dazu benötigen wir den Satz von Bayes für Dichten. 




Notation 

f(x | θ) bedingte Wahrscheinlichkeitsfunktion bzw. Dichte von X, gegeben 

Θ = θ 

f(x) Randverteilung oder -dichte von X 

f(θ) a priori Wahrscheinlichkeitsfunktion oder a priori Dichte von Θ (d.h. 

die Randverteilung von Θ) 

f(θ | x) a posteriori (oder bedingte) Wahrscheinlichkeitsfunktion oder Dichte 

von Θ, gegeben die Beobachtung X = x 

f(x,θ) gemeinsame Wahrscheinlichkeitsfunktion oder Dichte 


Dann gilt folgende Form des Satzes von Bayes: 

Θ und X diskret: 

⇒ 

f(θ | x) = 

f(x, θ) 

f(x) 

= 

P(X = x) = f(x) = ∑ j 

f(x | θ)f(θ) 

. 

f(x) 

f(x | θ j )f(θ j ) , 

wobei über die möglichen Werte θ j von Θ summiert wird. 

Θ stetig: 

⇒ f(θ | x) = 

Dabei kann X stetig oder diskret sein. 

f(x | θ)f(θ) f(x | θ)f(θ) 

∫ = f(x | θ)f(θ)dθ f(x) 




Für Stichprobe x = (x 1 . ..,x n ) aus f(x 1 , ...,x n | θ): 

f(x) → f(x 1 ,...,x n | θ) = f(x 1 | θ) · ... · f(x n | θ) = L(θ) 

⇒ Bayes-Inferenz, Bayesianisches Lernen: 

Die Wahrscheinlichkeitsfunktion oder Dichte von X, gegeben θ, sei 

und 

f(x | θ) 

L(θ) = f(x 1 , ...,x n | θ) 

die gemeinsame Dichte bzw. Likelihoodfunktion für n unabhängige Wiederholungen 

von X. 


Für den unbekannten Parameter wird eine a priori Dichte 

spezifiziert. 

f(θ) 

Dann ist die a posteriori Dichte über den Satz von Bayes bestimmt durch 

f(θ | x 1 , ...,x n ) = 

f(x 1 | θ) · · ·f(x n | θ)f(θ) 

∫ 

f(x1 | θ) · · · f(x n | θ)f(θ)dθ = 

= ∫ L(θ)f(θ) . L(θ)f(θ)dθ 





Bayes-Schätzer 

a posteriori Erwartungswert: 

∫ 

ˆθ p = E(θ | x 1 ,...,x n ) = 

θf(θ | x 1 ,...,x n ) dθ 

Beispiel: 

a posteriori Modus oder maximum a posteriori (MAP) Schätzer: 

Wähle denjenigen Parameterwert ˆθ MAP , für den die a posteriori Dichte maximal 

wird, d.h. 

L(ˆθ)f(ˆθ) = max L(θ)f(θ) 

θ 

bzw. 

log L(ˆθ) + log f(ˆθ) = max{log L(θ) + log f(θ)}. 

θ 




Beispiel: 

9. Schätzen 9.4 Konfidenzintervalle 

9.4 Konfidenzintervalle 

Bisher: 

(Punkt-)Schätzer T bzw. ˆθ für θ liefert einen Schätzwert t bzw. ˆθ; 

i.a. ˆθ ≠ θ 

9.4.1 Allgemeine Definition 

Jetzt: 

Angabe eines Intervalls, das θ mit hoher Wahrscheinlichkeit 1 − α 

enthält. Irrtumswahrscheinlichkeit α z.B. = 0.1,0.05, 0.001. 

1 − α: Sicherheits- oder Konfidenzwahrscheinlichkeit 




Definition: (1 − α)-Konfidenzintervall (KI) 

Irrtumswahrscheinlichkeit α vorgegeben. 

Untere und obere Intervallgrenzen 

G u = g u (X 1 , ...,X n ) und G o = g o (X 1 ,...,X n ) 

bilden (1 − α)-Konfidenzintervall (Vertrauensintervall):⇔ 

P(G u ≤ G o ) = 1, P(G u ≤ θ ≤ G o ) = 1 − α 


9.4.2 Konfidenzintervalle für Erwartungswert, Varianz und Anteilswert 

1. X ∼ N(µ, σ 2 ), σ 2 bekannt; X 1 ,...,X n i.i.d. wie X 

[ 

] 

σ σ 

(1 − α) − Konfidenzintervall für µ : ¯X − z 1− α 

2 

√n , ¯X + z1− α 

2 

√n 

Herleitung: 

Realisiertes Konfidenzintervall: [g u , g o ]; g u = g u (x 1 ,...,x n ), g o = g o (x 1 ,...,x n ) 





2. X ∼ N(µ, σ 2 ), σ 2 unbekannt 

(1 − α) − Konfidenzintervall für µ : 

[ 

¯X − t 1− α 

2 

S √n , ¯X + t 1− α 

2 

S √n 

] 

, 

d.h. ersetze in 1. σ durch Schätzer S und z 1− α 

2 

durch t 1− α 

2 

. 

“Herleitung”: 

3. Konfidenzintervall für µ ohne Normalverteilungsannahme 

approximatives (1 − α)-Konfidenzintervall (für n ≥ 30): wie in 2., mit z 1− α 

2 

anstatt t 1− α 

2 

“Herleitung” (zentraler Grenzwertsatz): 





4. X ∼ B(1,π), Konfidenzintervall für Anteilswert π 

approximatives (1 − α)-Konfidenzintervall: ˆπ ± z 1− α 

2 

√ 

ˆπ(1−ˆπ) 

n 

“Herleitung”: 

Bemerkung: Breite von Konfidenzintervallen 

Beispiel Konfidenzintervall für µ: Breite = 2 · z 1− α 

2 

σ √n 

1 − α größer (kleiner) ⇒ z 1− α 

2 

größer (kleiner) ⇒ KI breiter (schmaler) 

n größer (kleiner) ⇒ KI schmaler (breiter) 

n → nc ⇒ Breite verändert sich um Faktor √ c ! 



9. Schätzen 9.5 Nichtparametrische Dichteschätzung 


9.5 Nichtparametrische Dichteschätzung 

Nachteile des Histogramms: 

Bisher: 

Funktionale Form der Dichte f(x | θ) bis auf unbekannte Parameter 

θ bekannt; z.B. X ∼ N(µ, σ 2 ), X ∼ Po(λ), etc. 

Jetzt: 

Ziel: 

Bekannt: 

Kein parametrischer Verteilungstyp vorausgesetzt; X ∼ f(x) stetig 

“Nichtparametrische” Schätzung von f(x) 

ˆf(x) ≡ Histogramm 




Besser: Gleitendes Histogramm 

ˆf(x) = 

1 

n · Anzahl der Daten x i in [x − h, x + h) 

2h 


Darstellung des gleitenden Histogramms durch Rechteckfenster 

• Einheitsrechteckfenster/Einheits-“Kern” 

{ 

1 

2 

für − 1 ≤ u < 1 

K(u) = 

0 sonst 

• Rechteckfenster über x i 

( ) 

1 x − 

h K xi 

= 

h 

⇒ ˆf(x) = 1 n 

{ 

1 

2h 

x i − h ≤ x < x i + h 

0 sonst 

n∑ 

i=1 

( ) 

1 x − 

h K xi 

h 




Weitere Kerne: 

• Epanechnikov-Kern: K(u) = 3 4 (1 − u2 ) für −1 ≤ u < 1, 0 sonst 

• Bisquare-Kern: K(u) = 15 

16 (1 − u2 ) 2 für −1 ≤ u < 1, 0 sonst 

• Gauß-Kern: K(u) = √ 1 

2π 

exp ( − 1 2 u2) für u ∈ R 

K(u) 

0.0 0.2 0.4 0.6 0.8 1.0 

Epanechnikov-Kern 

K(u) 

0.0 0.2 0.4 0.6 0.8 1.0 

Bisquare-Kern 

K(u) 

0.0 0.2 0.4 0.6 0.8 1.0 

Gauss-Kern 


Definition: Kern-Dichteschätzer 

Sei K(u) eine Kernfunktion. Zu gegebenen Daten x 1 , ...,x n ist dann 

ˆf(x) = 1 n∑ 

( ) x − xi 

K ,x ∈ R 

nh h 

i=1 

ein (Kern-) Dichteschätzer für f(x). 

Bemerkungen: 

-2 -1 0 1 2 

u 

-2 -1 0 1 2 

u 

-3 -2 -1 0 1 2 3 

u 

Häufig verwendete Kerne zur Approximation von Dichtekurven 




10. Testen: Einführung und Konzepte 

Beispiele: 

10. Testen: Einführung und Konzepte 

0.0 0.0006 0.0012 

0 500 1000 2000 3000 

Nettomiete in DM 

0 10 20 30 40 

-0.15 -0.05 0.05 0.15 

Renditen der MRU-Aktie 

Approximation durch Kerndichteschätzer (—) und Normalverteilung (· · · ) 

10.1 Einführung: Gauß-, Student- und Binomialtest 

10.2 Prinzipien des Testens von Hypothesen 

Ziele des Kapitels: 

Exemplarische Einführung in das Testen von Hypothesen, 

Beschreibung der generellen Konzepte 



10. Testen: Einführung und Konzepte 10.1 Gauß-Test, Student-Test und Binomialtest 

10.1 Gauß-Test, Student-Test und Binomialtest 

Gauß- und Student-Test: bekannteste Tests zum Prüfen von Hypothesen über 

µ = E(X) 

Beispiel: Qualitätssicherung 


Allgemeine Form der Hypothesen über µ = E(X): 

a) H 0 : µ = µ 0 , H 1 : µ ≠ µ 0 zweiseitige Alternative H 1 

b) H 0 : µ = µ 0 , H 1 : µ < µ 0 einseitige Alternative H 1 

c) H 0 : µ = µ 0 , H 1 : µ > µ 0 einseitige Alternative H 1 

Bemerkungen: 

• Verschiedene Tests unterscheiden sich durch Annahmen über X. 

• Binomialtest: Testen von analogen Hypothesen über π = P(X = 1) bei 

Bernoulli-Variable 





10.1.1 (Exakter) Gauß-Test 

• Annahmen: X ∼ N(µ,σ 2 ) mit bekannter Varianz σ 2 , Stichprobenvariablen 

X 1 ,...,X n i.i.d. wie X. 

• Hypothesen über µ = E(X): a), b), c) wie oben 

• Idee für Test: Falls H 0 richtig ist: E(X) = µ 0 . Bilde arithmetisches Mittel ¯x 

zu den Stichprobenwerten x 1 , ...,x n . Lehne H 0 ab, falls Abweichung zwischen 

µ 0 und ¯x zu groß. 

a) 

• Frage: wie groß sind die kritischen Werte zu wählen? 

• Diskussion für Hypothesenpaar c) H 0 : µ = µ 0 , H 1 : µ > µ 0 

Übergang von ¯X zu standardisierter Teststatistik 

Z = ¯X − µ 0 √ n. 

σ 

Unter H 0 gilt: ¯X ∼ N(µ 0 , σ2 

n ) ⇒ Z ∼ N(0,1) 

b) 

c) 





• Testvorschrift für Z: H 0 ablehnen ⇔ Z > k 

Frage: Wie ist der kritische Wert k zu wählen? 

• Prinzip: Die Wahrscheinlichkeit für den 

Fehler 1.Art: H 0 wird abgelehnt, obwohl H 0 richtig ist 

Beim exakten Gauß-Test ist dies äquivalent zu 

P(Z > k | µ = µ 0 ) = α 

⇔ k = z 1−α (1 − α-Quantil der Standardnormalverteilung) 

Testvorschrift: H 0 ablehnen, falls Z > z 1−α 

soll (höchstens) gleich einem (kleinen) vorgegebenen Signifikanzniveau α 

(z.B. = 1%, 5%, 10%) sein. D.h. 

P(H 0 ablehnen | H 0 richtig) = α 





Bemerkungen: 

1. Neben dem Fehler 1.Art gibt es den 

2. Falls H 0 : µ ≤ µ 0 gilt, also auch µ < µ 0 als Nullhypothese möglich ist, folgt 

P(Fehler 1.Art) = P(Z > z 1−α | µ ≤ µ 0 ) ≤ α 

Fehler 2.Art: H 0 wird nicht abgelehnt, obwohl H 1 richtig ist. 

Es gilt (vergleiche 10.2, Gütefunktion): 

Je kleiner (größer) das Signifikanzniveau α gewählt wird, desto größer (kleiner) 

wird die Wahrscheinlichkeit für einen Fehler 2.Art. 





Hypothesenpaar b) H 0 : µ = µ 0 , µ < µ 0 

symmetrisch zu c), 

⇒ 

Hypothesenpaar a) H 0 : µ = µ 0 , H 1 : µ ≠ µ 0 

Unter H 0 : Z ∼ N(0, 1) 

Testvorschrift: H 0 ablehnen, falls Z < −z 1−α 

Testvorschrift: H 0 ablehnen, falls |Z| > z 1− α 

2 





Alternative Formulierungen der Testentscheidungen: 

1. Direkt über ¯X statt Z 

2. Mit Hilfe von Konfidenzintervallen 

3. Mit p-Werten (“Überschreitungswahrscheinlichkeiten”) 

1. Nur für a) H 0 : µ = µ 0 , H 1 : µ ≠ µ 0 : 

H 0 ablehnen, falls |Z| > z 1− α 

2 

, Z = ¯X − µ 0 √ n 

σ 

⇔ H 0 ablehnen, falls | ¯X − µ 0 | > z 1− α 

2 

σ √n 

⇔ H 0 ablehnen, falls ¯X < µ 0 − z 1− α 

2 

σ √n oder ¯X > µ 0 + z 1− α 

2 

σ √n 





2. Testentscheidung in 1. offensichtlich äquivalent zu 

H 0 ablehnen, falls µ 0 /∈ KI für µ, d.h. 

[ ] 

µ 0 /∈ ¯X − 

σ z1− α √n 2 

, ¯X + 

σ z1− α √n 2 

3. Testentscheidungen mit Überschreitungswahrscheinlichkeiten (p-Werte, p- 

value) 

Zunächst c) H 0 : µ = µ 0 , H 1 : µ > µ 0 : H 0 ablehnen, falls Z > z 1−α . 

Bemerkung: 

1. und 2. lassen sich auch für einseitige Problemstellungen b) und c) formulieren. 

p-value 

Offensichtlich: Z > z 1−α ⇔ ↓ p< α 

Dabei ist p = P H0 (Z > z) = 1 − Φ(z) 

↑ 

Realisierung der Teststatistik 





b): Analog: Z < −z 1−α ⇔ p < α 

a): 

Bemerkungen: 

• Statistische Programmpakete geben in der Regel p-Werte für zweiseitige Tests 

aus. 

Dann: H 0 ablehnen ⇔ “p -value” < α, α vorgegebenes Signigikanzniveau. 

• Vorsicht bei einseitigen Tests zu b) und c): 

Dann gilt p = 1 − Φ(Z), nicht p/2 = 1 − Φ(z) ⇔ p = 2(1 − Φ(z)), 

d.h. p-Werte müssen für Testentscheidung halbiert werden. 




Annahmen: 

10.1.2 Approximativer Gauß-Test 

X beliebig verteilt mit E(X) = µ; V ar(X) = σ 2 bekannt. 

X 1 , ...,X n i.i.d. wie X; Faustregel: n ≥ 30 

Wegen zentralem Grenzwertsatz: Unter µ = µ 0 gilt 

¯X a ∼ N(µ 0 , σ2 

n ) bzw. Z a ∼ N(0, 1) 


Beispiel: 

Testvorschrift wie beim exakten 

Gauß-Test. 

Aber: P(Fehler 1.Art) a ≤ α 





10.1.3 Student-Test 

• Annahmen: Wie beim Gauß-Test in 10.1.1 bzw. 10.1.2, aber: σ 2 unbekannt 

• Hypothesen: a), b), c) wie bisher 

• Idee: Ersetze σ (beim Gauß-Test) durch 

S = √ 1 n∑ 

(X i − 

n − 1 

¯X) 2 , 

i=1 

Man kann zeigen: X ∼ N(µ 0 ,σ 2 ) 

⇒ 

⇒ T ∼ t(n − 1) Student-verteilt mit n − 1 Freiheitsgraden 

Herleitung der Testvorschriften wie beim Gauß-Test; ersetze Z durch T und 

die Dichte φ von Z durch Dichte der t(n − 1)-Verteilung. 

⇒ Ersetze in Testvorschriften Z durch T und z-Quantile durch t(n − 1)- 

Quantile. 

Für n ≥ 30 : t(n − 1)-Quantile ≈ z-Quantile 

⇒ Z = ¯X−µ 0 

σ 

√ n Teststatistik T = 

¯X−µ 0 

√ 

S n 





10.1.4 Binomial-Test 

Annahmen: X ∼ B(1,π), d.h. P(X = 1) = π; X 1 ,...,X n i.i.d. wie X; für 

approximativen Binomial-Test: n ≥ 30 

Hypothesen: 

a) H 0 : π = π 0 , H 1 : π ≠ π 0 

Teststatistik: 

X = X 1 + . ..+X n absolute Häufigkeit von Einsen, unter π = π 0 : X ∼ B(n,π 0 ) 

Standardisierte Teststatistik: 

Z = X − nπ 0 

√ 

nπ0 (1 − π 0 ) = ˆπ − π 0 

√ 

π 0 (1−π 0 ) 

n 

b) H 0 : π ≥ π 0 H 1 : π < π 0 

c) H 0 : π ≤ π 0 , H 1 : π > π 0 




Bemerkung: 

• n < 30: exakter Binomial-Test nötig 

• n ≥ 30: approximativer Binomial-Test 

für π = π 0 : Z ∼ a N(0, 1) (zentraler Grenzwertsatz) 

⇒ gleiche Testvorschriften wie beim approximativen Gauß-Test. 

Beispiel: 

10. Testen: Einführung und Konzepte 10.2 Prinzipien des Testens von Hypothesen 

Parameter-Tests 

Generelle Problemstellung 

X ∼ F(x | θ), θ ∈ Θ 

10.2 Prinzipien des Testens von Hypothesen 

θ unbekannter Parameter/Kennwert 

Θ zulässiger Bereich für θ 

Beispiel: Gauß-Test 

X ∼ N(µ,σ 2 ),σ 2 bekannt 

θ = µ = E(X) 

Θ = R 

Nullhypothese H 0 : θ ∈ Θ 0 a) Θ 0 = {µ 0 }, Θ 1 = R\{µ 0 } 

Alternativhypothese H 1 : θ ∈ Θ 1 c) Θ 0 = (−∞, µ 0 ], Θ 1 = (µ 0 , ∞) 

Θ 0 ∩ Θ 1 = ∅ 

X 1 , ...,X n i.i.d. wie X X 1 ,...,X n i.i.d. N(µ,σ 2 ) 

T = t(X 1 , ...,X n ) Teststatistik T = Z = ( ¯X−µ 0 ) √ 

σ n 





Nichtparametrische Tests 

Struktur von Tests 

H 0 : X normalverteilt, 

H 0 : X,Y unabhängig, 

usw. (Kap.11) 

H 1 : X nicht normalverteilt 

H 1 : X,Y abhängig 

1. Inhaltliches Problem als Testproblem formulieren, Annahmen über X,Y,... 

festlegen. H 0 und H 1 bilden. 

2. Signifikanzniveau α festlegen. 

3. Daten aus Stichprobe erheben. 

4. Prüfgröße/Teststatistik T 

Verteilung von T unter H 0 muss (approximativ) bekannt sein. 





5. Testentscheidung: H 0 ablehnen, falls T in kritischen Bereich fällt. 

Wahrscheinlichkeit für den Fehler 2.Art beim exakten Gauß-Test 

6. Fehlentscheidungen: 

H 0 ablehnen H 0 nicht ablehnen 

H 0 richtig Fehler 1.Art 

H 1 richtig 

Fehler 2.Art 

Alle Signifikanztests garantieren: 

P(Fehler 1.Art) ≤ α 

Es gilt: 

P(Fehler 2.Art) = P(H 0 nicht ablehnen | H 1 richtig) = 

= P(Z ≤ z 1−α | µ > µ 0 ) 

¯X ∼ N(µ,σ 2 ) ⇒ Z = ¯X−µ 0 

σ 

√ n ∼ N( 

µ−µ 0 

√ 

σ n, 1) 

⇒ P(Z ≤ z 1−α | µ > µ 0 ) = Φ(z 1−α − µ−µ 0 

σ 

(Fall c)) 

√ n), µ > µ0 

Frage: P(Fehler 2.Art) =? 

Gütefunktion 





Gütefunktion 

Gütefunktion g(µ), µ ∈ R fasst P(Fehler 1.Art) und P(Fehler 2.Art) in einer 

Funktion zusammen. 

Gütefunktion beim zweiseitigen Gauß-Test 

g(µ) := P(H 0 ablehnen | µ) = 1 − Φ(z 1−α − µ − µ 0√ n) 

σ 

(Fall c)) 



11. Spezielle Testprobleme 



Ziel: Ausgewählte Tests zu Standardproblemen bei 

• Untersuchung der Verteilung eines Merkmals: Ein-Stichproben-Fall 

• Vergleich von Verteilungen bei unabhängigen und verbundenen Stichproben: 

Zwei- und Mehr-Stichproben-Fall 

11.1 Ein-Stichproben-Fall 

11.2 Vergleiche aus unabhängigen Stichproben 

11.3 Vergleiche aus verbundenen Stichproben 

11.4 Zusammenhangsanalyse 

• Tests auf Korrelation und Unabhängigkeit 



11. Spezielle Testprobleme 11.1 Ein-Stichproben-Fall 

11.1 Ein-Stichproben-Fall 

• Annahme: Stichprobenvariablen X 1 ,...,X n i.i.d. wie zu untersuchende Variable 

X verteilt. 

• Ziele: Tests auf Lage (Erwartungswert, Median) und Verteilung 

• Tests auf Lage: Vorzeichen- und Wilcoxon-Test als nonparametrische Alternativen 

zum Gauß- bzw. Student-Test 

• Test auf Verteilung: χ 2 -Anpassungstest 


Definition: Vorzeichen-Test 

• Annahmen: X 1 , ...,X n unabhängige Wiederholungen, X besitzt stetige Verteilungsfunktion 

• Hypothesen: 

(a) H 0 : x med = δ 0 H 1 : x med ≠ δ 0 

(b) H 0 : x med ≥ δ 0 H 1 : x med < δ 0 

(c) H 0 : x med ≤ δ 0 H 1 : x med > δ 0 

• Teststatistik: A = Anzahl der Stichprobenvariablen mit einem Wert kleiner 

als δ 0 

• Verteilung unter x med = δ 0 : B(n,0.5), für n ≥ 25 approximativ N(0.5n, 0.25n) 

• Ablehnungsbereiche: Für n ≥ 25 wie beim approximativen Binomialtest mit 

π 0 = 0.5. Für n < 25 exakter Binomialtest nötig. 





Bemerkungen zum Vorzeichen-Test 

• Keine Annahmen über Verteilungstyp notwendig; nur: stetige Verteilungsfunktion. 

Deshalb: verteilungsfreier bzw. nonparametrischer Test 

• Unter x med = δ 0 gilt P(X i < δ 0 ) = 0.5; ⇒ 

A ∼ B(n,0.5). 

D.h.: Vorzeichen-Test ist spezieller Binomialtest auf π 0 = 0.5. 

• Falls X normalverteilt: Effizienzverlust, d.h. geringere Güte als Student-Test 

Definition: Wilcoxon-Vorzeichen-Rang-Test 

• Annahmen: X 1 ,...,X n unabhängig und identisch verteilt wie X. 

X metrisch skaliert und symmetrisch verteilt. Verteilungsfunktion stetig. 


(a) H 0 : x med = δ 0 H 1 : x med ≠ δ 0 

(b) H 0 : x med ≥ δ 0 H 1 : x med < δ 0 

(c) H 0 : x med ≤ δ 0 H 1 : x med > δ 0 




• Teststatistik: W + ∑ 

= n rg|D i |Z i 

i=1 { 

1 D i > 0 

mit D i = X i − δ 0 , Z i = 

0 D i < 0 . 

Für n > 20 ist W + approximativ verteilt nach N 

• Ablehnungsbereich: 

( ) 

n(n+1) 

4 

, n(n+1)(2n+1) 

24 

. 

(a) W + < w + α/2 

oder W + > w + 1−α/2 

(b) W + < w α 

+ 

(c) W + > w 1−α + , 


Bemerkungen: 

• Keine Annahmen über Verteilungstyp notwendig; nur: stetige und symmetrische 

Verteilungsfunktion. Deshalb: verteilungsfreier/nonparametrischer Test. 

• Wegen Symmetrie: x med = E(X). 

⇒ Hypothesenpaare (a), (b), (c) identisch zum Gauß- und Student-Test 

⇒ Alternative zum Student-Test; keine Normalverteilungsannahme notwendig. 

wobei w +˜α das tabellierte ˜α-Quantil der Verteilung von W + ist. 





• Zur Teststatistik W + : 

1. Berechne die Differenzen D i = X i − δ 0 , i = 1,...,n. 

2. Bilde die zugehörigen betragsmäßigen Differenzen |D 1 |,...,|D n |. 

3. Ordne diesen betragsmäßigen Differenzen Ränge zu, d.h. der kleinste 

Betrag erhält den Rang 1, der zweitkleinste Betrag den Rang 2, usw.. 

Bezeichnet rg|D i | den Rang von |D i |, ergibt sich die Teststatistik als die 

Summe 

{ 

n∑ 

W + 1 wenn D i > 0 

= rg|D i |Z i mit Z i = 

0 wenn D i < 0. 

i=1 

W + stellt damit die Summe über alle Ränge dar, die zu Beobachtungen 

gehören, für die X i > δ 0 , d.h. D i > 0 gilt. 

Bei Bindungen (ties): Durchschnittsränge vergeben. 

• Idee der Teststatistik: 

– Unter x med = δ 0 ⇒ (wegen symmetrischer Verteilung) Summe der 

Ränge mit D i > 0 ≈ Summe der Ränge mit D i < 0 

⇒ E(W + ) = (rg(D 1 ) + . .. + rg(D n ))/2 = (1 + . .. + n)/2 = n(n+1) 

4 

– Ist x med < δ 0 bzw. x med > δ 0 : Anzahl der i mit X i > δ 0 bzw. X i > δ 0 

wird kleiner. 





• Verteilung von W + unter x med = δ 0 hängt nicht von der wahren Verteilung 

von X ab: verteilungsfreier Test. 

Exakte Herleitung für endliches n schwierig. 

⇒ Tabellen für Quantile bzw. Normalverteilungsapproximation 

• Geringer Effizienzverlust gegenüber Student-Test, falls X tatsächlich normalverteilt. 

χ 2 -Anpassungstest 

Ziel: Testen, ob eine spezifische Verteilung, z.B. N(10, 25), vorliegt, oder ein 

bestimmter Verteilungstyp, z.B. Normalverteilung mit beliebigen Parametern 

µ, σ 2 . 

• X kategorial ∈ {1, ...,k}; X 1 ,...,X n i.i.d. wie X 

Beobachtete Häufigkeiten: h 1 ,...,h k für Werte 1, . ..,k. 

Unter H 0 : P(X i = i) = π i ⇒ h i ∼ B(n,π i ), E(h i ) = nπ i . 

Idee: Vergleiche beobachtete Häufigkeiten h i mit erwarteten Häufigkeiten 

nπ i , i = 1, . ..,k. 





• X stetig oder diskret mit vielen Ausprägungen 

Gruppiere X in k benachbarte Klassen 1,...,k. 

Berechne hypothetische Klassenhäufigkeiten π i = P(X ∈ i) für Verteilung F 

von X unter H 0 , z.B. für Normalverteilung. 

Falls F unbekannte Parameter enthält, z.B. µ und σ 2 : Parameter aus Stichprobe 

schätzen. 

Dann weiter wie bei kategorialem X. 

Definition: χ 2 -Anpassungstest bei kategorialem Merkmal 

• Annahme: X 1 ,...,X n unabhängig und identisch verteilt wie X ∈ {1, . ..,k} 

• Hypothesen: H 0 : P(X = i) = π i , i = 1,...,k 

H 1 : P(X = i) ≠ π i für mindestens ein i 

• Teststatistik: χ 2 = k ∑ 

i=1 

(h i −nπ i ) 2 

nπ i 

• Verteilung unter H 0 : approximativ χ 2 (k − 1), 

Approximation anwendbar, wenn nπ i ≥ 1 für alle i, nπ i ≥ 5 für mindestens 

80% der Zellen 

• Ablehnungsbereich: χ 2 > χ 2 1−α(k − 1) 





χ 2 -Test für gruppierte Daten 

Exkurs: Normal-Quantil-Plots 

Normal-Quantil-Plots sind eine grafisch-explorative Alternative, um zu untersuchen, 

ob eine Normalverteilung vorliegt. 

Idee: Vergleiche Quantile der empirischen Verteilung der Stichprobe mit entsprechenden 

Quantilen der Standardnormalverteilung. Dazu fasst man die geordnete 

Urliste x (1) ,...,x (n) als Quantile der empirischen Verteilung auf. 

Dann ist x (i) das i/n -Quantil. 

Stetigkeitskorrektur: Verwende (i−0.5)/n -Quantile der Standardnormalverteilung. 





Definition: Normal-Quantil-Plots 

Sei x (1) ,...,x (n) die geordnete Urliste. Für i = 1, . ..,n werden die (i − 0.5)/n- 

Quantile z (i) der Standardnormalverteilung berechnet. Der Normal-Quantil-Plot 

(N-Q-Plot) besteht aus den Punkten 

im (z,x)-Koordinatensystem. 

(z (1) , x (1) ), ...,(z (n) , x (n) ) 

• Falls empirische Verteilung approximativ standardnormalverteilt: 

N-Q-Plot liegt nahe an der Winkelhalbierenden z. 

Renditen der BMW-Aktie 

-0.15 -0.05 0.05 

•• 

• 

•••• 

••• 

•• 

•• 

•• 

•• 

••• 

•• 

•• 

• 

•• •• 

•• 

• 

•• 

• 

•• 

••• 

•• 

• 

• 

• • 

••• 

••• ••• 

•• 

• 

• 

• •• 

• •• 

••• 

• • 

• 

• 

• • • • 

• • 

• 

• 

• 

• 

• 

• 

• 

• 

• 

• 

• 

-2 0 2 

• 

• Falls empirische Verteilung approximativ normalverteilt: 

N-Q-Plot liegt nahe an der Geraden x = ¯x + sz. 

Quantile der Standardnormalverteilung 

NQ-Plot der Renditen der BMW–Aktie 

• Details: Kapitel 2.4.2, FKPT. 



11. Spezielle Testprobleme 11.2 Vergleiche aus unabhängigen Stichproben 


11.2 Vergleiche aus unabhängigen Stichproben 

Zwei-Stichproben-Mittelwertsvergleiche 

Ziel: Tests zum Vergleich von Parametern und Verteilungen von zwei (oder mehr) 

Variablen X,Y,... 

Annahmen: X 1 ,...,X n i.i.d. wie X, Y 1 , ...,Y m i.i.d. wie Y ; 

X 1 , ...,X n ,Y 1 ,...,Y m insgesamt unabhängig, d.h. die Stichproben 

für X und Y sind voneinander unabhängig. 

Bezeichnungen: 

• Metrische Merkmale X und Y 

• Unbekannte Parameter: E(X) = µ X 

• Stichprobenvariablen: X 1 ,X 2 , . ..,X n 

und E(Y ) = µ Y 

und Y 1 ,Y 2 , ...,Y m 

• Annahmen: X 1 ,...,X n unabhängig und identisch verteilt wie X 

Y 1 , ...,Y m unabhängig und identisch verteilt wie Y 

X 1 ,...,X n , Y 1 , ...,Y m unabhängig 




Hypothesen: 


Je nach den Annahmen über die Verteilungen von X und Y ergeben sich verschiedene 

Testvarianten. 

• Zweiseitiges Testproblem: 

(a) H 0 : µ X − µ Y = δ 0 vs. H 1 : µ X − µ Y ≠ δ 0 

• Einseitige Testprobleme: 

(b) H 0 : µ X − µ Y ≥ δ 0 vs. H 1 : µ X − µ Y < δ 0 

(c) H 0 : µ X − µ Y ≤ δ 0 vs. H 1 : µ X − µ Y > δ 0 

Verteilung Teststatistik Ablehnbereiche 

X ∼ N(µ X , σ 

X 2 ), 

Y ∼ N(µ Y , σ 

Y 2 ) 

Z = ¯X−Ȳ 

(a) |Z| > z 

−δ 1− α 

0 

2 

r 

σ 

X 2 , σ2 Y bekannt σ 

X 2 n + σ2 (b) Z < −z 1−α 

Y (c) Z > z m 1−α 

X ∼ N(µ X , σ 2 X ), 

Y ∼ N(µ Y , σ 

Y 2 ) 

T = 

σ 

X 2 = σ2 Y unbekannt 

¯X−Ȳ s 

−δ 0 

“ 1n + m 

1 ”(n−1)S 

X 2 +(m−1)S2 Y 

n+m−2 

(a) |T | > t 1− α 

2 

(n + m − 2) 

(b) T < −t 1−α (n + m − 2) 

(c) T > t 1−α (n + m − 2) 

X, Y beliebig verteilt 

σ 

X 2 , σ2 Y unbekannt, n, m > 30 T = ¯X−Ȳ 

(a) |T | > z 

−δ 1− α 

r 0 

2 

S 

X 2 n + S2 (b) T < −z 1−α 

Y (c) T > z m 1−α 





Wilcoxon-Rangsummen-Test 

Verteilungsfreie Alternative zu Gauß-und t -Tests. 

Annahme: Verteilungsfunktionen F und G von X bzw. Y haben gleiche Form, 

sind aber möglicherweise um ein Stück gegeneinander verschoben. 

⇒ Bilde gepoolte Stichprobe X 1 ,...,X n , Y 1 , ...,Y m und zugehörige Ränge 

rg(X 1 ), ...,rg(Y m ). 

(Bei Bindungen: Durchschnittsränge vergeben.) 

Teststatistik: T W = Summe der Ränge, die zu x-Werten gehören. 

Falls F ≠ G: T W zu groß und/oder zu klein. 

Idee: Unter H 0 : x med = y med sind F und G identisch, d.h. x- und y -Werte 

kommen aus der gleichen Verteilung. 





Definition: Wilcoxon-Rangsummen-Test 

• Annahmen: X 1 ,...,X n unabhängig und identisch verteilt wie X 


Y 1 , ...,Y m unabhängig und identisch verteilt wie Y 

X 1 ,...,X n und Y 1 ,...,Y m unabhängig 

X und Y besitzen stetige Verteilungsfunktion F bzw. G 

(a) H 0 : x med = y med vs. H 1 : x med ≠ y med 

(b) H 0 : x med ≥ y med vs. H 1 : x med < y med 

(c) H 0 : x med ≤ y med vs. H 1 : x med > y med 

• Teststatistik: 

T W = 

n∑ 

rg(X i ) = 

i=1 

n+m 

∑ 

mit 

{ 

1, i-te Beobachtung der gepoolten Stichprobe ist X-Variable 

V i = 

0, sonst 

• Ablehnungsbereiche: 

i=1 

iV i 

(a) T W < w α/2 (n, m) oder T W > w 1−α/2 (n, m) 

(b) T W < w α (n, m) 

(c) T W > w 1−α (n, m) 

wobei w˜α das tabellierte ˜α-Quantil der Verteilung von T W ist. 





Bemerkungen: 

• Für m oder n > 25 ist die Teststatistik approximativ N( n(n+m+1) 

verteilt. 

• Verteilungsfreie Alternative zum Zwei-Stichproben-t-Test. 

2 

, nm(n+m+1) 

12 

)– 

χ 2 -Homogenitätstest 

Ziel: Test auf Gleichheit der Verteilungen von zwei oder mehr Variablen 

X 1 ,X 2 ,...,X k . Meist: X i Merkmal X in i-ter Population oder unter 

i-ter Versuchsbedingung. 

X jeweils entweder kategorial mit m Kategorien oder gruppiert in m Klassen. 





Daten zusammengefasst in Kontingenztabelle: 

Beispiel: Kreditwürdigkeit 

Population 

Merkmalsausprägungen 

1 . . . m 

1 h 11 . . . h 1m n 1 

2 

. 

h 21 

. 

. . . h 2m 

. 

n 2 

. 

k h k1 . . . h km n k 

h·1 . . . h·m 

X 1 Kontostand (m = 3) bei guten Krediten (n 1 = 700) 

X 2 Kontostand bei Problemkrediten (n 2 = 300) 

Kreditwürdigkeit 

Konto 

nein gut mittel 

unproblematische 

Kredite 

139 348 213 700 

Problemkredite 135 46 119 300 

274 394 332 1000 




• Idee: Unter H 0 : P(X 1 = j) = ... = P(X k = j) für j = 1, . ..,m sind die 

Verteilungen identisch. 

⇒ h·j 

n 

Schätzer für P(X i = j) 

Da h ij ∼ B(n i , P(X i = j)) und E(h ij ) = n i P(X i = j) 

⇒ ˜h ij = n i 

h·j 

n 

erwartete Häufigkeit von h ij unter H 0 

• Teststatistik χ 2 vergleicht h ij und ˜h ij für alle i, j. 


Definition: χ 2 -Homogenitätstest/k Stichproben 

• Annahmen: Unabhängige Stichprobenziehung in den k Populationen 

• Hypothesen: H 0 : P(X 1 = j) = · · · = P(X k = j), 

• Teststatistik: χ 2 = k ∑ 

H 1 : P(X i1 = j) ≠ P(X i2 = j) 

für mindestens ein Tupel (i 1 ,i 2 , j) 

m∑ 

i=1 j=1 

„ 

h ij − n i h·j 

« 2 

n 

n i h·j 

n 

j = 1,...,m 

• Verteilung unter H 0 : approximativ χ 2 ((k − 1)(m − 1)) 

• Ablehnungsbereich: χ 2 > χ 2 1−α((k − 1)(m − 1)) 




Beispiel: Kreditwürdigkeit 

Tabelle der zu erwartenden Häufigkeiten ˜h ij 

Kreditwürdigkeit 

Konto 

nein gut mittel 

unproblematische 

Kredite 

191.80 275.80 232.40 700 

Problemkredite 82.20 118.20 99.60 300 

274 394 332 1000 

11. Spezielle Testprobleme 11.3 Vergleiche aus verbundenen Stichproben 

11.3 Vergleiche aus verbundenen Stichproben 

Bei unabhängigen Stichproben (11.2): Separate, unabhängige Stichproben; in 

getrennten Teilpopulationen. 

Jetzt: X und Y an gleichen Einheiten erhoben; meist Vorher-nachher-Situation 

bzw. wiederholte Messungen. 

⇒ χ 2 = 116.851 > χ 2 0.95(2) = 5.99 ⇒ H 0 ablehnen 



11. Spezielle Testprobleme 11.3 Vergleiche aus verbundenen Stichproben 

Annahmen: Stichprobenpaare (X 1 ,Y 1 ), ...,(X n ,Y n ) unabhängig, aber X i und 

Y i , i = 1,...,n jeweils abhängig. 

Idee: Zurückführung auf Ein-Stichproben-Fall durch Übergang zu Differenzen 

D i = X i − Y i , i = 1, . ..,n 

⇒ D 1 , ...,D n i.i.d. wie D = X − Y 

Damit: H 0 : E(X) − E(Y ) = δ 0 ⇔ H 0 : E(D) = δ 0 

⇒ Ein-Stichproben-Tests auf Lage anwendbar. 

11. Spezielle Testprobleme 11.4 Zusammenhangsanalyse 

11.4 Zusammenhangsanalyse 

Ziel: Test auf Unabhängigkeit bzw. Korrelation von X und Y 

Annahme: (X i , Y i ), i = 1, ...,n, i.i.d. wie (X,Y ) 

χ 2 -Unabhängigkeitstest 

Beispiel: Sonntagsfrage 

CDU/CSU SPD FDP Grüne Rest 

Männer 144 153 17 26 95 435 

Frauen 200 145 30 50 71 496 

insgesamt 344 298 47 76 166 931 

Frage: Geschlecht und Parteipräferenz abhängig? 





Definition: χ 2 -Unabhängigkeitstest 

• Annahmen: Unabhängige Stichprobenvariablen (X i ,Y i ), i = 1,...,n 


H 0 : P(X = i, Y = j) = P(X = i) · P(Y = j) für alle i, j 

H 1 : P(X = i, Y = j) ≠ P(X = i) · P(Y = j) für mindestens ein Paar (i, j) 


χ 2 = 


k∑ 

m∑ 

i=1 j=1 

(h ij − ˜h ij ) 2 

˜h ij 

mit ˜hij = h i·h·j 

n 

X 

Y 

1 . . . m 

1 h 11 . . . h 1m h 1· 

. . 

. . 

k h k1 . . . h km h k· 

h·1 . . . h·m n 

unter H 0 

−→ 

X 

1 

. 

k 

Y 

1 . . . m 

h 1·h·1 

n . . . 

h 1·h·m 

n h 1· 

. 

. . 

h k·h·1 h 

n . . . k·h·m 

n h k· 

h·1 . . . h·m n 

χ 2 > χ 2 1−α((k − 1) · (m − 1)) 





Beispiel: Sonntagsfrage 

Berechnung von χ 2 bereits in Kap.3: 

χ 2 = 20.065; (k − 1)(m − 1) = 4; χ 2 0.95(4) = 9.488 

20.065 > 9.488 ⇒ H 0 bei α = 5% ablehnen, 

d.h. signifikanter Zusammenhang zwischen Geschlecht und Parteipräferenz. 

Definition: Korrelationstest 

• Annahmen: Unabhängige gemeinsam normalverteilte Stichprobenvariablen 

(X i ,Y i ), i = 1, ...,n 


(a) H 0 : ρ XY = 0 vs. H 1 : ρ XY ≠ 0 

(b) H 0 : ρ XY ≥ 0 vs. H 1 : ρ XY < 0 

(c) H 0 : ρ XY ≤ 0 vs. H 1 : ρ XY > 0 




12. Regressionsanalyse 


• Ablehnungsbereiche: 

T = 

r XY 

√ 

1 − r 

2 

XY 

√ 

n − 2 

(a) |T | > t 1− α 

2 

(n − 2) 

(b) T < −t 1−α (n − 2) 

(c) T > t 1−α (n − 2) 


• Ziel: Analyse des Einflusses einer oder mehrerer Variablen X 1 , ...,X p auf eine 

Zielvariable Y . 

• Bezeichnungen: X 1 ,...,X p erklärende Variablen (Kovariablen, Regressoren) 

Y Zielvariable (Regressand) 

• Verschiedene Arten von Regressionsmodellen, abhängig vom Typ der Zielvariable 

Y und der Art des Einflusses von X 1 ,...,X p . 

• Hier: Y metrisch bzw. stetig 




12. Regressionsanalyse 12.1 Lineare Einfachregression 

12.1 Lineare Einfachregression 

12.1 Lineare Einfachregression 

12.2 Das multiple lineare Regressionsmodell 

12.3 Ausblick: Nichtlineare und nichtparametrische Regression 

Datensituation wie beim Streudiagramm (Kap.3): 

(y i , x i ), i = 1,...,n Beobachtungen für stetige bzw. metrische Merkmale Y 

und X. 

Beispiel: Mietspiegel 

Y Nettomiete bzw. Nettomiete/qm, X Wohnfläche 





• Zusammenhang zwischen Y und X nicht deterministisch, sondern durch 

(zufällige) Fehler additiv überlagert. 

Y = f(x) + ǫ 

f deterministische Funktion, ǫ additiver Fehler 

• Lineare Einfachregression: f linear 

Y = α + βX + ǫ 

• Primäres Ziel: Schätze α und β aus Daten (y i ,x i ), i = 1,...,n. 

Unterstelle dabei lineare empirische Beziehung 

Weitere Annahmen an die Fehler ǫ i : 

ǫ i i.i.d mit σ 2 = V ar(ǫ i ) 

y i = α + βx i + ǫ i 

α + βx i systematische Komponente, ǫ i zufällige Fehler mit E(ǫ i ) = 0. 





Standardmodell der linearen Einfachregression: 

Es gilt 

Y i = α + βx i + ǫ i , i = 1, ...,n. 

Dabei sind : 

Bemerkungen: 

1. Deterministische und stochastische Regressoren 

Y 1 ,...,Y n beobachtbare metrische Zufallsvariablen, 

x 1 , ...,x n gegebene deterministische Werte oder Realisierungen einer 

metrischen Zufallsvariable X. 

ǫ 1 ,...,ǫ n unbeobachtbare Zufallsvariablen, die unabhängig und 

identisch verteilt sind mit E(ǫ i ) = 0 und V ar(ǫ i ) = σ 2 . 

Die Regressionskoeffizienten α,β und die Varianz σ 2 sind unbekannte Parameter, 

die aus den Daten (y i , x i ), i = 1, . ..,n, zu schätzen sind. 





2. Eigenschaften der Zielvariablen 

E(Y i | x i ) = E(α + βx i + ǫ i ) = α + βx i 

V ar(Y i | x i ) = V ar(α + βx i + ǫ i ) = V ar(ǫ i ) = σ 2 

Y i | x i , i = 1, ...,n, unabhängig 

3. Normalverteilungsannahme 

ǫ i ∼ N(0,σ 2 ) bzw. Y i | x i ∼ N(α + βx i , σ 2 ) 

y 

. 

. 

. 

. 

. 

. 

. 

. 

y = α + βx 

x 

. 

Dichten der Zielvariablen 





Schätzen, Testen und Prognose 

Ziele: Punkt- bzw. Intervallschätzen von α, β und σ 2 

Schätzen: 

Testen von Hypothesen über α und β 

Prognose von Y für neuen Wert x des Regressors X 

KQ-(Kleinste-Quadrate-)Methode: Bestimme Schätzer ˆα, ˆβ so, dass 

n∑ 

(Y i − α − βx i ) 2 → min 

α,β 

i=1 





Lösung: 

KQ-Schätzer 

Beweis: 

ˆα = Ȳ − ˆβ¯x , 

n∑ 

(x i − ¯x)(Y i − Ȳ ) 

ˆβ = 

i=1 

n∑ 

= 

(x i − ¯x) 2 

i=1 

n∑ 

x i Y i − n¯xȲ 

i=1 

n∑ 

x 2 i − n¯x2 

i=1 

Schätzer für die Varianz σ 2 : 

ˆσ 2 = 1 

n − 2 

n∑ 

i=1 

ˆǫ 2 i = 1 

n − 2 

n∑ 

(Y i − (ˆα + ˆβx i )) 2 

i=1 





Geschätzte Regressionsgerade (Ausgleichsgerade): 

Streuungszerlegung und Bestimmtheitsmaß 

Streuungszerlegung (Quadratsummenzerlegung): 

Geschätzte Fehler, Residuen: 

Ŷ = ˆα + ˆβx 

n∑ 

n∑ 

n∑ 

(Y i − Ȳ ) 2 = (Ŷ i − Ȳ ) 2 + (Y i − Ŷ i ) 2 

i=1 

i=1 

i=1 

} {{ } } {{ } } {{ } 

SQT = SQE + SQR 

ˆǫ i = Y i − Ŷi = Y i − ˆα − ˆβx i 

SQT: 

SQE: 

SQR: 

Gesamtabweichungsquadratsumme in Y -Richtung 

Durch die Regression erklärter Teil von SQT 

Trotz der Regression unerklärt bleibender Teil von SQT 





Bestimmtheitsmaß: 

Bemerkungen und Beweise: 

Berechnung: R 2 = 

R 2 = SQE 

SQT = 1 − SQR 

SQT 

n∑ 

(Ŷ i − Ȳ ) 2 

i=1 

n∑ 

= 

(Y i − Ȳ )2 

i=1 

n∑ 

i=1 

n∑ 

i=1 

Ŷ 2 

i − nȲ 2 

Y 2 

i − nȲ 2 




Verteilungseigenschaften der KQ-Schätzer 

Verteilung der geschätzten Regressionskoeffizienten: 


Bemerkungen und Beweise: 

x 

2 

i 

P 

ˆα ∼ N(α,σ2ˆα ) mit V ar(ˆα) = σ2ˆα 

= σ2 

n P = σ 2 

(x i −¯x) 2 

ˆβ ∼ N(β, σ 2ˆβ) mit V ar(ˆβ) = σ 2ˆβ = 

σ 2 P (xi −¯x) 2 = 

σ 2 

P x 2 

i −n¯x 2 

P x 

2 

i 

n( P x 2 i −n¯x2 ) 

Verteilung der standardisierten Schätzfunktionen: 

√ P 

ˆα−α 

∼ t(n − 2) mit ˆσˆα = ˆσ √ x 2 

i 

ˆσˆα n P = ˆσ 

(x i −¯x) 2 

ˆβ−β 

ˆσˆβ 

ˆσ 

∼ t(n − 2) mit ˆσˆβ 

= √ P(xi = 

−¯x) 2 

√ P x 2 

√ i 

P n( x 2 

i 

−n¯x 2 ) 

√ 

ˆσ P x 2 

i −n¯x 2 





Aus den Verteilungseigenschaften folgen: 

• (1 − α)-Konfidenzintervalle für α und β: 

für α: 

für β: 

• Testen von Hypothesen: 

Teststatistiken: 

[ 

] 

ˆα − ˆσˆα t 1− α 

2 

(n − 2), ˆα + ˆσˆα t 1− α 

2 

(n − 2) 

[ˆβ − ˆσˆβt 1− α 

2 

(n − 2), ˆβ + ˆσˆβt 1− α 

2 

(n − 2)] 

T α0 = ˆα − α 0 

ˆσˆα 

und T β0 = ˆβ − β 0 

ˆσˆβ 

Hypothesen und Ablehnbereiche: 

• Prognose: 

Konfidenzintervall für Y 0 : 

[ 

Hypothesen 

Ablehnbereich 

H 0 : α = α 0 vs. H 1 : α ≠ α 0 |Tα 0 

| > t 1− α 

2 

(n − 2) 

H 0 : β = β 0 vs. H 1 : β ≠ β 0 |T β0 | > t 1− α 

2 

(n − 2) 

H 0 : α ≥ α 0 vs. H 1 : α < α 0 Tα 0 

< −t 1−α (n − 2) 

H 0 : β ≥ β 0 vs. H 1 : β < β 0 T β0 < −t 1−α (n − 2) 

H 0 : α ≤ α 0 vs. H 1 : α > α 0 Tα 0 

> t 1−α (n − 2) 

H 0 : β ≤ β 0 vs. H 1 : β > β 0 T β0 > t 1−α (n − 2) 

Ŷ 0 ± t 1− α 

2 

(n − 2)ˆσ 

Ŷ 0 = ˆα + ˆβx 0 

√ 

] 

1 + 1 n + (x 0 − ¯x) 

∑ 2 

x 

2 

i − n¯x 2 





Bemerkungen: 

Beispiele: 



12. Regressionsanalyse 12.2 Multiple lineare Regression 


12.2 Multiple lineare Regression 

Ziel: Erweiterung der linearen Einfachregression für mehrere Kovariablen 

X 1 , ...,X p 

Daten: (y i ,x i1 ,...,x ip ), i = 1,...,n 

Zielvariable Y : metrisch bzw. stetig 

Kovariablen: metrisch oder kategorial 

Metrische Kovariable x kann auch Transformation x = f(z) einer ursprünglichen 

erklärenden Variablen z sein, z.B. x = z 2 , x = ln z, usw.. 

Kategoriale Regression mit k Kategorien 1, . ..,k durch k − 1 Dummy-Variablen 

x (1) ,...,x (k−1) kodiert; mit k als Referenzkategorie. 

Dummy-Kodierung 

{ 

x (j) 1, falls Kategorie j vorliegt 

= 

0, sonst, 

wobei j = 1, ...,k − 1. 

x (1) = . .. = x (k−1) = 0 ⇔ Referenzkategorie k liegt vor. 





Standardmodell der linearen multiplen Regression 

Es gilt 

Dabei sind 

Y i = β 0 + β 1 x i1 + · · · + β p x ip + ǫ i , 

i = 1,...,n. 

Y 1 ,...,Y n beobachtbare metrische Zufallsvariablen, 

x 1j , ...,x nj deterministische Werte der Variablen X j oder 

Realisierungen von Zufallsvariablen X j , 

ǫ 1 ,...,ǫ n unbeobachtbare Zufallsvariablen, die unabhängig und 

identisch verteilt sind mit E(ǫ i ) = 0 und V ar(ǫ i ) = σ 2 . 

Matrixnotation 

Y = 

⎛ 

⎜ 

⎝ 

⎞ 

Y 1 

Y 2 

⎟ 

. 

Y n 

⎛ 

⎠ ,X = ⎜ 

⎝ 

⎞ 

1 x 11 ... x 1p 

1 x 21 ... x 2p 

⎟ 

. . . 

1 x n1 ... x np 

⎛ 

⎠ ,β = ⎜ 

⎝ 

Y Beobachtungsvektor der Zielvariablen, X Designmatrix 

Y = Xβ + ǫ, E(ǫ) = 0; Annahme: Rang von X = p + 1 

⎞ 

β 0 

β 1 

⎟ 

. 

β p 

⎛ 

⎠ ,ǫ = ⎜ 

⎝ 

⎞ 

ǫ 1 

ǫ 2 ⎟ 

. ⎠ 

ǫ n 

Normalverteilungsannahme: 

ǫ i ∼ N(0, σ 2 ) ⇔ Y i | x i1 , ...,x ip ∼ N(β 0 + β 1 x i1 + . .. + β p x ip , σ 2 ) 





Schätzen, Testen und Prognose 

Schätzer ˆβ = (ˆβ 0 ,..., ˆβ p ) ′ nach dem KQ-Prinzip 

n∑ 

(Y i − β 0 − β1x i1 − ... − β p x ip ) 2 = (Y − Xβ) ′ (Y − Xβ) → min 

β 

i=1 

Lösung: KQ-Schätzer 

ˆβ = (X ′ X) −1 X ′ Y 

Gefittete Werte: 

Residuen: 

Schätzer für die Varianz σ 2 : 

ˆσ 2 = 

Ŷ i = ˆβ 0 + ˆβ 1 x i1 + ˆβ 2 x i2 + ... + ˆβ p x ip 

ˆǫ i = Y i − Ŷi , 

1 

n − p − 1 

i=1 

i = 1,...,n. 

n∑ 

ˆǫ 2 1 

i = 

n − p − 1 

n∑ 

(Y i − Ŷ i ) 2 

i=1 





Erwartungstreue: 

E(ˆβ j ) = β j , j = 0,...,p; E(ˆσ 2 ) = σ 2 

Varianz: 

σj 2 := V ar(ˆβ j ) = σ 2 v j ; v j j-tes Diagonalelement von (X ′ X) −1 

Verteilung der standardisierten Schätzfunktionen: 

(1 − α)-Konfidenzintervalle für β j : 

ˆβ j − β j 

ˆσ j 

∼ t(n − p − 1) , j = 0, . ..,p 

[ˆβj − ˆσ j t 1− α 

2 

(n − p − 1), ˆβj + ˆσ j t 1− α 

2 

(n − p − 1)] 

Geschätzte Varianz: 

ˆσ 2 j = ˆσ 2 v j 





Teststatistiken: 

T j = ˆβ j − β 0j 

ˆσ j 

, j = 0, . ..,p 

Hypothesen und Ablehnbereiche: 

Overall–F–Test: 


H 0 : β 1 = . .. = β p = 0 

H 1 : β j ≠ 0 für mindestens ein j 

Hypothesen 

Ablehnbereich 

H 0 : β j = β 0j vs. H 1 : β j ≠ β 0j |T j | > t 1− α 

2 

(n − p − 1) 

H 0 : β j ≥ β 0j vs. H 1 : β j < β 0j T j < −t 1−α (n − p − 1) 

H 0 : β j ≤ β 0j vs. H 1 : β j > β 0j T j > t 1−α (n − p − 1) 



F = 

R2 n − p − 1 

= SQE n − p − 1 

1 − R 2 p SQR p 

F > F 1−α (p,n − p − 1) 

• Prognose 

Ŷ 0 = x ′ 0 ˆβ 0 = ˆβ 0 + ˆβ 1 x 01 + . .. + ˆβ p x 0p , 

x 0 neuer Kovariablenvektor 



12. Regressionsanalyse 12.3 Ausblick: Nichtlineare und nichtparametrische Regression 

12.3 Ausblick: Nichtlineare und nichtparametrische Regression 

Nichtlineare parametrische Regression 

Bisher: Regressionsmodell Y = β 0 +β 1 X 1 +. ..+β p X p +ǫ linear in den Parametern 

β 0 , ...,β p . 


Beispiel: Modell für abnehmenden Grenznutzen 

Y = α + β · exp(−γX) + ǫ, θ = (α, β, γ) ′ 

Nichtlineares Modell 

Y = f(X 1 , . ..,X p ;θ) + ǫ 

f nichtlinear in θ. 




Nichtparametrische Regression 

Spezifikation einer parametrischen Regressionsfunktion f(X;θ) a priori oft schwierig. 

Nichtparametrische Regression flexibler: Keine parametrische funktionale Form 

postuliert; nur qualitativ-strukturelle Annahmen. 

Beispiel: Additives Modell 

Y = f 1 (X 1 ) + f 2 (X 2 ) + β 1 Z 1 + ... + β p Z p + ǫ 

f 1 , f 2 ,... 

glatte, unbekannte Funktionen; werden aus den Daten “nichtparametrisch” 

geschätzt.

Statistik II für Statistiker, Mathematiker und Informatiker (SS ... - LMU

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?