Statistik II

Statistische Mo 

Statistik II 

K0 Einführung 

K1 Regression 

K2 Varianzanalyse 

Einfaktorielle Modelle 

Quadratsummen 

Matrix Form 

Zweifaktorielle Modelle 

und jetzt: 

Post-hoc Tests 

Balance 

Statistische Modelle Unwin


Statistische Modelle Unwin 

2.8 Vergleich einzelner Parameter 

(Post-hoc Tests) 

Wenn viele Tests zu irgendeinem festen 

Signifikanzniveau durchgeführt werden, 

ist das Signifikanzniveau insgesamt für 

alle Tests schwierig zu bestimmen. 

Eine signifikante F Statistik für ein Faktor 

erlaubt keine Aussage darüber welche und 

wieviele der Parameter sich von einander 

unterscheiden. 

Sei α der Fehler erster Art für jeden Test. 

Für k unabhängige Tests wäre der 

Gesamtfehler erster Art 

E =1! (1!") k 

d.h. die Wahrscheinlichkeit, daß mindestens 

eine von den k Nullhypothesen 

fälschlicherweise verworfen wird.


2.8.1 Bonferroni 


Sei A i das Ereignis, H i wird nicht verworfen. 

P(A i ) = 1 !" i und P( A 

i ) = " i 

Der Gesamtfehler erster Art (Fehlerrate pro 

Experiment) ist die Wahrscheinlichkeit, daß 

mindestens eine H i verworfen wird, d.h. 

P(A 1 ! A 2 !... ! A k ) 

Wegen der Bonferroni Ungleichung gilt 

P(A 1 ! A 2 !... ! A k ) " P(A 

k 

k 

# i ) = # $ i 

i=1 

i=1 

Um einen Gesamtfehler von α zu erreichen, 

wird meistens α i = α/k ∀ i gesetzt. 

Bonferroni ist eine konservative Prozedur 

für Gruppenmittelwertvergleiche, weil sie 

offensichtlich nicht unabhängig sind.


2.8.2 LSD (Fisher) 


Nach einem signifikanten F-Test wird der 

„Least Significant Difference“ (kleinster 

signifikanter Unterschied) berechnet, der 

kleinste Unterschied zwischen zwei 

Gruppenmittelwerten, der signifikant sein 

könnte. 

LSD = t 1!" 2 ; f 

2# ˆ 2 

für Gruppen die alle der Größe n sind. 

f = #Fg für die Schätzung von σ 2 

n



2.8.3 Scheffé 

Scheffé ist in seiner reinen Form für alle {µ i} 

zusammen gültig (und gilt für ungleich 

große Gruppen). Es kann auch für Kontraste 

eingesetzt werden, aber diese Intervalle sind 

Projectionen des Hyper-Zylinders und daher 

eine konservative Approximation. 

Unter H 0: µ 1 = µ 2 = … µ k hat die Statistik 

k 

n( ˆ µ ) 2 

" k !1 

i=1 

µ i ! ˆ 

# ˆ 2 

eine F (k-1,ν)Verteilung, wobei ˆ 

µ = 

k 

! ˆ µ i 

Da E[ ˆ µ ! µ ] = 0 und E[ ˆ µ ! µ ] = 0 i i hat 

n( ˆ µ i ! µ i ! ( ˆ µ ! µ )) 2 

k 

" k !1 

i=1 

# ˆ 2 

auch eine F (k-1,ν)Verteilung für alle 

µ=(µ 1,µ 2,…µ k) und σ 2 . 

i=1 

k


Deshalb gilt 

k 

P{ ! ( n( 

ˆ 

i=1 

µ i " ˆ 


µ ) " n(µ i " µ )) 2 

# (k "1) ˆ 

$ 2 F % ;(k"1,& ) } = 1 "% 

(es wird so geschrieben, so daß man sehen 

kann, wie es mit ungleich großen Gruppen 

gehen wurde) 

Nach „Invertierung“ der Wahrscheinlichkeit 

haben wir eine 100(1 - α)% simultane 

Konfidenzmenge für µ = (µ 1,µ 2,…µ k) 

Mit Hilfe der Cauchy-Schwarz Ungleichung 

( akbk ) 2 

2 

! " ( ! ak ) ( ! bk k 

k k 

zeigt man, daß die Projektion von S auf einer 

Ebene ein Konfidenzintervall für den 

entsprechenden Kontrast gibt: 

2 )


c iµ i 


! " ! c ˆ i ± (k #1)F ˆ 

$ ;( k#1,% ) & ( ! 

µ i 

2 

ci n ) 

Wegen der Allgemeinheit des Resultats und 

der Anwendung der Ungleichung, soll es 

keine Überraschung sein, daß die Scheffé 

Intervalle konservativ sind. 

2.8.4 Tukey’s Verfahren 

Simultane Konfidenzintervalle für alle 

paarweise Unterschiede, wenn alle Gruppen 

gleich groß sind. 

ˆ 

µ i ! µ i 

" n 

~ N(0,1) #i 

P{µ i ! µ j " ˆ 

µ i ! ˆ 

µ j ± q * ˆ 

# 2 n 

q * ist die Lösung der Gleichung: 

1 

2 

$ i % j} = 1!&


# +# 

k $ $ [!(z) " !(z " 2 

0 "# 


q*s)] k "1 d!(z)% (s)ds = 1" & 

Φ ist die Standardnormalverteilungsfunktion 

γ ist die Dichte von ˆ ! 

! 

√2 q * ist der kritische α -Wert der 

„Studentised range“ Verteilung für k 

Gruppen und ν Freiheitsgrade 

Da es soviele Multiple Vergleichsverfahren 

gibt, ist das Problem schwierig. Hier sind 

graphische Darstellungen angesagt.


SPD94 (Auszug) 


Difference std. E SchefféProb LSD 

Bayern - Baden-Württemberg 1.45 0.36 0.065 0.000 

Bremen - Baden-Württemberg 1.34 0.97 0.992 0.168 

Bremen - Bayern -0.11 0.96 1.000 0.910 

Hamburg - Baden-Württemberg -2.92 0.67 0.027 0.000 

Hamburg - Bayern -4.37 0.66 0.000 0.000 

Hamburg - Bremen -4.26 1.11 0.109 0.000 

Hessen - Baden-Württemberg -2.45 0.43 0.000 0.000 

Hessen - Bayern -3.90 0.42 0.000 0.000 

Hessen - Bremen -3.79 0.99 0.112 0.000 

Hessen - Hamburg 0.47 0.70 1.000 0.499 

Niedersachsen - Baden-Württemberg 0.50 0.39 0.996 0.203 

Niedersachsen - Bayern -0.95 0.38 0.705 0.013 

Niedersachsen - Bremen -0.84 0.98 1.000 0.391 

Niedersachsen - Hamburg 3.42 0.68 0.003 0.000 

Niedersachsen - Hessen 2.95 0.45 0.000 0.000 

Nordrhein-Westfalen - Baden-Württemberg 0.49 0.33 0.986 0.133 

Nordrhein-Westfalen - Bayern -0.96 0.31 0.383 0.002 

Nordrhein-Westfalen - Bremen -0.85 0.95 1.000 0.374 

Nordrhein-Westfalen - Hamburg 3.41 0.64 0.001 0.000 

Nordrhein-Westfalen - Hessen 2.94 0.39 0.000 0.000 

Nordrhein-Westfalen - Niedersachsen -0.01 0.35 1.000 0.983 

Rheinland-Pfalz - Baden-Württemberg 1.68 0.48 0.218 0.001 

Rheinland-Pfalz - Bayern 0.23 0.47 1.000 0.630 

Rheinland-Pfalz - Bremen 0.34 1.02 1.000 0.742 

Rheinland-Pfalz - Hamburg 4.60 0.73 0.000 0.000 

Rheinland-Pfalz - Hessen 4.12 0.53 0.000 0.000 

Rheinland-Pfalz - Niedersachsen 1.18 0.50 0.779 0.019 

Rheinland-Pfalz - Nordrhein-Westfalen 1.18 0.45 0.637 0.009 

Saarland - Baden-Württemberg -4.01 0.77 0.002 0.000 

Saarland - Bayern -5.46 0.76 0.000 0.000 

Saarland - Bremen -5.35 1.18 0.018 0.000 

Saarland - Hamburg -1.09 0.95 0.998 0.250 

Saarland - Hessen -1.57 0.80 0.921 0.052 

Saarland - Niedersachsen -4.51 0.78 0.000 0.000 

Saarland - Nordrhein-Westfalen -4.51 0.75 0.000 0.000 

Saarland - Rheinland-Pfalz -5.69 0.83 0.000 0.000 

Schleswig-Holstein - Baden-Württemberg -0.27 0.55 1.000 0.622



2.9 Plots für Varianzanalysen 

(i) rohe Daten 

Histogramm, Dotplot, Boxplot für Y 

Säulendiagramme, Mosaicplot für {X i} 

Mosaicplot für {X i} gewichtet durch Y (Y>0) 

Dotplots oder Boxplots von Y gegen X i 

(ii) Modell 

Koeffizientenplots (mit Intervallen, z.B. 

LSD) 

Interaktionsplots 

(iii) Post-hoc Überprüfung 

Residuen gegen vorhergesagten Werte 

Residuen gegen Gruppen 

{X i} Mosaicplot gewichtet durch |Residuen| 

Einflußstatistiken Plots


2.9.1 Interaktionsplot 


Für das Modell ohne der entsprechenden 

Interaktion (αβ) werden die 

Zellenmittelwerte in einem Parallel 

Koordinaten Plot gezeigt. Die Achsen 

stellen entweder die Kategorien von α oder 

die Kategorien von β dar. Im ersten Fall 

werden Werte aus derselben β Kategorie mit 

Linien verbunden. Wenn es keine 

Interaktion gibt sollen diese Linien parallel 

verlaufen. 

Y 

i 

e 

l 

d 

18 

16 

14 

12 

B1 B2 B3 B4 

Block


2.9.2 Der Designmatrix 


Im Modell Y = Xβ + ε wird X der 

Designmatrix genannt (weil er oft als 

Resultat eines genauen Versuchplans 

vorliegt). 

Für balanzierte Designs sind die Spalten 

aus verschiedenen Teilmatrizen von X 

orthogonal. Für X = (1, X α,X β,X αβ) und eine 

entsprechende Zerlegung von β gilt dann 

! ˆ = ( X " ! X ! ) #1 X ! y 

weil X ! " X # = 0 = X ! # X usw. In diesem Fall 

" 

sind die partiellen und sequentiellen 

Quadratsummen für ein Faktor gleich.


2.9.3 Balance 


Für balanzierte Datensätze können die 

Quadratsummen elegant zerlegt werden. 

z.B. Zwei Gruppen mit b=2 Beobachtungen 

G 1 G 2 

y 11 = 0 y 12 = 6 

y 21 = 3 y 22 = 10 

Mittelwerte 

y . j = 1 

2 (y1 j + y2 j ) = 1 

b 

y .. = 1 

! ! yij n i i 

Quadratsummen 

QS = (y ! y ) G ij .. 2 

" " 

i 

j 

= b(y . j ! y ..) 2 + 

j 

! 

i 

y ij 

" " " (yij ! y 

= QS Z + QS I 

i 

j 

. j ) 2



Die Quadratsummen werden mit den 

Freiheitsgraden dividiert, um 

Varianzschätzer zu bekommen. 

y .. = 19 4 = 4.75 y .1 = 3 2 

= 1.5 y 

.2 = 16 2 

QS G = 54.75 QS Z = 42.25 QS I = 12.50 

= 8 

QS Fg MQS F Statistik 

Modell 42.25 1 42.25 6.76 

Residuen 12.50 2 6.25 

————————————————— 

Gesamt 54.75 3 

F 0.05;(1,2) = 18.5 

d.h. das Modell ist nicht signifikant



Wir nehmen jetzt an, daß die Zeilen auch 

klassifiziert sind: 

G 1 G 2 

K 1 y 11 y 12 

K 2 y 21 y 22 

Mittelwerte y .., y . j bleiben und y i. = 1 

g 

QSG = 54.75 QSGruppen = 42.25 

QSKlassen = 12.25 QSF = 0.25 


G 42.25 1 42.25 169 

K 12.25 1 12.25 49 

! 

j 

Residuen 0.25 1 0.25 

————————————————— 


F 0.05;(1,1) = 161.4 Die Gruppen wären dann 

signifikant und die Klassen nicht. 

y ij


Mehr Fälle pro Zelle 


G 1 G 2 

K 1 y 111 y 112 y 121 y 122 

K 2 y 211 y 212 y 221 y 222 

Mittelwerte y ij . = 1 

c 

Modelle 

k 

y ijk 

! usw. 

(Mittelwert) Y ijk = µ + ε ijk 

(nach Spalten) Y ijk = µ + α j+ ε ijk 

(nach Zeilen) Y ijk = µ + β i+ ε ijk 

(ohne Wechselw) Y ijk = µ + α j + β i + ε ijk 

(mit Wechselw) Y ijk = µ + α j + β i + (αβ) ij + ε ijk


z. B. 


G 1 G 2 

K 1 0 2 6 4 

K 2 3 1 10 12 


Gruppen 84.5 1 84.5 42.25 

Klassen 24.5 1 24.5 12.25 

Wechselw 12.5 1 12.5 6.25 

Residuen 8.0 4 2 

————————————————— 


F 0.05;(1,4) = 7.71 so daß die Wechselwirkungen 

nicht signifikant sind.


Modell Variante: 


Ohne Wechselwirkungen 

MQS R = 4.1 F K = 5.98 F 0.05;(1,5) = 6.61 

Ohne Klassen 

MQS R = 7.5 F G = 5.63 F 0.05;(1,6) = 5.99 

Gesamtmodell F- Statistiken: 

Mit Wechselwirkungen 

MQS M = 40.5 F M = 20.25 F 0.05;(3,4) = 6.59 

Ohne Wechselwirkungen 

MQS M = 54.5 F M = 13.3 F 0.05;(2,5) = 6.61 

Ohne Klassen 

MQS M = 7.5 F M = 5.63 F 0.05;(1,6) = 5.99


Unbalanzierte Modelle 

z. B. 

G 1 G 2 

K 1 0 2 6 

K 2 3 10 


y ... = 4.2 y 11. = 1 y 21. = 3 y 12. = 6 y 22. = 10 

y 1.. = 2.667 ! 1 

2 (y 11. + y 12. ) y 2.. 

y .1. = 1.667 ! 1 

2 (y 11. + y 21. ) y .2. 

Modell: 

Y ijk = µ + α j + β i + (αβ) ij + ε ijk 

= 6.5 

= 8 

i=1,2 j=1,2 

Nebenbedingungen α 1+ α 2 = 0 β 1+ β 2 = 0 

Y = Xβ + ε 

y‘=(y 111,y 112,y 121,y 211,y 221) β‘ = (µ,α 1, β 1)


( X ! X) "1 = 


X = 

X ! X = 

" 1 1 1 % 

$ ' 

$ 1 1 1 ' 

$ 1 !1 1 ' 

$ ' 

$ 1 1 !1' 

$ ' 

# 1 !1 !1& 

" 5 1 1% 

$ ' 

$ 1 5 1' 

$ ' 

# 1 1 5& 

# 0.214 "0.036 "0.036& 

% 

( 

% "0.036 0.214 "0.036( 

% 

( 

$ "0.036 "0.036 0.214 '


Unbalanzierte Varianzanalyse 

Datensatz 

Gruppe dann Klasse 

Analysis of Variance For 

No Selector 

Source 

Const 

Grp 

Kls 

Error 

Total 

df 

1 

1 

1 

2 

4 

Klasse dann Gruppe 


No Selector 

Source 

Const 

Kls 

Grp 

Error 

Total 

df 

1 

1 

1 

2 

4 


Y Gruppe Klasse 

!0 

!2 

!3 

!6 

!10 

Y 

!1 

!1 

!1 

!2 

!2 

Sums of Squares 

88.2000 

48.1333 

9.52381 

3.14286 

60.8000 

Y 


88.2000 

17.6333 

40.0238 

3.14286 

60.8000 

Partielle Quadratsummen 


No Selector 

Source 

Const 

Kls 

Grp 

Error 

Total 

df 

1 

1 

1 

2 

4 

Y 


88.2000 

9.52381 

40.0238 

3.14286 

60.8000 

!1 

!1 

!2 

!1 

!2 

Mean Square 

88.2000 

48.1333 

9.52381 

1.57143 

Mean Square 

88.2000 

17.6333 

40.0238 

1.57143 

Mean Square 

88.2000 

9.52381 

40.0238 

1.57143 

F-ratio 

56.127 

30.630 

6.0606 

F-ratio 

56.127 

11.221 

25.470 

F-ratio 

56.127 

6.0606 

25.470 

Prob 

0.0174 

0.0311 

0.1329 

Prob 

0.0174 

0.0787 

0.0371 

Prob 

0.0174 

0.1329 

0.0371

Statistik II

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?