Statistik II
Statistik II
Statistik II
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Statistische Mo<br />
<strong>Statistik</strong> <strong>II</strong><br />
K0 Einführung<br />
K1 Regression<br />
K2 Varianzanalyse<br />
Einfaktorielle Modelle<br />
Quadratsummen<br />
Matrix Form<br />
Zweifaktorielle Modelle<br />
und jetzt:<br />
Post-hoc Tests<br />
Balance<br />
Statistische Modelle Unwin
Statistische Mo<br />
Statistische Modelle Unwin<br />
2.8 Vergleich einzelner Parameter<br />
(Post-hoc Tests)<br />
Wenn viele Tests zu irgendeinem festen<br />
Signifikanzniveau durchgeführt werden,<br />
ist das Signifikanzniveau insgesamt für<br />
alle Tests schwierig zu bestimmen.<br />
Eine signifikante F <strong>Statistik</strong> für ein Faktor<br />
erlaubt keine Aussage darüber welche und<br />
wieviele der Parameter sich von einander<br />
unterscheiden.<br />
Sei α der Fehler erster Art für jeden Test.<br />
Für k unabhängige Tests wäre der<br />
Gesamtfehler erster Art<br />
E =1! (1!") k<br />
d.h. die Wahrscheinlichkeit, daß mindestens<br />
eine von den k Nullhypothesen<br />
fälschlicherweise verworfen wird.
Statistische Mo<br />
2.8.1 Bonferroni<br />
Statistische Modelle Unwin<br />
Sei A i das Ereignis, H i wird nicht verworfen.<br />
P(A i ) = 1 !" i und P( A<br />
i ) = " i<br />
Der Gesamtfehler erster Art (Fehlerrate pro<br />
Experiment) ist die Wahrscheinlichkeit, daß<br />
mindestens eine H i verworfen wird, d.h.<br />
P(A 1 ! A 2 !... ! A k )<br />
Wegen der Bonferroni Ungleichung gilt<br />
P(A 1 ! A 2 !... ! A k ) " P(A<br />
k<br />
k<br />
# i ) = # $ i<br />
i=1<br />
i=1<br />
Um einen Gesamtfehler von α zu erreichen,<br />
wird meistens α i = α/k ∀ i gesetzt.<br />
Bonferroni ist eine konservative Prozedur<br />
für Gruppenmittelwertvergleiche, weil sie<br />
offensichtlich nicht unabhängig sind.
Statistische Mo<br />
2.8.2 LSD (Fisher)<br />
Statistische Modelle Unwin<br />
Nach einem signifikanten F-Test wird der<br />
„Least Significant Difference“ (kleinster<br />
signifikanter Unterschied) berechnet, der<br />
kleinste Unterschied zwischen zwei<br />
Gruppenmittelwerten, der signifikant sein<br />
könnte.<br />
LSD = t 1!" 2 ; f<br />
2# ˆ 2<br />
für Gruppen die alle der Größe n sind.<br />
f = #Fg für die Schätzung von σ 2<br />
n
Statistische Mo<br />
Statistische Modelle Unwin<br />
2.8.3 Scheffé<br />
Scheffé ist in seiner reinen Form für alle {µ i}<br />
zusammen gültig (und gilt für ungleich<br />
große Gruppen). Es kann auch für Kontraste<br />
eingesetzt werden, aber diese Intervalle sind<br />
Projectionen des Hyper-Zylinders und daher<br />
eine konservative Approximation.<br />
Unter H 0: µ 1 = µ 2 = … µ k hat die <strong>Statistik</strong><br />
k<br />
n( ˆ µ ) 2<br />
" k !1<br />
i=1<br />
µ i ! ˆ<br />
# ˆ 2<br />
eine F (k-1,ν)Verteilung, wobei ˆ<br />
µ =<br />
k<br />
! ˆ µ i<br />
Da E[ ˆ µ ! µ ] = 0 und E[ ˆ µ ! µ ] = 0 i i hat<br />
n( ˆ µ i ! µ i ! ( ˆ µ ! µ )) 2<br />
k<br />
" k !1<br />
i=1<br />
# ˆ 2<br />
auch eine F (k-1,ν)Verteilung für alle<br />
µ=(µ 1,µ 2,…µ k) und σ 2 .<br />
i=1<br />
k
Statistische Mo<br />
Deshalb gilt<br />
k<br />
P{ ! ( n(<br />
ˆ<br />
i=1<br />
µ i " ˆ<br />
Statistische Modelle Unwin<br />
µ ) " n(µ i " µ )) 2<br />
# (k "1) ˆ<br />
$ 2 F % ;(k"1,& ) } = 1 "%<br />
(es wird so geschrieben, so daß man sehen<br />
kann, wie es mit ungleich großen Gruppen<br />
gehen wurde)<br />
Nach „Invertierung“ der Wahrscheinlichkeit<br />
haben wir eine 100(1 - α)% simultane<br />
Konfidenzmenge für µ = (µ 1,µ 2,…µ k)<br />
Mit Hilfe der Cauchy-Schwarz Ungleichung<br />
( akbk ) 2<br />
2<br />
! " ( ! ak ) ( ! bk k<br />
k k<br />
zeigt man, daß die Projektion von S auf einer<br />
Ebene ein Konfidenzintervall für den<br />
entsprechenden Kontrast gibt:<br />
2 )
Statistische Mo<br />
c iµ i<br />
Statistische Modelle Unwin<br />
! " ! c ˆ i ± (k #1)F ˆ<br />
$ ;( k#1,% ) & ( !<br />
µ i<br />
2<br />
ci n )<br />
Wegen der Allgemeinheit des Resultats und<br />
der Anwendung der Ungleichung, soll es<br />
keine Überraschung sein, daß die Scheffé<br />
Intervalle konservativ sind.<br />
2.8.4 Tukey’s Verfahren<br />
Simultane Konfidenzintervalle für alle<br />
paarweise Unterschiede, wenn alle Gruppen<br />
gleich groß sind.<br />
ˆ<br />
µ i ! µ i<br />
" n<br />
~ N(0,1) #i<br />
P{µ i ! µ j " ˆ<br />
µ i ! ˆ<br />
µ j ± q * ˆ<br />
# 2 n<br />
q * ist die Lösung der Gleichung:<br />
1<br />
2<br />
$ i % j} = 1!&
Statistische Mo<br />
# +#<br />
k $ $ [!(z) " !(z " 2<br />
0 "#<br />
Statistische Modelle Unwin<br />
q*s)] k "1 d!(z)% (s)ds = 1" &<br />
Φ ist die Standardnormalverteilungsfunktion<br />
γ ist die Dichte von ˆ !<br />
!<br />
√2 q * ist der kritische α -Wert der<br />
„Studentised range“ Verteilung für k<br />
Gruppen und ν Freiheitsgrade<br />
Da es soviele Multiple Vergleichsverfahren<br />
gibt, ist das Problem schwierig. Hier sind<br />
graphische Darstellungen angesagt.
Statistische Mo<br />
SPD94 (Auszug)<br />
Statistische Modelle Unwin<br />
Difference std. E SchefféProb LSD<br />
Bayern - Baden-Württemberg 1.45 0.36 0.065 0.000<br />
Bremen - Baden-Württemberg 1.34 0.97 0.992 0.168<br />
Bremen - Bayern -0.11 0.96 1.000 0.910<br />
Hamburg - Baden-Württemberg -2.92 0.67 0.027 0.000<br />
Hamburg - Bayern -4.37 0.66 0.000 0.000<br />
Hamburg - Bremen -4.26 1.11 0.109 0.000<br />
Hessen - Baden-Württemberg -2.45 0.43 0.000 0.000<br />
Hessen - Bayern -3.90 0.42 0.000 0.000<br />
Hessen - Bremen -3.79 0.99 0.112 0.000<br />
Hessen - Hamburg 0.47 0.70 1.000 0.499<br />
Niedersachsen - Baden-Württemberg 0.50 0.39 0.996 0.203<br />
Niedersachsen - Bayern -0.95 0.38 0.705 0.013<br />
Niedersachsen - Bremen -0.84 0.98 1.000 0.391<br />
Niedersachsen - Hamburg 3.42 0.68 0.003 0.000<br />
Niedersachsen - Hessen 2.95 0.45 0.000 0.000<br />
Nordrhein-Westfalen - Baden-Württemberg 0.49 0.33 0.986 0.133<br />
Nordrhein-Westfalen - Bayern -0.96 0.31 0.383 0.002<br />
Nordrhein-Westfalen - Bremen -0.85 0.95 1.000 0.374<br />
Nordrhein-Westfalen - Hamburg 3.41 0.64 0.001 0.000<br />
Nordrhein-Westfalen - Hessen 2.94 0.39 0.000 0.000<br />
Nordrhein-Westfalen - Niedersachsen -0.01 0.35 1.000 0.983<br />
Rheinland-Pfalz - Baden-Württemberg 1.68 0.48 0.218 0.001<br />
Rheinland-Pfalz - Bayern 0.23 0.47 1.000 0.630<br />
Rheinland-Pfalz - Bremen 0.34 1.02 1.000 0.742<br />
Rheinland-Pfalz - Hamburg 4.60 0.73 0.000 0.000<br />
Rheinland-Pfalz - Hessen 4.12 0.53 0.000 0.000<br />
Rheinland-Pfalz - Niedersachsen 1.18 0.50 0.779 0.019<br />
Rheinland-Pfalz - Nordrhein-Westfalen 1.18 0.45 0.637 0.009<br />
Saarland - Baden-Württemberg -4.01 0.77 0.002 0.000<br />
Saarland - Bayern -5.46 0.76 0.000 0.000<br />
Saarland - Bremen -5.35 1.18 0.018 0.000<br />
Saarland - Hamburg -1.09 0.95 0.998 0.250<br />
Saarland - Hessen -1.57 0.80 0.921 0.052<br />
Saarland - Niedersachsen -4.51 0.78 0.000 0.000<br />
Saarland - Nordrhein-Westfalen -4.51 0.75 0.000 0.000<br />
Saarland - Rheinland-Pfalz -5.69 0.83 0.000 0.000<br />
Schleswig-Holstein - Baden-Württemberg -0.27 0.55 1.000 0.622
Statistische Mo<br />
Statistische Modelle Unwin<br />
2.9 Plots für Varianzanalysen<br />
(i) rohe Daten<br />
Histogramm, Dotplot, Boxplot für Y<br />
Säulendiagramme, Mosaicplot für {X i}<br />
Mosaicplot für {X i} gewichtet durch Y (Y>0)<br />
Dotplots oder Boxplots von Y gegen X i<br />
(ii) Modell<br />
Koeffizientenplots (mit Intervallen, z.B.<br />
LSD)<br />
Interaktionsplots<br />
(iii) Post-hoc Überprüfung<br />
Residuen gegen vorhergesagten Werte<br />
Residuen gegen Gruppen<br />
{X i} Mosaicplot gewichtet durch |Residuen|<br />
Einflußstatistiken Plots
Statistische Mo<br />
2.9.1 Interaktionsplot<br />
Statistische Modelle Unwin<br />
Für das Modell ohne der entsprechenden<br />
Interaktion (αβ) werden die<br />
Zellenmittelwerte in einem Parallel<br />
Koordinaten Plot gezeigt. Die Achsen<br />
stellen entweder die Kategorien von α oder<br />
die Kategorien von β dar. Im ersten Fall<br />
werden Werte aus derselben β Kategorie mit<br />
Linien verbunden. Wenn es keine<br />
Interaktion gibt sollen diese Linien parallel<br />
verlaufen.<br />
Y<br />
i<br />
e<br />
l<br />
d<br />
18<br />
16<br />
14<br />
12<br />
B1 B2 B3 B4<br />
Block
Statistische Mo<br />
2.9.2 Der Designmatrix<br />
Statistische Modelle Unwin<br />
Im Modell Y = Xβ + ε wird X der<br />
Designmatrix genannt (weil er oft als<br />
Resultat eines genauen Versuchplans<br />
vorliegt).<br />
Für balanzierte Designs sind die Spalten<br />
aus verschiedenen Teilmatrizen von X<br />
orthogonal. Für X = (1, X α,X β,X αβ) und eine<br />
entsprechende Zerlegung von β gilt dann<br />
! ˆ = ( X " ! X ! ) #1 X ! y<br />
weil X ! " X # = 0 = X ! # X usw. In diesem Fall<br />
"<br />
sind die partiellen und sequentiellen<br />
Quadratsummen für ein Faktor gleich.
Statistische Mo<br />
2.9.3 Balance<br />
Statistische Modelle Unwin<br />
Für balanzierte Datensätze können die<br />
Quadratsummen elegant zerlegt werden.<br />
z.B. Zwei Gruppen mit b=2 Beobachtungen<br />
G 1 G 2<br />
y 11 = 0 y 12 = 6<br />
y 21 = 3 y 22 = 10<br />
Mittelwerte<br />
y . j = 1<br />
2 (y1 j + y2 j ) = 1<br />
b<br />
y .. = 1<br />
! ! yij n i i<br />
Quadratsummen<br />
QS = (y ! y ) G ij .. 2<br />
" "<br />
i<br />
j<br />
= b(y . j ! y ..) 2 +<br />
j<br />
!<br />
i<br />
y ij<br />
" " " (yij ! y<br />
= QS Z + QS I<br />
i<br />
j<br />
. j ) 2
Statistische Mo<br />
Statistische Modelle Unwin<br />
Die Quadratsummen werden mit den<br />
Freiheitsgraden dividiert, um<br />
Varianzschätzer zu bekommen.<br />
y .. = 19 4 = 4.75 y .1 = 3 2<br />
= 1.5 y<br />
.2 = 16 2<br />
QS G = 54.75 QS Z = 42.25 QS I = 12.50<br />
= 8<br />
QS Fg MQS F <strong>Statistik</strong><br />
Modell 42.25 1 42.25 6.76<br />
Residuen 12.50 2 6.25<br />
—————————————————<br />
Gesamt 54.75 3<br />
F 0.05;(1,2) = 18.5<br />
d.h. das Modell ist nicht signifikant
Statistische Mo<br />
Statistische Modelle Unwin<br />
Wir nehmen jetzt an, daß die Zeilen auch<br />
klassifiziert sind:<br />
G 1 G 2<br />
K 1 y 11 y 12<br />
K 2 y 21 y 22<br />
Mittelwerte y .., y . j bleiben und y i. = 1<br />
g<br />
QSG = 54.75 QSGruppen = 42.25<br />
QSKlassen = 12.25 QSF = 0.25<br />
QS Fg MQS F <strong>Statistik</strong><br />
G 42.25 1 42.25 169<br />
K 12.25 1 12.25 49<br />
!<br />
j<br />
Residuen 0.25 1 0.25<br />
—————————————————<br />
Gesamt 54.75 3<br />
F 0.05;(1,1) = 161.4 Die Gruppen wären dann<br />
signifikant und die Klassen nicht.<br />
y ij
Statistische Mo<br />
Mehr Fälle pro Zelle<br />
Statistische Modelle Unwin<br />
G 1 G 2<br />
K 1 y 111 y 112 y 121 y 122<br />
K 2 y 211 y 212 y 221 y 222<br />
Mittelwerte y ij . = 1<br />
c<br />
Modelle<br />
k<br />
y ijk<br />
! usw.<br />
(Mittelwert) Y ijk = µ + ε ijk<br />
(nach Spalten) Y ijk = µ + α j+ ε ijk<br />
(nach Zeilen) Y ijk = µ + β i+ ε ijk<br />
(ohne Wechselw) Y ijk = µ + α j + β i + ε ijk<br />
(mit Wechselw) Y ijk = µ + α j + β i + (αβ) ij + ε ijk
Statistische Mo<br />
z. B.<br />
Statistische Modelle Unwin<br />
G 1 G 2<br />
K 1 0 2 6 4<br />
K 2 3 1 10 12<br />
QS Fg MQS F <strong>Statistik</strong><br />
Gruppen 84.5 1 84.5 42.25<br />
Klassen 24.5 1 24.5 12.25<br />
Wechselw 12.5 1 12.5 6.25<br />
Residuen 8.0 4 2<br />
—————————————————<br />
Gesamt 129.5 7<br />
F 0.05;(1,4) = 7.71 so daß die Wechselwirkungen<br />
nicht signifikant sind.
Statistische Mo<br />
Modell Variante:<br />
Statistische Modelle Unwin<br />
Ohne Wechselwirkungen<br />
MQS R = 4.1 F K = 5.98 F 0.05;(1,5) = 6.61<br />
Ohne Klassen<br />
MQS R = 7.5 F G = 5.63 F 0.05;(1,6) = 5.99<br />
Gesamtmodell F- <strong>Statistik</strong>en:<br />
Mit Wechselwirkungen<br />
MQS M = 40.5 F M = 20.25 F 0.05;(3,4) = 6.59<br />
Ohne Wechselwirkungen<br />
MQS M = 54.5 F M = 13.3 F 0.05;(2,5) = 6.61<br />
Ohne Klassen<br />
MQS M = 7.5 F M = 5.63 F 0.05;(1,6) = 5.99
Statistische Mo<br />
Unbalanzierte Modelle<br />
z. B.<br />
G 1 G 2<br />
K 1 0 2 6<br />
K 2 3 10<br />
Statistische Modelle Unwin<br />
y ... = 4.2 y 11. = 1 y 21. = 3 y 12. = 6 y 22. = 10<br />
y 1.. = 2.667 ! 1<br />
2 (y 11. + y 12. ) y 2..<br />
y .1. = 1.667 ! 1<br />
2 (y 11. + y 21. ) y .2.<br />
Modell:<br />
Y ijk = µ + α j + β i + (αβ) ij + ε ijk<br />
= 6.5<br />
= 8<br />
i=1,2 j=1,2<br />
Nebenbedingungen α 1+ α 2 = 0 β 1+ β 2 = 0<br />
Y = Xβ + ε<br />
y‘=(y 111,y 112,y 121,y 211,y 221) β‘ = (µ,α 1, β 1)
Statistische Mo<br />
( X ! X) "1 =<br />
Statistische Modelle Unwin<br />
X =<br />
X ! X =<br />
" 1 1 1 %<br />
$ '<br />
$ 1 1 1 '<br />
$ 1 !1 1 '<br />
$ '<br />
$ 1 1 !1'<br />
$ '<br />
# 1 !1 !1&<br />
" 5 1 1%<br />
$ '<br />
$ 1 5 1'<br />
$ '<br />
# 1 1 5&<br />
# 0.214 "0.036 "0.036&<br />
%<br />
(<br />
% "0.036 0.214 "0.036(<br />
%<br />
(<br />
$ "0.036 "0.036 0.214 '
Statistische Mo<br />
Unbalanzierte Varianzanalyse<br />
Datensatz<br />
Gruppe dann Klasse<br />
Analysis of Variance For<br />
No Selector<br />
Source<br />
Const<br />
Grp<br />
Kls<br />
Error<br />
Total<br />
df<br />
1<br />
1<br />
1<br />
2<br />
4<br />
Klasse dann Gruppe<br />
Analysis of Variance For<br />
No Selector<br />
Source<br />
Const<br />
Kls<br />
Grp<br />
Error<br />
Total<br />
df<br />
1<br />
1<br />
1<br />
2<br />
4<br />
Statistische Modelle Unwin<br />
Y Gruppe Klasse<br />
!0<br />
!2<br />
!3<br />
!6<br />
!10<br />
Y<br />
!1<br />
!1<br />
!1<br />
!2<br />
!2<br />
Sums of Squares<br />
88.2000<br />
48.1333<br />
9.52381<br />
3.14286<br />
60.8000<br />
Y<br />
Sums of Squares<br />
88.2000<br />
17.6333<br />
40.0238<br />
3.14286<br />
60.8000<br />
Partielle Quadratsummen<br />
Analysis of Variance For<br />
No Selector<br />
Source<br />
Const<br />
Kls<br />
Grp<br />
Error<br />
Total<br />
df<br />
1<br />
1<br />
1<br />
2<br />
4<br />
Y<br />
Sums of Squares<br />
88.2000<br />
9.52381<br />
40.0238<br />
3.14286<br />
60.8000<br />
!1<br />
!1<br />
!2<br />
!1<br />
!2<br />
Mean Square<br />
88.2000<br />
48.1333<br />
9.52381<br />
1.57143<br />
Mean Square<br />
88.2000<br />
17.6333<br />
40.0238<br />
1.57143<br />
Mean Square<br />
88.2000<br />
9.52381<br />
40.0238<br />
1.57143<br />
F-ratio<br />
56.127<br />
30.630<br />
6.0606<br />
F-ratio<br />
56.127<br />
11.221<br />
25.470<br />
F-ratio<br />
56.127<br />
6.0606<br />
25.470<br />
Prob<br />
0.0174<br />
0.0311<br />
0.1329<br />
Prob<br />
0.0174<br />
0.0787<br />
0.0371<br />
Prob<br />
0.0174<br />
0.1329<br />
0.0371