04.03.2013 Aufrufe

Statistik II

Statistik II

Statistik II

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Statistische Mo<br />

<strong>Statistik</strong> <strong>II</strong><br />

K0 Einführung<br />

K1 Regression<br />

K2 Varianzanalyse<br />

Einfaktorielle Modelle<br />

Quadratsummen<br />

Matrix Form<br />

Zweifaktorielle Modelle<br />

und jetzt:<br />

Post-hoc Tests<br />

Balance<br />

Statistische Modelle Unwin


Statistische Mo<br />

Statistische Modelle Unwin<br />

2.8 Vergleich einzelner Parameter<br />

(Post-hoc Tests)<br />

Wenn viele Tests zu irgendeinem festen<br />

Signifikanzniveau durchgeführt werden,<br />

ist das Signifikanzniveau insgesamt für<br />

alle Tests schwierig zu bestimmen.<br />

Eine signifikante F <strong>Statistik</strong> für ein Faktor<br />

erlaubt keine Aussage darüber welche und<br />

wieviele der Parameter sich von einander<br />

unterscheiden.<br />

Sei α der Fehler erster Art für jeden Test.<br />

Für k unabhängige Tests wäre der<br />

Gesamtfehler erster Art<br />

E =1! (1!") k<br />

d.h. die Wahrscheinlichkeit, daß mindestens<br />

eine von den k Nullhypothesen<br />

fälschlicherweise verworfen wird.


Statistische Mo<br />

2.8.1 Bonferroni<br />

Statistische Modelle Unwin<br />

Sei A i das Ereignis, H i wird nicht verworfen.<br />

P(A i ) = 1 !" i und P( A<br />

i ) = " i<br />

Der Gesamtfehler erster Art (Fehlerrate pro<br />

Experiment) ist die Wahrscheinlichkeit, daß<br />

mindestens eine H i verworfen wird, d.h.<br />

P(A 1 ! A 2 !... ! A k )<br />

Wegen der Bonferroni Ungleichung gilt<br />

P(A 1 ! A 2 !... ! A k ) " P(A<br />

k<br />

k<br />

# i ) = # $ i<br />

i=1<br />

i=1<br />

Um einen Gesamtfehler von α zu erreichen,<br />

wird meistens α i = α/k ∀ i gesetzt.<br />

Bonferroni ist eine konservative Prozedur<br />

für Gruppenmittelwertvergleiche, weil sie<br />

offensichtlich nicht unabhängig sind.


Statistische Mo<br />

2.8.2 LSD (Fisher)<br />

Statistische Modelle Unwin<br />

Nach einem signifikanten F-Test wird der<br />

„Least Significant Difference“ (kleinster<br />

signifikanter Unterschied) berechnet, der<br />

kleinste Unterschied zwischen zwei<br />

Gruppenmittelwerten, der signifikant sein<br />

könnte.<br />

LSD = t 1!" 2 ; f<br />

2# ˆ 2<br />

für Gruppen die alle der Größe n sind.<br />

f = #Fg für die Schätzung von σ 2<br />

n


Statistische Mo<br />

Statistische Modelle Unwin<br />

2.8.3 Scheffé<br />

Scheffé ist in seiner reinen Form für alle {µ i}<br />

zusammen gültig (und gilt für ungleich<br />

große Gruppen). Es kann auch für Kontraste<br />

eingesetzt werden, aber diese Intervalle sind<br />

Projectionen des Hyper-Zylinders und daher<br />

eine konservative Approximation.<br />

Unter H 0: µ 1 = µ 2 = … µ k hat die <strong>Statistik</strong><br />

k<br />

n( ˆ µ ) 2<br />

" k !1<br />

i=1<br />

µ i ! ˆ<br />

# ˆ 2<br />

eine F (k-1,ν)Verteilung, wobei ˆ<br />

µ =<br />

k<br />

! ˆ µ i<br />

Da E[ ˆ µ ! µ ] = 0 und E[ ˆ µ ! µ ] = 0 i i hat<br />

n( ˆ µ i ! µ i ! ( ˆ µ ! µ )) 2<br />

k<br />

" k !1<br />

i=1<br />

# ˆ 2<br />

auch eine F (k-1,ν)Verteilung für alle<br />

µ=(µ 1,µ 2,…µ k) und σ 2 .<br />

i=1<br />

k


Statistische Mo<br />

Deshalb gilt<br />

k<br />

P{ ! ( n(<br />

ˆ<br />

i=1<br />

µ i " ˆ<br />

Statistische Modelle Unwin<br />

µ ) " n(µ i " µ )) 2<br />

# (k "1) ˆ<br />

$ 2 F % ;(k"1,& ) } = 1 "%<br />

(es wird so geschrieben, so daß man sehen<br />

kann, wie es mit ungleich großen Gruppen<br />

gehen wurde)<br />

Nach „Invertierung“ der Wahrscheinlichkeit<br />

haben wir eine 100(1 - α)% simultane<br />

Konfidenzmenge für µ = (µ 1,µ 2,…µ k)<br />

Mit Hilfe der Cauchy-Schwarz Ungleichung<br />

( akbk ) 2<br />

2<br />

! " ( ! ak ) ( ! bk k<br />

k k<br />

zeigt man, daß die Projektion von S auf einer<br />

Ebene ein Konfidenzintervall für den<br />

entsprechenden Kontrast gibt:<br />

2 )


Statistische Mo<br />

c iµ i<br />

Statistische Modelle Unwin<br />

! " ! c ˆ i ± (k #1)F ˆ<br />

$ ;( k#1,% ) & ( !<br />

µ i<br />

2<br />

ci n )<br />

Wegen der Allgemeinheit des Resultats und<br />

der Anwendung der Ungleichung, soll es<br />

keine Überraschung sein, daß die Scheffé<br />

Intervalle konservativ sind.<br />

2.8.4 Tukey’s Verfahren<br />

Simultane Konfidenzintervalle für alle<br />

paarweise Unterschiede, wenn alle Gruppen<br />

gleich groß sind.<br />

ˆ<br />

µ i ! µ i<br />

" n<br />

~ N(0,1) #i<br />

P{µ i ! µ j " ˆ<br />

µ i ! ˆ<br />

µ j ± q * ˆ<br />

# 2 n<br />

q * ist die Lösung der Gleichung:<br />

1<br />

2<br />

$ i % j} = 1!&


Statistische Mo<br />

# +#<br />

k $ $ [!(z) " !(z " 2<br />

0 "#<br />

Statistische Modelle Unwin<br />

q*s)] k "1 d!(z)% (s)ds = 1" &<br />

Φ ist die Standardnormalverteilungsfunktion<br />

γ ist die Dichte von ˆ !<br />

!<br />

√2 q * ist der kritische α -Wert der<br />

„Studentised range“ Verteilung für k<br />

Gruppen und ν Freiheitsgrade<br />

Da es soviele Multiple Vergleichsverfahren<br />

gibt, ist das Problem schwierig. Hier sind<br />

graphische Darstellungen angesagt.


Statistische Mo<br />

SPD94 (Auszug)<br />

Statistische Modelle Unwin<br />

Difference std. E SchefféProb LSD<br />

Bayern - Baden-Württemberg 1.45 0.36 0.065 0.000<br />

Bremen - Baden-Württemberg 1.34 0.97 0.992 0.168<br />

Bremen - Bayern -0.11 0.96 1.000 0.910<br />

Hamburg - Baden-Württemberg -2.92 0.67 0.027 0.000<br />

Hamburg - Bayern -4.37 0.66 0.000 0.000<br />

Hamburg - Bremen -4.26 1.11 0.109 0.000<br />

Hessen - Baden-Württemberg -2.45 0.43 0.000 0.000<br />

Hessen - Bayern -3.90 0.42 0.000 0.000<br />

Hessen - Bremen -3.79 0.99 0.112 0.000<br />

Hessen - Hamburg 0.47 0.70 1.000 0.499<br />

Niedersachsen - Baden-Württemberg 0.50 0.39 0.996 0.203<br />

Niedersachsen - Bayern -0.95 0.38 0.705 0.013<br />

Niedersachsen - Bremen -0.84 0.98 1.000 0.391<br />

Niedersachsen - Hamburg 3.42 0.68 0.003 0.000<br />

Niedersachsen - Hessen 2.95 0.45 0.000 0.000<br />

Nordrhein-Westfalen - Baden-Württemberg 0.49 0.33 0.986 0.133<br />

Nordrhein-Westfalen - Bayern -0.96 0.31 0.383 0.002<br />

Nordrhein-Westfalen - Bremen -0.85 0.95 1.000 0.374<br />

Nordrhein-Westfalen - Hamburg 3.41 0.64 0.001 0.000<br />

Nordrhein-Westfalen - Hessen 2.94 0.39 0.000 0.000<br />

Nordrhein-Westfalen - Niedersachsen -0.01 0.35 1.000 0.983<br />

Rheinland-Pfalz - Baden-Württemberg 1.68 0.48 0.218 0.001<br />

Rheinland-Pfalz - Bayern 0.23 0.47 1.000 0.630<br />

Rheinland-Pfalz - Bremen 0.34 1.02 1.000 0.742<br />

Rheinland-Pfalz - Hamburg 4.60 0.73 0.000 0.000<br />

Rheinland-Pfalz - Hessen 4.12 0.53 0.000 0.000<br />

Rheinland-Pfalz - Niedersachsen 1.18 0.50 0.779 0.019<br />

Rheinland-Pfalz - Nordrhein-Westfalen 1.18 0.45 0.637 0.009<br />

Saarland - Baden-Württemberg -4.01 0.77 0.002 0.000<br />

Saarland - Bayern -5.46 0.76 0.000 0.000<br />

Saarland - Bremen -5.35 1.18 0.018 0.000<br />

Saarland - Hamburg -1.09 0.95 0.998 0.250<br />

Saarland - Hessen -1.57 0.80 0.921 0.052<br />

Saarland - Niedersachsen -4.51 0.78 0.000 0.000<br />

Saarland - Nordrhein-Westfalen -4.51 0.75 0.000 0.000<br />

Saarland - Rheinland-Pfalz -5.69 0.83 0.000 0.000<br />

Schleswig-Holstein - Baden-Württemberg -0.27 0.55 1.000 0.622


Statistische Mo<br />

Statistische Modelle Unwin<br />

2.9 Plots für Varianzanalysen<br />

(i) rohe Daten<br />

Histogramm, Dotplot, Boxplot für Y<br />

Säulendiagramme, Mosaicplot für {X i}<br />

Mosaicplot für {X i} gewichtet durch Y (Y>0)<br />

Dotplots oder Boxplots von Y gegen X i<br />

(ii) Modell<br />

Koeffizientenplots (mit Intervallen, z.B.<br />

LSD)<br />

Interaktionsplots<br />

(iii) Post-hoc Überprüfung<br />

Residuen gegen vorhergesagten Werte<br />

Residuen gegen Gruppen<br />

{X i} Mosaicplot gewichtet durch |Residuen|<br />

Einflußstatistiken Plots


Statistische Mo<br />

2.9.1 Interaktionsplot<br />

Statistische Modelle Unwin<br />

Für das Modell ohne der entsprechenden<br />

Interaktion (αβ) werden die<br />

Zellenmittelwerte in einem Parallel<br />

Koordinaten Plot gezeigt. Die Achsen<br />

stellen entweder die Kategorien von α oder<br />

die Kategorien von β dar. Im ersten Fall<br />

werden Werte aus derselben β Kategorie mit<br />

Linien verbunden. Wenn es keine<br />

Interaktion gibt sollen diese Linien parallel<br />

verlaufen.<br />

Y<br />

i<br />

e<br />

l<br />

d<br />

18<br />

16<br />

14<br />

12<br />

B1 B2 B3 B4<br />

Block


Statistische Mo<br />

2.9.2 Der Designmatrix<br />

Statistische Modelle Unwin<br />

Im Modell Y = Xβ + ε wird X der<br />

Designmatrix genannt (weil er oft als<br />

Resultat eines genauen Versuchplans<br />

vorliegt).<br />

Für balanzierte Designs sind die Spalten<br />

aus verschiedenen Teilmatrizen von X<br />

orthogonal. Für X = (1, X α,X β,X αβ) und eine<br />

entsprechende Zerlegung von β gilt dann<br />

! ˆ = ( X " ! X ! ) #1 X ! y<br />

weil X ! " X # = 0 = X ! # X usw. In diesem Fall<br />

"<br />

sind die partiellen und sequentiellen<br />

Quadratsummen für ein Faktor gleich.


Statistische Mo<br />

2.9.3 Balance<br />

Statistische Modelle Unwin<br />

Für balanzierte Datensätze können die<br />

Quadratsummen elegant zerlegt werden.<br />

z.B. Zwei Gruppen mit b=2 Beobachtungen<br />

G 1 G 2<br />

y 11 = 0 y 12 = 6<br />

y 21 = 3 y 22 = 10<br />

Mittelwerte<br />

y . j = 1<br />

2 (y1 j + y2 j ) = 1<br />

b<br />

y .. = 1<br />

! ! yij n i i<br />

Quadratsummen<br />

QS = (y ! y ) G ij .. 2<br />

" "<br />

i<br />

j<br />

= b(y . j ! y ..) 2 +<br />

j<br />

!<br />

i<br />

y ij<br />

" " " (yij ! y<br />

= QS Z + QS I<br />

i<br />

j<br />

. j ) 2


Statistische Mo<br />

Statistische Modelle Unwin<br />

Die Quadratsummen werden mit den<br />

Freiheitsgraden dividiert, um<br />

Varianzschätzer zu bekommen.<br />

y .. = 19 4 = 4.75 y .1 = 3 2<br />

= 1.5 y<br />

.2 = 16 2<br />

QS G = 54.75 QS Z = 42.25 QS I = 12.50<br />

= 8<br />

QS Fg MQS F <strong>Statistik</strong><br />

Modell 42.25 1 42.25 6.76<br />

Residuen 12.50 2 6.25<br />

—————————————————<br />

Gesamt 54.75 3<br />

F 0.05;(1,2) = 18.5<br />

d.h. das Modell ist nicht signifikant


Statistische Mo<br />

Statistische Modelle Unwin<br />

Wir nehmen jetzt an, daß die Zeilen auch<br />

klassifiziert sind:<br />

G 1 G 2<br />

K 1 y 11 y 12<br />

K 2 y 21 y 22<br />

Mittelwerte y .., y . j bleiben und y i. = 1<br />

g<br />

QSG = 54.75 QSGruppen = 42.25<br />

QSKlassen = 12.25 QSF = 0.25<br />

QS Fg MQS F <strong>Statistik</strong><br />

G 42.25 1 42.25 169<br />

K 12.25 1 12.25 49<br />

!<br />

j<br />

Residuen 0.25 1 0.25<br />

—————————————————<br />

Gesamt 54.75 3<br />

F 0.05;(1,1) = 161.4 Die Gruppen wären dann<br />

signifikant und die Klassen nicht.<br />

y ij


Statistische Mo<br />

Mehr Fälle pro Zelle<br />

Statistische Modelle Unwin<br />

G 1 G 2<br />

K 1 y 111 y 112 y 121 y 122<br />

K 2 y 211 y 212 y 221 y 222<br />

Mittelwerte y ij . = 1<br />

c<br />

Modelle<br />

k<br />

y ijk<br />

! usw.<br />

(Mittelwert) Y ijk = µ + ε ijk<br />

(nach Spalten) Y ijk = µ + α j+ ε ijk<br />

(nach Zeilen) Y ijk = µ + β i+ ε ijk<br />

(ohne Wechselw) Y ijk = µ + α j + β i + ε ijk<br />

(mit Wechselw) Y ijk = µ + α j + β i + (αβ) ij + ε ijk


Statistische Mo<br />

z. B.<br />

Statistische Modelle Unwin<br />

G 1 G 2<br />

K 1 0 2 6 4<br />

K 2 3 1 10 12<br />

QS Fg MQS F <strong>Statistik</strong><br />

Gruppen 84.5 1 84.5 42.25<br />

Klassen 24.5 1 24.5 12.25<br />

Wechselw 12.5 1 12.5 6.25<br />

Residuen 8.0 4 2<br />

—————————————————<br />

Gesamt 129.5 7<br />

F 0.05;(1,4) = 7.71 so daß die Wechselwirkungen<br />

nicht signifikant sind.


Statistische Mo<br />

Modell Variante:<br />

Statistische Modelle Unwin<br />

Ohne Wechselwirkungen<br />

MQS R = 4.1 F K = 5.98 F 0.05;(1,5) = 6.61<br />

Ohne Klassen<br />

MQS R = 7.5 F G = 5.63 F 0.05;(1,6) = 5.99<br />

Gesamtmodell F- <strong>Statistik</strong>en:<br />

Mit Wechselwirkungen<br />

MQS M = 40.5 F M = 20.25 F 0.05;(3,4) = 6.59<br />

Ohne Wechselwirkungen<br />

MQS M = 54.5 F M = 13.3 F 0.05;(2,5) = 6.61<br />

Ohne Klassen<br />

MQS M = 7.5 F M = 5.63 F 0.05;(1,6) = 5.99


Statistische Mo<br />

Unbalanzierte Modelle<br />

z. B.<br />

G 1 G 2<br />

K 1 0 2 6<br />

K 2 3 10<br />

Statistische Modelle Unwin<br />

y ... = 4.2 y 11. = 1 y 21. = 3 y 12. = 6 y 22. = 10<br />

y 1.. = 2.667 ! 1<br />

2 (y 11. + y 12. ) y 2..<br />

y .1. = 1.667 ! 1<br />

2 (y 11. + y 21. ) y .2.<br />

Modell:<br />

Y ijk = µ + α j + β i + (αβ) ij + ε ijk<br />

= 6.5<br />

= 8<br />

i=1,2 j=1,2<br />

Nebenbedingungen α 1+ α 2 = 0 β 1+ β 2 = 0<br />

Y = Xβ + ε<br />

y‘=(y 111,y 112,y 121,y 211,y 221) β‘ = (µ,α 1, β 1)


Statistische Mo<br />

( X ! X) "1 =<br />

Statistische Modelle Unwin<br />

X =<br />

X ! X =<br />

" 1 1 1 %<br />

$ '<br />

$ 1 1 1 '<br />

$ 1 !1 1 '<br />

$ '<br />

$ 1 1 !1'<br />

$ '<br />

# 1 !1 !1&<br />

" 5 1 1%<br />

$ '<br />

$ 1 5 1'<br />

$ '<br />

# 1 1 5&<br />

# 0.214 "0.036 "0.036&<br />

%<br />

(<br />

% "0.036 0.214 "0.036(<br />

%<br />

(<br />

$ "0.036 "0.036 0.214 '


Statistische Mo<br />

Unbalanzierte Varianzanalyse<br />

Datensatz<br />

Gruppe dann Klasse<br />

Analysis of Variance For<br />

No Selector<br />

Source<br />

Const<br />

Grp<br />

Kls<br />

Error<br />

Total<br />

df<br />

1<br />

1<br />

1<br />

2<br />

4<br />

Klasse dann Gruppe<br />

Analysis of Variance For<br />

No Selector<br />

Source<br />

Const<br />

Kls<br />

Grp<br />

Error<br />

Total<br />

df<br />

1<br />

1<br />

1<br />

2<br />

4<br />

Statistische Modelle Unwin<br />

Y Gruppe Klasse<br />

!0<br />

!2<br />

!3<br />

!6<br />

!10<br />

Y<br />

!1<br />

!1<br />

!1<br />

!2<br />

!2<br />

Sums of Squares<br />

88.2000<br />

48.1333<br />

9.52381<br />

3.14286<br />

60.8000<br />

Y<br />

Sums of Squares<br />

88.2000<br />

17.6333<br />

40.0238<br />

3.14286<br />

60.8000<br />

Partielle Quadratsummen<br />

Analysis of Variance For<br />

No Selector<br />

Source<br />

Const<br />

Kls<br />

Grp<br />

Error<br />

Total<br />

df<br />

1<br />

1<br />

1<br />

2<br />

4<br />

Y<br />

Sums of Squares<br />

88.2000<br />

9.52381<br />

40.0238<br />

3.14286<br />

60.8000<br />

!1<br />

!1<br />

!2<br />

!1<br />

!2<br />

Mean Square<br />

88.2000<br />

48.1333<br />

9.52381<br />

1.57143<br />

Mean Square<br />

88.2000<br />

17.6333<br />

40.0238<br />

1.57143<br />

Mean Square<br />

88.2000<br />

9.52381<br />

40.0238<br />

1.57143<br />

F-ratio<br />

56.127<br />

30.630<br />

6.0606<br />

F-ratio<br />

56.127<br />

11.221<br />

25.470<br />

F-ratio<br />

56.127<br />

6.0606<br />

25.470<br />

Prob<br />

0.0174<br />

0.0311<br />

0.1329<br />

Prob<br />

0.0174<br />

0.0787<br />

0.0371<br />

Prob<br />

0.0174<br />

0.1329<br />

0.0371

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!