VL IV - IOW

IOW-Statistikseminar: 4. Veranstaltung 

Statistische Methoden in den 

Umweltwissenschaften 

Post Hoc Tests 

A priori Tests (Kontraste) 

Carola Wagner & Anja Eggert 

Nicht-parametrischer Vergleich von Mittelwerten

Sprossdichte der Seegräser 

50 

40 

30 

20 

10 

0 


keine mittel hoch 

Manipulierte Seeigeldichte 

Ergebnis der ANOVA 


Die manipulierte Seeigeldichte 

hat einen signifikanten Effekt 

auf die Sprossdichte der 

Seegräser (p < 0,05). 

ABER: Welche Gruppe unterscheidet sich von welcher Gruppe ? 

Multiple Vergleiche von Mittelwerten


Multiple Vergleiche von Mittelwerten 

• Datensatz mit 3 Gruppen 

• ANOVA: signifikantes Ergebnis 




Gruppe n Werte MW STABW 

keine 5 15 ; 17 ; 18 ; 20 ; 21 18,2 2,4 

mittel 5 13 ; 20 ; 22 ; 25 ; 28 21,6 5,7 

hoch 5 31 ; 37 ; 38 ; 40 ; 45 38,2 5,1 


50 

40 

30 

20 

10 

0

• Datensatz mit 3 Gruppen 

• ANOVA: signifikantes Ergebnis 

• Paarweise t-Tests ? 



– bei 3 Gruppen ergeben sich 3 Vergleiche 

– bei 5 Gruppen ergeben sich bereits 10 Vergleiche 

G⋅ 

(G − 1) 5⋅ 

(5 − 1) 

Vergleiche (z) = = = 10 

2 2 



50 

40 

30 

20 

10 

0 



Gruppe Vergleich 

1 G1-G2 

2 G1-G3 

3 G2-G3



Vergleich Differenz der 

Mittelwerte 

• Wenn H 0: µ1 = µ2 = µ3 gilt, 


• Alle paarweise Mittelwertvergleiche mit der entsprechenden Nullhypothese 

H 0 k H 1 k 

G1-G2 ⏐18,2-21,6 ⏐= 3,4 µ1 = µ2 µ1 ≠ µ2 

G1-G3 ⏐18,2-38,2 ⏐= 20,0 µ1 = µ3 µ1 ≠ µ3 

G2-G3 ⏐21,6-38,2 ⏐= 16,6 µ2 = µ3 µ2 ≠ µ3 

dann gelten auch alle auf die paarweisen Vergleiche bezogenen Nullhypothesen



Unabhängige und abhängige Vergleiche 


• Alle Vergleiche des Beispiels sind abhängige Vergleiche, d.h. mit überlappenden 

Informationen 

– G1-G2, G1-G3 

– G1-G2, G2-G3 

– G1-G3, G2-G3 

Mittelwerte 

H 0 k H 1 k 

G1-G2 ⏐18,2-21,6 ⏐= 3,4 µ1 = µ2 µ1 ≠ µ2 

G1-G3 ⏐18,2-38,2 ⏐= 20,0 µ1 = µ3 µ1 ≠ µ3 

G2-G3 ⏐21,6-38,2 ⏐= 16,6 µ2 = µ3 µ2 ≠ µ3


Mittelwerte 



Unabhängige und abhängige Vergleiche 

H 0 k H 1 k 

G1-G2 ⏐75-59 ⏐=16 µ1=µ2 µ1≠µ2 

G1-G3 ⏐75-58 ⏐=17 µ1=µ3 µ1≠µ3 

G1-G4 ⏐75-58 ⏐=17 µ1=µ4 µ1≠µ4 

G1-G5 ⏐75-64 ⏐=11 µ1=µ5 µ1≠µ5 

G2-G3 ⏐59-58 ⏐=1 µ2=µ3 µ2≠µ3 

G2-G4 ⏐59-58 ⏐=1 µ2=µ4 µ2≠µ4 

G2-G5 ⏐59-64 ⏐=6 µ2=µ5 µ2≠µ5 

G3-G4 ⏐58-58 ⏐=0 µ3=µ4 µ3≠µ4 

G3-G5 ⏐58-64 ⏐=6 µ3=µ5 µ3≠µ5 

G4-G5 ⏐58-64 ⏐=6 µ4=µ5 µ4≠µ5 

• 5 Gruppen, d.h. 10 abhängige und 

unabhängige Vergleiche 

• Unabhängige Vergleiche 

– z.B. G1-G2 und G3-G4 

• Abhängige Vergleiche 

– mit überlappenden 

Informationen 

– z.B. G1-G3, G1-G4 und G1-G5



Inflation der Wahrscheinlichkeit des alpha-Fehlers 

• Die Wahrscheinlichkeit der Gesamtheit von 2 unabhängigen Vergleichen einen 

alpha-Fehler zu begehen, erhöht sich! 

α gesamt= 

1 − (1 − α 

einzel 

= 1 − (1 − 0,05) 

= 1 − (1 − 0,05) 

wobei z die Anzahl der Vergleiche ist 

) 

z 

2 

10 

= 

= 

0,098 

0,401 

Bei 2 unabhängigen Vergleichen verdoppelt sich bereits der alpha-Fehler !!! 

• Approximation: 

αgesamt ≈ z ⋅α 

einzel = 2⋅ 

0,05 = 

0,1

α 


einzel 

= 1 − (1 − α 

gesamt 

) 

1/z 

= 1 − (1 − 0,05) 



• Auf welchem Niveau sind die Einzelvergleiche zu prüfen, damit die 

Wahrscheinlichkeit der Gesamtheit von 2 unabhängigen Vergleichen einen alpha- 

Fehler zu begehen, 0,05 nicht überschreitet? 

• Approximation: 

α 

einzel 

≈ 

α 

gesamt 

z 

= 

0,05 

2 

= 

0,025 

1/2 

= 

0,025




• Sind nicht alle Vergleiche unabhängig, sind nur die Grenzen bekannt, zwischen 

denen die tatsächliche Wahrscheinlichkeit liegt, einen alpha-Fehler zu machen. 

• Sie liegt zwischen α einzel und α gesamt . 

bei 2 Vergleichen: 

bei 10 Vergleichen: 

α < α < α 

einzel 

tatsächlich 

gesamt 

0,025 < ???? < 0,050 

0,005 < ???? < 0,050


α 

einzel 

= 1 − (1 − α 

gesamt 



• Nach Anpassung des alpha-Fehlers liegt die Wahrscheinlichkeit der Gesamtheit 

von 3 unabhängigen und abhängigen Vergleichen einen alpha-Fehler zu 

begehen, zwischen 0,017 und 0,050 ! 

Gruppe Vergleich 

1 G1-G2 

2 G1-G3 

3 G2-G3 

) 

1/3 

= 1 − (1 − 0,05) 

1/3 

= 

0,017

• Ziel: 


Post hoc Tests 


alpha-Fehler für die Gesamtheit der Vergleiche beschränken, meist auf p = 0,05 

• Methode: Absenkung des alpha-Fehlers pro Einzelvergleich 

• Viele Verfahren, auch in SPSS 

– Gleiche oder ungleiche Stichprobenumfänge? 

– Homogene Varianzen? 

α < 

α < α 

einzel 

tatsächlich 

gesamt


Bonferroni-Verfahren 

α neu = 

α 

z 


• Neue kritische Irrtumswahrscheinlichkeit alpha wird durch Division der 

konventionellen alpha durch die Zahl der angestellten Vergleiche berechnet 

• Testvorschrift: Ablehnen von H 0(z), falls p z ≤ α / z 

• Vorteil: einfaches Verfahren, alle Nullhypothesen werden mit gleicher 

Wahrscheinlichkeit abgelehnt 

• Nachteil: sehr konservativ


Bonferroni-Verfahren 

• Beispiel: für drei geplante Vergleiche gilt: 

α neu 

= 

0,05 

3 

= 

0,017 

Gruppe Vergleich p-Werte H 0 ablehnen ? 

1 G1-G2 0,798 nein 

2 G1-G3


50 

40 

30 

20 

10 

0 

ANOVA: p



Post hoc Vergleiche 

• Ungeplante Vergleiche 

• Jede Gruppe wird mit jeder verglichen 


A priori Vergleiche 

• Geplante Vergleiche 

• „Kontraste“ in SPSS 

• Fragestellungen, die von besonderem 

Interesse sind 

Vorzug der wenigen geplanten Vergleiche gegenüber allen möglichen ungeplanten 

Vergleichen, da „keine unnötige Verschwendung“ des alpha-Fehlers.



Geplante Mittelwertsvergleiche (Kontraste) 

• Testen einer Teilmenge von Vergleichen 

• Bestehen vor der Datenerhebung Hypothesen, welche Gruppenmittelwerte sich 

unterscheiden, sollten Kontraste formuliert werden 

• Im Gegensatz zu post hoc-Tests, prüfen Kontraste nur die a priori vermuteten 

Mittelwertdifferenzen auf Signifikanz 

• Kontraste können im Gegensatz zu post hoc-Tests auch gerichtet sein!

• Kontrastgewichte formulieren 


Kontrast A B C 

1 A – B,C -1 0.5 0.5 

2 B – C 0 -1 1 

1. Wiesen ohne Seeigel haben eine 

geringere Sprossdichte als Wiesen 

mit Seeigel (unabhängig von der 

Seeigeldichte). 

2. Seegrasdichte in Wiesen mit mittlerer 

Seeigeldichte ist geringer als die in 

Wiesen mit hoher Seeigeldichte. 

Kontrastberechnung 


• Voraussetzungen prüfen 

– Ist die Summe aller Gewichte = 0 ? 

– Sind die Kontraste statistisch 

unabhängig (orthogonal) ? 


50 

40 

30 

20 

10 

0 


Manipulierte Seeigeldichte


Geplante Vergleiche (Kontraste) 


• Es kann sinnvoll sein, nach einer signifikanten ANOVA nur wenige ausgewählte 

Gruppen miteinander zu vergleichen 

• Vorteil: Teststärke dieser Paarungen wird nicht durch uninteressante Vergleiche 

gesenkt 

• Achtung! Auch diese Vergleiche gegen Inflation von Fehlern 1. Ordnung schützen 

• Dunnett-Test (auch in SPSS)


Was sind nicht-parametrische Tests? 


• Setzen keine bestimmte Verteilung der Daten voraus, sind „Verteilungsfreie Tests“ 

• Anwendung, wenn Daten nicht normalverteilt sind, können aber auch auf 

normalverteilte Daten angewand werden 

• Unempfindlich gegen Ausreißer 

• Auch für ordinalskalierte Daten 

Messwerte Rangplätze


Zwei unabhängige Stichproben: 

Mann-Whitney U-Test 


• Prüfung, ob sich mittlere Ränge von zwei unabhängigen Stichproben signifikant 

unterscheiden 

• Nullhypothese H 0: die mittleren Ränge sind unter beiden Bedingungen gleich





• Nullhypothese H 0: die mittleren Ränge sind unter beiden Bedingungen gleich 

Kontrollgruppe Experimentalgruppe 

Messwert Rang Messwert Rang 

16 1 19 3 

17 2 28 6 

20 4 34 7 

22 5 35 8 

41 9 

44 10 

Gemeinsame Rangreihe der 

Werte beider Stichproben

Sta tistik für Test b 

Mann-Whitney-U 

Wilcoxon-W 

Z 

Asymptotische 

Signifikanz (2-seitig) 

Exakte Signifikanz 

[2*(1-seitig Sig.)] 


Variable 

2,000 

12,000 

-2,132 

,033 

,038 a 

a. Nicht für Bindungen korrigiert. 

b. Gruppenvariable: Gruppe 



Kontrollgruppe 16 17 20 22 


Testgröße U: 

Wie häufig stehen Werte der Kontrollgruppe 

vor Werten der Experimentalgruppe ? 

U gibt an, wie häufig Werte an „falscher“ Stelle 

in der Rangfolge stehen. 

Experimentalgruppe 19 28 34 35 41 44 

„19“ steht als einziger Wert der Experimentalgruppe vor 

„20“ und „22“ der Kontrollgruppe


• Auf wieviel verschiedene Arten können 

10 Beobachtungen auf zwei Gruppen 

der Größe n 1=4 und n 2=6 aufgeteilt 

werden? 

K 

Fishers Randomisationstest 

(n + n2)! 

= 

n ! ⋅ n ! 

1 = 

1 

2 

210 



Messwert Messwert 

16 19 

17 28 

20 34 

22 35 

• Wenn H0 zutrifft, kann jede dieser 210 Aufteilungen mit gleicher Wahrscheinlichkeit 

auftreten 

• Für alle möglichen Aufteilungen werden die zugehörigen U-Werte bestimmt 

• Vollständige Stichprobenverteilung von U 

41 

44

• Bereich der Verwerfung von H 0: 

die 5% kleinsten Werte von U 


Überprüfung der Nullhypothese: 

Fishers Randomisationstest 


Messwert Messwert 

16 19 

17 28 

20 34 

22 35 

(d.h. einseitiger Test mit Irrtumswahrscheinlichkeit = 5%) 

• Die kleinsten 5% der 210 möglichen U-Werte: 

210 ∙ 0,05 = 10,5 , d.h. die 10 kleinsten Werte 

41 

44 

Carola Wagner & Anja Eggert

Sta tistik für Test b 

Mann-Whitney-U 

Wilcoxon-W 

Z 

Asymptotische 

Signifikanz (2-seitig) 

Exakte Signifikanz 

[2*(1-seitig Sig.)] 


Variable 

2,000 

12,000 

-2,132 

,033 

,038 a 

a. Nicht für Bindungen korrigiert. 

b. Gruppenvariable: Gruppe 



Prüfgröße 

• p = 0,038 ; d.h. p < 0,05 und H 0 wird abgelehnt 


2-seitige Irrtumswahrscheinlichkeit 

1-seitige Irrtumswahrscheinlichkeit: 

0,038 : 2 = 0,019 

• Es besteht ein signifikanter Unterschied zwischen den beiden Gruppen.





• Prüfung von H 0 bis n=50 über exakte Stichprobenverteilung, ab dann approximativ 

• Mit Zusatzmodul „Exakte Tests“ lassen sich auch im Fall von größeren Stichproben 

exakte p-Werte bestimmen, dann auch Berücksichtigung von Rangbindungen 

• Rangbindungen „ties“, d.h. Werte liegen mehrfach vor, dann Korrektur


• Testen von mittleren Rängen (MR): 

Nicht-parametrische „ANOVA“: 

Kruskal-Wallis H-Test 



Messwert Rang Messwert Rang Messwert Rang 

15 2 13 1 31 11 

17 3 20 5,5 37 12 

18 4 22 8 38 13 

20 5,5 25 9 40 14 

21 7 28 10 45 15 

R 1 21,5 R 2 33,5 R 3 65 

n 1 5 n 2 5 n 3 5 

MR 1 4,3 MR 2 6,7 MR 3 13,0



• Nullhypothese H 0: MR 1 = MR 2 = MR 3 = MR 

• Testgröße H: 



R 1 21,5 R 2 33,5 R 3 65 

n 1 5 n 2 5 n 3 6 

MR 1 4,3 MR 2 6,7 MR 3 13,0 

MR (21,5+33,5+65)/(5+5+5) = 8,0 

12 

H = ⋅ 

N(N + 1) 

3 

∑ 

j= 

1 

nj 

(MRj 

− MR) 

• H ist annähernd χ 2 -Verteilt mit df=k-1 Freiheitsgraden 

2


df = 2 (3-1 Gruppen) 

H kritisch = 5,992 



• H ist annähernd χ 2 -verteilt 

• Was ist das kritische H ?? 

• H= 10,095 > 5,992 

Die manipulierte Seeigeldichte hat einen signifikanten Effekt auf die 

Sprossdichte der Seegräser (p = 0,006).


Nicht-parametrischer post hoc Test 

• Mann-Whitney-U Test: mit Bonferroni-Anpassung des alpha-Fehlers 


(Test wird in SPSS angeboten, aber Bonferroni-Anpassung muss manuell 

durchgeführt werden)

VL IV - IOW

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?