13.07.2015 Aufrufe

Logik des Signifikanztests, Statistische Tests für Mittelwerte einer ...

Logik des Signifikanztests, Statistische Tests für Mittelwerte einer ...

Logik des Signifikanztests, Statistische Tests für Mittelwerte einer ...

MEHR ANZEIGEN
WENIGER ANZEIGEN
  • Keine Tags gefunden...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

1. Präliminarien1.1 FragenWas bedeutet Signifikanz?Dirk Enzmann (2013) 1Ist es richtig, dass der im Rahmen eines <strong>Signifikanztests</strong> berechnete p-Wert (z.B. p = .05)– die Wahrscheinlichkeit ist, dass die Resultate auf Zufall beruhen?– bedeutet, dass die Chancen 95 % sind, dass die wissenschaftliche Hypothese korrekt ist?– ein Maß der Power ist, z.B. das Verhalten <strong>einer</strong> Population vorherzusagen?– ein Maß <strong>des</strong> Vertrauens ist, dass die Ergebnisse <strong>des</strong> Experiments unter den beschriebenenBedingungen wiederholbar sind?– bedeutet, dass das Ergebnis bedeutsam ist?1.2 Anlässea) Eine Forscherin findet in <strong>einer</strong> Stichprobe von 300 Personen einen signifikanten Regressionsparametermit p = .048 und stellt dies in <strong>einer</strong> Veröffentlichung dar. Leider stellt sichnach <strong>einer</strong> Korrektur der Daten heraus, dass der Effekt tatsächlich nicht signifikant ist(p = .052). Die Forscherin räsoniert: “Wie soll ich jetzt dem Leser beibringen, dass dieWirklichkeit ganz anders als berichtet aussieht?”b) Ein Forscher untersucht mittels schriftlicher Befragung die Einstellung von Bewährungshelfernin zwei unterschiedlichen Einrichtungstypen zur Wirkungsweise ihrer Arbeit. Nur30 % s<strong>einer</strong> Fragebögen kommen zurück, aber da die Bewährungshelfer nicht direktsondern nur über die Einrichtungen, deren Mitarbeiterzahl unbekannt ist, angeschriebenwerden konnten, weiß der Forscher nicht, wie groß seine wahre Rücklaufquote ist und obdie 60 Teilnehmer repräsentativ für die Bewährungshelfer sind, die in diesen Einrichtungenarbeiten. Die Analysen zeigen, dass die <strong>Mittelwerte</strong> der Einstellungsmaße je nach Einrichtungstypunterschiedlich sind. Der Forscher fragt sich, ob es Sinn macht, die Unterschiedeauf statistische Signifikanz zu testen.c) Eine Forscherin glaubt, dass eine im Allgemeinen seltene Krankheit in <strong>einer</strong> bestimmtenPopulation nicht existiert. Sie zieht eine einigermaßen zufällige Stichprobe von 30 Fällenaus dieser Population und findet, dass <strong>einer</strong> der Fälle diese Krankheit hat. Sie ist nichtsicher, ob sie die Nullhypothese mit Yates-Korrektur oder mit Fishers exaktem Test prüfensoll und fragt sich, ob die Power genügend groß ist.1.3 Wie funktioniert ein Signifikanztest?<strong>Signifikanztests</strong> werden eingesetzt, um festzustellen, mit welcher Wahrscheinlichkeit in<strong>einer</strong> Stichprobe beobachtete statistische Kennwerte wie z.B. ein Mittelwert, die Differenzvon <strong>Mittelwerte</strong>n von zwei oder mehr Gruppen, ein Korrelations- oder Regressionskoeffizient,Unterschiede von relativen Häufigkeiten (Prozentanteilen), Korrelations- oder Regressionskoeffizienten,die Varianzen oder Verteilungsform von Werten u.v.m. unter spezifiziertenBedingungen <strong>einer</strong> Population auftauchen können bzw. mit welcher Sicherheit eszulässig ist, von den in <strong>einer</strong> Stichprobe beobachteten Gegebenheiten auf die Gegebenheiten1 Dirk Enzmann, Universität Hamburg, Institut für Kriminalwissenschaften;Email: dirk.enzmann@uni-hamburg.de


in der Population zu schließen. Im Folgenden soll am Beispiel eines t-<strong>Tests</strong> die <strong>Logik</strong> <strong>des</strong><strong>Signifikanztests</strong> erläutert werden. Mit einem t-Test kann geprüft werden, mit welcherWahrscheinlichkeit ein Stichprobenmittelwert oder eine Mittelwertsdifferenz zweier Stichprobenoder <strong>einer</strong> wiederholt gemessenen Stichprobe beobachtet werden kann, wenn in derPopulation bestimmte, in der Nullhypothese spezifiziert Bedingungen gelten.1.3.1 Einstichproben t-Test zur Inferenz eines PopulationsmittelwertesDie Standardabweichung der <strong>Mittelwerte</strong> kann anhand dieser Formel berechnet werden,womit die <strong>Mittelwerte</strong> <strong>einer</strong> Verteilung folgen, die schmaler ist, als die der Werte derursprünglichen Werte der Variablen X, und zwar um so schmaler, je größer die Stichprobeist. Aufgrund <strong>des</strong> zentralen Grenzwertsatzes sind der Mittelwert, die Standardabweichungund die Verteilungsform der Stichprobenkennwerte also theoretisch bekannt.Tabelle 1: Theoretische Stichprobenkennwerteverteilungen <strong>des</strong> Mittelwerts inAbhängigkeit von Populationsstandardabweichung und Stichprobengröße dreier nichtnormalverteilter RohwertverteilungenNach dem zentralen Grenzwertsatz sind die <strong>Mittelwerte</strong> x von (theoretisch unendlichvielen) Stichproben ab einem Umfang von n ³ 30 annähernd normalverteilt um den Populationsmittelwert(selbst wenn die Werte der Population nicht normal verteilt sind), vgl.Tabelle 1 und Abbildung 1. Die Standardabweichung der Stichprobenkennwerte (<strong>Mittelwerte</strong>)s (= Standardfehler <strong>des</strong> Mittelwerts) ist dabei von der Stichprobengröße n und derxStreuung s der Werte in der Population abhängig:xsxsx= (1)nStichprobengrößegleichverteilt( m = 5; s = 2. 887)Rohwerteverteilungrechtsschief( m = 5 ; s = 4. 000)bimodal( m = 5; s = 3. 162)n x s x s x sxxx2 5.0 2.041 5.0 2.828 5.0 2.2365 5.0 1.291 5.0 1.789 5.0 1.41430 5.0 0.527 5.0 0.730 5.0 0.577Wenn die Standardabweichung s der Werte in der Population (wie meistens der Fall)xnicht bekannt ist, kann zur Berechnung <strong>des</strong> Streuungsmaßes der Stichprobenmittelwerte sxals bester Schätzer das Streuungsmaß sˆ benutzt werden, wobei sˆ die aus der jeweiligenxxStichprobe bekannte Standardabweichung der einzelnen Stichprobenwerte darstellt:( x i- x)( -1)2å s ˆx= (2)nEntscheidend ist, dass es mit diesem Schätzer der Standardabweichung der Werte in derPopulation möglich ist, selbst anhand der Daten <strong>einer</strong> einzigen Stichprobe einen empirischenStandardfehler <strong>des</strong> Mittelwerts zu berechnen:sˆxsˆ x= (3)n2


Uniform DistributionSkewed DistributionBimodal Distribution.15.15.2.1.05.1.05.15.1.05DensityDensityDensity0000 2 4 6 8 10m = 5.000, s = 2.8870 5 10 15 20 25m = 5.000, s = 4.0000 2 4 6 8 10m = 5.000, s = 3.162Means of 10,000 Samples of Size n = 2Means of 10,000 Samples of Size n = 2Means of 10,000 Samples of Size n = 2.2.15.25.15.1.05.1.05.2.15.1.05DensityDensityDensity0000 2 4 6 8 10mean = 5.017, sd = 2.0360 5 10 15 20 25mean = 5.000, sd = 2.8440 2 4 6 8 10mean = 4.990, sd = 2.240Means of 10,000 Samples of Size n = 5Means of 10,000 Samples of Size n = 5Means of 10,000 Samples of Size n = 5.3.25.3.2.1.2.15.1.05.2.1DensityDensityDensity00 2 4 6 8 10mean = 5.028, sd = 1.30100 5 10 15 20 25mean = 5.000, sd = 1.79200 2 4 6 8 10mean = 4.971, sd = 1.409Means of 10,000 Samples of Size n = 30Means of 10,000 Samples of Size n = 30Means of 10,000 Samples of Size n = 30.8.6.8.6.4.2.4.2.6.4.2DensityDensityDensity0000 2 4 6 8 10mean = 5.002, sd = 0.5310 5 10 15 20 25mean = 5.006, sd = 0.7340 2 4 6 8 10mean = 5.007, sd = 0.580Abbildung 1: Dichtekurven (Kerndichteschätzer, rot) und Normalverteilungskurven (blau) von <strong>Mittelwerte</strong>n aus 10 000Zufallsstichproben der Größe n aus gleich-, rechtsschief- und bimodal verteilten Rohwerteverteilungen (Zeile 1)Dieser Wert sagt uns, in welchen Bereichen der beobachtete Mittelwert von seinem wahrenWert abweichen kann. Für normalverteilte Daten gilt die Faustregel, dass die Wahrscheinlichkeit95 % beträgt, dass ein zufällig gezogener Wert im Bereich m ± 2 ×s liegt, so dassm der wahre Mittelwert ist, der Mittelwert x in 95 % derwir erwarten können, dass wenn0Fälle innerhalb von 2 × s liegen sollte (genauer: im Bereich x ± z sx( 1-×a / 2), wobei hierxx3


z 1.95996 der z-Wert der Standardnormalverteilung ist, bis zu dem 97.5 % der( 1-a/ 2)=Fläche liegt). Allerdings folgt die mit dem empirischen Standardfehler berechnete Verteilungder <strong>Mittelwerte</strong> nicht mehr der theoretisch bekannten Normalverteilung sondern <strong>einer</strong>theoretisch bekannten t-Verteilung mit (n–1) Freiheitsgraden. „Theoretisch bekannt“ bedeutet,dass die Formen der (Wahrscheinlichkeits)Verteilungen der Stichprobenkennwertebekannt sind, so dass für einen beliebigen einzelnen Mittelwert bestimmt werden kann, wieviel Prozent der Verteilung links oder rechts davon liegt. Mit wachsender Stichprobengrößenähert sich die t-Verteilung der Standardnormalverteilung an (vgl. Abbildung 2). Formalberechnet man( x - m0)t = (4)ˆsund stellt fest, ob dieser Wert in die Akzeptanzregion fällt, außerhalb derer t mit <strong>einer</strong>Wahrscheinlichkeit liegen sollte, die gleich dem spezifizierten Signifikanzniveau α ist. AlsSignifikanzniveau wird oft als 5 % gewählt. In diesem Fall stellt die Akzeptanzregionungefähr das Intervall zwischen –2 und 2 dar. Hierbei liegt zwischen –2 und 2 einFlächenanteil von (1-α) der Verteilung, also ungefähr 95 %, während links und rechts von–2 bzw. 2 jeweils ein Flächenanteil von α/2 der Verteilung liegt, also ungefähr jeweils 2.5 %(zweiseitiger Signifikanztest).Standard Normal and t Distributionsxdensity0.0 0.1 0.2 0.3 0.4standard normalt(df=29)t(df=4)t(df=1)-3 -2 -1 0 1 2 3Abbildung 2: Flächen unter der Standardnormalverteilung und unter drei t-VerteilungenAbbildung 2 zeigt, dass die Flächenanteile an den Rändern der Verteilungen für die Standardnormalverteilungkl<strong>einer</strong> sind als für t-Verteilungen, wobei sich t-Verteilungen mitwachsenden Freiheitsgraden der Standardnormalverteilung annähern. So wird (von linksbzw. – ∞ kommend) ein Flächenanteil von 2.5 % der Verteilung bei der Standardnormalverteilungerst bei einem z-Wert von –1.96 erreicht, während dies bei <strong>einer</strong> t-Verteilung mit29 Freiheitsgraden bei einem t-Wert von –2.05, bei <strong>einer</strong> t-Verteilung mit 4 Freiheitsgradenx4


ereits bei einem t-Wert von –2.78 und bei <strong>einer</strong> t-Verteilung mit einem Freiheitsgrad schonbei einem t-Wert von –12.71 (außerhalb der dargestellten x-Achse) der Fall ist.Die t-Verteilung ist für alle Stichproben ein angemessene Verteilung für den <strong>Signifikanztests</strong>eines Mittelwerts. Vor allem aber bei kleinen Stichproben (< 30) ist es notwendig, dieTatsache zu berücksichtigen, dass ein empirischer Standardfehler <strong>des</strong> Mittelwerts benutztwird und dass an den Rändern der t-Verteilung größere Flächenanteile liegen als an denRändern der Standardnormalverteilung. Die korrekteren Werte der Akzeptanzregion sind<strong>des</strong>halb immer die Quantile <strong>einer</strong> t-Verteilung mit (n-1) Freiheitsgraden.Liegt t außerhalb der Akzeptanzregion, weisen wir die Nullhypothese auf dem gewähltenSignifikanzniveau zurück. Alternativ (und äquivalent) lässt sich der p-Wert berechnen, derdie Wahrscheinlichkeit darstellt, einen Wert größer oder gleich dem Absolutbetrag <strong>des</strong>beobachteten t-Werts (indirekt: dem Absolutbetrag <strong>des</strong> beobachteten Mittelwerts) zuerhalten, wenn die Nullhypothese gültig ist. Die Nullhypothese wird zurückgewiesen, wennder p-Wert kl<strong>einer</strong> als das Signifikanzniveau ist (womit auch die Wahrscheinlichkeit für denbeobachteten Mittelwert unbekannt ist).Beispiel 1: 2n = 100, x = 69,1) H 0 : m 0= 68H 1 : m 0¹ 68sˆ = 3.1x2) zweiseitiges Signifikanzniveau α = .05sˆx3.13) sˆ = = = 0. 31xn 100( x - m ) 69 - 68t =0 = 3.23sˆ0.31=dfx= n -1= 994) Akzeptanzregion H 0 (1 – α) :[-t( 1-a / 2), df = 99;t(1-a/ 2), df = 99] = [–1.98; 1.98]bzw.p = 2 × (1 - p(t )) = 2 × (1 - .999) = .002( 3.23,99)Manchmal stehen der Forscherin à priori Informationen über die Richtung eines Effekts zurVerfügung. Beispielsweise könnten alle Mechanismen, die m ungleich m sein lassen, dazu0führen, dass m größer ist. In diesen Fällen kann man sich entscheiden, die Nullhypothesenur dann zurückzuweisen, wenn t im oberen (rechten) Bereich der Verteilung liegt. Dieswird auch als Test gegen eine einseitige Alternative oder als einseitiger Signifikanztestbezeichnet. Da hierbei die Akzeptanzregion den linken Rand der Verteilung vollständigausfüllt, wird die Region der Zurückweisung der Nullhypothese halbiert, wodurch eineinseitiger Test bei einem gegebenen α-Niveau einen kl<strong>einer</strong>en t-Wert hat. Einseitige <strong>Tests</strong>2 Syntax zum praktischen Nachvollzug dieser Beispiele mit Excel, R, SPSS oder Stata findet sich inhttp://www2.jura.uni-hamburg.de/instkrim/kriminologie/Mitarbeiter/Enzmann/Lehre/StatIIKrim/ttest_bsp.zip5


sollten nur durchgeführt werden, wenn eine klare à priori Hypothese vorliegt. Eineneinseitigen Test durchzuführen, weil ein zweiseitiger zu einem nicht signifikanten Resultatgeführt hat, ist „wissenschaftlich verboten“.Beispiel 2:n = 100, x = 69,1) H 0 : m £ 068H 1 : m 1> 68sˆ = 3.1x2) einseitiges Signifikanzniveau α = .05sˆx3.13) sˆ = = = 0. 31xn 100( x - m ) 69 - 68t =0 = 3.23sˆ0.31=dfx= n -1= 994) Akzeptanzregion H 0 (1 – α) :; ta] = [– ∞; 1.66][-¥ ( 1-), df = 99bzw.p = 1 - p(t ) = 1-.999= .001( 3.23,99)Mit Hilfe dieser Gegebenheiten lässt sich um jeden empirisch gefundenen Mittelwert x<strong>einer</strong> einzelnen Stichprobe auch ein Konfidenzintervall CI berechnen, zwischen <strong>des</strong>senGrenzen der Mittelwert der m Population mit <strong>einer</strong> Wahrscheinlichkeit von (1–α) erwartetwerden kann. Hierzu wird das Produkt <strong>des</strong> t-Werts (mit den entsprechendenFreiheitsgraden) für einen auf dem Signifikanzniveau α von 0 verschiedenen Mittelwert unddem empirischen Standardfehler <strong>des</strong> Mittelwerts vom empirischen Mittelwert x subtrahiertbzw. addiert:CI = x ± t sˆ(5)-bzw.Beispiel 3:n = 100, x = 69,sˆ = 3.1x1) Konfidenzintervall (1 – α) = .95sˆx3.12) sˆ = = = 0. 31xn 100df = n -1= 99x( 1 a / 2)×3) 95 %-CI:x t ˆ( 1 a / 2),99× s = 69 ± 1.98×0.31 = 69 ± 0.615± - xbzw.68.385 < m < 69.615x- t × sˆ < m < x + t × sˆ(6)( 1- a / 2) x(1-a/ 2)x6


Im obigen Beispiel liegt bei <strong>einer</strong> Stichprobe von n = 100 mit einem empirischen Mittelwertvon 69 und <strong>einer</strong> geschätzten Populationsstandardabweichung von 3.1 der Mittelwert derPopulation mit <strong>einer</strong> Sicherheit von 95 % zwischen 68.38 und 69.62. Anders ausgedrücktheißt das auch, dass die Wahrscheinlichkeit, dass der Populationsmittelwert außerhalbdieses Intervalls liegt, nur 5 % beträgt. Man spricht in diesem Fall von einem (zweiseitigen)a-Niveau von 5 %. Wäre die Stichprobe bei gleichen Kennwerten jedoch n = 500 groß, lägeder Populationsmittelwert bei gleichem a-Niveau von 5 % außerhalb von 68.73 und 61.27.Das liegt daran, dass die Streuung der Kennwerteverteilung mit wachsenderStichprobengröße schmaler wird (vgl. Tabelle 1).Die Größe <strong>des</strong> geschätzten Werteintervalls hängt von 3 Parametern ab:– dem geforderten a-Niveau: mit größerem a (d.h. geringerer Sicherheit) wird dasWerteintervall, in dem der Populationsmittelwert liegen kann größer;– der Stichprobenstreuung: mit geringerer Standardabweichung der Stichprobenwerte wirddas Werteintervall, in dem der Populationsmittelwert liegen kann, kl<strong>einer</strong>;– der Stichprobengröße: mit wachsender Stichprobengröße wird das Werteintervall, indem der Populationsmittelwert liegen kann, kl<strong>einer</strong>.1.3.2 Zweistichproben t-Test zur Inferenz <strong>des</strong> Unterschieds zweier Populationsmittelwerteanhand von zwei unabhängiger StichprobenIn ähnlicher Weise kann das Wissen um die Verteilungsform der Stichprobenkennwertebenutzt werden, um zu bestimmen, wie wahrscheinlich es ist, dass zwei <strong>Mittelwerte</strong> zurgleichen Population von Werten gehören. Hierzu werden zwei Hypothesen aufgestellt: EineNullhypothese H 0 , die besagt, dass die <strong>Mittelwerte</strong> der Populationen sich nichtunterscheiden (d.h. sie stammen aus <strong>einer</strong> Population), und die Alternativhypothese H 1 , diedann besagt, dass die <strong>Mittelwerte</strong> sich unterscheiden (d.h. sie entstammen aus zweiverschiedenen Populationen). Wie die <strong>Mittelwerte</strong> x von (theoretisch unendlich vielen)Stichproben aus <strong>einer</strong> Population sind auch die Mittelwertsdifferenzen ( x - x ) von1 2(theoretisch unendlich vielen) Stichproben aus zwei Populationen mit den <strong>Mittelwerte</strong>n m 1und m 2 normalverteilt, in diesem Fall um die Mittelwertsdifferenz ( m - m ). Die entsprechendeStandardabweichung der Differenzen1 2ist:ss ˆdiff= +(7)n n2 2sˆˆ1 2Analog folgt die Verteilung der Differenzen der theoretisch bekannten t-Verteilung, wenndie Populationsvarianzen aus den Werten der Stichproben geschätzt werden; der t-Wert berechnetsich dann als:( x - x ) - ( m - m )1 2 1 2t = (8)2 2sˆsˆ1 2+n n(wird m - m als 0 angenommen, vereinfacht sich die Formel entsprechend).1 21Anmerkung: Abhängig von der Annahme homogener Varianzen der Stichproben (bzw.Gruppen) gibt es zwei Möglichkeiten, den Standardfehler der Mittelwertsdifferenz zu1227


erechnen. Die „klassische“ Methode geht davon aus, dass die Varianzen homogen sind undberechnet für beide Stichproben (Gruppen) zunächst einen einzigen Schätzer für diePopulationsvarianz, die sogenannte gepoolte Varianz. Bei gleich großen Stichproben ist diesder Mittelwert der Varianzen beider Stichproben. Bei unterschiedlich großen Stichprobenwird sie berechnet als:222 ( n -1)× sˆ+ ( n -1)× sˆ11 22s ˆ =(9)pooledn + n - 2Die gepoolte Varianz wird anstelle der beiden Varianzen in Formel 7 bzw. in Formel 8eingesetzt. Unter der Annahme der Nullhypothese folgt der damit berechnete t-Wert <strong>einer</strong> t-Verteilung mit n + n 2 Freiheitsgraden. Die alternative Methode geht von ungleichen-1 2Varianzen aus und berechnet den Standardfehler der Mittelwertsdifferenz mit den einzelnenVarianzen der beiden Stichproben (Gruppen) anhand von Formel 7 bzw. berechnet den t-Wert anhand von Formel 8. Mit dieser Methode (t-Test für heterogene Varianzen oder auchSatterthwaite-Test genannt) 3 ist der t-Wert allerdings nicht exakt t-verteilt sondern kann<strong>einer</strong> t-Verteilung angenähert werden, deren Freiheitsgrade df anhand der Varianzen derbeiden Stichproben und der Stichprobengrößen berechnet werden:was im Allgemeinen keine ganze Zahl ergibt.112 2æsˆsˆö1 2ç +÷è n1n2df =øæ222 ö æ 2 öçsˆ÷ ç ˆ ÷1sç ÷ ç 2 ÷ç ÷ ç ÷çn÷ ç ÷è 1nø è 2 ø+n -1n -1Ist die empirische Differenz ( x - x ) so groß, dass der t-Wert bei der Annahme von1 2m - m 0 außerhalb <strong>des</strong>jenigen Intervalls liegt, in der sich 95 % der Fläche der1 2=1 2=entsprechenden t-Verteilung befindet (d.h. a < .05 bzw. p < .05), kann man sagen, dass derMittelwertunterschied auf dem 5 %-Niveau signifikant ist. In diesem Fall kann dieNullhypothese m - m 0 abgelehnt werden; die Irrtumswahrscheinlichkeit, die Nullhypothesefälschlicherweise beizubehalten, ist kl<strong>einer</strong> als 5 %. Präziser ist: Die Wahrscheinlichkeit,in zwei Stichproben die beobachtete Mittelwertsdifferenz zu erzielen, beträgt beiGültigkeit der Nullhypothese weniger als 5 %. Würde jedoch der t-Wert für die Differenzder Stichprobenmittelwerte im dem Intervall liegen, in der sich 95 % der Fläche derentsprechenden t-Verteilung befindet, müsste die Nullhypothese, dass die Populationen sichnicht unterscheiden bzw. die <strong>Mittelwerte</strong> aus der gleichen Population von Werten stammen,beibehalten werden. Die Irrtumswahrscheinlichkeit lässt sich verringern, indem man das a-Niveau verringert, typischerweise auf .01 oder .001. Des weiteren gilt, dass mit größerenStichproben auch geringere Mittelwertsunterschiede signifikant werden bzw. dass bei unverändertenStichprobengrößen größere Mittelwertsunterschiede eher signifikant werden alsgeringere.212(10)3Eine häufig benutzte Alternative für einen t-Test mit ungleichen Varianzen ist der Welch-Test, bei demdie Freiheitsgrade mit <strong>einer</strong> anderen Formel berechnet ein wenig größer ausfallen (Satterthwaite, 1946;Welch, 1947).8


Beispiel 4:n = 22, x = 81, s ˆ11x= 3.4641n = 20, x = 78, s ˆ22x= 2.76221) H 0 : m1 - m2= 0H 1 : m - m 01 2¹2) zweiseitiges Signifikanzniveau α = .053a) homogene Varianzen:sˆ2pooled( n=122-1)× sˆ( 1) ˆ1+ n2- × s2=n + n - 22æ 1 1 ös = ˆç +÷diffs pooled=0.973è n n2 2 øt =x1- xsˆ( 2diff1) 81 - 78= = 3.080.973df = n + n - 2 = 401 23b) heterogene Varianzen:22(22 -1)× 3.464 + (20 -1)× 2.76222 + 20 - 22= 9.922 222sˆˆ1s2 3.464 2.762sˆdiff= + = + = 0.963n n 22 20t =1x1- xsˆ(2diff2) 81 - 78= = 3.120.963df=2æ sˆ1çè n1sˆæçç2 ö2÷1 ÷÷12sˆö2+÷n2øsˆæçççèçn ÷1nè ø+n -1n222 ö2÷2 ÷÷2 ø-1=sˆæçç1sˆ2 ö2÷1 ÷÷4diffsˆæçççèçn ÷1nè ø+n -1n22 ö2÷2 ÷÷2 ø-14a) homogene Varianzen:Akzeptanzregion H 0 (1 – α) :[-t; t ] = [–2.02; 2.02]( 1-a / 2), df = 40 (1-a/ 2), df = 40bzw.p = 2 × (1 - p(t( 3.08,40))) = 1-.998 = .004=æçççè3.4642222 -10.9632 ö2÷÷÷ø+4æçççè2.762202 ö2÷÷÷ø20 -1= 39.364b) heterogene Varianzen:Akzeptanzregion H 0 (1 – α) :[-t( 1-/ 2), df = 39.36 (1-/ 2), df = 39. 36a; ta] = [–2.02; 2.02]bzw.p = 2 × (1 - p(t( 3.12,39.36))) = 1 - .998 = .0039


Anmerkung: Wird der t-Test zur Prüfung <strong>des</strong> Unterschieds zweier Populationsmittelwerteanhand zweier unabhängiger Stichproben unter der Annahme homogener Varianzen, d.h.mittels der gepoolten Varianz und ganzzahligen Freiheitsgraden durchgeführt (siehe obigeAnmerkung), ist das Ergebnis <strong>des</strong> <strong>Signifikanztests</strong> identisch mit dem Signifikanztest <strong>des</strong>sogenannten punktbiserialen Korrelationskoeffizienten r , der wiederum identisch ist mitder Produkt-Moment Korrelation <strong>einer</strong> dichotomen mit <strong>einer</strong> kontinuierlichen Variablen.Hierbei teilt die dichotome Variable die beiden Stichproben in zwei Gruppen, während diekontinuierliche Variable diejenige ist, deren Mittelwertsdifferenz anhand <strong>des</strong> t-<strong>Tests</strong> geprüftwerden soll. Der punkbiseriale Korrelationskoeffizient lässt sich aus dem t-Wert wie folgtberechnen:2r t= pb 2t + dfDer Vorteil <strong>des</strong> Korrelationskoeffizienten ist, dass sein quadrierter Wert angibt, welcherVarianzanteil der kontinuierlichen Variablen durch die Gruppenzugehörigkeit erklärtwerden kann. Damit wird der Effekt der Gruppenzugehörigkeit sichtbar, der bei <strong>einer</strong>bloßen Betrachtung der Signifikanz <strong>des</strong> Gruppenunterschieds im Dunkeln geblieben wäre.Häufig wird in der Forschungsliteratur nur die Signifikanz <strong>des</strong> t-<strong>Tests</strong> berichtet. Wenn derEffekt so klein ist, das er praktisch vernachlässigbar ist, wird dabei leicht die Bedeutungeines signifikanten Ergebnisses überschätzt (allerdings kann ein praktisch nur wenigbedeutsamer Effekt theoretisch durchaus bedeutsam sein!). Wenn in einem Forschungsartikelnur der t-Wert eines Zweistichproben <strong>Tests</strong> berichtet wird, ist es also ratsam,r anhand obiger Formel selbst zu berechnen. Es könnte sich herausstellen, dass derpbenthusiastische Kommentar <strong>des</strong> Forschers anlässlich eines statistisch signifikantenErgebnisses tatsächlich ungerechtfertigt ist.Beispiel 5:t = 3.08; df = 40 (homogene Varianzen)pb(11)r pb=t2t2+ df=3.083.0822+ 40= 0.438Wie um einen empirischen Mittelwert x lässt sich in analoger Weise auch um dieempirische Mittelwertdifferenz x - x ein Konfidenzintervall berechnen, innerhalb <strong>des</strong>sen1 2mit <strong>einer</strong> Wahrscheinlichkeit von (1 – α) die Differenz der Populationsmittelwerte m - m1 2liegt. Hierbei wird wie in Formel 5 das Produkt aus <strong>des</strong> t-Werts (mit den entsprechendenFreiheitsgraden) für eine auf dem Signifikanzniveau α signifikante Mittelwertsdifferenz(unter der Annahme m - m = 0) und dem empirischen Standardfehler der1 2Mittelwertsdifferenz von der empirischen Mittelwertsdifferenz x - x subtrahiert bzw.1 2addiert.10


Beispiel 6:n = 22,11ˆ xx = 81, s = 3.4641n = 20, x = 78, s ˆ22x= 2.76221) Konfidenzintervall (1 – α) = .952a) homogene Varianzen:sˆ2pooled=( n122-1)× sˆ( 1) ˆ1+ n2- × s2n + n - 212=2(22 -1)× 3.464 + (20 -1)× 2.76222 + 20 - 22= 9.922æ 1 1 ös = ˆç +÷diffs pooled=0.973è n n2 2 ødf = n + n - 2 = 401 22b) heterogene Varianzen:2 222sˆˆ1s2 3.464 2.762sˆdiff= + = + = 0.963n n 22 2012df=2æ sˆ1çè n1sˆæçç2 ö2÷1 ÷÷12sˆö2+÷n2øsˆæçççèçn ÷1nè ø+n -1n222 ö2÷2 ÷÷2 ø-13a) homogene Varianzen:=sˆæçç1sˆ2 ö2÷1 ÷÷4diffsˆæçççèçn ÷1nè ø+n -1n22 ö2÷2 ÷÷2 ø-1=æçççè3.4642222 -10.9632 ö2÷÷÷ø+4æçççè2.7622095 %-CI:( xˆ1- x2) ± t(1- / 2), df = 40× sx= (81-78) ± 2.02 × 0.973 = 3 ± 1.97bzw.1.03 < m1 - m < 4.9723b) heterogene Varianzen:a2 ö2÷÷÷ø20 -195 %-CI:( xˆ1- x2) ± t(1- / 2), df = 39. 36× sx= (81-78) ± 2.02 × 0.963 = 3 ± 1.95bzw.1.05 < m1 - m < 4.952a= 39.361.3.3 T-Test zur Inferenz <strong>des</strong> Unterschieds zweier Populationsmittelwerte anhandgepaarter StichprobenLiegen pro Objekt zwei Messwerte <strong>einer</strong> Variablen vor (bzw. können die Messwerte auszwei Stichproben einander ein-eindeutig paarweise zugeordnet werden), dann korrelierendie Messwerte im Allgemeinen positiv mit einander. Dies tritt z.B. bei Messwiederholungenauf, aber auch dann, wenn beispielsweise der Wert <strong>einer</strong> Variablen bei Ehepaaren erhoben11


wird oder wenn es sich um sogenannte matched pairs Designs handelt. In diesem Fall sinddie Messwerte (mehr oder weniger) voneinander abhängig bzw. korrelieren mehr oderweniger positiv miteinander. Das führt dazu, dass die Variabilität der paarweisen Messwertdifferenzenbzw. der Standardfehler der Differenzen geringer wird. Deshalb werden für denTest von Mittelwertsunterschieden aus gepaarten (oder abhängigen) Stichproben zunächstdie n paarweisen Messwertdifferenzen d berechnet, deren Standardabweichung zurSchätzung <strong>des</strong> Standardmessfehlers der Differenzen benutzt wird. Formel 8 zur Berechnung<strong>des</strong> t-Werts verändert sich <strong>des</strong>halb zu:d - mdt = (12)sˆwobei die zugehörige t-Verteilung (n – 1) Freiheitsgrade (df) hat. Auf Grund der imAllgemeinen positiven Korrelation zwischen den Messwerten wird ein t-Test für gepaarte(abhängige) Stichproben im Allgemeinen eher signifikant als ein t-Test für unabhängigeStichproben.dnBeispiel 7:Werte <strong>einer</strong> Introversionsskala für 10 Zwillinge (matched pairs, hypothetische Daten)Paar erstgeboren ( x ) zweitgeboren ( x ) d = x - x121 21 65 61 42 48 42 63 63 66 -34 52 52 05 61 47 146 53 58 -57 63 65 -28 70 62 89 65 64 110 66 69 -3xsˆ1) H 0 : m d= 0H 1 : ¹ 0m d60.67.1372) zweiseitiges Signifikanzniveau α = .05sˆd5.9633) sˆ = = = 1. 886dn 10t =(0d - m ) 2 - 0= = 1.06sˆ1.886df = n -1 = 9d58.68.8472.05.96312


4) Akzeptanzregion H 0 (1 – α) :[-t( 1-a / 2), df = 9;t(1-a/ 2), df = 9] = [–2.26; 2.26]bzw.p = 2 × (1 - p(t )) = 2×(1 - .842) = .316( 1.06,9)1.3.4 SchlussbemerkungDie hier behandelten t-Test Verfahren können bei großen Stichproben auch als z-<strong>Tests</strong> (alsostatt anhand <strong>einer</strong> entsprechenden t-Verteilung anhand der Standardnormalverteilung)durchgeführt werden. Bei allen diesen <strong>Tests</strong> ist der Standardfehler <strong>des</strong> Mittelwerts bzw. derMittelwertsdifferenz zentral. Da der t-Test jedoch Verzerrungen der Schätzung <strong>des</strong> Standardfehlers(die bei Stichprobengrößen kl<strong>einer</strong> 30 substanziell sind) korrigiert, ist der t-<strong>Tests</strong>tandardmäßig angewandt für die oben dargestellten Fragestellungen immer das richtigeVerfahren.Eine wesentliche Voraussetzung dieser und aller weiteren Schätzverfahren bzw. <strong>Signifikanztests</strong>der Inferenzstatistik ist, dass die Stichprobenwerte zufällig aus der Populationgezogen wurden, es sich also um (wie auch immer geartete) Zufallsstichproben handelt. DerSinn von <strong>Signifikanztests</strong> ist immer der Schluss von Stichprobenkennwerten auf diePopulation. Das bedeutet auch, dass es vollkommen unsinnig ist, <strong>Signifikanztests</strong> z.B. zurPrüfung von Mittelwertsunterschieden anzuwenden, wenn es sich um eine Totalerhebunghandelt, die „Stichprobe“ also mit der Population identisch ist.1.4 Was ist ein Beta-Fehler bzw. was ist Power?Beim Testen der Hypothesen sind nun zwei Fehler möglich:– Man kann auf Grund der Daten fälschlicherweise die Nullhypothese ablehnen. Da dieseIrrtumswahrscheinlichkeit gleich a ist, wird der Fehler als a-Fehler (oder Fehler 1. Art)bezeichnet. Der Fehler 1. Art ist also der Fehler, die Nullhypothese abzulehnen obwohlsie tatsächlich richtig ist und seine Wahrscheinlichkeit ist das Signifikanz-Niveau. Eshandelt sich hier um eine bedingte Wahrscheinlichkeit, nämlich die Wahrscheinlichkeit,ein bestimmtes beobachtetes Ergebnis zu erhalten (z.B. einen Mittelwert in <strong>einer</strong>Stichprobe), wenn die Annahme der Nullhypothese gilt.– Man kann auf Grund der Daten fälschlicherweise die Nullhypothese annehmen. DieserFehler wird b-Fehler (oder Fehler 2. Art) genannt. Der Fehler 2. Art ist also der Fehler,die Nullhypothese anzunehmen, obwohl sie tatsächlich falsch ist. Aber: Seine Wahrscheinlichkeitist nicht einfach das Gegenstück zum Signifikanz-Niveau a; zwar sind aund b voneinander abhängig, aber üblicherweise ist b ¹ (1 – a) !Letzteres kann anhand von Abbildung 3 4 verdeutlicht werden, in der die bei <strong>einer</strong> spezifischenH 1 und H 0 ermittelten a-Fehler- und b-Fehler-Wahrscheinlichkeiten dargestellt sind.In diesem Beispiel eines zweiseitigen Einstichproben z-<strong>Tests</strong> wird als Nullhypotheseangenommen, der Populationsmittelwert sei m 0 . Die Fläche, die rechts von vom kritischenWert 68.61 aus der Stichprobenkennwerteverteilung um m 0 herausgeschnitten wird, stelltdie a/2-Fehler-Wahrscheinlichkeit dar (2.5 %): Bei Gültigkeit von H 0 können nur 2.5 %aller Stichprobenmittelwerte rechts vom Kriterium erwartet werden. Die Alternativ-4Erstellt mit der R-Funktion –plot.power()–, siehe: http://www2.jura.unihamburg.de/instkrim/kriminologie/Mitarbeiter/Enzmann/Software/Enzmann_Software.html13


hypothese ist, der Populationsmittelwert sei m 1 . Die Fläche, die links vom kritischen Wert68.61 aus der Stichprobenkennwerteverteilung um m 1 herum ausgeschnitten wird, stellt dieb-Fehler-Wahrscheinlichkeit dar. Bei Gültigkeit von H 1 können in diesem Fall deutlich mehrStichprobenmittelwerte links vom Kriterium erwartet werden (10.3 %) als rechts vomkritischen Wert bei Gültigkeit der H 0 . Das heißt, es gibt in diesem Beispiel eine größereChance, bei Gültigkeit H 1 fälschlicherweise die Nullhypothese beizubehalten, als beiGültigkeit der H 0 die Nullhypothese fälschlicherweise abzulehnen. Würde der kritische Wertnach rechts zum hypothetischen Populationsmittelwert m 1 verschoben, sänke die Wahrscheinlichkeit,bei <strong>einer</strong> Entscheidung zu Gunsten der H 1 einen a-Fehler zu begehen,gleichzeitig würde die Wahrscheinlichkeit <strong>des</strong> b-Fehlers steigen: Entscheidungen zugunstender H 0 werden mit kl<strong>einer</strong> werdendem a zunehmend unsicherer. Umgekehrt bei größer werdendema: Hier sinkt die Wahrscheinlichkeit eines b-Fehlers während die Wahrscheinlichkeit<strong>einer</strong> fälschlichen Annahme der H 1 steigt. a- und b-Fehler verändern sich somitgegenläufig.Power of z-Test of the Mean of a Single Populationn = 100, µ0 = 68, µ1 = 69, sigma = 3.1density0.0 0.2 0.4 0.6 0.8 1.0 1.2α/2AkzeptanzregionH 0βAkzeptanzregionH 1α/2µ0 68.61µ167.0 67.5 68.0 68.5 69.0 69.5 70.0alpha = 0.05 (two-sided), beta = 0.103, power = 0.897Abbildung 3: a-Fehler-Wahrscheinlichkeit und b-Fehler-WahrscheinlichkeitDie vier möglichen Ergebnisse eines <strong>Signifikanztests</strong>, von denen zwei Entscheidungenrichtig und zwei falsch sein können, sind (in Abhängigkeit von der tatsächlichen Gültigkeitder H 0 ) in Tabelle 2 dargestellt: Während α die Wahrscheinlichkeit darstellt, bei einem<strong>Signifikanztests</strong> die Nullhypothese abzulehnen obwohl sie richtig ist, stellt (1–α) (vgl. dieAkzeptanzregion zwischen den blau schraffierten Flächen über m in Abbildung 3) die0Wahrscheinlichkeit dar, die Nullhypothese beizubehalten wenn sie richtig ist. Während b dieWahrscheinlichkeit darstellt, bei einem Signifikanztest die Nullhypothese nicht abzulehnen,obwohl sie falsch ist, stellt (1–b) (vgl. die Akzeptanzregion rechts der rot schraffiertenFläche über m in Abbildung 3) die Wahrscheinlichkeit dar, mittels eines <strong>Signifikanztests</strong>1Nullhypothese zurückzuweisen, wenn die Alternativhypothese richtig ist. Die Größe (1–b)wird auch als Power oder <strong>Tests</strong>tärke bezeichnet.14


Die Power eines <strong>Tests</strong> (d.h. die Wahrscheinlichkeit, dass der statistische Test <strong>einer</strong>Nullhypothese bei Richtigkeit der Alternativhypothese zur Zurückweisung derNullhypothese führt) hängt (außer von der Streuung der Populationswerte) von dreiFaktoren ab:– vom gewählten a-Signifikanzniveau (s.o.): Je kl<strong>einer</strong> a gewählt wird, <strong>des</strong>to geringer istdie Wahrscheinlichkeit, sich für die Alternativhypothese zu entscheiden, da sich dasEntscheidungskriterium in Richtung auf die H 1 verschiebt;– von der Stichprobengröße: Je größer die Stichprobe(n), <strong>des</strong>to größer wird die Wahrscheinlichkeitder Entscheidung zu Gunsten der Alternativhypothese, da die Stichprobenkennwerteverteilung(en)schmaler wird/werden;– von der Effektstärke: Je größer z.B. der Mittelwertsunterschied, <strong>des</strong>to größer wird diePower <strong>des</strong> <strong>Tests</strong> und damit die Wahrscheinlichkeit, sich gegen die Nullhypothese zuentscheiden (vgl. Abbildung 4) (die Effektstärke wird häufig als standardisierteEffektstärke berechnet, wobei der Mittelwertsunterschied durch die (geschätzte)Populationsstandardabweichung dividiert wird).Entscheidung:Tabelle 2: Vier mögliche Ergebnisse eines HypothesentestsH 0 ist:H 0 nicht zurückweisenH 0 zurückweisenrichtigrichtigeEntscheidungFehler 1. Art(a-Fehler)falschFehler 2. Art(b-Fehler)richtigeEntscheidungAbbildung 4 demonstriert, dass bei statistischen <strong>Tests</strong>, in denen die Region der Zurückweisungder Nullhypothese in Richtung <strong>des</strong> durch die H 1 postulierten wahren Wertes liegt, diePower um so größer ist, je größer die Diskrepanz zwischen der geprüften Hypothese undder tatsächlichen Situation ist. In den Beispielen wurde die Wahrscheinlichkeit <strong>des</strong>einseitigen a-Fehlers bei einem Test einseitigen Zweistichproben t-<strong>Tests</strong> auf 5 % gesetzt. Imersten Fall sei die Differenz der <strong>Mittelwerte</strong> der zwei Stichproben (mit je n = 30) als 0.2unterstellt. Die Nullhypothese ist, dass die Werte der ersten Stichprobe aus der gleichenPopulation stammen wie die Werte der zweiten, d.h. dass die Mittelwertsdifferenz 0 ist (inbeiden Fällen sind die aus den Stichproben geschätzten Populationsstandardabweichungen =.931). Die Alternativhypothese ist, dass die Mittelwertsdifferenz größer als 0 ist. BeiGültigkeit der H 0 sind höchstens 5 % aller möglichen Mittelwertsdifferenzen größer als 0.4.Für gegebene Alternativhypothesen H 1 ist damit die Power <strong>des</strong> <strong>Signifikanztests</strong>determiniert: Würde die Mittelwertsdifferenz 0.2 sein, wäre die Wahrscheinlichkeit, diefalsche Nullhypothese auch tatsächlich zurückzuweisen, nur 20.5 %. Wäre die wahreMittelwertsdifferenz jedoch 0.4 (Fall 2), wäre die Power <strong>des</strong> <strong>Signifikanztests</strong> 50 %. Mitnoch größeren Mittelwertdifferenzen bzw. bei der Annahme noch größerer Effektstärkenwürde die Wahrscheinlichkeit, die Nullhypothese (richtigerweise) zurückzuweisen weitersteigen: Beim - m = 0.6 (Fall 3) wäre die Power schon .794, und bei m - m = 0.81 21 2(Fall 4) wäre sie .95, d.h. die H 1 würde nur in 5 % der Fälle fälschlicherweise zurückgewiesen.15


Power = .205a = .050m 0 = 26.0 m 1 = 26.2 crit = 26.4Power = .500a = .050m 0 = 26.0m 1 = 26.4Power = .794a = .050m 0 = 26.0 crit = 26.4m 1 = 26.6Power = .950a = .050m 0 = 26.0 crit = 26.4m 1 = 26.8Abbildung 4: Unterschiedliche Power in Abhängigkeit von der Effektstärke(Stichprobengrößen: n=30; Populationsstreuungen: s = 0.931; a (einseitig) = .05)Aus letzterem folgt, dass zur Bestimmung der Power eines <strong>Tests</strong> neben der Stichprobengrößevor allem die Effektstärke (also z.B. der standardisierte Mittelwertunterschied oderder Korrelationskoeffizient etc.) von Bedeutung ist, da das a-Niveau (häufig mit der Obergrenzebei .05) fast immer von vornherein festgesetzt wird. Der Zusammenhang der drei16


Größen erlaubt es auch, bei bekannter oder erwarteter Effektstärke die Stichprobengröße zubestimmen, die nötig ist, damit der Effekt bei einem gegebenen Signifikanzniveau (a) mit<strong>einer</strong> gewünschten Wahrscheinlichkeit (Power) auch tatsächlich signifikant wird (vgl. hierzuausführlich Cohen, 1988). Stichprobengrößen sind dann optimal, wenn sie bei gegebenem aund gegebener Power und Effektstärke eine eindeutige Entscheidung über die Gültigkeitvon H 0 oder H 1 sicherstellen.Eine wichtige Konsequenz der Betrachtungen zum a- und b-Fehler ist, dass die Power eines<strong>Tests</strong> und damit die Wahrscheinlichkeit, eine richtige H 1 anzunehmen, nur bestimmt werdenkann, wenn die Effektstärke bekannt ist oder auf Grund theoretischer Vorüberlegungeneingeschätzt werden kann. In die Hypothesenformulierung sollten also immer auchÜberlegungen zur Größe <strong>des</strong> vermuteten Effekts einbezogen werden.2. Exkurs: Elemente der Kritik2.1 Modus tollensIn der Kritik der <strong>Logik</strong> <strong>des</strong> Nullhypothesentests wird oft auf den modus tollens, eine Form<strong>des</strong> logischen Schließens, Bezug genommen: Nämlich die Verneinung der Ursache durchVerneinung der Konsequenz. Ein Beispiel:Wenn eine Person sich für Statistik interessiert, dann ist sie keine Studentin derKriminologie.Diese Person ist eine Studentin der Kriminologie.Also interessiert sich diese Person nicht für Statistik.Wenn die Prämisse falsch ist, wird ein derartiger Syllogismus unvernünftig sein, obwohl erformal korrekt ist:Wenn eine Person ein Deutscher ist, ist er kein Mitglied <strong>des</strong> Bun<strong>des</strong>tages. (falsch)Diese Person ist Mitglied <strong>des</strong> Bun<strong>des</strong>tagesAlso ist diese Person kein Deutscher.Cohen (1994) kritisiert die <strong>Logik</strong> <strong>des</strong> Nullhypothesentests (s.u.), indem er zeigt, dass dermodus tollens formal falsch wird, wenn er probabilistisch formuliert wird:If a person is an American, then he is probably not a member of Congress (True, right?)This person is a member of CongressTherefore, he is probably not an American.2.2 Bayessches ManöverFür einen zweiten Kritikpunkt an der <strong>Logik</strong> <strong>des</strong> Nullhypothesentests ist es nötig, die Formelfür die bayessche a-posteriori-Wahrscheinlichkeit zu kennen (eine Wahrscheinlichkeitsschätzungnach Eintreten eines Ereignisses).Das Bayes-Theorem gibt eine Antwort auf die Frage: Wie können Beobachtungen(Evidenzen) den Grad <strong>des</strong> Glaubens in eine gegebene Hypothese beeinflussen? Unter derAnnahme, dass subjektive Wahrscheinlichkeiten wie gewöhnliche relative Häufigkeiten bzw.Wahrscheinlichkeiten funktionieren, lautet das Bayes-Theorem:p( H y)0=pp( yH) × p( H )00( yH) × p( H ) + p( yH) × p( H )001117


Dabei ist p(H 0 |y) die subjektive Wahrscheinlichkeit für H 0 , gegeben die Evidenz y, undp(H 1 |y) ist die entsprechende subjektive Wahrscheinlichkeit für H 1 , gegeben die Evidenz y.Bei<strong>des</strong> sind a-posteriori-Wahrscheinlichkeiten, abhängig von dem, was beobachtet wurde.p(H 0 ) und p(H 1 ) sind die subjektiven a-priori Wahrscheinlichkeiten für H 0 und H 1 . Diep(y|H 0 ) und p(y|H 1 ) sind die gewöhnlichen Wahrscheinlichkeiten <strong>des</strong> statistischenSchlusses: die bedingten Wahrscheinlichkeiten der Evidenz, gegeben, dass die jeweiligeHypothese gilt. Wird alles Übrige konstant gehalten, bedeutet das Theorem, dass diesubjektive a-posteriori-Wahrscheinlichkeit p(H 0 |y) (nämlich dass H 0 gilt, gegeben dieEvidenz y) um so größer ist, je wahrscheinlicher y unter der Bedingung ist, dass H 0 gilt undje unwahrscheinlicher y unter der Bedingung ist, dass H 1 gilt. Mit anderen Worten: Evidenz,die unter <strong>einer</strong> bestimmte Hypothese wahrscheinlich und unter <strong>einer</strong> anderen unwahrscheinlichist, stärkt immer das Vertrauen in die erste und schwächt das Vertrauen in die zweite.Die effektive Stärke der Evidenz hängt allerdings auch von der subjektiven a-prioriWahrscheinlichkeit ab: Der Betrag, um den Evidenz den Grad <strong>des</strong> Vertrauens in H 0 und H 1verändert, hängt von den Werten der subjektiven a-priori-Wahrscheinlichkeiten p(H 0 ) undp(H 1 ) ab.Zwei Beispiele (nach Hagen, 1997):a) Ein Forscher glaubt, das die Chance 50:50 ist, dass ein Treatment einen Effekt hat, diesubjektiven a-priori-Wahrscheinlichkeiten sind also p(H 0 ) = p(H 1 ) = .50. Das a-Niveausei .05 (= p(y|H 0 )) und die Power sei .40 (= p(y|H 1 )). Wenn sich ein signifikanter Effektgezeigt hat, ist die subjektive a-posteriori-Wahrscheinlichkeit p(H 0 |y*) =.05*.50/(.05*.50+.40*.50) = .11, die ursprüngliche subjektive Wahrscheinlichkeit <strong>des</strong>Forschers ist also nach Erhalt eines signifikanten Ergebnisses von .50 auf .11 gesunken.Umgekehrt ist das Vertrauen, dass das Treatment wirkt von .50 auf .89 gestiegen. Wäredas a-Niveau .01 gewesen, hätte ein signifikantes Ergebnis das Vertrauen in die Wirkung<strong>des</strong> Treatments von .50 auf .98 gesteigert.b) Ein Forscher glaubt, die Chance, dass ein Treatment wirkt, sei nur 2 % bzw. sie sei98 %, dass es nicht wirkt. In einem ersten Experiment zeigt sich mit a = .03 und <strong>einer</strong>Power von .95 ein signifikanter Effekt. Die subjektive Wahrscheinlichkeit, dass es keinenTreatmenteffekt gibt (p(H 0 |y*)) sinkt dann von .98 auf .607 = .98*.03/(.98*.03+.02*.95).Wird das Experiment wiederholt und zeigt sich erneut ein signifikanter Treatmenteffekt(ebenfalls mit a = .03 und <strong>einer</strong> Power von .95), sinkt der Glaube in die Unwirksamkeit<strong>des</strong> Treatments weiter auf .047 = .03*.607/(.03*.607+.95*.393), d.h. der Forscher kannsagen: „Ausgehend von m<strong>einer</strong> ursprünglichen Schätzung der Wahrscheinlichkeit, dassdas Treatment funktioniert (die sehr niedrig war), schätze ich jetzt nach zweimaligemsignifikantem Ergebnis die Wahrscheinlichkeit, dass das Treatment wirksam ist, auf21:1“.Wenn die entsprechenden a-priori-Wahrscheinlichkeiten bekannt sind, kann das Bayes-Theorem statt auf subjektive Wahrscheinlichkeiten auch auf relative Häufigkeiten angewandtwerden. Interessant ist das Bayes-Theorem vor allem <strong>des</strong>halb, weil mit ihm die (aposteriori)-Wahrscheinlichkeit<strong>einer</strong> Hypothese, gegeben die Daten, berechnet werden kann( p(H 0 |Daten) ), während der Signifikanztest das Gegenteil leistet: Er erlaubt die Schätzungder Wahrscheinlichkeit der Daten unter der Bedingung der Gültigkeit <strong>einer</strong> Hypothese( p(Daten| H 0 ) ).18


3. Argumente (und Gegenargumente)3.1 Der Hypothesentest als Vehikel automatisierter InferenzDer statistische Nullhypothesentest (SNHT) ist zu häufig benutzt worden, um nichtpersönlich für die Schlussfolgerungen und das damit verbundenen Risiko, dabei Fehler zubegehen, verantwortlich zu sein und sich von der Notwendigkeit zu befreien, einen Induktionsschlussverantworten zu müssen. Dazu passt die <strong>Logik</strong>, 5 % sei gut und 1 % sei besser.Dabei wird vergessen, dass der p-Wert die Stichprobe (und nicht die Population!) beschreibtund von der Anzahl der Beobachtungen abhängt. Beispiel: Nicht jedem ist klar, dass dieZurückweisung der Nullhypothese bei <strong>einer</strong> kleinen Stichprobe für einen dramatischerenEffekt spricht als bei <strong>einer</strong> großen (so meinten selbst verhältnismäßig erfahrenepsychologische Forscher, dass sie größeres Vertrauen in Ergebnisse mit großen Stichprobenhätten als in Ergebnisse mit kleinen – bei gleich großen p-Werten). (Bakan, 1966)3.2 Die Nullhypothese ist (fast) immer falsch, insofern ist ein Test der Nullhypothesenichts anderes als die tautologische Suche nach etwas, das schon bekannt ist.Bei genügend großer Stichprobe werden selbst minimale Effekte signifikant, ohne dass siepraktische (oder theoretische) Bedeutsamkeit besitzen müssen. Warum sollte ein Korrelationskoeffizientin der Population exakt 0 sein? Ein Blick auf irgend eine statistischeBeschreibung der totalen Population zeigt, wie selten die Nullhypothese eines Null-Effektsin der Natur ist. (Bakan, 1966; Cohen, 1994)Es ist <strong>des</strong>halb wesentlich angemessener, Konfidenzintervalle von statistischen Werten zubestimmen und zu berichten.Gegenargumente:a) Die Nullhypothese ist keine Aussage bezüglich der Stichprobe, sondern bezüglich derPopulation. Stichproben unterschieden sich in absolutem Sinne immer, wenn nur dieMessung genau genug ist, aber der SNHT „antizipiert“ solche Differenzen und gibt ihnenRaum in der „1-a“-Spanne der Stichprobenkennwerteverteilung der <strong>Tests</strong>tatistik, die fürden SNHT benutzt wird.b) Wenn die Nullhypothese immer falsch wäre, würde alles mit allem zusammenhängen:Voodoo-Rituale in Haiti mit Regenfall in Montana, soziale Intelligenz mit Sternzeichen, ...Dagegen spricht schon das 2. Gesetz der Thermodynamik, wonach es immer mehr ungeordneteZustände als geordnete gibt. (Hagen, 1997)3.3 Die Praxis <strong>des</strong> SNHT führt zu <strong>einer</strong> selektiven Publikationspraxis, die schädlich fürdie Forschung istDie Überbetonung <strong>des</strong> SNHT als <strong>einer</strong> prinzipiellen Basis für Inferenzen und die Selektionspraxisvon Zeitschriftenherausgebern führen dazu, dass Forscher nicht signifikanteErgebnisse in Schubladen verschwinden lassen. Das führt dazu, dass publizierte ResultateFehler der 1. Art haben, die weit über 5 % hinausgehen: Ein Sekundäranalyse von 70Studien im Journal of Abnormal and Social Psychology ergab, dass die durchschnittlichePower nur 0.46 betrug. Theoretisch hätten also viel weniger signifikante Ergebnisse existierenmüssen. Das bedeutet, dass die Publikationspraxis selbst ein Teil <strong>des</strong> probabilistischenProzesses ist, auf den wir unsere Schlussfolgerungen bezüglich der Natur psychologischerPhänomene stützen. Dazu kommt, dass die Publikation „signifikanter“ Ergebnisse oft19


weitere Forschung stoppt – für die Wissenschaft ist also die Gefahr <strong>des</strong> a-Fehlers vielernsthafter als die <strong>des</strong> b-Fehlers. (Bakan, 1966)3.4 Ohne Berücksichtigung der Stichprobengröße kann eine Signifikanztest in die IrreführenEin nicht-signifikantes Ergebnis bedeutet nicht, dass es keinen Effekt (z.B. keinen Mittelwertsunterschiedzwischen zwei Gruppen) gibt. Power-Analysen können zeigen, dass beieinem t-Test auf Mittelwertsunterschiede zweier unabhängiger Gruppen à 30 Versuchspersonenund einem zweiseitigen a-Niveau von 5 % die Wahrscheinlichkeit, dass einen Effektmittlerer Stärke signifikant wird, nur 47 %, also nur knapp 50:50 ist. Damit lässt sich eineTheorie kaum widerlegen. (Cohen, 1990)3.5 Die <strong>Logik</strong> <strong>des</strong> SNHT entspricht nicht unserer eigentlichen Forschungsfragea) Die <strong>Logik</strong>, auf der der SNHT basiert, ist mangelhaft. Der SNHT sagt uns nicht, was wireigentlich wissen wollen, nämlich P(H 0 |D) (lies: die Wahrscheinlichkeit von H 0 , gegeben dieDaten), sondern nur P(D| H 0 ) ((lies: die Wahrscheinlichkeit der Daten, gegeben H 0 ). Nurbayessche Statistik erlaubt eine Schätzung über P(H 0 |D). Ein häufiger Fehlschluss basiertauf der falschen Anwendung <strong>des</strong> modus tollens:Wenn H 0 wahr ist, dann würde dieses Ergebnis (statistische Signifikanz) wahrscheinlichnicht auftreten.Dieses Resultat ist aufgetreten.Dann ist H 0 wahrscheinlich nicht wahr und also formal ungültig.Es kann gezeigt werden, dass bei <strong>einer</strong> bekannten a-priori-Wahrscheinlichkeit von .02 fürSchizophrenie in <strong>einer</strong> Zufallsstichprobe bei einem Test mit a < .05 und <strong>einer</strong> Power = .95zwar P(D| H 0 ) < .05 (Wahrscheinlichkeit eines positiven <strong>Tests</strong>, gegeben der Fall ist normal)ist, dies aber nicht bedeutet, dass die Wahrscheinlichkeit, dass die Nullhypothese gilt (dassder Fall normal ist) < .05 beträgt. Das bayessche Manöver (das hier möglich ist, weil wir dieBasisrate in der Population kennen) zeigt, dass die Wahrscheinlichkeit, dass der Fall –gegeben ein positiver Test für Schizophrenie – normal ist, ungefähr .60 beträgt (vgl.Abschnitt 1.4). Veranschaulicht in <strong>einer</strong> 4-Felder-Tafel:Ergebnis normal schizophren totalnegativer Test (normal) 949 1 950positiver Test (schiz.) 30 20 50total 979 21 1000Die bedingte Wahrscheinlichkeit, dass ein Fall, der normal ist, als schizophren diagnostiziertwird, ist 60 % (30 von 50). Dies zeigt, wie verkehrt es sein kann, wenn man den p-Werteines typischen <strong>Signifikanztests</strong> als die Wahrscheinlichkeit interpretiert, dass dieNullhypothese für den entsprechenden Datensatz wahr ist. (Cohen, 1994)Eine schöne Illustration <strong>des</strong> „Fehlers der inversen Wahrscheinlichkeit“ findet sich bei Carver(1978, p. 384):“What is the probability of obtaining a dead person (label this part D) given the person washanged (label this part H); that is, in symbol form, what is p(D|H)? Obviously, it will be very20


high, perhaps .97 or higher. Now, let us reverse the question. What is the probability that aperson has been hanged (H) given that the person is dead (D); that is, what is p(H|D)? Thistime the probability will undoubtedly be very low, perhaps .01 or lower. No one would belikely to make the mistake of substituting the first estimate (.97) for the second (.01); that is,to accept .97 as the probability that a person as been hanged given that the person is dead.”Bei einem Signifikanztest auf Unterschiedlichkeit der <strong>Mittelwerte</strong> von zwei Stichproben,<strong>des</strong>sen Ergebnis a ein Ausdruck der Wahrscheinlichkeit p(D|H 0 ) ist, dass die StichprobendifferenzD auftritt, wenn die Stichproben aus der gleichen Population von Wertenstammen, ist nicht gleich der Wahrscheinlichkeit p(H 0 |D), dass die zwei Stichproben aus dergleichen Population von Werten stammen. Auch ist das Komplement von a, d.h. (1–a)nicht die Wahrscheinlichkeit, dass die Alternativ- oder Forschungshypothese richtig ist;diese „Fantasie der Validität der Forschungshypothese“ entspräche formal der <strong>Logik</strong>, als obp(H 1 |D) = (1–p(D|H 0 ) wäre. Dieser ist genau so ein Fehlschluss wie der o.g. Fehler derinversen Wahrscheinlichkeit. (Carver, 1978)Ähnliches gilt für die Replizierbarkeits-Fantasie (Carver, 1978), dass statistische Signifikanzdie Wahrscheinlichkeit sei, bei Replikation der Studie oder <strong>des</strong> Experiments das gleicheErgebnis zu erhalten: danach wäre die Wahrscheinlichkeit der Replizierbarkeit = (1–p(R|D)), z.B. .95 bei einem a von .05. Der Signifikanztest prüft aber auch hier nur p(D|H 0 ).b) Es ist eben nicht korrekt, dass die Zurückweisung <strong>einer</strong> Nullhypothese (z.B. mit p =.026) bedeutet, dass die Wahrscheinlichkeit, dass die Nullhypothese richtig ist, .026 ist. DasSignifikanzniveau sagt uns <strong>des</strong>halb auch nicht, wie wahrscheinlich es ist, dass unsereForschungshypothese replizierbar ist. Insofern ist sie auch nicht geeignet, Hypothesen zufalsifizieren. Nur wenn wir auch den b-Fehler bzw. die Power spezifizieren und die Stichprobengrößeso wählen, dass b angemessen klein ist, sind wir in der Lage, festzustellen,dass kein nicht-trivialer Effekt existiert (auch wenn wir damit die Nullhypothese immer nochnicht beweisen können).c) Wir sollten versuchen, von der binären Ja/Nein-Entscheidung <strong>des</strong> SNHT wegzukommenund statt <strong>des</strong>sen stärker die Werkzeuge der Power-Analyse und der Ermittlung von Intervallschätzungen(durchaus auch 80 %-Intervalle an Stelle von 95 %-Intervallen) für dieLage der Parameter benutzen, z.B. Konfidenzintervalle für Korrelationskoeffizienten etc.Während mit dem SNHT die Basisfrage „Gestützt auf die Stichprobe, was ist unsere besteSchätzung bezüglich der Frage, ob r = 0 ist?“ beantwortet wird, liefert die Berechnung vonKonfidenzintervallen eine Antwort auf die Frage: „Gestützt auf die Stichprobe, was istunsere beste Schätzung bezüglich <strong>des</strong> Wertes von r?“ (American Psychologist, 1998, p.797). Die Vorherrschende Ja/Nein-Entscheidung am magischen .05-Niveau ist weit entferntvon einem abgewogenen Urteil. “The point was neatly made by Rosnow and Rosenthal(1989) ... They wrote ‘surely, God loves .06 nearly as much as the .05’ (p. 1277). To whichI say amen!” Meta-Analysen sind eine weitere Methode, die statistischen Binärentscheidungenzu überwinden. (Cohen, 1990; 1994) Wenn Konfidenzintervalle <strong>einer</strong> Studie imKontext von Intervallen aller vorhergehenden Studien interpretiert werden, kann der wahrePopulationsparameter über die Studien hinweg tatsächlich geschätzt werden, auch wennunsere vorherigen Annahmen bezüglich der Parameter vollkommen daneben lagen.(American Psychologist, 1998, p. 799)21


Gegenargument zu a):Je<strong>des</strong> Mal, die Nullhypothese abgelehnt wird, erhöht sich subjektive Wahrscheinlichkeit <strong>des</strong>Forschers, dass die Alternativhypothese gilt. Die Anwendung der bayesschen Formel der a-posteriori-Wahrscheinlichkeit ist immer asymmetrisch, wenn a ¹ b ist. D.h., die subjektiveWahrscheinlichkeit bei Annahme der Nullhypothese steigt im Allgemeinen weniger stark alsder Anstieg der subjektiven Wahrscheinlichkeit bei Ablehnung der Nullhypothese. In diesemSinn sagt und der SNHT tatsächlich, was wir wissen wollen. (Hagen, 1997)3.6 Der SNHT ist schwer zu begreifen - auch Experten scheiternAlle in Abschnitt 1.1 genannten möglichen Antworten sind falsch (Bakan, 1966).Die Missverständnisse bezüglich <strong>des</strong> Wesens <strong>des</strong> SNHT gibt es seit 1925. Auch Expertenlassen sich zu fehlerhaften Interpretationen hinreißen. Den „inversen Wahrscheinlichkeitsfehler“(siehe Argument 3.5) identifiziert Cohen (1994) bei so distinguierten Autoren wieGuilford, Nunnally, Anastasi, Ferguson und Lindquist, selbst R.A. Fisher wurde schonüberführt. McMan fand substanzielle SNHT-Fehler in den meisten der 24 zwischen 1965und 1994 publizierten Einführungsbücher in die Psychologie (American Psychologist,1998).4. Was raten?Was sollte also den Forschern, die die in Abschnitt 1.2 aufgeworfenen Fragen und Problemetatsächlich hatten, geraten werden?Zu a) Die Unterschiede zwischen p = .048 und p = .052 sind nicht besonders groß. Wichtigist in dem vorliegenden Fall, dass bei <strong>einer</strong> Stichprobengröße von 300 ein Regressionsparametermit einem derartigen p-Wert nicht besonders groß sein kann, auch wenn er beiGültigkeit der Nullhypothese diese Größe nur in etwa 5 % der Studien erreicht. DieForscherin sollte also die Effektgröße selbst zu interpretieren versuchen und dazu das 95 %Konfidenzintervall angeben. Falls es sich im vorliegenden Problem um eine lineare OLS-Regression mit nur <strong>einer</strong> unabhängigen Variablen gehandelt hätte, wären die Beträge der zuden beiden p-Werten gehörenden standardisierten Regressionskoeffizienten etwa .114 (p =.048; 95 %-CI = .001 - .225) bzw. .112 (p = .052; 95 %-CI = –.001 - .223)) gewesen, indem Regressionsmodell wären also etwa 1.3 % (95 % CI = 0.0 - 5.0 %) bzw. 1.3 % (95 %-CI = 0.0 - 5.0 %) der Varianz durch den Einfluss der unabhängigen Variablen erklärtworden. D.h. die beiden Ergebnisse unterscheiden vermutlich sich in ihrer (geringen)praktischen Bedeutsamkeit überhaupt nicht.Zu b) Dem Forscher ist es höchst wahrscheinlich nicht gelungen, eine repräsentative(Zufalls-)Stichprobe aus der Population der Bewährungshelfer zu ziehen. Allein <strong>des</strong>halb istes fraglich, ob seine Ergebnisse die Situation in der Population widerspiegeln können –<strong>Signifikanztests</strong> machen hier wenig Sinn. Dem Forscher ist also zu raten, sich darauf zubeschränken, die Ergebnisse der Stichprobe darzustellen und das Problem der Generalisierbarkeitzu diskutieren. Der Forscher glaubte jeoch, dass nur mittels eines Signifikanztest dieBedeutsamkeit von Effekten bestimmt werden könne, und erwartete, dass seine Auftraggebereine Studie ohne <strong>Signifikanztests</strong> nicht akzeptieren würden. Er unterlag also zunächstdem verbreiteten Irrtum, dass statistische Signifikanz praktische Bedeutsamkeit anzeigenkann und fühlte sich auch nicht in der Lage, seinen Auftraggebern eben dies als Irrtum zu22


vermitteln. Dem Forscher ist <strong>des</strong>halb auch zu raten, sich mit der <strong>Logik</strong> <strong>des</strong> <strong>Signifikanztests</strong>ausführlicher zu beschäftigen.Zu c) Die Forscherin scheint eine hohe Ehrfurcht vor statistischer Verfahren zu besitzen undhat vielleicht darüber ihre eigene Forschungsfrage vergessen. Auch wenn sie vielleichtverstanden hat, wie statistische <strong>Signifikanztests</strong> angewandt werden, ist ihr nicht klar, dasssie im konkreten Fall zur Beantwortung ihrer Frage gar nicht geeignet sind. IhreForschungsfrage ist nämlich schon in dem Moment beantwortet, in dem sie einen einzigenFall mit der (wie auch immer seltenen) Krankheit gefunden hat: Das beweist bereits, dassdie Krankheit auch in der von ihr untersuchten Population existiert.5. Was tun?Suche nicht nach <strong>einer</strong> magischen Alternative zum SNHT – sie existiert nicht! (Cohen,1994)Wenn wir von Stichprobendaten auf die Population generalisieren wollen, ist es vor allemanderen entscheidend, dass wir die Daten verstehen und ihre Qualität verbessern, also anStelle von Buchhalter-Aktivität mehr Detektiv-Arbeit leisten. Hierzu gehört auch, die Datengrafisch darzustellen und auf diesem Wege zu verstehen versuchen.Bloße Signifikanz-Niveaus zu berichten (also Kennwerte mit einem, zwei oder drei Sternchenzu versehen), hat wenig Sinn. Statt <strong>des</strong>sen müssen wir die Stärke der Effekte bestimmenund die Ergebnisse mit Konfidenzintervallen versehen. Konfidenzintervalle ermöglicheneine realistischere Abschätzung der Lage eines Parameters – Punktschätzer und p-Wertesind hierfür ungeeignet. Die Herausgeber wichtiger medizinischer Fachzeitschriften verlangenvon jedem Autor die Angabe von Konfidenzintervallen, da hiermit die (Un-)Genauigkeitder Stichprobenkennwerte als Schätzer der Populationsparameter sichtbar wird. Z.B.verlangt das British Medical Journal schon seit 1986, weniger Wert auf die Präsentation vonp-Werten von Hypothesentests zu legen und überall dort, wo es möglich ist, Konfidenzintervallezu präsentieren. Sehr hilfreich für eine korrekte Interpretation von Konfidenzintervallenist der Artikel von Cumming und Finch (2005) – man kann ihn auch den Leserns<strong>einer</strong> wissenschaftlichen Arbeit empfehlen, um ihnen zu helfen, Konfidenzintervalle richtigzu lesen. Ein von Altman et al. (2000) herausgegebener Band stellt die Berechnung vonKonfidenzintervallen für eine breite Palette statistischer Kennwerte praxisnah dar. DemBuch ist ein Programm beigefügt, das die Berechnung der Konfidenzintervalle allerdargestellten Kennwerte ermöglicht. Auch in den Sozialwissenschaften sollte die Präsentationvon Konfidenzintervallen zum Standard gehören Eine hervorragende und verständlicheEinführung in die Thematik rund um Effektstärken, Konfidenzintervalle und Meta-Analysenfindet sich in Cumming (2012).Auch Power-Analysen sollten zum Alltagswerkzeug werden. Das bedeutet allerdings, dassman sich auf die Schwierigkeit einlassen muss, sich für die Bedeutsamkeit von Effektstärkenzu entscheiden, bzw. dass man in in der Lage sein muss, die Bedeutsamkeit <strong>einer</strong> bestimmtenEffektstärke theoretisch, praktisch oder empirisch (anhand bisheriger Forschungsergebnisse)begründen zu können. Hierzu gehört häufig auch die nicht ganz einfache Aufgabe,vor Durchführung der Studie die Auftraggeber von Forschungsarbeiten die Min<strong>des</strong>tgrößefür sie praktisch bedeutsamer Effekte einschätzen zu lassen. Die Bestimmung vonEffektstärken schützt auch davor, bei sehr großen Stichproben praktisch und theoretischBedeutungsloses bloß als „signifikant“ zu deklarieren.23


LiteraturAltman, D. G., Machin, D., Bryant, T. N. & Gardner, M. J. (Eds.) (2000). Statistics withconfidence. Confidence intervals and statistical guidelines. London (2nd ed.): BMJBooks.American Psychologist (1998). Comment [Tyron on Hagen; McGrath on Hagen; Malgadyon Hagen; Falk on Hagen; Thompson on Hagen; Granaas on Hagen; Hagen replies].American Psychologist, 53, 796-803.Bakan, D. (1966). The test of significance in psychological research. Psychological Bulletin,66, 423-437. [= Bakan, D. (1970). The test of significance in psychological research.In D. E. Morrison & R. E. Henkel, The Significance Test Controversy - A Reader (pp.231-251). Chicago, IL: Aldine.]Carver, R. P. (1978). The case against statistical significance testing. Harvard EducationalReview, 48, 378-399.Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. Hillsdale, NJ (2nded.): Lawrence Erlbaum.Cohen, J. (1990). Things I have learned (so far). American Psychologist, 45, 1304-1312.Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49, 997-1003.Cumming, G. (2012). Understanding the New Statistics: Effect Sizes, Confidence Intervals,and Meta-Analysis. New York: Routledge.Cumming, G., & Finch, S. (2005). Inference by eye: Confidence intervals and how to readpictures of data. American Psychologist, 60, 170–180.[online: http://www.apastyle.org/manual/related/cumming-and-finch.pdf ]Hagen, R. L. (1997). In praise of the null hypothesis statistical test. American Psychologist,52, 15-24.Hays, W. L. (1981). Statistics. New York (3rd ed.): Holt, Rinehart & Winston.Mohr, L. B. (1990). Understanding Significance Testing (Quantitative Applications in theSocial Sciences #73). Newbury Park, CA: SAGE.Satterthwaite, F. E. 1946. An approximate distribution of estimates of variancecomponents. Biometrics Bulletin, 2, 110–114.Welch, B. L. 1947. The generalization of ’Student’s’ problem when several differentpopulation variances are involved. Biometrika, 34, 28–35.24

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!