Lassen sich Signifikanztests auf Vollerhebungen ... - SpringerLink

Lassen sich Signifikanztests auf Vollerhebungen anwenden? 

Einige essayistische Anmerkungen 

Joachim Behnke* 

Die Frage, ob inferenzstatistische Methoden auch bei Vollerhebungen angewandt werden dürfen, 

ist in der Forschergemeinde umstritten. Ein solches Vorgehen kann nur dann gerechtfertigt werden, 

wenn die Daten der Vollerhebung analog zur Stichprobenziehung als Ergebnis eines stochastischen 

Datengenerierungsprozesses aufgefasst werden können. Der vorliegende Aufsatz versucht 

zu klären, unter welchen Umständen diese Bedingung als erfüllt angesehen werden kann und 

wann nicht von dem Vorliegen der Bedingung ausgegangen werden kann. 

1. Einführung 

Die Frage, ob es erlaubt ist, auf Vollerhebungen Signifikanztests anzuwenden, ist in der 

Literatur und Forschungspraxis weiterhin umstritten. Die Relevanz dieser Fragestellung 

ist besonders hoch bei der statistischen Analyse von Makrodaten, da hier besonders 

häufig Vollerhebungen vorliegen (vgl. u.a. Kunz 2000, 2001; Obinger 2001; Broscheid/Gschwend 

2003). Untersucht man z.B. den Zusammenhang zwischen kulturellen 

Variablen und dem Wirtschaftswachstum für alle OECD-Länder in einem bestimmten 

Zeitraum, dann stellt sich die Frage, worauf man denn die gefundenen Ergebnisse 

verallgemeinern könnte bzw. wollte. Soll die Gültigkeit dieses Zusammenhangs 

für alle Länder der Erde angenommen werden, oder soll sich die Generalisierung 

nur auf die OECD-Länder erstrecken und für diese in einer Übertragung auf andere 

Zeiträume als den untersuchten bestehen? 

Tatsächlich existiert wohl keine eindeutige Lösung für dieses Problem. Weder kann 

es für jeden Fall ausgeschlossen werden, dass die Durchführung eines Signifikanztests 

an einer Vollerhebung Sinn macht, noch gilt umgekehrt, dass Vollerhebungen in Bezug 

auf Signifikanztests grundsätzlich analog zu Stichproben behandelt werden dürfen. Die 

Antwort lautet vielmehr: Es hängt von der Art der Aussage ab, die man formulieren 

möchte, ob ein Signifikanztest angemessen ist, d.h. es muss für jeden Fall einzeln aufgrund 

theoretischer Überlegungen entschieden werden, inwieweit die Durchführung eines 

Signifikanztests als sinnvoll betrachtet werden kann. 

Die Ergebnisse von Signifikanztests oder der Berechnung von Konfidenzintervallen, 

wie sie üblicherweise von Statistikpaketen geliefert werden, beruhen auf der Annahme, 

* Für wertvolle Kommentare zu einem früheren Entwurf danke ich Hans Kiesl, Götz Rohwer, 

Thorsten Faas, Thomas Plümper, Nina Baur, Nathalie Behnke, Charlotte Kellermann und den 

anonymen Gutachtern der PVS. 

Politische Vierteljahresschrift, 46. Jg. (2005), Heft 1, S. O-1–O-15 © VS Verlag

O-2 Joachim Behnke 

dass die zu Grunde liegende Datenmenge eine Stichprobe darstellt. Das heißt, es wird 

damit vorausgesetzt, dass diese Daten durch einen Prozess generiert worden sind, der 

als zufällige Auswahl einzelner Elemente aus einer weit größeren Anzahl von Elementen, 

der Grundgesamtheit, modelliert werden kann. Sinn der Inferenzstatistik ist es 

nun, mit Hilfe des Wirklichkeitsausschnitts, den uns die Stichprobe gibt, auf die 

Struktur der „ganzen“ Wirklichkeit, also der Grundgesamtheit, zu schließen. Dieser 

Schluss mit Hilfe der inferenzstatistischen Methoden kann nur unter bestimmten Vorbehalten 

und mit bestimmten Einschränkungen gemacht werden. D.h. aufgrund der 

durch den Zufallsprozess bedingten Unsicherheit können die Aussagen über die 

Grundgesamtheit nur mit einer gewissen Unschärfe getroffen werden, die ihren sichtbaren 

statistischen Ausdruck in der Angabe des Standardfehlers bzw. in der Formulierung 

von Konfidenzintervallen findet, wobei die Festlegung des Bereichs der Konfidenzintervalle 

auf dem Standardfehler beruht. Die Zulässigkeit des inferenzstatistischen 

Schlusses selbst aber beruht auf dem grundsätzlichen Vorbehalt, dass die Stichprobe 

tatsächlich als Zufallsauswahl der Grundgesamtheit zustande gekommen ist. So paradox 

sich dies vielleicht auch anhören mag: Die „unsicheren“ Aussagen, die wir mit inferenzstatistischen 

Methoden gewinnen, sind nur insoweit aussagekräftig, wie wir uns 

über das Vorliegen der Ursache der Unsicherheit, d.h. des Zufalls, sicher sein können. 

Der Unterschied zwischen inferenzstatistischen Tests und Schätzverfahren besteht 

nun darin, inwiefern der Zufall als Erklärung für bestimmte Eigenschaften der Beobachtungsdaten 

angenommen werden kann bzw. soll. Bei einem Test gehen wir von einer 

Art stochastischer Fiktion aus, d.h. wir unterstellen, dass bestimmte beobachtete Unterschiede 

allein durch zufällige Schwankungen zu erklären sind, die durch den Auswahlprozess 

entstanden sind. Diese beobachteten Unterschiede werden erst dadurch 

sichtbar, dass wir unsere Stichprobe auf systematische Weise in Untergruppen eingeteilt 

haben. Z.B. können wir aus einer Stichprobe von 1000 zufällig ausgewählten Personen 

zwei Untergruppen von Männern und Frauen bilden und anschließend feststellen, dass 

die durchschnittliche Körpergröße der Männer um einige Zentimeter höher ausfällt als 

die der Frauen. Wenn wir nun aber feststellen, dass diese Unterschiede weit über das 

Ausmaß hinausgehen, das wir allein aufgrund des Wirkens des Zufalls erwarten würden, 

dann schließen wir daraus, dass diese Unterschiede im Ganzen nur durch die Annahme 

einer zusätzlichen Ursache erklärt werden können. Dieses nicht-zufällige Element 

muss aber durch die Form der Gruppierung in die Beobachtungsdaten gelangt 

sein. Die systematische Ursache des Größenunterschieds muss daher das Geschlecht der 

Personen sein. Das Ziel des Tests besteht also in der Demonstration, dass die stochastische 

Fiktion nicht aufrecht erhalten werden kann: Bestimmte Merkmale der Struktur 

der Beobachtungsdaten können nicht allein auf Zufälligkeiten beim Auswahlprozess zurückgeführt 

werden. Die Gefahr, dass uns die Annahme, dass bestimmte Eigenschaften 

unserer Beobachtungsdaten auf der stochastischen Struktur des Datengenerierungsprozesses 

beruhen, zu falschen, d.h. unberechtigten, Schlussfolgerungen verleitet, ist beim 

statistischen Test insofern eher gering, als der Test selbst darauf abzielt, diese Annahme 

als unbegründet zu entlarven. Das substanzielle Ergebnis eines wie oben beschriebenen 

Tests in der Tradition von R.A. Fisher besteht ja in der Zurückweisung des Zufalls als 

alleinige Ursache bestimmter Beobachtungen. Misslingt diese Zurückweisung, darf daraus 

keineswegs geschlossen werden, dass alle Unterschiede tatsächlich nur zufällig be-

Lassen sich Signifikanztests auf Vollerhebungen anwenden? O-3 

dingt sind, sondern lediglich, dass sie von zufällig zustande gekommenen nicht mit 

einem hinreichenden Grad an Sicherheit unterschieden werden können. Der einzige 

Fehler, den wir bei der Durchführung eines Fisher-Tests machen können, besteht in 

der fälschlichen Zurückweisung des Zufalls als alleinige Ursache der beobachteten Unterschiede. 

Die Rolle des Zufalls kann bei einem statistischen Test in der Tradition 

Fishers daher nur unterschätzt, aber niemals überschätzt werden. Der Test besitzt ein 

eingebautes Korrektiv gegen die unzulässige Annahme des Zufalls, da eine inhaltliche 

Interpretation des Testergebnisses nur dann erfolgt, wenn diese Annahme als unbegründet 

zurückgewiesen wird. 

Komplizierter verhält es sich hingegen, wenn wir inferenzstatistische Methoden bei 

der Schätzung von Parametern der Grundgesamtheit wie Mittelwerte oder Anteilswerte 

durch die entsprechenden statistischen Kennwerte der Stichprobe einsetzen. Der hierbei 

ermittelte Standardfehler der Schätzung, und damit die daraus abgeleiteten Konfidenzintervalle, 

beruht ganz und gar auf der Annahme der stochastischen Natur des 

Auswahlprozesses, der der Datengenerierung zu Grunde liegt. Da hier kein eingebautes 

Korrektiv im Verfahren selbst vorhanden ist, muss die stochastische Natur des Datengenerierungsprozesses 

bekannt sein, und sie muss darüber hinaus genau analog zu der 

eines Auswahlprozesses bei Stichproben sein, wenn wir die übliche Statistiksoftware 

verwenden. 

Welche Relevanz haben nun diese Ausführungen, wenn es sich bei den untersuchten 

Datenfällen nicht um eine „echte“ Stichprobe handelt, sondern um eine „Vollerhebung“? 

Ob man in diesem Fall einen statistischen Test durchführen soll, oder inwiefern 

dieser Test über eine theoretisch interessante Frage Aufschluss gibt, hängt davon 

ab, inwiefern die Vollerhebung in irgendeinem Sinn wie eine Stichprobe behandelt 

werden kann. Damit hängt dies aber auch davon ab, von welcher Art die untersuchte 

Frage selbst ist. Wendet man inferenzstatistische Methoden auf Vollerhebungen an, 

dann bedeutet dies, dass die zulässigen Interpretationen entsprechend eingeschränkt 

sind. Der Kontext, in dem inferenzstatistische Methoden auch bei Vollerhebungen angewandt 

werden, kann in verschiedene Fälle unterschieden werden. 

2. Fall 1: Die Vollerhebung wird anlog zu einer Stichprobe behandelt 

Im ersten Moment scheint die Anwendung statistischer Tests auf Vollerhebungen per 

definitionem unsinnig, und zwar dann, wenn man die Vollerhebung als identisch mit 

der Grundgesamtheit betrachtet. Tatsächlich aber bezeichnen wir häufig etwas als Vollerhebung 

wenn wir damit ausdrücken wollen, dass wir alle verfügbaren Daten dieses 

Typs vollständig erhoben haben bzw. dass weitere Daten dieses Typs nicht mehr erreicht 

werden können. In diesem Sinn wären z.B. alle Lottoergebnisse vom 1.1.1970 

bis zum 31.12.2000 eine Vollerhebung, oder alle bisherigen Lottoergebnisse überhaupt. 

Obwohl es in diesem Fall nicht möglich ist, zusätzliche Daten zu beschaffen – es gibt 

nun einmal nur die Lottoergebnisse, die es gibt –, scheint es doch nicht grundsätzlich 

unzulässig, die bisherigen Ergebnisse wie eine Stichprobe aufzufassen. 

Auch eine Vollerhebung kann als eine Stichprobe verstanden werden, wenn man sie 

als Realisierung einer konkreten Wirklichkeit aus einer unendlichen Vielzahl potenziell


möglicher Wirklichkeiten versteht. Das Universum der potenziell möglichen Wirklichkeiten 

ist dann die eigentliche Grundgesamtheit, und die in Form der Vollerhebung 

realisierte konkrete Wirklichkeit stellt lediglich eine Stichprobe aus dieser Grundgesamtheit 

dar, die durch einen Zufallsprozess generiert worden ist. Oft wird das Universum 

der hypothetischen Wirklichkeiten, von denen unsere Grundgesamtheit nur einen 

besonderen Fall darstellt, auch als „Superpopulation“ bezeichnet (vgl. Berk et al. 

1995). Der Prozess der Entstehung der Daten selbst kann dann analog zu einem Prozess 

der Auswahl von schon entstandenen, d.h. vorhandenen Daten betrachtet werden. 

Dazu sollte man sich noch einmal kurz vor Augen führen, um welche Art von Zufallsprozess 

es sich bei dem Auswahlvorgang handelt, mit dem eine Stichprobe aus der 

Grundgesamtheit gezogen wird. In einem allgemeinen Sinn handelt es sich dabei nämlich 

einfach um die Durchführung eines Zufallsexperiments. Entscheidend ist dabei, 

dass die Wahrscheinlichkeit, mit der ein zufällig ausgewähltes Element eine bestimmte 

Ausprägung einer Eigenschaft besitzt, genau der relativen Häufigkeit entspricht, mit 

der diese Ausprägung in der Grundgesamtheit vorkommt. Besitzen wir z.B. eine 

Grundgesamtheit mit 60 Prozent CDU-Wählern und 40 Prozent SPD-Wählern, dann 

wird bei dem zufälligen Auswahlprozess bezüglich eines Falls für die Stichprobe mit 60 

Prozent Wahrscheinlichkeit ein CDU-Anhänger und mit 40 Prozent Wahrscheinlichkeit 

ein SPD-Anhänger ausgewählt. Eine wichtige Grundannahme, auf der die Stichprobentheorie 

und die darauf fußende Inferenzstatistik gründen, ist dabei, dass die einzelnen 

Ziehungen unabhängig voneinander erfolgen, d.h. das Ergebnis einer neuen 

Ziehung wird nicht durch den Ausgang der vorangehenden Ziehungen beeinflusst. Wir 

behandeln also die Auswahl genau genommen wie eine Auswahl mit Zurücklegen, oder 

anders ausgedrückt, die Ziehung aller Elemente der Stichprobe kann als eine Wiederholung 

desselben Zufallsexperiments betrachtet werden. Die Generierung einer beliebigen 

Menge von Daten kann daher immer dann analog zur Bildung einer Stichprobe 

behandelt werden, wenn sie als Ergebnis eines konstant auf dieselbe Weise wirkenden 

Zufallsprozesses betrachtet werden kann. 

Man kann den eben skizzierten Grundgedanken sehr gut am historisch wohl ersten 

Signifikanztest illustrieren, der Überprüfung der Geschlechterratio durch John Arbuthnot 

im Jahre 1710 (vgl. Hacking 1975: 166ff.; Gigerenzer et al. 1989: 12f.). Anhand 

der Untersuchung der Geburtentafeln kam John Arbuthnot zum Ergebnis, dass die Geschlechterratio 

nicht 1/1 beträgt, sondern einen leichten Überschuss von männlichen 

Neugeborenen aufweist. Wenn Arbuthnot auch tatsächlich wohl kaum eine Vollerhebung 

durchgeführt haben dürfte, so ist klar, dass er dies zumindest zu tun beabsichtigte 

und dass seine Fragestellung mit einer Vollerhebung jedenfalls zu untersuchen gewesen 

wäre. Gehen wir daher im Weiteren davon aus, Arbuthnot hätte tatsächlich eine 

Vollerhebung durchgeführt, d.h. er hätte seine Untersuchung auf alle Geburten in einem 

bestimmten Zeitraum gestützt. Im Falle Arbuthnots wäre dem Ziel der Untersuchung 

nicht Genüge getan worden mit einem simplen „Es sind tatsächlich mehr Jungen 

als Mädchen geboren worden“. Worum es Arbuthnot nämlich ging, war festzustellen, 

ob die tatsächlich beobachtete Verteilung auch hätte zustande kommen können, 

wenn das Geschlecht eines Neugeborenen analog zu einem Münzwurf bestimmt worden 

wäre, wobei dieser Münzwurf von der Natur ausgeführt worden wäre. Auch bei einer 

Vollerhebung kann es von theoretischem Interesse sein, nicht nur zu wissen, wie


die Verteilung in der Vollerhebung aussieht, sondern ob sie aufgrund eines bestimmten 

Zufallsprozesses hätte generiert werden können. Die theoretische Relevanz sei wieder 

an Arbuthnots Untersuchung illustriert, der aus seinen Ergebnissen immerhin die nicht 

ganz unbedeutende Erkenntnis zog, dass hinter diesem ungleichen Geschlechterverhältnis 

göttliches Design zu stecken habe. Die teleologische Erklärung wurde dabei von 

ihm gleich mitgeliefert. Der Überschuss an neugeborenen Jungen glich nämlich die 

höhere Kindersterblichkeit bei Jungen aus, so dass zum Zeitpunkt der Ehereife das Geschlechterverhältnis 

wieder ausgeglichen war, womit die biblisch begründete Institution 

der Monogamie aufrechterhalten werden konnte (Gigerenzer et al. 1989: 40). (Damit 

lieferte Arbuthnot indirekt gleich noch das klassische Argument, dass das Handeln 

Gottes für endliche Wesen nicht immer nachvollziehbar sein muss. Denn ein allmächtiger 

Gott muss bei seinem Weltentwurf nicht zwangsläufig das Ziel ökonomischer 

Modellierung verfolgen, das er ja leichter dadurch hätte erzielen können, indem er 

Säuglings- und Kindersterblichkeit der beiden Geschlechter gleich gehalten hätte.) 

Eine Vollerhebung kann also dann wie eine Stichprobe behandelt werden, wenn sie 

als Ergebnis eines stochastischen Prozesses aufgefasst werden kann. Es ist dabei unerheblich, 

ob das stochastische Element durch einen Auswahlprozess im engeren Sinn 

oder durch einen Generierungsprozess zustande kommt. Tatsächlich beruht ein Großteil 

der Stichprobentheorie darauf, Auswahlprozesse gerade wie Generierungsprozesse zu 

behandeln, nämlich als unabhängige Durchführungen eines Zufallsexperiments. Der 

Signifikanztest verhält sich indifferent gegenüber der Tatsache, wie das stochastische 

Element zustande gekommen ist. Unter theoretischen Gesichtspunkten ist dies aber 

von großer Bedeutung für die angemessene Interpretation des Ergebnisses des Tests. 

Auch Vollerhebungen können also mit Signifikanztests untersucht werden, wenn 

der Prozess der Datengenerierung als zufällig angesehen wird. Es muss aber unter theoretischen 

Gesichtspunkten bestimmt werden, ob es sich dabei überhaupt um einen 

theoretisch interessanten Aspekt des Forschungsvorhabens handelt. Die Interpretation 

der Ergebnisse eines Signifikanztests bei Vollerhebungen verlangt daher eine weitergehende 

theoretische Begründung als bei echten Stichproben. Mit der Durchführung 

von Signifikanztests anhand von Stichproben wollen wir lediglich feststellen, inwieweit 

der untersuchte Ausschnitt der Wirklichkeit der ganzen Wirklichkeit entspricht; es geht 

hier um die Korrespondenz eines Teils mit dem Ganzen, wobei der Teil durch die Art 

der Konstruktion als verkleinertes und nicht hundertprozentig scharfes Abbild des 

Ganzen betrachtet werden kann. Bei der Anwendung inferenzstatistischer Methoden 

auf Vollerhebungen hingegen geht es nicht um eine Verallgemeinerung von der „Stichprobe“ 

auf die Grundgesamtheit, sondern wir schließen von der Stichprobe auf den 

Zufallsprozess selbst. Dieser Zufallsprozess wird dann als die verborgene Struktur der 

Wirklichkeit gesehen, d.h. als ein Geflecht von Prozessen, die die Wirklichkeit erst hervorbringen. 

Die untersuchte Korrespondenz ist dann gewissermaßen die zwischen der 

beobachteten Wirklichkeit und der die Wirklichkeit generierenden Struktur „hinter“ 

der Wirklichkeit.


3. Fall 2: Die Vollerhebung ist die theoretisch einzig relevante Grundgesamtheit 

Nur weil man etwas tun kann, heißt dies noch lange nicht, dass man es tun muss oder 

auch nur tun sollte. Die Anwendung eines Signifikanztests auf Vollerhebungen kann 

zwar im obigen Sinn gerechtfertigt werden, aber wenn es uns ausschließlich um eine 

Deskription der Grundgesamtheit geht, dann ist die entsprechende Beschreibung der 

Eigenschaften der Vollerhebung alles, was wir anstreben können. Der überwiegende 

Teil der statistischen Test- und Schätzverfahren versucht nichts anderes, als mit Hilfe 

einer Stichprobe zu einer angemessenen Deskription der Struktur der Grundgesamtheit 

zu gelangen. Schließlich zielt auch die Schätzung von Zusammenhängen immer auf die 

deskriptive Struktur der Grundgesamtheit. „Kausale Inferenz“ folgt niemals aus der 

Durchführung eines statistischen Verfahrens an sich, sondern aus einem Zusammenwirken 

theoretischer Überlegungen und der Gestaltung des Forschungsdesigns. Wenn nun 

die Grundgesamtheit vollkommen erhoben werden kann und es nur um die Bestimmung 

bestimmter Eigenschaften wie z.B. der Parameter ihrer Verteilung geht, dann ist 

ein Signifikanztest nicht nur überflüssig, sondern geradezu irreführend und daher unsinnig. 

Wäre Arbuthnot nicht ein mathematischer Amateur mit metaphysischen Neigungen 

gewesen (neben seinen Tätigkeiten als Leibarzt von Queen Anne und als satirischer 

Schriftsteller), sondern Monopolist bei der Herstellung von Babykleidung von 

Einjährigen, dann hätte ihm die Vollerhebung der Geburten des letzten Jahres vollkommen 

genügt, um alles zu erfahren, was zur Optimierung seines Produktionsprozesses 

von Strampelanzügen in den aktuellen Modefarben, die von Jahr zu Jahr wechseln, 

notwendig gewesen wäre. 

3.1 Das Problem des Messfehlers 

Für den eben besprochenen Fall, dass es uns ausschließlich um die Beschreibung der 

Vollerhebung geht, haben wir allerdings ein wichtiges Problem unterschlagen, nämlich 

dass das, was wir messen, nicht unbedingt mit dem übereinstimmt, was wir eigentlich 

messen wollen. Zwar können wir getrost davon ausgehen, dass der Messfehler bei der 

Bestimmung des Geschlechts eines Neugeborenen bis auf wenige Ausnahmen vernachlässigbar 

gering ausfällt, leider ist diese optimistische Annahme aber gerade in den Sozialwissenschaften 

vermutlich eher selten gerechtfertigt (was leicht dazu verleitet, das 

Problem des Messfehlers der Einfachheit halber ganz zu ignorieren). Tatsächlich sind 

die Anfänge der statistischen Theorie gerade durch Anwendungen charakterisiert, in 

denen die Varianz eines Messwertes ganz und gar auf Messfehler zurückzuführen war. 

Das zu behandelnde Problem bestand darin, dass man in der Astronomie oft mehrere 

Planetenpositionen zum gleichen Zeitpunkt gemessen hatte und man aus dieser Verteilung 

von Messwerten auf den „wahren Messwert“ schließen wollte. In diesem Zusammenhang 

hat Gauß die Normalverteilungskurve als Fehlerkurve berühmt gemacht, mit 

der historisch bedauerlichen Folge, dass Gauß irrtümlich auch für den Entdecker der 

Normalverteilungskurve gehalten wurde und nicht de Moivre, dem dieses Verdienst 

tatsächlich zustand. Das große Verdienst von Gauß bestand allerdings darin, dass er 

zeigen konnte, dass die von Legendre und ihm entwickelte Methode der kleinsten 

Quadrate genau dann angemessen ist und zum richtigen Ergebnis führt, wenn man


von einem normalverteilten Fehler ausgeht (vgl. Stigler 1986: 55ff., 139ff.). Da sich 

ein- und derselbe Planet zur gleichen Zeit nicht an mehreren Orten befinden kann, ist 

die Streuung der Messwerte hier offensichtlich zu hundert Prozent auf Messfehler zurückzuführen. 

Es gilt hier bezüglich der Planetenposition, was ich die „Highlander-Bedingung“ 

nenne: „Es kann nur eine(n) geben.“ Wenn aber die Varianz eines Messwertes 

zumindest teilweise auf Messfehler zurückgeführt werden kann, dann kann es 

durchaus sinnvoll sein, auch bei Vollerhebungen Signifikanztests durchzuführen. Eine 

entscheidende Voraussetzung hierfür ist allerdings, dass der Messfehler, also die Abweichung 

des gemessenen Werts vom „tatsächlichen“ Wert, als Ergebnis eines Zufallsprozesses 

angesehen werden kann. Genau in diesem Sinn interpretierte z.B. Gauß die 

Messfehler. Der „Zufallscharakter“ des Messfehlers entsteht hierbei dadurch, dass der 

Messfehler als das Ergebnis des Zusammenwirkens vieler einzelner Faktoren angenommen 

wird, die jeweils für sich genommen kleine „Verunreinigungen“ des Messergebnisses 

– mal in die eine, mal in die andere Richtung – bewirken. Aus genau diesem 

Grund sind die Messfehler daher auch im Sinne des zentralen Grenzwerttheorems normalverteilt. 

Ein Teil der Begriffsverwirrung in dieser Diskussion ist darauf zurückzuführen, dass 

wir in der sozialwissenschaftlichen Praxis zu selten die Unterscheidung zwischen „elementorientierter“ 

und „datenorientierter“ Stichprobe treffen. Meistens behandeln wir 

Stichprobenprobleme nur unter dem Aspekt der Auswahl von Fällen, ohne zu berücksichtigen, 

dass es bei statistischen Verfahren immer um Stichproben von Datenwerten 

geht. Die Relevanz dieser Unterscheidung lässt sich nun gerade im Zusammenhang mit 

Vollerhebungen gut illustrieren. Im Sinne der Fallauswahl ist die elementorientierte 

Stichprobe bei einer Vollerhebung gleich der Grundgesamtheit. Die an den einzelnen 

Fällen bzw. Datenträgern erhobenen Messwerte allerdings stellen eine Stichprobe aus 

dem Universum aller potenziell möglichen Mengen von Messwerten dar, die anhand 

der Datenträger erhoben werden können. D.h. jeder bezüglich eines einzelnen Falls ermittelte 

Messwert ist die Realisierung einer Zufallsvariable. 

Beabsichtigen wir z.B. die Untersuchung der Differenz zweier Gruppenmittelwerte 

in einer Vollerhebung, dann gilt im einfachsten Fall die „Highlander-Bedingung“ für 

den gruppenspezifischen Messwert: Es gibt für jede Gruppe nur einen einzigen richtigen 

Wert, der am besten durch den Gruppenmittelwert geschätzt wird, und die gesamte 

Varianz innerhalb der Gruppe ist auf Messfehler zurückzuführen. Die Untersuchung, 

ob die Differenz zwischen den Gruppen allein aufgrund von Messfehlern zustande gekommen 

ist, kann dann mit Hilfe eines simplen Signifikanztests auf Mittelwertunterschiede 

vorgenommen werden. 

Gilt die „Highlander-Bedingung“ für den gruppenspezifischen Messwert jedoch 

nicht, dann handelt es sich bei der Varianz innerhalb der Gruppen um eine zusammengesetzte 

Varianz, die aus der Messfehlerkomponente und einer substanziellen Komponente 

besteht. Die substanzielle Varianz gibt hierbei unterschiedliche Ausprägungen 

der Variablen wieder, die auf tatsächlich vorliegenden Merkmalsunterschieden zwischen 

den Elementen in der Vollerhebung beruhen. Die direkte Durchführung eines Signifikanztests 

mit Hilfe eines Statistikprogramms führt daher zu einem verfälschten Ergebnis, 

da dann auch die substanzielle Varianz des Messwertes so behandelt wird, als ob


sie durch stochastische Prozesse zu Stande gekommen wäre. 1 Die stochastische Varianz, 

auf die sich der Signifikanztest gründet, wird also überschätzt. Bevor wir einen Signifikanztest 

durchführen, müssen wir daher eine Varianzdekomposition in eine substanzielle 

und eine Messfehlervarianz vornehmen. Um die durch den Messfehler verursachte 

Varianz zu bestimmen, können wir dabei unter Umständen auf Messwiederholungen 

zurückgreifen (soweit dies ohne systematische Verzerrung der Messwerte möglich 

ist). Dann ist es möglich, einen Signifikanztest auch für eine Vollerhebung durchzuführen, 

wenn wir die ursprüngliche Varianz um den substanziellen Anteil bereinigt haben, 

so dass nur noch die Messfehlervarianz für die Streuung der Werte in den Gruppen 

verantwortlich ist. 

3.2 Ein Anwendungsbeispiel aus der Politikwissenschaft: Wahlwerbung 

Ich will die erwähnten Aspekte an einem konkreten Problem aus der Politikwissenschaft 

illustrieren. Nehmen wir an, wir hätten eine Vollerhebung aller bisherigen Wahlanzeigen 

der Parteien unternommen. Der Einfachheit halber beschränken wir unser 

Beispiel auf zwei Parteien, die wir „SPD“ und „CDU“ nennen. Als Untersuchungsvariable 

nehmen wir lediglich das Thema der Anzeigen, wobei es insgesamt nur zwei 

Themen, nämlich „Wirtschaft“ und „Soziales“, gibt. Dieses sehr beschränkte und vereinfachte 

Beispiel genügt vollkommen, um die Problematik von Signifikanztests bei 

Vollerhebungen zu verdeutlichen. Die uns interessierende Fragestellung lautet, ob die 

Themenschwerpunkte der beiden Parteien sich voneinander unterscheiden. Dazu ermitteln 

wir die relative Häufigkeit der Themen und stellen fest, dass der Anteil von 

Anzeigen zu „Soziales“ bei der SPD 60 Prozent beträgt, bei der CDU hingegen nur 40 

Prozent. Die entscheidende Frage lautet nun: Ist es sinnvoll, zur Untersuchung des Unterschieds 

der Anteile einen Signifikanztest einzusetzen? Die Antwort lautet wieder wie 

oben: Es kommt darauf an, was wir genau ermitteln wollen. 

Wir wollen zuerst davon ausgehen, dass keine Messfehler auftreten. Wenn wir dann 

einen Signifikanztest einsetzen, dann sagt uns das Ergebnis lediglich, wie wahrscheinlich 

die beobachtete Verteilung der Themen ist, wenn wir davon ausgehen, dass beide 

Parteien die jeweiligen Themen mit derselben a-priori-Wahrscheinlichkeit wählen, die 

z.B. bei einem Chi²-Test durch die Randverteilung des Merkmals in der Stichprobe geschätzt 

wird. Nehmen wir an, die Anzahl aller Anzeigen von SPD und CDU sei gleich 

groß, dann wäre in unserem speziellen Fall diese a-priori-Wahrscheinlichkeit gleich 0,5. 

Die Unterschiede können dann als Ergebnis eines stochastischen Prozesses bei der Generierung 

der Daten, d.h. der Themenwahl, interpretiert werden. Wenn der Unterschied 

statistisch signifikant ausfällt, dann heißt dies lediglich, dass wir auch hier einen 

„Designeffekt“ vorliegen haben, d.h. dass die Parteien ihre Themen nicht zufällig, sondern 

bewusst wählen. Dies scheint aber theoretisch keine besonders gehaltvolle Aussage 

zu sein, denn natürlich gehen wir davon aus, dass Parteien ihre Themen bewusst wäh- 

1 Auch bei normalen Schlüssen von Stichproben auf die Grundgesamtheit gehen wir davon aus, 

dass die Varianz des untersuchten Merkmals in der Grundgesamtheit substanzieller Art ist. 

Nicht die Variable selbst ist zufällig verteilt, sondern der Stichprobenmittelwert, der durch die 

zufällige Auswahl einer Menge von Werten der Variable aus der Grundgesamtheit gebildet wurde.


len. Mit Hilfe des Signifikanztests können wir zwar feststellen, dass sich Parteien bei 

der Wahl ihrer Anzeigen nicht erratisch, sondern bewusst verhalten, aber die „substanzielle 

Signifikanz“ dieser Erkenntnis ist wohl ungefähr so hoch einzuschätzen wie die, 

dass die Schrittabfolge „Rechts-Links-Rechts-Links ...“ beim Gehen ebenfalls in einer 

statistisch höchst signifikanten Weise von einem durch Zufall generierten Muster abweicht. 

Die Zufallshypothese ist im Gegensatz zum Beispiel der Geschlechterratio bei 

der Wahl der Anzeigen wohl kaum eine theoretisch interessante Annahme, da sie nicht 

auf theoretisch gerechtfertigten Erwartungen basiert, die wir als ernsthaft zu erwägende 

Alternative betrachten. Es handelt sich hier um Wahlentscheidungen, die als Ausdruck 

von Präferenzen gedeutet werden können. Geschmacksurteile, soweit vorhanden, sind 

aber ein konstitutiver Bestandteil der Definition der Elemente. Man ist, wofür man 

sich entscheidet. Wir interessieren uns nicht dafür, ob sich bestimmte Personen oder 

Personengruppen per se voneinander statistisch signifikant unterscheiden. Dies wäre 

eine tautologische Angelegenheit, denn das Konzept der „Verschiedenheit“ im Sinne 

von Nicht-Identität verlangt nicht nur hohe Wahrscheinlichkeiten, sondern Gewissheit. 

Vielmehr interessieren wir uns dafür, ob gewisse Unterschiede der einen Art auffällig 

mit Unterschieden der anderen Art verknüpft sind. 2 

Die Anwendung eines statistischen Signifikanztests im erwähnten Beispiel ist weniger 

unzulässig als vielmehr unnötig und daher nur verwirrend. Wenn die Nullhypothese, 

es handele sich bei den beobachteten Unterschieden um zufällig hervorgerufene, zurückgewiesen 

wird, dann erfahren wir nur, was wir ohnehin schon wissen: Die Daten 

sind nicht zufällig generiert worden. Ein Generierungsprozess im Rahmen des Selbstentwurfs 

eines Individuums kann schon per definitionem nicht als stochastischer Prozess 

verstanden werden. Demnach ist auch eine Analogie zu einem Auswahlprozess im 

Sinne einer Stichprobenziehung nicht gegeben. Im klassischen Fisher-Test ist die Nullhypothese 

immer ein „straw-man claim“ (Mohr 1990: 50), also eine Annahme, bei der 

man nicht an ihrer Bestätigung, sondern an ihrer Widerlegung interessiert ist, und bei 

der man, wenn man den Test durchführt, oft schon davon ausgeht, dass diese Widerlegung 

gelingen wird. Gerade die Metapher vom Strohmann macht aber deutlich, dass 

bei der Durchführung eines Signifikanztests nicht zuletzt so etwas wie der Sportsgeist 

des Statistikers gefragt ist. Nichts ist leichter, als sich einen Strohmann zu basteln, dessen 

Widerlegung von vornherein gewährleistet ist. Die auf diese Weise gefundenen 

„signifikanten“ Ergebnisse sind aber alles andere als inhaltlich interessant, sondern lediglich 

banal zu nennen. Wenn das Ergebnis des Tests wirklich interessant sein soll, 

dann muss der Strohmann unserer Nullhypothese eine ernstzunehmende Herausforderung 

darstellen, und es muss auf jeden Fall vorstellbar sein, dass wir bei der Widerlegung 

unserer Nullhypothese auch scheitern könnten. Beim normalen Schluss von der 

Stichprobe auf die Grundgesamtheit liegt die theoretische Rechtfertigung des Zufallscharakters 

der beobachteten Verteilung in der Zufallsnatur des Auswahlprozesses. Die 

Signifikanz einer Beobachtung liegt nicht in der a priori „Unwahrscheinlichkeit“ des 

beobachteten Ereignisses an sich (denn jedes tatsächlich auftretende Ereignis ist a priori 

„unwahrscheinlich“), sondern in der Voraussage eines Ereignisses, das äußerst „unwahr- 

2 Genauer zum Problembereich „Identität und Signifikanztests bei Vollerhebungen“ vgl. Behnke 

(2003).


scheinlich“ wäre, wenn die Theorie, auf die sich die Voraussage stützt, nicht zutreffen 

würde. 3 Dazu muss es allerdings auch eine Theorie geben, und diese Theorie sollte 

nicht nur zu wahren Implikationen über die Wirklichkeit, sondern auch zu relevanten 

Aussagen führen. „Wir wollen mehr als die bloße Wahrheit: Wir suchen nach interessanter 

Wahrheit – nach Wahrheit, an die schwer heranzukommen ist“ (Popper 1994: 

335). 

Die erfolgreiche Zurückweisung der Nullhypothese in unserem Beispiel wäre also 

banal und würde uns zu keinem neuen Wissen verhelfen. Was aber, wenn die Zurückweisung 

der Nullhypothese misslingen würde und wir aufgrund des Tests nicht ausschließen 

könnten, dass die Unterschiede „zufällig“ zustande gekommen sind? Nach 

dem Testergebnis bleibt die Frage unbeantwortet, ob der Prozess der Datengenerierung 

zufällig abgelaufen sein könnte. In diesem Fall wissen wir aufgrund unserer Kenntnis 

des Generierungsprozesses mehr als der Test, denn wir wissen ja trotzdem, dass der 

Prozess der Datengenerierung nicht zufällig war, sondern bewusst vollzogen wurde. 

Unsere Kenntnis des Wesens des Datengenerierungsprozesses liefert uns in unserem 

Beispiel also auf jeden Fall mindestens so viel Wissen wie der Signifikanztest, nämlich 

dann, wenn er zur Ablehnung der Nullhypothese führt, aber in gewissen Fällen auch 

mehr, nämlich dann, wenn die Nullhypothese durch den Test nicht abgelehnt wird. 

Wenn das Analyseziel der Vollerhebung dasselbe ist, das es wäre, wenn es sich statt 

der Vollerhebung um eine Stichprobe handeln würde, nämlich die adäquate Beschreibung 

der Struktur der Grundgesamtheit, dann ist ein Signifikanztest in diesem Zusammenhang 

irrelevant. Nur wenn sich das Analyseziel ändert, nämlich wenn wir nicht 

mehr an der Deskription allein interessiert sind, wobei wir bei Stichproben den Zufallscharakter 

der Auswahl berücksichtigen müssen, sondern am Zufallscharakter der Generierung 

von Daten, nur dann sollten wir einen Signifikanztest anwenden. Es ist dann 

allerdings von großer Bedeutung, diesen Wechsel des Analyseziels explizit zu machen. 

Wenn wir einen Signifikanztest bei einer Vollerhebung anwenden, dann sollten wir daher 

mit guten theoretischen Argumenten erklären können, warum wir hier ein anderes 

Ziel verfolgen als wir es verfolgen würden, wenn wir statt der Vollerhebung nur eine 

Stichprobe zur Verfügung gehabt hätten. Die Untersuchung, ob Parteien die Thematik 

ihrer Wahlanzeigen zufällig auswählen, scheint theoretisch wenig ergiebig zu sein. Die 

3 Der Begriff „unwahrscheinlich“ ist in Anführungszeichen gesetzt, weil es sich hier um eine bedingte 

Wahrscheinlichkeit handelt. Etwas, das unter der Bedingung, dass die Theorie nicht zutrifft, 

als äußerst unwahrscheinlich angesehen werden muss, ist unter der Annahme der Geltung 

der Theorie hingegen vermutlich sehr wahrscheinlich. Dies entspricht ungefähr dem Begriff der 

„logischen Wahrscheinlichkeit“, wie ihn Popper (1989: 83) in der „Logik der Forschung“ verwendet. 

Besser prüfbare Theorien sind „logisch unwahrscheinlicher“, das heißt, die Wahrscheinlichkeit, 

dass sie den Prüfungen erfolgreich widerstehen, ist wesentlich geringer, wenn sie 

falsch sind. Deutlicher (allerdings leicht abweichend) äußert sich Popper an anderer Stelle, wo er 

bemerkt, dass Voraussagen einer neuen Theorie „im Lichte unseres früheren Wissens“ als 

„höchst unwahrscheinlich“ angesehen werden müssen (Popper 1994: 320). Der Begriff der 

Wahrscheinlichkeit bezieht sich bei Popper also auf die Überlebenswahrscheinlichkeit einer falschen 

Theorie und nicht etwa auf probabilistische Aussagen. Ganz im Gegenteil geht Popper 

praktisch ausschließlich von deterministischen Aussagen aus (zur Übertragbarkeit des falsifikationistischen 

Prinzips auf statistische Tests vgl. Gillies (2000: 145ff.), wobei allerdings zu beachten 

ist, dass bei statistischen Tests die Zielrichtung des Falsifikationsversuchs genau umgekehrt 

verläuft (vgl. Behnke/Behnke 2003: Kap. 9, 2004: Kap. 13)).


uns interessierende Fragestellung lautet vielmehr, wo sich Parteien denn genau positionieren, 

vorausgesetzt, dass sie sich bewusst positionieren – wovon wir ausgehen. Genau 

dies lässt sich aber direkt durch die deskriptive Analyse der Daten feststellen. Frei nach 

Erich Fried gilt: Es ist signifikant, sagt der Test, es ist, was es ist, sagt die Deskription. 

In diesem Falle ist der Signifikanztest bestenfalls banal, schlimmstenfalls jedoch suggeriert 

er eine Asymmetrie der Ergebnisse, wo diese gar nicht vorhanden ist. Dies ist allerdings 

eine allgemeine Problematik von Signifikanztests, die sich nicht nur bei Vollerhebungen 

ergibt. 

Aber auch wenn wir lediglich an einer Deskription der Daten interessiert sind, also 

an dem, was der Fall ist, und nicht an dem, was auch hätte der Fall sein können, so 

sind wir an einer Deskription der „wahren Tatsachen“ und nicht an einer Deskription 

unserer Messungen interessiert. Wir sollten daher das Messproblem nicht unberücksichtigt 

lassen, wenn wir Anlass zur Vermutung haben, dass die Messung unzuverlässig 

gewesen sein könnte und wir über Verfahren verfügen, den Messfehler zu schätzen. Bei 

inhaltsanalytischen Verfahren können wir nicht ohne Weiteres davon ausgehen, dass 

die Messung „objektiv“ in dem Sinn ist, dass sie bei Wiederholungen den gleichen 

Wert ergibt. Im Gegensatz zu anderen Verfahren wie Befragungen können wir bei Inhaltsanalysen 

jedoch den Messfehler mit Hilfe von Reliabilitätstests relativ genau abschätzen. 

Nehmen wir an, der Reliabilitätstest hätte ergeben, dass die Kategorien mit 

einer Wahrscheinlichkeit von 90 Prozent richtig erkannt werden (unabhängig von den 

Ausprägungen der untersuchten Variablen). Dann lässt sich für jeden echten Anteil einer 

Kategorie eine (zusammengesetzte) Binomialverteilung ermitteln, mit der die gemessenen 

Anteile um den echten streuen. Nehmen wir an, der Anteil der Anzeigen der 

SPD zum Thema „Soziales“ betrage in Wirklichkeit 70 Prozent. Dann werden 90 Prozent 

dieser Fälle richtig als „Soziales“ kategorisiert und 10 Prozent der 30 Prozent 

„Wirtschafts“-Fälle fälschlicherweise auch. Der Erwartungswert des insgesamt gemessenen 

Anteils von „Soziales“-Fällen wird also bei 66 Prozent (0,9 × 0,7 + 0,1 × 0,3 = 

0,66) liegen. Die Streuung, mit der der gemessene Anteil um den Erwartungswert verteilt 

ist, ist aber die durch den Messfehler bedingte, also 0,9 × 0,1/n. Bei einer nominalkategorisierten 

Variablen wird der Messfehler also zu einem Bias führen, der die Anteile 

der Kategorien nivelliert. Umgekehrt kann dann bei einem gemessenen Anteil von 

60 Prozent und einem Messfehler von 10 Prozent (bei einer dichotomen Variablen) der 

echte Anteil geschätzt werden, und zwar als 0,6 = 0,9 ×x+0,1×(1–x),wobei sich 

für x 0,625 ergibt. Es ist nun aufgrund der bekannten Messfehlervarianz möglich, mit 

Hilfe eines Signifikanztests zu untersuchen, ob die beobachteten Unterschiede der Anteile 

allein aufgrund des Messfehlers zustande gekommen sein könnten. 

Da das Verfahren der Bestimmung der Messfehlervarianz nicht immer ganz einfach 

ist, sollte man, wenn es geht, Messfehler von vornherein zu vermeiden suchen. Im Falle 

einer Inhaltsanalyse könnte dies durch die Vercodung einer Einheit durch mehrere unabhängige 

Codierer erreicht werden, aber auch eine gründliche Codiererschulung kann 

den Fehler erheblich reduzieren helfen.


4. Fazit 

Zur Durchführung eines Signifikanztests bedarf es einer Teststatistik, deren Wahrscheinlichkeitsverteilung 

berechnet werden kann, so dass wir aufgrund bestimmter 

Werte der Teststatistik entscheiden können, ob ein bestimmtes Ergebnis im Sinne des 

angewandten Tests als signifikant einzustufen ist. Am einfachsten lässt sich die Wahrscheinlichkeitsverteilung 

einer solchen Teststatistik berechnen, wenn sie aufgrund eines 

stochastischen Prozesses zustande gekommen ist. Im Falle der klassischen Test- und 

Schätztheorie, bei der wir von den Stichprobenstatistiken auf die Parameterwerte der 

Grundgesamtheit schließen, modellieren wir den stochastischen Prozess als einen Auswahlvorgang, 

der analog zur Durchführung eines Zufallsexperiments aufgefasst werden 

kann. Das Problem der Verzerrung der Stichprobe gegenüber der Grundgesamtheit 

wird daher in der Regel einzig und allein auf den Zufallscharakter der Auswahl der 

Fälle, die in die Stichprobe eingehen, zurückgeführt, und andere stochastische Elemente, 

die bei der Generierung der Stichprobe eine Rolle spielen könnten, werden gewöhnlich 

ignoriert. 

Stellt die Stichprobe eine Vollerhebung dar, dann fällt unter dieser Voraussetzung 

das stochastische Element vollkommen unter den Tisch, womit auch der Durchführung 

eines Signifikanztests jegliche Begründung entzogen wird. Tatsächlich aber ist der 

stochastische Charakter der Daten einer Stichprobe nicht nur auf die Auswahlproblematik 

beschränkt, vielmehr lassen sich mindestens drei wichtige Stufen der Generierung 

der Stichprobenwerte unterscheiden, auf denen jeweils Zufallsprozesse eine Rolle 

spielen. Die erste Stufe betrifft die Generierung der Daten selbst, genauer gesagt, der 

„echten“ Daten. Die Eigenschaften, durch deren Messung an den Elementen der Stichprobe 

unsere Daten erst entstehen, können unter Umständen als Ergebnis eines Zufallsprozesses 

aufgefasst werden, der erst die Wirklichkeit in ihrer konkreten Form, so 

wie wir sie vorfinden, geschaffen hat. Wir können dies daher den ontologischen stochastischen 

Aspekt unseres Inferenzproblems nennen. Die zweite Stufe besteht in der Abbildung 

der Ausprägungen der uns interessierenden Eigenschaften der Objekte in Messwerte. 

Prinzipiell können bei jeder Messung Fehler auftreten, und diese können größer 

oder kleiner ausfallen. Auch Messfehler können so betrachtet werden, als wären sie 

durch einen Zufallsprozess hervorgebracht worden. Die dritte Stufe stellt schließlich 

die Auswahl unserer Stichprobenfälle aus der Grundgesamtheit dar. 

Ist nun die Stichprobe eine Vollerhebung, so ist klar, dass bezüglich der Generierung 

unserer (datenorientierten) Stichprobe der zufällige Selektionsprozess, die dritte 

Stufe, keine Rolle mehr spielen kann. Es gibt nur eine Stichprobe, die sämtliche Fälle 

der Grundgesamtheit enthält, nämlich die Grundgesamtheit selbst. Daraus könnte nun 

auch die Schlussfolgerung gezogen werden: Alle Stichprobenstatistiken sind die Grundgesamtheitsparameter. 

Paradoxerweise ist diese Schlussfolgerung jedoch nicht unbedingt 

richtig, und dies liegt an den anderen beiden stochastischen Elementen, die bei der 

Generierung der Stichprobendatenwerte weiterhin am Werk waren. 

Betrachten wir zuerst den ontologischen stochastischen Aspekt unseres Problems. 

Wenn wir auf der Ebene der Generierung der „unverfälschten“ und „echten“ Daten einen 

Zufallsprozess annehmen, dann ist es weiterhin möglich, inferenzstatistische Verfahren 

einzusetzen. Allerdings betrachten wir unsere Vollerhebung dann nicht mehr als


die relevante Grundgesamtheit, sondern als eine Stichprobe aus der Superpopulation 

aller Leibnizschen möglichen Welten. Der stochastische Prozess bei der Generierung 

von Daten kann daher ganz genau so wie ein zufallsgesteuerter Auswahlprozess behandelt 

werden. Aber wer so argumentiert, sollte redlicherweise dabei kenntlich machen, 

dass hierbei gleichzeitig eine Zielverschiebung unseres Forschungsvorhabens stattgefunden 

hat, nämlich von der angemessenen Beschreibung der uns vorliegenden konkreten 

Welt zur Untersuchung der Fragestellung, wie wahrscheinlich es ist, dass die uns vorliegende 

Welt das Produkt eines im einzelnen spezifizierten Zufallsprozesses ist. Möglicherweise 

ist dies aber ein Aspekt, der viele Forscher gar nicht interessiert, denen es 

lediglich um die Untersuchung der Zusammenhänge in unserer Welt geht und nicht 

darum, wie diese zustande gekommen sind. Wenn es mehr Jungen gibt als Mädchen, 

dann gibt es eben mehr Jungen als Mädchen, und es ist für viele nicht die brennendste 

Frage der Welt, ob das Geschlecht des Kindes von Gott mit einer fairen Münze oder 

einer Münze mit einem leichten Bias ermittelt wird. 4 

Es gibt Aspekte der Wirklichkeit, hinsichtlich derer unter Wissenschaftlern praktisch 

ungeteilte Einigkeit besteht, dass sie nur als stochastische Prozesse angemessen beschrieben 

werden können, d.h. die Natur der Prozesse selbst ist ebenfalls stochastisch. 

Dies trifft z.B. auf den radioaktiven Zerfall bestimmter Elemente zu. Es gibt andere 

Aspekte der Wirklichkeit, deren Natur selbst nicht stochastisch, sondern deterministisch 

ist, die aber durch ein stochastisches Modell der Wirklichkeit gut beschrieben 

werden können. Hierfür ist die Geschlechterverteilung ein gutes Beispiel. Schließlich 

gibt es Aspekte der Wirklichkeit, die weder in ihrer Natur stochastisch sind, noch 

durch ein stochastisches Modell angemessen beschrieben werden können. Dies sind 

z.B. alle Gegebenheiten, die wir als unmittelbare Folgen bewussten Handelns auffassen. 

Der bloße Hinweis auf den stochastischen Charakter unserer Wirklichkeit an sich 

genügt daher keineswegs schon zur Rechtfertigung der Durchführung eines Signifikanztests 

oder der Berechnung von Konfidenzintervallen. Vielmehr kommt es eben darauf 

an, ob der untersuchte Aspekt der Wirklichkeit stochastischen Charakter hat. Der 

behauptete Zufallsprozess selbst muss dann direkt oder indirekt Gegenstand unseres 

Forschungsvorhabens sein. Wenn die Grundgesamtheit tatsächlich nur die Grundgesamtheit 

und nicht die Superpopulation ist, dann ist die Vollerhebung auch eine Vollerhebung 

und keine bloße Stichprobe. 

Doch auch derjenige, den es nicht interessiert, wie seine Daten ursprünglich zustande 

gekommen sind, sollte natürlich Wert darauf legen, dass seine Daten das aussagen, 

was sie auszusagen vorgeben. Das Messproblem ist daher wohl für jeden Forscher 

relevant und kann nicht wie das ontologische stochastische Element aus theoretischen 

Gründen unberücksichtigt bleiben. Um aber den Messfehler genau bestimmen zu kön- 

4 Die theoretisch interessantere Frage wäre, warum Gott eine Münze und nicht einen Tetraeder 

oder einen Würfel nimmt. Anders ausgedrückt: Warum gibt es überhaupt genau zwei Geschlechter 

und nicht z.B. drei wie in Asimovs Roman „Lunatico“ (The Gods themselves), und 

warum kommen diese beiden Geschlechter in der Wirklichkeit annähernd in gleichen Anteilen 

vor? Die interessante Frage für moderne Biologen ist nicht die Abweichung von der Gleichverteilung 

der Geschlechter, sondern wie überhaupt eine annähernde Gleichverteilung zustande 

kommen kann. Der Zufallsgenerator selbst, der die Gleichverteilung schließlich bewirkt, wird 

dann als Ergebnis des evolutionären Prozesses verstanden.


nen, sind wir wieder auf eine explizite Theorie der Entstehung des Messfehlers angewiesen, 

bzw. auf eine genaue Kenntnis des Zufallsprozesses, der den Messfehler hervorruft. 

In den meisten Fällen dürfte es uns äußerst schwer fallen, den Messfehler genau 

zu bestimmen, womit wir auch den zu Grunde liegenden stochastischen Prozess nicht 

eindeutig modellieren können. Das beste Rezept lautet daher zu versuchen, den Messfehler 

von vorneherein durch entsprechende Operationalisierungen so klein wie möglich 

zu halten. Wenn der Messfehler eindeutig bestimmt werden kann, dann können 

auch Signifikanztests bei einer Vollerhebung durchgeführt werden, bei denen die entsprechende 

Wahrscheinlichkeitsverteilung der Teststatistik aus dem Messprozess abgeleitet 

werden kann. 

Grundsätzlich gilt: Auch wenn mit mehr oder weniger guten Gründen für das Vorhandensein 

stochastischer Elemente bei der Generierung der Stichprobendatenwerte argumentiert 

und damit die Durchführung eines Signifikanztests als zulässig betrachtet 

werden kann, so heißt dies noch lange nicht, dass man dann als konkreten Signifikanztest 

genau den gleichen anwenden kann, der von Statistikprogrammen bezüglich der 

Schätzung von Stichprobenunterschieden angeboten wird. Dies mag von Fall zu Fall 

bei dem ontologischen stochastischen Element noch angemessen sein, da dieses analog 

zu einem Auswahlproblem behandelt werden kann, es ist aber in jedem Fall falsch bei 

der Behandlung des stochastischen Elements, das durch Messfehler hervorgerufen wird. 

Vor der Durchführung eines Signifikanztests oder der Bestimmung von Konfidenzintervallen 

sollte daher genau geprüft werden, ob die Bedingungen hierfür vorliegen. 

Sind diese Bedingungen nicht gegeben, dann ist es ratsamer, auf Signifikanztests zu 

verzichten. Das bedeutet nicht, dass man das Unsicherheitsmoment bezüglich der eigenen 

Interpretationen und Schlussfolgerungen unterschlagen soll. Aber ich persönlich 

würde eine verbale Darstellung der Unsicherheit immer einer formalen vorziehen, die 

in der Angabe von Standardfehlern besteht, die unter nicht zutreffenden Bedingungen 

berechnet worden sind. 

Literatur 

Behnke, Joachim, 2003: Kausalprozesse und Identität. Über den Sinn von Signifikanztests und Konfidenzintervallen 

bei Vollerhebungen, in: 

http://www.uni-bamberg.de/sowi/poltheory/meth/papers. 

Behnke, Joachim/Behnke, Nathalie, 2003: Wissenschaftstheorie. Studienbrief an der FernUniversität 

in Hagen Nr. 33206. Hagen. 

Behnke, Joachim/Behnke, Nathalie, 2004: Statistik. Studienbrief an der FernUniversität in Hagen 

Nr. 33208. Hagen. 

Berk, Richard A./Western, Bruce/Weiss, Robert E., 1995: Statistical Inference for Apparent Populations, 

in: Sociological Methodology 25, 421–458. 

Broscheid, Andreas/Gschwend, Thomas, 2003: Augäpfel, Murmeltiere und Bayes: Zur Auswertung 

stochastischer Daten aus Vollerhebungen. MPIfG Working Paper 03/7. 

Gigerenzer, Gerd/Swijtink, Zeno/Porter, Theodore/Daston, Lorraine/Beatty, John/Krüger, Lorenz, 1989: 

The Empire of Chance. How Probability Changed Science and Everyday Life. Cambridge. 

Gillies, Donald, 2000: Philosophical Theories of Probability. London. 

Hacking, Ian, 1975: The Emergence of Probability. Cambridge.


Kunz, Volker, 2000: Kulturelle Variablen, organisatorische Netzwerke und demokratische Staatsstrukturen 

als Determinanten der wirtschaftlichen Entwicklung im internationalen Vergleich, 

in: Kölner Zeitschrift für Soziologie und Sozialpsychologie 52, 195–225. 

Kunz, Volker, 2001: „Do Institutions matter?“ Politische Bestimmungsfaktoren des Wirtschaftswachstums 

in demokratischen Industriegesellschaften. Antwort auf Herbert Obinger, in: Kölner 

Zeitschrift für Soziologie und Sozialpsychologie 53, 149–165. 

Mohr, Lawrence B., 1990: Understanding Significance Testing. Quantitative Applications in the Social 

Sciences, Vol. 73. Newbury Park, CA. 

Obinger, Herbert, 2001: Verteilungskoalitionen und demokratische Staatsstrukturen als Determinanten 

der wirtschaftlichen Entwicklung. Eine Replik auf Volker Kunz, in: Kölner Zeitschrift für 

Soziologie und Sozialpsychologie 53, 136–148. 

Popper, Karl R., 1989 [1935]: Logik der Forschung. Tübingen. 

Popper, Karl R., 1994 [1963]: Vermutungen und Widerlegungen. Teilband I: Vermutungen. Tübingen. 

Stigler, Stephen M., 1986: The History of Statistics. The Measurement of Uncertainty before 1900. 

Cambridge.

Lassen sich Signifikanztests auf Vollerhebungen ... - SpringerLink

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?