09.10.2012 Aufrufe

Lassen sich Signifikanztests auf Vollerhebungen ... - SpringerLink

Lassen sich Signifikanztests auf Vollerhebungen ... - SpringerLink

Lassen sich Signifikanztests auf Vollerhebungen ... - SpringerLink

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden?<br />

Einige essayistische Anmerkungen<br />

Joachim Behnke*<br />

Die Frage, ob inferenzstatistische Methoden auch bei <strong>Vollerhebungen</strong> angewandt werden dürfen,<br />

ist in der Forschergemeinde umstritten. Ein solches Vorgehen kann nur dann gerechtfertigt werden,<br />

wenn die Daten der Vollerhebung analog zur Stichprobenziehung als Ergebnis eines stochastischen<br />

Datengenerierungsprozesses <strong>auf</strong>gefasst werden können. Der vorliegende Aufsatz versucht<br />

zu klären, unter welchen Umständen diese Bedingung als erfüllt angesehen werden kann und<br />

wann nicht von dem Vorliegen der Bedingung ausgegangen werden kann.<br />

1. Einführung<br />

Die Frage, ob es erlaubt ist, <strong>auf</strong> <strong>Vollerhebungen</strong> <strong>Signifikanztests</strong> anzuwenden, ist in der<br />

Literatur und Forschungspraxis weiterhin umstritten. Die Relevanz dieser Fragestellung<br />

ist besonders hoch bei der statistischen Analyse von Makrodaten, da hier besonders<br />

häufig <strong>Vollerhebungen</strong> vorliegen (vgl. u.a. Kunz 2000, 2001; Obinger 2001; Broscheid/Gschwend<br />

2003). Untersucht man z.B. den Zusammenhang zwischen kulturellen<br />

Variablen und dem Wirtschaftswachstum für alle OECD-Länder in einem bestimmten<br />

Zeitraum, dann stellt <strong>sich</strong> die Frage, wor<strong>auf</strong> man denn die gefundenen Ergebnisse<br />

verallgemeinern könnte bzw. wollte. Soll die Gültigkeit dieses Zusammenhangs<br />

für alle Länder der Erde angenommen werden, oder soll <strong>sich</strong> die Generalisierung<br />

nur <strong>auf</strong> die OECD-Länder erstrecken und für diese in einer Übertragung <strong>auf</strong> andere<br />

Zeiträume als den untersuchten bestehen?<br />

Tatsächlich existiert wohl keine eindeutige Lösung für dieses Problem. Weder kann<br />

es für jeden Fall ausgeschlossen werden, dass die Durchführung eines <strong>Signifikanztests</strong><br />

an einer Vollerhebung Sinn macht, noch gilt umgekehrt, dass <strong>Vollerhebungen</strong> in Bezug<br />

<strong>auf</strong> <strong>Signifikanztests</strong> grundsätzlich analog zu Stichproben behandelt werden dürfen. Die<br />

Antwort lautet vielmehr: Es hängt von der Art der Aussage ab, die man formulieren<br />

möchte, ob ein Signifikanztest angemessen ist, d.h. es muss für jeden Fall einzeln <strong>auf</strong>grund<br />

theoretischer Überlegungen entschieden werden, inwieweit die Durchführung eines<br />

<strong>Signifikanztests</strong> als sinnvoll betrachtet werden kann.<br />

Die Ergebnisse von <strong>Signifikanztests</strong> oder der Berechnung von Konfidenzintervallen,<br />

wie sie üblicherweise von Statistikpaketen geliefert werden, beruhen <strong>auf</strong> der Annahme,<br />

* Für wertvolle Kommentare zu einem früheren Entwurf danke ich Hans Kiesl, Götz Rohwer,<br />

Thorsten Faas, Thomas Plümper, Nina Baur, Nathalie Behnke, Charlotte Kellermann und den<br />

anonymen Gutachtern der PVS.<br />

Politische Vierteljahresschrift, 46. Jg. (2005), Heft 1, S. O-1–O-15 © VS Verlag


O-2 Joachim Behnke<br />

dass die zu Grunde liegende Datenmenge eine Stichprobe darstellt. Das heißt, es wird<br />

damit vorausgesetzt, dass diese Daten durch einen Prozess generiert worden sind, der<br />

als zufällige Auswahl einzelner Elemente aus einer weit größeren Anzahl von Elementen,<br />

der Grundgesamtheit, modelliert werden kann. Sinn der Inferenzstatistik ist es<br />

nun, mit Hilfe des Wirklichkeitsausschnitts, den uns die Stichprobe gibt, <strong>auf</strong> die<br />

Struktur der „ganzen“ Wirklichkeit, also der Grundgesamtheit, zu schließen. Dieser<br />

Schluss mit Hilfe der inferenzstatistischen Methoden kann nur unter bestimmten Vorbehalten<br />

und mit bestimmten Einschränkungen gemacht werden. D.h. <strong>auf</strong>grund der<br />

durch den Zufallsprozess bedingten Un<strong>sich</strong>erheit können die Aussagen über die<br />

Grundgesamtheit nur mit einer gewissen Unschärfe getroffen werden, die ihren <strong>sich</strong>tbaren<br />

statistischen Ausdruck in der Angabe des Standardfehlers bzw. in der Formulierung<br />

von Konfidenzintervallen findet, wobei die Festlegung des Bereichs der Konfidenzintervalle<br />

<strong>auf</strong> dem Standardfehler beruht. Die Zulässigkeit des inferenzstatistischen<br />

Schlusses selbst aber beruht <strong>auf</strong> dem grundsätzlichen Vorbehalt, dass die Stichprobe<br />

tatsächlich als Zufallsauswahl der Grundgesamtheit zustande gekommen ist. So paradox<br />

<strong>sich</strong> dies vielleicht auch anhören mag: Die „un<strong>sich</strong>eren“ Aussagen, die wir mit inferenzstatistischen<br />

Methoden gewinnen, sind nur insoweit aussagekräftig, wie wir uns<br />

über das Vorliegen der Ursache der Un<strong>sich</strong>erheit, d.h. des Zufalls, <strong>sich</strong>er sein können.<br />

Der Unterschied zwischen inferenzstatistischen Tests und Schätzverfahren besteht<br />

nun darin, inwiefern der Zufall als Erklärung für bestimmte Eigenschaften der Beobachtungsdaten<br />

angenommen werden kann bzw. soll. Bei einem Test gehen wir von einer<br />

Art stochastischer Fiktion aus, d.h. wir unterstellen, dass bestimmte beobachtete Unterschiede<br />

allein durch zufällige Schwankungen zu erklären sind, die durch den Auswahlprozess<br />

entstanden sind. Diese beobachteten Unterschiede werden erst dadurch<br />

<strong>sich</strong>tbar, dass wir unsere Stichprobe <strong>auf</strong> systematische Weise in Untergruppen eingeteilt<br />

haben. Z.B. können wir aus einer Stichprobe von 1000 zufällig ausgewählten Personen<br />

zwei Untergruppen von Männern und Frauen bilden und anschließend feststellen, dass<br />

die durchschnittliche Körpergröße der Männer um einige Zentimeter höher ausfällt als<br />

die der Frauen. Wenn wir nun aber feststellen, dass diese Unterschiede weit über das<br />

Ausmaß hinausgehen, das wir allein <strong>auf</strong>grund des Wirkens des Zufalls erwarten würden,<br />

dann schließen wir daraus, dass diese Unterschiede im Ganzen nur durch die Annahme<br />

einer zusätzlichen Ursache erklärt werden können. Dieses nicht-zufällige Element<br />

muss aber durch die Form der Gruppierung in die Beobachtungsdaten gelangt<br />

sein. Die systematische Ursache des Größenunterschieds muss daher das Geschlecht der<br />

Personen sein. Das Ziel des Tests besteht also in der Demonstration, dass die stochastische<br />

Fiktion nicht <strong>auf</strong>recht erhalten werden kann: Bestimmte Merkmale der Struktur<br />

der Beobachtungsdaten können nicht allein <strong>auf</strong> Zufälligkeiten beim Auswahlprozess zurückgeführt<br />

werden. Die Gefahr, dass uns die Annahme, dass bestimmte Eigenschaften<br />

unserer Beobachtungsdaten <strong>auf</strong> der stochastischen Struktur des Datengenerierungsprozesses<br />

beruhen, zu falschen, d.h. unberechtigten, Schlussfolgerungen verleitet, ist beim<br />

statistischen Test insofern eher gering, als der Test selbst dar<strong>auf</strong> abzielt, diese Annahme<br />

als unbegründet zu entlarven. Das substanzielle Ergebnis eines wie oben beschriebenen<br />

Tests in der Tradition von R.A. Fisher besteht ja in der Zurückweisung des Zufalls als<br />

alleinige Ursache bestimmter Beobachtungen. Misslingt diese Zurückweisung, darf daraus<br />

keineswegs geschlossen werden, dass alle Unterschiede tatsächlich nur zufällig be-


<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-3<br />

dingt sind, sondern lediglich, dass sie von zufällig zustande gekommenen nicht mit<br />

einem hinreichenden Grad an Sicherheit unterschieden werden können. Der einzige<br />

Fehler, den wir bei der Durchführung eines Fisher-Tests machen können, besteht in<br />

der fälschlichen Zurückweisung des Zufalls als alleinige Ursache der beobachteten Unterschiede.<br />

Die Rolle des Zufalls kann bei einem statistischen Test in der Tradition<br />

Fishers daher nur unterschätzt, aber niemals überschätzt werden. Der Test besitzt ein<br />

eingebautes Korrektiv gegen die unzulässige Annahme des Zufalls, da eine inhaltliche<br />

Interpretation des Testergebnisses nur dann erfolgt, wenn diese Annahme als unbegründet<br />

zurückgewiesen wird.<br />

Komplizierter verhält es <strong>sich</strong> hingegen, wenn wir inferenzstatistische Methoden bei<br />

der Schätzung von Parametern der Grundgesamtheit wie Mittelwerte oder Anteilswerte<br />

durch die entsprechenden statistischen Kennwerte der Stichprobe einsetzen. Der hierbei<br />

ermittelte Standardfehler der Schätzung, und damit die daraus abgeleiteten Konfidenzintervalle,<br />

beruht ganz und gar <strong>auf</strong> der Annahme der stochastischen Natur des<br />

Auswahlprozesses, der der Datengenerierung zu Grunde liegt. Da hier kein eingebautes<br />

Korrektiv im Verfahren selbst vorhanden ist, muss die stochastische Natur des Datengenerierungsprozesses<br />

bekannt sein, und sie muss darüber hinaus genau analog zu der<br />

eines Auswahlprozesses bei Stichproben sein, wenn wir die übliche Statistiksoftware<br />

verwenden.<br />

Welche Relevanz haben nun diese Ausführungen, wenn es <strong>sich</strong> bei den untersuchten<br />

Datenfällen nicht um eine „echte“ Stichprobe handelt, sondern um eine „Vollerhebung“?<br />

Ob man in diesem Fall einen statistischen Test durchführen soll, oder inwiefern<br />

dieser Test über eine theoretisch interessante Frage Aufschluss gibt, hängt davon<br />

ab, inwiefern die Vollerhebung in irgendeinem Sinn wie eine Stichprobe behandelt<br />

werden kann. Damit hängt dies aber auch davon ab, von welcher Art die untersuchte<br />

Frage selbst ist. Wendet man inferenzstatistische Methoden <strong>auf</strong> <strong>Vollerhebungen</strong> an,<br />

dann bedeutet dies, dass die zulässigen Interpretationen entsprechend eingeschränkt<br />

sind. Der Kontext, in dem inferenzstatistische Methoden auch bei <strong>Vollerhebungen</strong> angewandt<br />

werden, kann in verschiedene Fälle unterschieden werden.<br />

2. Fall 1: Die Vollerhebung wird anlog zu einer Stichprobe behandelt<br />

Im ersten Moment scheint die Anwendung statistischer Tests <strong>auf</strong> <strong>Vollerhebungen</strong> per<br />

definitionem unsinnig, und zwar dann, wenn man die Vollerhebung als identisch mit<br />

der Grundgesamtheit betrachtet. Tatsächlich aber bezeichnen wir häufig etwas als Vollerhebung<br />

wenn wir damit ausdrücken wollen, dass wir alle verfügbaren Daten dieses<br />

Typs vollständig erhoben haben bzw. dass weitere Daten dieses Typs nicht mehr erreicht<br />

werden können. In diesem Sinn wären z.B. alle Lottoergebnisse vom 1.1.1970<br />

bis zum 31.12.2000 eine Vollerhebung, oder alle bisherigen Lottoergebnisse überhaupt.<br />

Obwohl es in diesem Fall nicht möglich ist, zusätzliche Daten zu beschaffen – es gibt<br />

nun einmal nur die Lottoergebnisse, die es gibt –, scheint es doch nicht grundsätzlich<br />

unzulässig, die bisherigen Ergebnisse wie eine Stichprobe <strong>auf</strong>zufassen.<br />

Auch eine Vollerhebung kann als eine Stichprobe verstanden werden, wenn man sie<br />

als Realisierung einer konkreten Wirklichkeit aus einer unendlichen Vielzahl potenziell


O-4 Joachim Behnke<br />

möglicher Wirklichkeiten versteht. Das Universum der potenziell möglichen Wirklichkeiten<br />

ist dann die eigentliche Grundgesamtheit, und die in Form der Vollerhebung<br />

realisierte konkrete Wirklichkeit stellt lediglich eine Stichprobe aus dieser Grundgesamtheit<br />

dar, die durch einen Zufallsprozess generiert worden ist. Oft wird das Universum<br />

der hypothetischen Wirklichkeiten, von denen unsere Grundgesamtheit nur einen<br />

besonderen Fall darstellt, auch als „Superpopulation“ bezeichnet (vgl. Berk et al.<br />

1995). Der Prozess der Entstehung der Daten selbst kann dann analog zu einem Prozess<br />

der Auswahl von schon entstandenen, d.h. vorhandenen Daten betrachtet werden.<br />

Dazu sollte man <strong>sich</strong> noch einmal kurz vor Augen führen, um welche Art von Zufallsprozess<br />

es <strong>sich</strong> bei dem Auswahlvorgang handelt, mit dem eine Stichprobe aus der<br />

Grundgesamtheit gezogen wird. In einem allgemeinen Sinn handelt es <strong>sich</strong> dabei nämlich<br />

einfach um die Durchführung eines Zufallsexperiments. Entscheidend ist dabei,<br />

dass die Wahrscheinlichkeit, mit der ein zufällig ausgewähltes Element eine bestimmte<br />

Ausprägung einer Eigenschaft besitzt, genau der relativen Häufigkeit entspricht, mit<br />

der diese Ausprägung in der Grundgesamtheit vorkommt. Besitzen wir z.B. eine<br />

Grundgesamtheit mit 60 Prozent CDU-Wählern und 40 Prozent SPD-Wählern, dann<br />

wird bei dem zufälligen Auswahlprozess bezüglich eines Falls für die Stichprobe mit 60<br />

Prozent Wahrscheinlichkeit ein CDU-Anhänger und mit 40 Prozent Wahrscheinlichkeit<br />

ein SPD-Anhänger ausgewählt. Eine wichtige Grundannahme, <strong>auf</strong> der die Stichprobentheorie<br />

und die dar<strong>auf</strong> fußende Inferenzstatistik gründen, ist dabei, dass die einzelnen<br />

Ziehungen unabhängig voneinander erfolgen, d.h. das Ergebnis einer neuen<br />

Ziehung wird nicht durch den Ausgang der vorangehenden Ziehungen beeinflusst. Wir<br />

behandeln also die Auswahl genau genommen wie eine Auswahl mit Zurücklegen, oder<br />

anders ausgedrückt, die Ziehung aller Elemente der Stichprobe kann als eine Wiederholung<br />

desselben Zufallsexperiments betrachtet werden. Die Generierung einer beliebigen<br />

Menge von Daten kann daher immer dann analog zur Bildung einer Stichprobe<br />

behandelt werden, wenn sie als Ergebnis eines konstant <strong>auf</strong> dieselbe Weise wirkenden<br />

Zufallsprozesses betrachtet werden kann.<br />

Man kann den eben skizzierten Grundgedanken sehr gut am historisch wohl ersten<br />

Signifikanztest illustrieren, der Überprüfung der Geschlechterratio durch John Arbuthnot<br />

im Jahre 1710 (vgl. Hacking 1975: 166ff.; Gigerenzer et al. 1989: 12f.). Anhand<br />

der Untersuchung der Geburtentafeln kam John Arbuthnot zum Ergebnis, dass die Geschlechterratio<br />

nicht 1/1 beträgt, sondern einen leichten Überschuss von männlichen<br />

Neugeborenen <strong>auf</strong>weist. Wenn Arbuthnot auch tatsächlich wohl kaum eine Vollerhebung<br />

durchgeführt haben dürfte, so ist klar, dass er dies zumindest zu tun beab<strong>sich</strong>tigte<br />

und dass seine Fragestellung mit einer Vollerhebung jedenfalls zu untersuchen gewesen<br />

wäre. Gehen wir daher im Weiteren davon aus, Arbuthnot hätte tatsächlich eine<br />

Vollerhebung durchgeführt, d.h. er hätte seine Untersuchung <strong>auf</strong> alle Geburten in einem<br />

bestimmten Zeitraum gestützt. Im Falle Arbuthnots wäre dem Ziel der Untersuchung<br />

nicht Genüge getan worden mit einem simplen „Es sind tatsächlich mehr Jungen<br />

als Mädchen geboren worden“. Worum es Arbuthnot nämlich ging, war festzustellen,<br />

ob die tatsächlich beobachtete Verteilung auch hätte zustande kommen können,<br />

wenn das Geschlecht eines Neugeborenen analog zu einem Münzwurf bestimmt worden<br />

wäre, wobei dieser Münzwurf von der Natur ausgeführt worden wäre. Auch bei einer<br />

Vollerhebung kann es von theoretischem Interesse sein, nicht nur zu wissen, wie


<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-5<br />

die Verteilung in der Vollerhebung aussieht, sondern ob sie <strong>auf</strong>grund eines bestimmten<br />

Zufallsprozesses hätte generiert werden können. Die theoretische Relevanz sei wieder<br />

an Arbuthnots Untersuchung illustriert, der aus seinen Ergebnissen immerhin die nicht<br />

ganz unbedeutende Erkenntnis zog, dass hinter diesem ungleichen Geschlechterverhältnis<br />

göttliches Design zu stecken habe. Die teleologische Erklärung wurde dabei von<br />

ihm gleich mitgeliefert. Der Überschuss an neugeborenen Jungen glich nämlich die<br />

höhere Kindersterblichkeit bei Jungen aus, so dass zum Zeitpunkt der Ehereife das Geschlechterverhältnis<br />

wieder ausgeglichen war, womit die biblisch begründete Institution<br />

der Monogamie <strong>auf</strong>rechterhalten werden konnte (Gigerenzer et al. 1989: 40). (Damit<br />

lieferte Arbuthnot indirekt gleich noch das klassische Argument, dass das Handeln<br />

Gottes für endliche Wesen nicht immer nachvollziehbar sein muss. Denn ein allmächtiger<br />

Gott muss bei seinem Weltentwurf nicht zwangsläufig das Ziel ökonomischer<br />

Modellierung verfolgen, das er ja leichter dadurch hätte erzielen können, indem er<br />

Säuglings- und Kindersterblichkeit der beiden Geschlechter gleich gehalten hätte.)<br />

Eine Vollerhebung kann also dann wie eine Stichprobe behandelt werden, wenn sie<br />

als Ergebnis eines stochastischen Prozesses <strong>auf</strong>gefasst werden kann. Es ist dabei unerheblich,<br />

ob das stochastische Element durch einen Auswahlprozess im engeren Sinn<br />

oder durch einen Generierungsprozess zustande kommt. Tatsächlich beruht ein Großteil<br />

der Stichprobentheorie dar<strong>auf</strong>, Auswahlprozesse gerade wie Generierungsprozesse zu<br />

behandeln, nämlich als unabhängige Durchführungen eines Zufallsexperiments. Der<br />

Signifikanztest verhält <strong>sich</strong> indifferent gegenüber der Tatsache, wie das stochastische<br />

Element zustande gekommen ist. Unter theoretischen Ge<strong>sich</strong>tspunkten ist dies aber<br />

von großer Bedeutung für die angemessene Interpretation des Ergebnisses des Tests.<br />

Auch <strong>Vollerhebungen</strong> können also mit <strong>Signifikanztests</strong> untersucht werden, wenn<br />

der Prozess der Datengenerierung als zufällig angesehen wird. Es muss aber unter theoretischen<br />

Ge<strong>sich</strong>tspunkten bestimmt werden, ob es <strong>sich</strong> dabei überhaupt um einen<br />

theoretisch interessanten Aspekt des Forschungsvorhabens handelt. Die Interpretation<br />

der Ergebnisse eines <strong>Signifikanztests</strong> bei <strong>Vollerhebungen</strong> verlangt daher eine weitergehende<br />

theoretische Begründung als bei echten Stichproben. Mit der Durchführung<br />

von <strong>Signifikanztests</strong> anhand von Stichproben wollen wir lediglich feststellen, inwieweit<br />

der untersuchte Ausschnitt der Wirklichkeit der ganzen Wirklichkeit entspricht; es geht<br />

hier um die Korrespondenz eines Teils mit dem Ganzen, wobei der Teil durch die Art<br />

der Konstruktion als verkleinertes und nicht hundertprozentig scharfes Abbild des<br />

Ganzen betrachtet werden kann. Bei der Anwendung inferenzstatistischer Methoden<br />

<strong>auf</strong> <strong>Vollerhebungen</strong> hingegen geht es nicht um eine Verallgemeinerung von der „Stichprobe“<br />

<strong>auf</strong> die Grundgesamtheit, sondern wir schließen von der Stichprobe <strong>auf</strong> den<br />

Zufallsprozess selbst. Dieser Zufallsprozess wird dann als die verborgene Struktur der<br />

Wirklichkeit gesehen, d.h. als ein Geflecht von Prozessen, die die Wirklichkeit erst hervorbringen.<br />

Die untersuchte Korrespondenz ist dann gewissermaßen die zwischen der<br />

beobachteten Wirklichkeit und der die Wirklichkeit generierenden Struktur „hinter“<br />

der Wirklichkeit.


O-6 Joachim Behnke<br />

3. Fall 2: Die Vollerhebung ist die theoretisch einzig relevante Grundgesamtheit<br />

Nur weil man etwas tun kann, heißt dies noch lange nicht, dass man es tun muss oder<br />

auch nur tun sollte. Die Anwendung eines <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> kann<br />

zwar im obigen Sinn gerechtfertigt werden, aber wenn es uns ausschließlich um eine<br />

Deskription der Grundgesamtheit geht, dann ist die entsprechende Beschreibung der<br />

Eigenschaften der Vollerhebung alles, was wir anstreben können. Der überwiegende<br />

Teil der statistischen Test- und Schätzverfahren versucht nichts anderes, als mit Hilfe<br />

einer Stichprobe zu einer angemessenen Deskription der Struktur der Grundgesamtheit<br />

zu gelangen. Schließlich zielt auch die Schätzung von Zusammenhängen immer <strong>auf</strong> die<br />

deskriptive Struktur der Grundgesamtheit. „Kausale Inferenz“ folgt niemals aus der<br />

Durchführung eines statistischen Verfahrens an <strong>sich</strong>, sondern aus einem Zusammenwirken<br />

theoretischer Überlegungen und der Gestaltung des Forschungsdesigns. Wenn nun<br />

die Grundgesamtheit vollkommen erhoben werden kann und es nur um die Bestimmung<br />

bestimmter Eigenschaften wie z.B. der Parameter ihrer Verteilung geht, dann ist<br />

ein Signifikanztest nicht nur überflüssig, sondern geradezu irreführend und daher unsinnig.<br />

Wäre Arbuthnot nicht ein mathematischer Amateur mit metaphysischen Neigungen<br />

gewesen (neben seinen Tätigkeiten als Leibarzt von Queen Anne und als satirischer<br />

Schriftsteller), sondern Monopolist bei der Herstellung von Babykleidung von<br />

Einjährigen, dann hätte ihm die Vollerhebung der Geburten des letzten Jahres vollkommen<br />

genügt, um alles zu erfahren, was zur Optimierung seines Produktionsprozesses<br />

von Strampelanzügen in den aktuellen Modefarben, die von Jahr zu Jahr wechseln,<br />

notwendig gewesen wäre.<br />

3.1 Das Problem des Messfehlers<br />

Für den eben besprochenen Fall, dass es uns ausschließlich um die Beschreibung der<br />

Vollerhebung geht, haben wir allerdings ein wichtiges Problem unterschlagen, nämlich<br />

dass das, was wir messen, nicht unbedingt mit dem übereinstimmt, was wir eigentlich<br />

messen wollen. Zwar können wir getrost davon ausgehen, dass der Messfehler bei der<br />

Bestimmung des Geschlechts eines Neugeborenen bis <strong>auf</strong> wenige Ausnahmen vernachlässigbar<br />

gering ausfällt, leider ist diese optimistische Annahme aber gerade in den Sozialwissenschaften<br />

vermutlich eher selten gerechtfertigt (was leicht dazu verleitet, das<br />

Problem des Messfehlers der Einfachheit halber ganz zu ignorieren). Tatsächlich sind<br />

die Anfänge der statistischen Theorie gerade durch Anwendungen charakterisiert, in<br />

denen die Varianz eines Messwertes ganz und gar <strong>auf</strong> Messfehler zurückzuführen war.<br />

Das zu behandelnde Problem bestand darin, dass man in der Astronomie oft mehrere<br />

Planetenpositionen zum gleichen Zeitpunkt gemessen hatte und man aus dieser Verteilung<br />

von Messwerten <strong>auf</strong> den „wahren Messwert“ schließen wollte. In diesem Zusammenhang<br />

hat Gauß die Normalverteilungskurve als Fehlerkurve berühmt gemacht, mit<br />

der historisch bedauerlichen Folge, dass Gauß irrtümlich auch für den Entdecker der<br />

Normalverteilungskurve gehalten wurde und nicht de Moivre, dem dieses Verdienst<br />

tatsächlich zustand. Das große Verdienst von Gauß bestand allerdings darin, dass er<br />

zeigen konnte, dass die von Legendre und ihm entwickelte Methode der kleinsten<br />

Quadrate genau dann angemessen ist und zum richtigen Ergebnis führt, wenn man


<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-7<br />

von einem normalverteilten Fehler ausgeht (vgl. Stigler 1986: 55ff., 139ff.). Da <strong>sich</strong><br />

ein- und derselbe Planet zur gleichen Zeit nicht an mehreren Orten befinden kann, ist<br />

die Streuung der Messwerte hier offen<strong>sich</strong>tlich zu hundert Prozent <strong>auf</strong> Messfehler zurückzuführen.<br />

Es gilt hier bezüglich der Planetenposition, was ich die „Highlander-Bedingung“<br />

nenne: „Es kann nur eine(n) geben.“ Wenn aber die Varianz eines Messwertes<br />

zumindest teilweise <strong>auf</strong> Messfehler zurückgeführt werden kann, dann kann es<br />

durchaus sinnvoll sein, auch bei <strong>Vollerhebungen</strong> <strong>Signifikanztests</strong> durchzuführen. Eine<br />

entscheidende Voraussetzung hierfür ist allerdings, dass der Messfehler, also die Abweichung<br />

des gemessenen Werts vom „tatsächlichen“ Wert, als Ergebnis eines Zufallsprozesses<br />

angesehen werden kann. Genau in diesem Sinn interpretierte z.B. Gauß die<br />

Messfehler. Der „Zufallscharakter“ des Messfehlers entsteht hierbei dadurch, dass der<br />

Messfehler als das Ergebnis des Zusammenwirkens vieler einzelner Faktoren angenommen<br />

wird, die jeweils für <strong>sich</strong> genommen kleine „Verunreinigungen“ des Messergebnisses<br />

– mal in die eine, mal in die andere Richtung – bewirken. Aus genau diesem<br />

Grund sind die Messfehler daher auch im Sinne des zentralen Grenzwerttheorems normalverteilt.<br />

Ein Teil der Begriffsverwirrung in dieser Diskussion ist dar<strong>auf</strong> zurückzuführen, dass<br />

wir in der sozialwissenschaftlichen Praxis zu selten die Unterscheidung zwischen „elementorientierter“<br />

und „datenorientierter“ Stichprobe treffen. Meistens behandeln wir<br />

Stichprobenprobleme nur unter dem Aspekt der Auswahl von Fällen, ohne zu berück<strong>sich</strong>tigen,<br />

dass es bei statistischen Verfahren immer um Stichproben von Datenwerten<br />

geht. Die Relevanz dieser Unterscheidung lässt <strong>sich</strong> nun gerade im Zusammenhang mit<br />

<strong>Vollerhebungen</strong> gut illustrieren. Im Sinne der Fallauswahl ist die elementorientierte<br />

Stichprobe bei einer Vollerhebung gleich der Grundgesamtheit. Die an den einzelnen<br />

Fällen bzw. Datenträgern erhobenen Messwerte allerdings stellen eine Stichprobe aus<br />

dem Universum aller potenziell möglichen Mengen von Messwerten dar, die anhand<br />

der Datenträger erhoben werden können. D.h. jeder bezüglich eines einzelnen Falls ermittelte<br />

Messwert ist die Realisierung einer Zufallsvariable.<br />

Beab<strong>sich</strong>tigen wir z.B. die Untersuchung der Differenz zweier Gruppenmittelwerte<br />

in einer Vollerhebung, dann gilt im einfachsten Fall die „Highlander-Bedingung“ für<br />

den gruppenspezifischen Messwert: Es gibt für jede Gruppe nur einen einzigen richtigen<br />

Wert, der am besten durch den Gruppenmittelwert geschätzt wird, und die gesamte<br />

Varianz innerhalb der Gruppe ist <strong>auf</strong> Messfehler zurückzuführen. Die Untersuchung,<br />

ob die Differenz zwischen den Gruppen allein <strong>auf</strong>grund von Messfehlern zustande gekommen<br />

ist, kann dann mit Hilfe eines simplen <strong>Signifikanztests</strong> <strong>auf</strong> Mittelwertunterschiede<br />

vorgenommen werden.<br />

Gilt die „Highlander-Bedingung“ für den gruppenspezifischen Messwert jedoch<br />

nicht, dann handelt es <strong>sich</strong> bei der Varianz innerhalb der Gruppen um eine zusammengesetzte<br />

Varianz, die aus der Messfehlerkomponente und einer substanziellen Komponente<br />

besteht. Die substanzielle Varianz gibt hierbei unterschiedliche Ausprägungen<br />

der Variablen wieder, die <strong>auf</strong> tatsächlich vorliegenden Merkmalsunterschieden zwischen<br />

den Elementen in der Vollerhebung beruhen. Die direkte Durchführung eines <strong>Signifikanztests</strong><br />

mit Hilfe eines Statistikprogramms führt daher zu einem verfälschten Ergebnis,<br />

da dann auch die substanzielle Varianz des Messwertes so behandelt wird, als ob


O-8 Joachim Behnke<br />

sie durch stochastische Prozesse zu Stande gekommen wäre. 1 Die stochastische Varianz,<br />

<strong>auf</strong> die <strong>sich</strong> der Signifikanztest gründet, wird also überschätzt. Bevor wir einen Signifikanztest<br />

durchführen, müssen wir daher eine Varianzdekomposition in eine substanzielle<br />

und eine Messfehlervarianz vornehmen. Um die durch den Messfehler verursachte<br />

Varianz zu bestimmen, können wir dabei unter Umständen <strong>auf</strong> Messwiederholungen<br />

zurückgreifen (soweit dies ohne systematische Verzerrung der Messwerte möglich<br />

ist). Dann ist es möglich, einen Signifikanztest auch für eine Vollerhebung durchzuführen,<br />

wenn wir die ursprüngliche Varianz um den substanziellen Anteil bereinigt haben,<br />

so dass nur noch die Messfehlervarianz für die Streuung der Werte in den Gruppen<br />

verantwortlich ist.<br />

3.2 Ein Anwendungsbeispiel aus der Politikwissenschaft: Wahlwerbung<br />

Ich will die erwähnten Aspekte an einem konkreten Problem aus der Politikwissenschaft<br />

illustrieren. Nehmen wir an, wir hätten eine Vollerhebung aller bisherigen Wahlanzeigen<br />

der Parteien unternommen. Der Einfachheit halber beschränken wir unser<br />

Beispiel <strong>auf</strong> zwei Parteien, die wir „SPD“ und „CDU“ nennen. Als Untersuchungsvariable<br />

nehmen wir lediglich das Thema der Anzeigen, wobei es insgesamt nur zwei<br />

Themen, nämlich „Wirtschaft“ und „Soziales“, gibt. Dieses sehr beschränkte und vereinfachte<br />

Beispiel genügt vollkommen, um die Problematik von <strong>Signifikanztests</strong> bei<br />

<strong>Vollerhebungen</strong> zu verdeutlichen. Die uns interessierende Fragestellung lautet, ob die<br />

Themenschwerpunkte der beiden Parteien <strong>sich</strong> voneinander unterscheiden. Dazu ermitteln<br />

wir die relative Häufigkeit der Themen und stellen fest, dass der Anteil von<br />

Anzeigen zu „Soziales“ bei der SPD 60 Prozent beträgt, bei der CDU hingegen nur 40<br />

Prozent. Die entscheidende Frage lautet nun: Ist es sinnvoll, zur Untersuchung des Unterschieds<br />

der Anteile einen Signifikanztest einzusetzen? Die Antwort lautet wieder wie<br />

oben: Es kommt dar<strong>auf</strong> an, was wir genau ermitteln wollen.<br />

Wir wollen zuerst davon ausgehen, dass keine Messfehler <strong>auf</strong>treten. Wenn wir dann<br />

einen Signifikanztest einsetzen, dann sagt uns das Ergebnis lediglich, wie wahrscheinlich<br />

die beobachtete Verteilung der Themen ist, wenn wir davon ausgehen, dass beide<br />

Parteien die jeweiligen Themen mit derselben a-priori-Wahrscheinlichkeit wählen, die<br />

z.B. bei einem Chi²-Test durch die Randverteilung des Merkmals in der Stichprobe geschätzt<br />

wird. Nehmen wir an, die Anzahl aller Anzeigen von SPD und CDU sei gleich<br />

groß, dann wäre in unserem speziellen Fall diese a-priori-Wahrscheinlichkeit gleich 0,5.<br />

Die Unterschiede können dann als Ergebnis eines stochastischen Prozesses bei der Generierung<br />

der Daten, d.h. der Themenwahl, interpretiert werden. Wenn der Unterschied<br />

statistisch signifikant ausfällt, dann heißt dies lediglich, dass wir auch hier einen<br />

„Designeffekt“ vorliegen haben, d.h. dass die Parteien ihre Themen nicht zufällig, sondern<br />

bewusst wählen. Dies scheint aber theoretisch keine besonders gehaltvolle Aussage<br />

zu sein, denn natürlich gehen wir davon aus, dass Parteien ihre Themen bewusst wäh-<br />

1 Auch bei normalen Schlüssen von Stichproben <strong>auf</strong> die Grundgesamtheit gehen wir davon aus,<br />

dass die Varianz des untersuchten Merkmals in der Grundgesamtheit substanzieller Art ist.<br />

Nicht die Variable selbst ist zufällig verteilt, sondern der Stichprobenmittelwert, der durch die<br />

zufällige Auswahl einer Menge von Werten der Variable aus der Grundgesamtheit gebildet wurde.


<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-9<br />

len. Mit Hilfe des <strong>Signifikanztests</strong> können wir zwar feststellen, dass <strong>sich</strong> Parteien bei<br />

der Wahl ihrer Anzeigen nicht erratisch, sondern bewusst verhalten, aber die „substanzielle<br />

Signifikanz“ dieser Erkenntnis ist wohl ungefähr so hoch einzuschätzen wie die,<br />

dass die Schrittabfolge „Rechts-Links-Rechts-Links ...“ beim Gehen ebenfalls in einer<br />

statistisch höchst signifikanten Weise von einem durch Zufall generierten Muster abweicht.<br />

Die Zufallshypothese ist im Gegensatz zum Beispiel der Geschlechterratio bei<br />

der Wahl der Anzeigen wohl kaum eine theoretisch interessante Annahme, da sie nicht<br />

<strong>auf</strong> theoretisch gerechtfertigten Erwartungen basiert, die wir als ernsthaft zu erwägende<br />

Alternative betrachten. Es handelt <strong>sich</strong> hier um Wahlentscheidungen, die als Ausdruck<br />

von Präferenzen gedeutet werden können. Geschmacksurteile, soweit vorhanden, sind<br />

aber ein konstitutiver Bestandteil der Definition der Elemente. Man ist, wofür man<br />

<strong>sich</strong> entscheidet. Wir interessieren uns nicht dafür, ob <strong>sich</strong> bestimmte Personen oder<br />

Personengruppen per se voneinander statistisch signifikant unterscheiden. Dies wäre<br />

eine tautologische Angelegenheit, denn das Konzept der „Verschiedenheit“ im Sinne<br />

von Nicht-Identität verlangt nicht nur hohe Wahrscheinlichkeiten, sondern Gewissheit.<br />

Vielmehr interessieren wir uns dafür, ob gewisse Unterschiede der einen Art <strong>auf</strong>fällig<br />

mit Unterschieden der anderen Art verknüpft sind. 2<br />

Die Anwendung eines statistischen <strong>Signifikanztests</strong> im erwähnten Beispiel ist weniger<br />

unzulässig als vielmehr unnötig und daher nur verwirrend. Wenn die Nullhypothese,<br />

es handele <strong>sich</strong> bei den beobachteten Unterschieden um zufällig hervorgerufene, zurückgewiesen<br />

wird, dann erfahren wir nur, was wir ohnehin schon wissen: Die Daten<br />

sind nicht zufällig generiert worden. Ein Generierungsprozess im Rahmen des Selbstentwurfs<br />

eines Individuums kann schon per definitionem nicht als stochastischer Prozess<br />

verstanden werden. Demnach ist auch eine Analogie zu einem Auswahlprozess im<br />

Sinne einer Stichprobenziehung nicht gegeben. Im klassischen Fisher-Test ist die Nullhypothese<br />

immer ein „straw-man claim“ (Mohr 1990: 50), also eine Annahme, bei der<br />

man nicht an ihrer Bestätigung, sondern an ihrer Widerlegung interessiert ist, und bei<br />

der man, wenn man den Test durchführt, oft schon davon ausgeht, dass diese Widerlegung<br />

gelingen wird. Gerade die Metapher vom Strohmann macht aber deutlich, dass<br />

bei der Durchführung eines <strong>Signifikanztests</strong> nicht zuletzt so etwas wie der Sportsgeist<br />

des Statistikers gefragt ist. Nichts ist leichter, als <strong>sich</strong> einen Strohmann zu basteln, dessen<br />

Widerlegung von vornherein gewährleistet ist. Die <strong>auf</strong> diese Weise gefundenen<br />

„signifikanten“ Ergebnisse sind aber alles andere als inhaltlich interessant, sondern lediglich<br />

banal zu nennen. Wenn das Ergebnis des Tests wirklich interessant sein soll,<br />

dann muss der Strohmann unserer Nullhypothese eine ernstzunehmende Herausforderung<br />

darstellen, und es muss <strong>auf</strong> jeden Fall vorstellbar sein, dass wir bei der Widerlegung<br />

unserer Nullhypothese auch scheitern könnten. Beim normalen Schluss von der<br />

Stichprobe <strong>auf</strong> die Grundgesamtheit liegt die theoretische Rechtfertigung des Zufallscharakters<br />

der beobachteten Verteilung in der Zufallsnatur des Auswahlprozesses. Die<br />

Signifikanz einer Beobachtung liegt nicht in der a priori „Unwahrscheinlichkeit“ des<br />

beobachteten Ereignisses an <strong>sich</strong> (denn jedes tatsächlich <strong>auf</strong>tretende Ereignis ist a priori<br />

„unwahrscheinlich“), sondern in der Voraussage eines Ereignisses, das äußerst „unwahr-<br />

2 Genauer zum Problembereich „Identität und <strong>Signifikanztests</strong> bei <strong>Vollerhebungen</strong>“ vgl. Behnke<br />

(2003).


O-10 Joachim Behnke<br />

scheinlich“ wäre, wenn die Theorie, <strong>auf</strong> die <strong>sich</strong> die Voraussage stützt, nicht zutreffen<br />

würde. 3 Dazu muss es allerdings auch eine Theorie geben, und diese Theorie sollte<br />

nicht nur zu wahren Implikationen über die Wirklichkeit, sondern auch zu relevanten<br />

Aussagen führen. „Wir wollen mehr als die bloße Wahrheit: Wir suchen nach interessanter<br />

Wahrheit – nach Wahrheit, an die schwer heranzukommen ist“ (Popper 1994:<br />

335).<br />

Die erfolgreiche Zurückweisung der Nullhypothese in unserem Beispiel wäre also<br />

banal und würde uns zu keinem neuen Wissen verhelfen. Was aber, wenn die Zurückweisung<br />

der Nullhypothese misslingen würde und wir <strong>auf</strong>grund des Tests nicht ausschließen<br />

könnten, dass die Unterschiede „zufällig“ zustande gekommen sind? Nach<br />

dem Testergebnis bleibt die Frage unbeantwortet, ob der Prozess der Datengenerierung<br />

zufällig abgel<strong>auf</strong>en sein könnte. In diesem Fall wissen wir <strong>auf</strong>grund unserer Kenntnis<br />

des Generierungsprozesses mehr als der Test, denn wir wissen ja trotzdem, dass der<br />

Prozess der Datengenerierung nicht zufällig war, sondern bewusst vollzogen wurde.<br />

Unsere Kenntnis des Wesens des Datengenerierungsprozesses liefert uns in unserem<br />

Beispiel also <strong>auf</strong> jeden Fall mindestens so viel Wissen wie der Signifikanztest, nämlich<br />

dann, wenn er zur Ablehnung der Nullhypothese führt, aber in gewissen Fällen auch<br />

mehr, nämlich dann, wenn die Nullhypothese durch den Test nicht abgelehnt wird.<br />

Wenn das Analyseziel der Vollerhebung dasselbe ist, das es wäre, wenn es <strong>sich</strong> statt<br />

der Vollerhebung um eine Stichprobe handeln würde, nämlich die adäquate Beschreibung<br />

der Struktur der Grundgesamtheit, dann ist ein Signifikanztest in diesem Zusammenhang<br />

irrelevant. Nur wenn <strong>sich</strong> das Analyseziel ändert, nämlich wenn wir nicht<br />

mehr an der Deskription allein interessiert sind, wobei wir bei Stichproben den Zufallscharakter<br />

der Auswahl berück<strong>sich</strong>tigen müssen, sondern am Zufallscharakter der Generierung<br />

von Daten, nur dann sollten wir einen Signifikanztest anwenden. Es ist dann<br />

allerdings von großer Bedeutung, diesen Wechsel des Analyseziels explizit zu machen.<br />

Wenn wir einen Signifikanztest bei einer Vollerhebung anwenden, dann sollten wir daher<br />

mit guten theoretischen Argumenten erklären können, warum wir hier ein anderes<br />

Ziel verfolgen als wir es verfolgen würden, wenn wir statt der Vollerhebung nur eine<br />

Stichprobe zur Verfügung gehabt hätten. Die Untersuchung, ob Parteien die Thematik<br />

ihrer Wahlanzeigen zufällig auswählen, scheint theoretisch wenig ergiebig zu sein. Die<br />

3 Der Begriff „unwahrscheinlich“ ist in Anführungszeichen gesetzt, weil es <strong>sich</strong> hier um eine bedingte<br />

Wahrscheinlichkeit handelt. Etwas, das unter der Bedingung, dass die Theorie nicht zutrifft,<br />

als äußerst unwahrscheinlich angesehen werden muss, ist unter der Annahme der Geltung<br />

der Theorie hingegen vermutlich sehr wahrscheinlich. Dies entspricht ungefähr dem Begriff der<br />

„logischen Wahrscheinlichkeit“, wie ihn Popper (1989: 83) in der „Logik der Forschung“ verwendet.<br />

Besser prüfbare Theorien sind „logisch unwahrscheinlicher“, das heißt, die Wahrscheinlichkeit,<br />

dass sie den Prüfungen erfolgreich widerstehen, ist wesentlich geringer, wenn sie<br />

falsch sind. Deutlicher (allerdings leicht abweichend) äußert <strong>sich</strong> Popper an anderer Stelle, wo er<br />

bemerkt, dass Voraussagen einer neuen Theorie „im Lichte unseres früheren Wissens“ als<br />

„höchst unwahrscheinlich“ angesehen werden müssen (Popper 1994: 320). Der Begriff der<br />

Wahrscheinlichkeit bezieht <strong>sich</strong> bei Popper also <strong>auf</strong> die Überlebenswahrscheinlichkeit einer falschen<br />

Theorie und nicht etwa <strong>auf</strong> probabilistische Aussagen. Ganz im Gegenteil geht Popper<br />

praktisch ausschließlich von deterministischen Aussagen aus (zur Übertragbarkeit des falsifikationistischen<br />

Prinzips <strong>auf</strong> statistische Tests vgl. Gillies (2000: 145ff.), wobei allerdings zu beachten<br />

ist, dass bei statistischen Tests die Zielrichtung des Falsifikationsversuchs genau umgekehrt<br />

verläuft (vgl. Behnke/Behnke 2003: Kap. 9, 2004: Kap. 13)).


<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-11<br />

uns interessierende Fragestellung lautet vielmehr, wo <strong>sich</strong> Parteien denn genau positionieren,<br />

vorausgesetzt, dass sie <strong>sich</strong> bewusst positionieren – wovon wir ausgehen. Genau<br />

dies lässt <strong>sich</strong> aber direkt durch die deskriptive Analyse der Daten feststellen. Frei nach<br />

Erich Fried gilt: Es ist signifikant, sagt der Test, es ist, was es ist, sagt die Deskription.<br />

In diesem Falle ist der Signifikanztest bestenfalls banal, schlimmstenfalls jedoch suggeriert<br />

er eine Asymmetrie der Ergebnisse, wo diese gar nicht vorhanden ist. Dies ist allerdings<br />

eine allgemeine Problematik von <strong>Signifikanztests</strong>, die <strong>sich</strong> nicht nur bei <strong>Vollerhebungen</strong><br />

ergibt.<br />

Aber auch wenn wir lediglich an einer Deskription der Daten interessiert sind, also<br />

an dem, was der Fall ist, und nicht an dem, was auch hätte der Fall sein können, so<br />

sind wir an einer Deskription der „wahren Tatsachen“ und nicht an einer Deskription<br />

unserer Messungen interessiert. Wir sollten daher das Messproblem nicht unberück<strong>sich</strong>tigt<br />

lassen, wenn wir Anlass zur Vermutung haben, dass die Messung unzuverlässig<br />

gewesen sein könnte und wir über Verfahren verfügen, den Messfehler zu schätzen. Bei<br />

inhaltsanalytischen Verfahren können wir nicht ohne Weiteres davon ausgehen, dass<br />

die Messung „objektiv“ in dem Sinn ist, dass sie bei Wiederholungen den gleichen<br />

Wert ergibt. Im Gegensatz zu anderen Verfahren wie Befragungen können wir bei Inhaltsanalysen<br />

jedoch den Messfehler mit Hilfe von Reliabilitätstests relativ genau abschätzen.<br />

Nehmen wir an, der Reliabilitätstest hätte ergeben, dass die Kategorien mit<br />

einer Wahrscheinlichkeit von 90 Prozent richtig erkannt werden (unabhängig von den<br />

Ausprägungen der untersuchten Variablen). Dann lässt <strong>sich</strong> für jeden echten Anteil einer<br />

Kategorie eine (zusammengesetzte) Binomialverteilung ermitteln, mit der die gemessenen<br />

Anteile um den echten streuen. Nehmen wir an, der Anteil der Anzeigen der<br />

SPD zum Thema „Soziales“ betrage in Wirklichkeit 70 Prozent. Dann werden 90 Prozent<br />

dieser Fälle richtig als „Soziales“ kategorisiert und 10 Prozent der 30 Prozent<br />

„Wirtschafts“-Fälle fälschlicherweise auch. Der Erwartungswert des insgesamt gemessenen<br />

Anteils von „Soziales“-Fällen wird also bei 66 Prozent (0,9 × 0,7 + 0,1 × 0,3 =<br />

0,66) liegen. Die Streuung, mit der der gemessene Anteil um den Erwartungswert verteilt<br />

ist, ist aber die durch den Messfehler bedingte, also 0,9 × 0,1/n. Bei einer nominalkategorisierten<br />

Variablen wird der Messfehler also zu einem Bias führen, der die Anteile<br />

der Kategorien nivelliert. Umgekehrt kann dann bei einem gemessenen Anteil von<br />

60 Prozent und einem Messfehler von 10 Prozent (bei einer dichotomen Variablen) der<br />

echte Anteil geschätzt werden, und zwar als 0,6 = 0,9 ×x+0,1×(1–x),wobei <strong>sich</strong><br />

für x 0,625 ergibt. Es ist nun <strong>auf</strong>grund der bekannten Messfehlervarianz möglich, mit<br />

Hilfe eines <strong>Signifikanztests</strong> zu untersuchen, ob die beobachteten Unterschiede der Anteile<br />

allein <strong>auf</strong>grund des Messfehlers zustande gekommen sein könnten.<br />

Da das Verfahren der Bestimmung der Messfehlervarianz nicht immer ganz einfach<br />

ist, sollte man, wenn es geht, Messfehler von vornherein zu vermeiden suchen. Im Falle<br />

einer Inhaltsanalyse könnte dies durch die Vercodung einer Einheit durch mehrere unabhängige<br />

Codierer erreicht werden, aber auch eine gründliche Codiererschulung kann<br />

den Fehler erheblich reduzieren helfen.


O-12 Joachim Behnke<br />

4. Fazit<br />

Zur Durchführung eines <strong>Signifikanztests</strong> bedarf es einer Teststatistik, deren Wahrscheinlichkeitsverteilung<br />

berechnet werden kann, so dass wir <strong>auf</strong>grund bestimmter<br />

Werte der Teststatistik entscheiden können, ob ein bestimmtes Ergebnis im Sinne des<br />

angewandten Tests als signifikant einzustufen ist. Am einfachsten lässt <strong>sich</strong> die Wahrscheinlichkeitsverteilung<br />

einer solchen Teststatistik berechnen, wenn sie <strong>auf</strong>grund eines<br />

stochastischen Prozesses zustande gekommen ist. Im Falle der klassischen Test- und<br />

Schätztheorie, bei der wir von den Stichprobenstatistiken <strong>auf</strong> die Parameterwerte der<br />

Grundgesamtheit schließen, modellieren wir den stochastischen Prozess als einen Auswahlvorgang,<br />

der analog zur Durchführung eines Zufallsexperiments <strong>auf</strong>gefasst werden<br />

kann. Das Problem der Verzerrung der Stichprobe gegenüber der Grundgesamtheit<br />

wird daher in der Regel einzig und allein <strong>auf</strong> den Zufallscharakter der Auswahl der<br />

Fälle, die in die Stichprobe eingehen, zurückgeführt, und andere stochastische Elemente,<br />

die bei der Generierung der Stichprobe eine Rolle spielen könnten, werden gewöhnlich<br />

ignoriert.<br />

Stellt die Stichprobe eine Vollerhebung dar, dann fällt unter dieser Voraussetzung<br />

das stochastische Element vollkommen unter den Tisch, womit auch der Durchführung<br />

eines <strong>Signifikanztests</strong> jegliche Begründung entzogen wird. Tatsächlich aber ist der<br />

stochastische Charakter der Daten einer Stichprobe nicht nur <strong>auf</strong> die Auswahlproblematik<br />

beschränkt, vielmehr lassen <strong>sich</strong> mindestens drei wichtige Stufen der Generierung<br />

der Stichprobenwerte unterscheiden, <strong>auf</strong> denen jeweils Zufallsprozesse eine Rolle<br />

spielen. Die erste Stufe betrifft die Generierung der Daten selbst, genauer gesagt, der<br />

„echten“ Daten. Die Eigenschaften, durch deren Messung an den Elementen der Stichprobe<br />

unsere Daten erst entstehen, können unter Umständen als Ergebnis eines Zufallsprozesses<br />

<strong>auf</strong>gefasst werden, der erst die Wirklichkeit in ihrer konkreten Form, so<br />

wie wir sie vorfinden, geschaffen hat. Wir können dies daher den ontologischen stochastischen<br />

Aspekt unseres Inferenzproblems nennen. Die zweite Stufe besteht in der Abbildung<br />

der Ausprägungen der uns interessierenden Eigenschaften der Objekte in Messwerte.<br />

Prinzipiell können bei jeder Messung Fehler <strong>auf</strong>treten, und diese können größer<br />

oder kleiner ausfallen. Auch Messfehler können so betrachtet werden, als wären sie<br />

durch einen Zufallsprozess hervorgebracht worden. Die dritte Stufe stellt schließlich<br />

die Auswahl unserer Stichprobenfälle aus der Grundgesamtheit dar.<br />

Ist nun die Stichprobe eine Vollerhebung, so ist klar, dass bezüglich der Generierung<br />

unserer (datenorientierten) Stichprobe der zufällige Selektionsprozess, die dritte<br />

Stufe, keine Rolle mehr spielen kann. Es gibt nur eine Stichprobe, die sämtliche Fälle<br />

der Grundgesamtheit enthält, nämlich die Grundgesamtheit selbst. Daraus könnte nun<br />

auch die Schlussfolgerung gezogen werden: Alle Stichprobenstatistiken sind die Grundgesamtheitsparameter.<br />

Paradoxerweise ist diese Schlussfolgerung jedoch nicht unbedingt<br />

richtig, und dies liegt an den anderen beiden stochastischen Elementen, die bei der<br />

Generierung der Stichprobendatenwerte weiterhin am Werk waren.<br />

Betrachten wir zuerst den ontologischen stochastischen Aspekt unseres Problems.<br />

Wenn wir <strong>auf</strong> der Ebene der Generierung der „unverfälschten“ und „echten“ Daten einen<br />

Zufallsprozess annehmen, dann ist es weiterhin möglich, inferenzstatistische Verfahren<br />

einzusetzen. Allerdings betrachten wir unsere Vollerhebung dann nicht mehr als


<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-13<br />

die relevante Grundgesamtheit, sondern als eine Stichprobe aus der Superpopulation<br />

aller Leibnizschen möglichen Welten. Der stochastische Prozess bei der Generierung<br />

von Daten kann daher ganz genau so wie ein zufallsgesteuerter Auswahlprozess behandelt<br />

werden. Aber wer so argumentiert, sollte redlicherweise dabei kenntlich machen,<br />

dass hierbei gleichzeitig eine Zielverschiebung unseres Forschungsvorhabens stattgefunden<br />

hat, nämlich von der angemessenen Beschreibung der uns vorliegenden konkreten<br />

Welt zur Untersuchung der Fragestellung, wie wahrscheinlich es ist, dass die uns vorliegende<br />

Welt das Produkt eines im einzelnen spezifizierten Zufallsprozesses ist. Möglicherweise<br />

ist dies aber ein Aspekt, der viele Forscher gar nicht interessiert, denen es<br />

lediglich um die Untersuchung der Zusammenhänge in unserer Welt geht und nicht<br />

darum, wie diese zustande gekommen sind. Wenn es mehr Jungen gibt als Mädchen,<br />

dann gibt es eben mehr Jungen als Mädchen, und es ist für viele nicht die brennendste<br />

Frage der Welt, ob das Geschlecht des Kindes von Gott mit einer fairen Münze oder<br />

einer Münze mit einem leichten Bias ermittelt wird. 4<br />

Es gibt Aspekte der Wirklichkeit, hin<strong>sich</strong>tlich derer unter Wissenschaftlern praktisch<br />

ungeteilte Einigkeit besteht, dass sie nur als stochastische Prozesse angemessen beschrieben<br />

werden können, d.h. die Natur der Prozesse selbst ist ebenfalls stochastisch.<br />

Dies trifft z.B. <strong>auf</strong> den radioaktiven Zerfall bestimmter Elemente zu. Es gibt andere<br />

Aspekte der Wirklichkeit, deren Natur selbst nicht stochastisch, sondern deterministisch<br />

ist, die aber durch ein stochastisches Modell der Wirklichkeit gut beschrieben<br />

werden können. Hierfür ist die Geschlechterverteilung ein gutes Beispiel. Schließlich<br />

gibt es Aspekte der Wirklichkeit, die weder in ihrer Natur stochastisch sind, noch<br />

durch ein stochastisches Modell angemessen beschrieben werden können. Dies sind<br />

z.B. alle Gegebenheiten, die wir als unmittelbare Folgen bewussten Handelns <strong>auf</strong>fassen.<br />

Der bloße Hinweis <strong>auf</strong> den stochastischen Charakter unserer Wirklichkeit an <strong>sich</strong><br />

genügt daher keineswegs schon zur Rechtfertigung der Durchführung eines <strong>Signifikanztests</strong><br />

oder der Berechnung von Konfidenzintervallen. Vielmehr kommt es eben dar<strong>auf</strong><br />

an, ob der untersuchte Aspekt der Wirklichkeit stochastischen Charakter hat. Der<br />

behauptete Zufallsprozess selbst muss dann direkt oder indirekt Gegenstand unseres<br />

Forschungsvorhabens sein. Wenn die Grundgesamtheit tatsächlich nur die Grundgesamtheit<br />

und nicht die Superpopulation ist, dann ist die Vollerhebung auch eine Vollerhebung<br />

und keine bloße Stichprobe.<br />

Doch auch derjenige, den es nicht interessiert, wie seine Daten ursprünglich zustande<br />

gekommen sind, sollte natürlich Wert dar<strong>auf</strong> legen, dass seine Daten das aussagen,<br />

was sie auszusagen vorgeben. Das Messproblem ist daher wohl für jeden Forscher<br />

relevant und kann nicht wie das ontologische stochastische Element aus theoretischen<br />

Gründen unberück<strong>sich</strong>tigt bleiben. Um aber den Messfehler genau bestimmen zu kön-<br />

4 Die theoretisch interessantere Frage wäre, warum Gott eine Münze und nicht einen Tetraeder<br />

oder einen Würfel nimmt. Anders ausgedrückt: Warum gibt es überhaupt genau zwei Geschlechter<br />

und nicht z.B. drei wie in Asimovs Roman „Lunatico“ (The Gods themselves), und<br />

warum kommen diese beiden Geschlechter in der Wirklichkeit annähernd in gleichen Anteilen<br />

vor? Die interessante Frage für moderne Biologen ist nicht die Abweichung von der Gleichverteilung<br />

der Geschlechter, sondern wie überhaupt eine annähernde Gleichverteilung zustande<br />

kommen kann. Der Zufallsgenerator selbst, der die Gleichverteilung schließlich bewirkt, wird<br />

dann als Ergebnis des evolutionären Prozesses verstanden.


O-14 Joachim Behnke<br />

nen, sind wir wieder <strong>auf</strong> eine explizite Theorie der Entstehung des Messfehlers angewiesen,<br />

bzw. <strong>auf</strong> eine genaue Kenntnis des Zufallsprozesses, der den Messfehler hervorruft.<br />

In den meisten Fällen dürfte es uns äußerst schwer fallen, den Messfehler genau<br />

zu bestimmen, womit wir auch den zu Grunde liegenden stochastischen Prozess nicht<br />

eindeutig modellieren können. Das beste Rezept lautet daher zu versuchen, den Messfehler<br />

von vorneherein durch entsprechende Operationalisierungen so klein wie möglich<br />

zu halten. Wenn der Messfehler eindeutig bestimmt werden kann, dann können<br />

auch <strong>Signifikanztests</strong> bei einer Vollerhebung durchgeführt werden, bei denen die entsprechende<br />

Wahrscheinlichkeitsverteilung der Teststatistik aus dem Messprozess abgeleitet<br />

werden kann.<br />

Grundsätzlich gilt: Auch wenn mit mehr oder weniger guten Gründen für das Vorhandensein<br />

stochastischer Elemente bei der Generierung der Stichprobendatenwerte argumentiert<br />

und damit die Durchführung eines <strong>Signifikanztests</strong> als zulässig betrachtet<br />

werden kann, so heißt dies noch lange nicht, dass man dann als konkreten Signifikanztest<br />

genau den gleichen anwenden kann, der von Statistikprogrammen bezüglich der<br />

Schätzung von Stichprobenunterschieden angeboten wird. Dies mag von Fall zu Fall<br />

bei dem ontologischen stochastischen Element noch angemessen sein, da dieses analog<br />

zu einem Auswahlproblem behandelt werden kann, es ist aber in jedem Fall falsch bei<br />

der Behandlung des stochastischen Elements, das durch Messfehler hervorgerufen wird.<br />

Vor der Durchführung eines <strong>Signifikanztests</strong> oder der Bestimmung von Konfidenzintervallen<br />

sollte daher genau geprüft werden, ob die Bedingungen hierfür vorliegen.<br />

Sind diese Bedingungen nicht gegeben, dann ist es ratsamer, <strong>auf</strong> <strong>Signifikanztests</strong> zu<br />

verzichten. Das bedeutet nicht, dass man das Un<strong>sich</strong>erheitsmoment bezüglich der eigenen<br />

Interpretationen und Schlussfolgerungen unterschlagen soll. Aber ich persönlich<br />

würde eine verbale Darstellung der Un<strong>sich</strong>erheit immer einer formalen vorziehen, die<br />

in der Angabe von Standardfehlern besteht, die unter nicht zutreffenden Bedingungen<br />

berechnet worden sind.<br />

Literatur<br />

Behnke, Joachim, 2003: Kausalprozesse und Identität. Über den Sinn von <strong>Signifikanztests</strong> und Konfidenzintervallen<br />

bei <strong>Vollerhebungen</strong>, in:<br />

http://www.uni-bamberg.de/sowi/poltheory/meth/papers.<br />

Behnke, Joachim/Behnke, Nathalie, 2003: Wissenschaftstheorie. Studienbrief an der FernUniversität<br />

in Hagen Nr. 33206. Hagen.<br />

Behnke, Joachim/Behnke, Nathalie, 2004: Statistik. Studienbrief an der FernUniversität in Hagen<br />

Nr. 33208. Hagen.<br />

Berk, Richard A./Western, Bruce/Weiss, Robert E., 1995: Statistical Inference for Apparent Populations,<br />

in: Sociological Methodology 25, 421–458.<br />

Broscheid, Andreas/Gschwend, Thomas, 2003: Augäpfel, Murmeltiere und Bayes: Zur Auswertung<br />

stochastischer Daten aus <strong>Vollerhebungen</strong>. MPIfG Working Paper 03/7.<br />

Gigerenzer, Gerd/Swijtink, Zeno/Porter, Theodore/Daston, Lorraine/Beatty, John/Krüger, Lorenz, 1989:<br />

The Empire of Chance. How Probability Changed Science and Everyday Life. Cambridge.<br />

Gillies, Donald, 2000: Philosophical Theories of Probability. London.<br />

Hacking, Ian, 1975: The Emergence of Probability. Cambridge.


<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-15<br />

Kunz, Volker, 2000: Kulturelle Variablen, organisatorische Netzwerke und demokratische Staatsstrukturen<br />

als Determinanten der wirtschaftlichen Entwicklung im internationalen Vergleich,<br />

in: Kölner Zeitschrift für Soziologie und Sozialpsychologie 52, 195–225.<br />

Kunz, Volker, 2001: „Do Institutions matter?“ Politische Bestimmungsfaktoren des Wirtschaftswachstums<br />

in demokratischen Industriegesellschaften. Antwort <strong>auf</strong> Herbert Obinger, in: Kölner<br />

Zeitschrift für Soziologie und Sozialpsychologie 53, 149–165.<br />

Mohr, Lawrence B., 1990: Understanding Significance Testing. Quantitative Applications in the Social<br />

Sciences, Vol. 73. Newbury Park, CA.<br />

Obinger, Herbert, 2001: Verteilungskoalitionen und demokratische Staatsstrukturen als Determinanten<br />

der wirtschaftlichen Entwicklung. Eine Replik <strong>auf</strong> Volker Kunz, in: Kölner Zeitschrift für<br />

Soziologie und Sozialpsychologie 53, 136–148.<br />

Popper, Karl R., 1989 [1935]: Logik der Forschung. Tübingen.<br />

Popper, Karl R., 1994 [1963]: Vermutungen und Widerlegungen. Teilband I: Vermutungen. Tübingen.<br />

Stigler, Stephen M., 1986: The History of Statistics. The Measurement of Uncertainty before 1900.<br />

Cambridge.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!