Lassen sich Signifikanztests auf Vollerhebungen ... - SpringerLink
Lassen sich Signifikanztests auf Vollerhebungen ... - SpringerLink
Lassen sich Signifikanztests auf Vollerhebungen ... - SpringerLink
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden?<br />
Einige essayistische Anmerkungen<br />
Joachim Behnke*<br />
Die Frage, ob inferenzstatistische Methoden auch bei <strong>Vollerhebungen</strong> angewandt werden dürfen,<br />
ist in der Forschergemeinde umstritten. Ein solches Vorgehen kann nur dann gerechtfertigt werden,<br />
wenn die Daten der Vollerhebung analog zur Stichprobenziehung als Ergebnis eines stochastischen<br />
Datengenerierungsprozesses <strong>auf</strong>gefasst werden können. Der vorliegende Aufsatz versucht<br />
zu klären, unter welchen Umständen diese Bedingung als erfüllt angesehen werden kann und<br />
wann nicht von dem Vorliegen der Bedingung ausgegangen werden kann.<br />
1. Einführung<br />
Die Frage, ob es erlaubt ist, <strong>auf</strong> <strong>Vollerhebungen</strong> <strong>Signifikanztests</strong> anzuwenden, ist in der<br />
Literatur und Forschungspraxis weiterhin umstritten. Die Relevanz dieser Fragestellung<br />
ist besonders hoch bei der statistischen Analyse von Makrodaten, da hier besonders<br />
häufig <strong>Vollerhebungen</strong> vorliegen (vgl. u.a. Kunz 2000, 2001; Obinger 2001; Broscheid/Gschwend<br />
2003). Untersucht man z.B. den Zusammenhang zwischen kulturellen<br />
Variablen und dem Wirtschaftswachstum für alle OECD-Länder in einem bestimmten<br />
Zeitraum, dann stellt <strong>sich</strong> die Frage, wor<strong>auf</strong> man denn die gefundenen Ergebnisse<br />
verallgemeinern könnte bzw. wollte. Soll die Gültigkeit dieses Zusammenhangs<br />
für alle Länder der Erde angenommen werden, oder soll <strong>sich</strong> die Generalisierung<br />
nur <strong>auf</strong> die OECD-Länder erstrecken und für diese in einer Übertragung <strong>auf</strong> andere<br />
Zeiträume als den untersuchten bestehen?<br />
Tatsächlich existiert wohl keine eindeutige Lösung für dieses Problem. Weder kann<br />
es für jeden Fall ausgeschlossen werden, dass die Durchführung eines <strong>Signifikanztests</strong><br />
an einer Vollerhebung Sinn macht, noch gilt umgekehrt, dass <strong>Vollerhebungen</strong> in Bezug<br />
<strong>auf</strong> <strong>Signifikanztests</strong> grundsätzlich analog zu Stichproben behandelt werden dürfen. Die<br />
Antwort lautet vielmehr: Es hängt von der Art der Aussage ab, die man formulieren<br />
möchte, ob ein Signifikanztest angemessen ist, d.h. es muss für jeden Fall einzeln <strong>auf</strong>grund<br />
theoretischer Überlegungen entschieden werden, inwieweit die Durchführung eines<br />
<strong>Signifikanztests</strong> als sinnvoll betrachtet werden kann.<br />
Die Ergebnisse von <strong>Signifikanztests</strong> oder der Berechnung von Konfidenzintervallen,<br />
wie sie üblicherweise von Statistikpaketen geliefert werden, beruhen <strong>auf</strong> der Annahme,<br />
* Für wertvolle Kommentare zu einem früheren Entwurf danke ich Hans Kiesl, Götz Rohwer,<br />
Thorsten Faas, Thomas Plümper, Nina Baur, Nathalie Behnke, Charlotte Kellermann und den<br />
anonymen Gutachtern der PVS.<br />
Politische Vierteljahresschrift, 46. Jg. (2005), Heft 1, S. O-1–O-15 © VS Verlag
O-2 Joachim Behnke<br />
dass die zu Grunde liegende Datenmenge eine Stichprobe darstellt. Das heißt, es wird<br />
damit vorausgesetzt, dass diese Daten durch einen Prozess generiert worden sind, der<br />
als zufällige Auswahl einzelner Elemente aus einer weit größeren Anzahl von Elementen,<br />
der Grundgesamtheit, modelliert werden kann. Sinn der Inferenzstatistik ist es<br />
nun, mit Hilfe des Wirklichkeitsausschnitts, den uns die Stichprobe gibt, <strong>auf</strong> die<br />
Struktur der „ganzen“ Wirklichkeit, also der Grundgesamtheit, zu schließen. Dieser<br />
Schluss mit Hilfe der inferenzstatistischen Methoden kann nur unter bestimmten Vorbehalten<br />
und mit bestimmten Einschränkungen gemacht werden. D.h. <strong>auf</strong>grund der<br />
durch den Zufallsprozess bedingten Un<strong>sich</strong>erheit können die Aussagen über die<br />
Grundgesamtheit nur mit einer gewissen Unschärfe getroffen werden, die ihren <strong>sich</strong>tbaren<br />
statistischen Ausdruck in der Angabe des Standardfehlers bzw. in der Formulierung<br />
von Konfidenzintervallen findet, wobei die Festlegung des Bereichs der Konfidenzintervalle<br />
<strong>auf</strong> dem Standardfehler beruht. Die Zulässigkeit des inferenzstatistischen<br />
Schlusses selbst aber beruht <strong>auf</strong> dem grundsätzlichen Vorbehalt, dass die Stichprobe<br />
tatsächlich als Zufallsauswahl der Grundgesamtheit zustande gekommen ist. So paradox<br />
<strong>sich</strong> dies vielleicht auch anhören mag: Die „un<strong>sich</strong>eren“ Aussagen, die wir mit inferenzstatistischen<br />
Methoden gewinnen, sind nur insoweit aussagekräftig, wie wir uns<br />
über das Vorliegen der Ursache der Un<strong>sich</strong>erheit, d.h. des Zufalls, <strong>sich</strong>er sein können.<br />
Der Unterschied zwischen inferenzstatistischen Tests und Schätzverfahren besteht<br />
nun darin, inwiefern der Zufall als Erklärung für bestimmte Eigenschaften der Beobachtungsdaten<br />
angenommen werden kann bzw. soll. Bei einem Test gehen wir von einer<br />
Art stochastischer Fiktion aus, d.h. wir unterstellen, dass bestimmte beobachtete Unterschiede<br />
allein durch zufällige Schwankungen zu erklären sind, die durch den Auswahlprozess<br />
entstanden sind. Diese beobachteten Unterschiede werden erst dadurch<br />
<strong>sich</strong>tbar, dass wir unsere Stichprobe <strong>auf</strong> systematische Weise in Untergruppen eingeteilt<br />
haben. Z.B. können wir aus einer Stichprobe von 1000 zufällig ausgewählten Personen<br />
zwei Untergruppen von Männern und Frauen bilden und anschließend feststellen, dass<br />
die durchschnittliche Körpergröße der Männer um einige Zentimeter höher ausfällt als<br />
die der Frauen. Wenn wir nun aber feststellen, dass diese Unterschiede weit über das<br />
Ausmaß hinausgehen, das wir allein <strong>auf</strong>grund des Wirkens des Zufalls erwarten würden,<br />
dann schließen wir daraus, dass diese Unterschiede im Ganzen nur durch die Annahme<br />
einer zusätzlichen Ursache erklärt werden können. Dieses nicht-zufällige Element<br />
muss aber durch die Form der Gruppierung in die Beobachtungsdaten gelangt<br />
sein. Die systematische Ursache des Größenunterschieds muss daher das Geschlecht der<br />
Personen sein. Das Ziel des Tests besteht also in der Demonstration, dass die stochastische<br />
Fiktion nicht <strong>auf</strong>recht erhalten werden kann: Bestimmte Merkmale der Struktur<br />
der Beobachtungsdaten können nicht allein <strong>auf</strong> Zufälligkeiten beim Auswahlprozess zurückgeführt<br />
werden. Die Gefahr, dass uns die Annahme, dass bestimmte Eigenschaften<br />
unserer Beobachtungsdaten <strong>auf</strong> der stochastischen Struktur des Datengenerierungsprozesses<br />
beruhen, zu falschen, d.h. unberechtigten, Schlussfolgerungen verleitet, ist beim<br />
statistischen Test insofern eher gering, als der Test selbst dar<strong>auf</strong> abzielt, diese Annahme<br />
als unbegründet zu entlarven. Das substanzielle Ergebnis eines wie oben beschriebenen<br />
Tests in der Tradition von R.A. Fisher besteht ja in der Zurückweisung des Zufalls als<br />
alleinige Ursache bestimmter Beobachtungen. Misslingt diese Zurückweisung, darf daraus<br />
keineswegs geschlossen werden, dass alle Unterschiede tatsächlich nur zufällig be-
<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-3<br />
dingt sind, sondern lediglich, dass sie von zufällig zustande gekommenen nicht mit<br />
einem hinreichenden Grad an Sicherheit unterschieden werden können. Der einzige<br />
Fehler, den wir bei der Durchführung eines Fisher-Tests machen können, besteht in<br />
der fälschlichen Zurückweisung des Zufalls als alleinige Ursache der beobachteten Unterschiede.<br />
Die Rolle des Zufalls kann bei einem statistischen Test in der Tradition<br />
Fishers daher nur unterschätzt, aber niemals überschätzt werden. Der Test besitzt ein<br />
eingebautes Korrektiv gegen die unzulässige Annahme des Zufalls, da eine inhaltliche<br />
Interpretation des Testergebnisses nur dann erfolgt, wenn diese Annahme als unbegründet<br />
zurückgewiesen wird.<br />
Komplizierter verhält es <strong>sich</strong> hingegen, wenn wir inferenzstatistische Methoden bei<br />
der Schätzung von Parametern der Grundgesamtheit wie Mittelwerte oder Anteilswerte<br />
durch die entsprechenden statistischen Kennwerte der Stichprobe einsetzen. Der hierbei<br />
ermittelte Standardfehler der Schätzung, und damit die daraus abgeleiteten Konfidenzintervalle,<br />
beruht ganz und gar <strong>auf</strong> der Annahme der stochastischen Natur des<br />
Auswahlprozesses, der der Datengenerierung zu Grunde liegt. Da hier kein eingebautes<br />
Korrektiv im Verfahren selbst vorhanden ist, muss die stochastische Natur des Datengenerierungsprozesses<br />
bekannt sein, und sie muss darüber hinaus genau analog zu der<br />
eines Auswahlprozesses bei Stichproben sein, wenn wir die übliche Statistiksoftware<br />
verwenden.<br />
Welche Relevanz haben nun diese Ausführungen, wenn es <strong>sich</strong> bei den untersuchten<br />
Datenfällen nicht um eine „echte“ Stichprobe handelt, sondern um eine „Vollerhebung“?<br />
Ob man in diesem Fall einen statistischen Test durchführen soll, oder inwiefern<br />
dieser Test über eine theoretisch interessante Frage Aufschluss gibt, hängt davon<br />
ab, inwiefern die Vollerhebung in irgendeinem Sinn wie eine Stichprobe behandelt<br />
werden kann. Damit hängt dies aber auch davon ab, von welcher Art die untersuchte<br />
Frage selbst ist. Wendet man inferenzstatistische Methoden <strong>auf</strong> <strong>Vollerhebungen</strong> an,<br />
dann bedeutet dies, dass die zulässigen Interpretationen entsprechend eingeschränkt<br />
sind. Der Kontext, in dem inferenzstatistische Methoden auch bei <strong>Vollerhebungen</strong> angewandt<br />
werden, kann in verschiedene Fälle unterschieden werden.<br />
2. Fall 1: Die Vollerhebung wird anlog zu einer Stichprobe behandelt<br />
Im ersten Moment scheint die Anwendung statistischer Tests <strong>auf</strong> <strong>Vollerhebungen</strong> per<br />
definitionem unsinnig, und zwar dann, wenn man die Vollerhebung als identisch mit<br />
der Grundgesamtheit betrachtet. Tatsächlich aber bezeichnen wir häufig etwas als Vollerhebung<br />
wenn wir damit ausdrücken wollen, dass wir alle verfügbaren Daten dieses<br />
Typs vollständig erhoben haben bzw. dass weitere Daten dieses Typs nicht mehr erreicht<br />
werden können. In diesem Sinn wären z.B. alle Lottoergebnisse vom 1.1.1970<br />
bis zum 31.12.2000 eine Vollerhebung, oder alle bisherigen Lottoergebnisse überhaupt.<br />
Obwohl es in diesem Fall nicht möglich ist, zusätzliche Daten zu beschaffen – es gibt<br />
nun einmal nur die Lottoergebnisse, die es gibt –, scheint es doch nicht grundsätzlich<br />
unzulässig, die bisherigen Ergebnisse wie eine Stichprobe <strong>auf</strong>zufassen.<br />
Auch eine Vollerhebung kann als eine Stichprobe verstanden werden, wenn man sie<br />
als Realisierung einer konkreten Wirklichkeit aus einer unendlichen Vielzahl potenziell
O-4 Joachim Behnke<br />
möglicher Wirklichkeiten versteht. Das Universum der potenziell möglichen Wirklichkeiten<br />
ist dann die eigentliche Grundgesamtheit, und die in Form der Vollerhebung<br />
realisierte konkrete Wirklichkeit stellt lediglich eine Stichprobe aus dieser Grundgesamtheit<br />
dar, die durch einen Zufallsprozess generiert worden ist. Oft wird das Universum<br />
der hypothetischen Wirklichkeiten, von denen unsere Grundgesamtheit nur einen<br />
besonderen Fall darstellt, auch als „Superpopulation“ bezeichnet (vgl. Berk et al.<br />
1995). Der Prozess der Entstehung der Daten selbst kann dann analog zu einem Prozess<br />
der Auswahl von schon entstandenen, d.h. vorhandenen Daten betrachtet werden.<br />
Dazu sollte man <strong>sich</strong> noch einmal kurz vor Augen führen, um welche Art von Zufallsprozess<br />
es <strong>sich</strong> bei dem Auswahlvorgang handelt, mit dem eine Stichprobe aus der<br />
Grundgesamtheit gezogen wird. In einem allgemeinen Sinn handelt es <strong>sich</strong> dabei nämlich<br />
einfach um die Durchführung eines Zufallsexperiments. Entscheidend ist dabei,<br />
dass die Wahrscheinlichkeit, mit der ein zufällig ausgewähltes Element eine bestimmte<br />
Ausprägung einer Eigenschaft besitzt, genau der relativen Häufigkeit entspricht, mit<br />
der diese Ausprägung in der Grundgesamtheit vorkommt. Besitzen wir z.B. eine<br />
Grundgesamtheit mit 60 Prozent CDU-Wählern und 40 Prozent SPD-Wählern, dann<br />
wird bei dem zufälligen Auswahlprozess bezüglich eines Falls für die Stichprobe mit 60<br />
Prozent Wahrscheinlichkeit ein CDU-Anhänger und mit 40 Prozent Wahrscheinlichkeit<br />
ein SPD-Anhänger ausgewählt. Eine wichtige Grundannahme, <strong>auf</strong> der die Stichprobentheorie<br />
und die dar<strong>auf</strong> fußende Inferenzstatistik gründen, ist dabei, dass die einzelnen<br />
Ziehungen unabhängig voneinander erfolgen, d.h. das Ergebnis einer neuen<br />
Ziehung wird nicht durch den Ausgang der vorangehenden Ziehungen beeinflusst. Wir<br />
behandeln also die Auswahl genau genommen wie eine Auswahl mit Zurücklegen, oder<br />
anders ausgedrückt, die Ziehung aller Elemente der Stichprobe kann als eine Wiederholung<br />
desselben Zufallsexperiments betrachtet werden. Die Generierung einer beliebigen<br />
Menge von Daten kann daher immer dann analog zur Bildung einer Stichprobe<br />
behandelt werden, wenn sie als Ergebnis eines konstant <strong>auf</strong> dieselbe Weise wirkenden<br />
Zufallsprozesses betrachtet werden kann.<br />
Man kann den eben skizzierten Grundgedanken sehr gut am historisch wohl ersten<br />
Signifikanztest illustrieren, der Überprüfung der Geschlechterratio durch John Arbuthnot<br />
im Jahre 1710 (vgl. Hacking 1975: 166ff.; Gigerenzer et al. 1989: 12f.). Anhand<br />
der Untersuchung der Geburtentafeln kam John Arbuthnot zum Ergebnis, dass die Geschlechterratio<br />
nicht 1/1 beträgt, sondern einen leichten Überschuss von männlichen<br />
Neugeborenen <strong>auf</strong>weist. Wenn Arbuthnot auch tatsächlich wohl kaum eine Vollerhebung<br />
durchgeführt haben dürfte, so ist klar, dass er dies zumindest zu tun beab<strong>sich</strong>tigte<br />
und dass seine Fragestellung mit einer Vollerhebung jedenfalls zu untersuchen gewesen<br />
wäre. Gehen wir daher im Weiteren davon aus, Arbuthnot hätte tatsächlich eine<br />
Vollerhebung durchgeführt, d.h. er hätte seine Untersuchung <strong>auf</strong> alle Geburten in einem<br />
bestimmten Zeitraum gestützt. Im Falle Arbuthnots wäre dem Ziel der Untersuchung<br />
nicht Genüge getan worden mit einem simplen „Es sind tatsächlich mehr Jungen<br />
als Mädchen geboren worden“. Worum es Arbuthnot nämlich ging, war festzustellen,<br />
ob die tatsächlich beobachtete Verteilung auch hätte zustande kommen können,<br />
wenn das Geschlecht eines Neugeborenen analog zu einem Münzwurf bestimmt worden<br />
wäre, wobei dieser Münzwurf von der Natur ausgeführt worden wäre. Auch bei einer<br />
Vollerhebung kann es von theoretischem Interesse sein, nicht nur zu wissen, wie
<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-5<br />
die Verteilung in der Vollerhebung aussieht, sondern ob sie <strong>auf</strong>grund eines bestimmten<br />
Zufallsprozesses hätte generiert werden können. Die theoretische Relevanz sei wieder<br />
an Arbuthnots Untersuchung illustriert, der aus seinen Ergebnissen immerhin die nicht<br />
ganz unbedeutende Erkenntnis zog, dass hinter diesem ungleichen Geschlechterverhältnis<br />
göttliches Design zu stecken habe. Die teleologische Erklärung wurde dabei von<br />
ihm gleich mitgeliefert. Der Überschuss an neugeborenen Jungen glich nämlich die<br />
höhere Kindersterblichkeit bei Jungen aus, so dass zum Zeitpunkt der Ehereife das Geschlechterverhältnis<br />
wieder ausgeglichen war, womit die biblisch begründete Institution<br />
der Monogamie <strong>auf</strong>rechterhalten werden konnte (Gigerenzer et al. 1989: 40). (Damit<br />
lieferte Arbuthnot indirekt gleich noch das klassische Argument, dass das Handeln<br />
Gottes für endliche Wesen nicht immer nachvollziehbar sein muss. Denn ein allmächtiger<br />
Gott muss bei seinem Weltentwurf nicht zwangsläufig das Ziel ökonomischer<br />
Modellierung verfolgen, das er ja leichter dadurch hätte erzielen können, indem er<br />
Säuglings- und Kindersterblichkeit der beiden Geschlechter gleich gehalten hätte.)<br />
Eine Vollerhebung kann also dann wie eine Stichprobe behandelt werden, wenn sie<br />
als Ergebnis eines stochastischen Prozesses <strong>auf</strong>gefasst werden kann. Es ist dabei unerheblich,<br />
ob das stochastische Element durch einen Auswahlprozess im engeren Sinn<br />
oder durch einen Generierungsprozess zustande kommt. Tatsächlich beruht ein Großteil<br />
der Stichprobentheorie dar<strong>auf</strong>, Auswahlprozesse gerade wie Generierungsprozesse zu<br />
behandeln, nämlich als unabhängige Durchführungen eines Zufallsexperiments. Der<br />
Signifikanztest verhält <strong>sich</strong> indifferent gegenüber der Tatsache, wie das stochastische<br />
Element zustande gekommen ist. Unter theoretischen Ge<strong>sich</strong>tspunkten ist dies aber<br />
von großer Bedeutung für die angemessene Interpretation des Ergebnisses des Tests.<br />
Auch <strong>Vollerhebungen</strong> können also mit <strong>Signifikanztests</strong> untersucht werden, wenn<br />
der Prozess der Datengenerierung als zufällig angesehen wird. Es muss aber unter theoretischen<br />
Ge<strong>sich</strong>tspunkten bestimmt werden, ob es <strong>sich</strong> dabei überhaupt um einen<br />
theoretisch interessanten Aspekt des Forschungsvorhabens handelt. Die Interpretation<br />
der Ergebnisse eines <strong>Signifikanztests</strong> bei <strong>Vollerhebungen</strong> verlangt daher eine weitergehende<br />
theoretische Begründung als bei echten Stichproben. Mit der Durchführung<br />
von <strong>Signifikanztests</strong> anhand von Stichproben wollen wir lediglich feststellen, inwieweit<br />
der untersuchte Ausschnitt der Wirklichkeit der ganzen Wirklichkeit entspricht; es geht<br />
hier um die Korrespondenz eines Teils mit dem Ganzen, wobei der Teil durch die Art<br />
der Konstruktion als verkleinertes und nicht hundertprozentig scharfes Abbild des<br />
Ganzen betrachtet werden kann. Bei der Anwendung inferenzstatistischer Methoden<br />
<strong>auf</strong> <strong>Vollerhebungen</strong> hingegen geht es nicht um eine Verallgemeinerung von der „Stichprobe“<br />
<strong>auf</strong> die Grundgesamtheit, sondern wir schließen von der Stichprobe <strong>auf</strong> den<br />
Zufallsprozess selbst. Dieser Zufallsprozess wird dann als die verborgene Struktur der<br />
Wirklichkeit gesehen, d.h. als ein Geflecht von Prozessen, die die Wirklichkeit erst hervorbringen.<br />
Die untersuchte Korrespondenz ist dann gewissermaßen die zwischen der<br />
beobachteten Wirklichkeit und der die Wirklichkeit generierenden Struktur „hinter“<br />
der Wirklichkeit.
O-6 Joachim Behnke<br />
3. Fall 2: Die Vollerhebung ist die theoretisch einzig relevante Grundgesamtheit<br />
Nur weil man etwas tun kann, heißt dies noch lange nicht, dass man es tun muss oder<br />
auch nur tun sollte. Die Anwendung eines <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> kann<br />
zwar im obigen Sinn gerechtfertigt werden, aber wenn es uns ausschließlich um eine<br />
Deskription der Grundgesamtheit geht, dann ist die entsprechende Beschreibung der<br />
Eigenschaften der Vollerhebung alles, was wir anstreben können. Der überwiegende<br />
Teil der statistischen Test- und Schätzverfahren versucht nichts anderes, als mit Hilfe<br />
einer Stichprobe zu einer angemessenen Deskription der Struktur der Grundgesamtheit<br />
zu gelangen. Schließlich zielt auch die Schätzung von Zusammenhängen immer <strong>auf</strong> die<br />
deskriptive Struktur der Grundgesamtheit. „Kausale Inferenz“ folgt niemals aus der<br />
Durchführung eines statistischen Verfahrens an <strong>sich</strong>, sondern aus einem Zusammenwirken<br />
theoretischer Überlegungen und der Gestaltung des Forschungsdesigns. Wenn nun<br />
die Grundgesamtheit vollkommen erhoben werden kann und es nur um die Bestimmung<br />
bestimmter Eigenschaften wie z.B. der Parameter ihrer Verteilung geht, dann ist<br />
ein Signifikanztest nicht nur überflüssig, sondern geradezu irreführend und daher unsinnig.<br />
Wäre Arbuthnot nicht ein mathematischer Amateur mit metaphysischen Neigungen<br />
gewesen (neben seinen Tätigkeiten als Leibarzt von Queen Anne und als satirischer<br />
Schriftsteller), sondern Monopolist bei der Herstellung von Babykleidung von<br />
Einjährigen, dann hätte ihm die Vollerhebung der Geburten des letzten Jahres vollkommen<br />
genügt, um alles zu erfahren, was zur Optimierung seines Produktionsprozesses<br />
von Strampelanzügen in den aktuellen Modefarben, die von Jahr zu Jahr wechseln,<br />
notwendig gewesen wäre.<br />
3.1 Das Problem des Messfehlers<br />
Für den eben besprochenen Fall, dass es uns ausschließlich um die Beschreibung der<br />
Vollerhebung geht, haben wir allerdings ein wichtiges Problem unterschlagen, nämlich<br />
dass das, was wir messen, nicht unbedingt mit dem übereinstimmt, was wir eigentlich<br />
messen wollen. Zwar können wir getrost davon ausgehen, dass der Messfehler bei der<br />
Bestimmung des Geschlechts eines Neugeborenen bis <strong>auf</strong> wenige Ausnahmen vernachlässigbar<br />
gering ausfällt, leider ist diese optimistische Annahme aber gerade in den Sozialwissenschaften<br />
vermutlich eher selten gerechtfertigt (was leicht dazu verleitet, das<br />
Problem des Messfehlers der Einfachheit halber ganz zu ignorieren). Tatsächlich sind<br />
die Anfänge der statistischen Theorie gerade durch Anwendungen charakterisiert, in<br />
denen die Varianz eines Messwertes ganz und gar <strong>auf</strong> Messfehler zurückzuführen war.<br />
Das zu behandelnde Problem bestand darin, dass man in der Astronomie oft mehrere<br />
Planetenpositionen zum gleichen Zeitpunkt gemessen hatte und man aus dieser Verteilung<br />
von Messwerten <strong>auf</strong> den „wahren Messwert“ schließen wollte. In diesem Zusammenhang<br />
hat Gauß die Normalverteilungskurve als Fehlerkurve berühmt gemacht, mit<br />
der historisch bedauerlichen Folge, dass Gauß irrtümlich auch für den Entdecker der<br />
Normalverteilungskurve gehalten wurde und nicht de Moivre, dem dieses Verdienst<br />
tatsächlich zustand. Das große Verdienst von Gauß bestand allerdings darin, dass er<br />
zeigen konnte, dass die von Legendre und ihm entwickelte Methode der kleinsten<br />
Quadrate genau dann angemessen ist und zum richtigen Ergebnis führt, wenn man
<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-7<br />
von einem normalverteilten Fehler ausgeht (vgl. Stigler 1986: 55ff., 139ff.). Da <strong>sich</strong><br />
ein- und derselbe Planet zur gleichen Zeit nicht an mehreren Orten befinden kann, ist<br />
die Streuung der Messwerte hier offen<strong>sich</strong>tlich zu hundert Prozent <strong>auf</strong> Messfehler zurückzuführen.<br />
Es gilt hier bezüglich der Planetenposition, was ich die „Highlander-Bedingung“<br />
nenne: „Es kann nur eine(n) geben.“ Wenn aber die Varianz eines Messwertes<br />
zumindest teilweise <strong>auf</strong> Messfehler zurückgeführt werden kann, dann kann es<br />
durchaus sinnvoll sein, auch bei <strong>Vollerhebungen</strong> <strong>Signifikanztests</strong> durchzuführen. Eine<br />
entscheidende Voraussetzung hierfür ist allerdings, dass der Messfehler, also die Abweichung<br />
des gemessenen Werts vom „tatsächlichen“ Wert, als Ergebnis eines Zufallsprozesses<br />
angesehen werden kann. Genau in diesem Sinn interpretierte z.B. Gauß die<br />
Messfehler. Der „Zufallscharakter“ des Messfehlers entsteht hierbei dadurch, dass der<br />
Messfehler als das Ergebnis des Zusammenwirkens vieler einzelner Faktoren angenommen<br />
wird, die jeweils für <strong>sich</strong> genommen kleine „Verunreinigungen“ des Messergebnisses<br />
– mal in die eine, mal in die andere Richtung – bewirken. Aus genau diesem<br />
Grund sind die Messfehler daher auch im Sinne des zentralen Grenzwerttheorems normalverteilt.<br />
Ein Teil der Begriffsverwirrung in dieser Diskussion ist dar<strong>auf</strong> zurückzuführen, dass<br />
wir in der sozialwissenschaftlichen Praxis zu selten die Unterscheidung zwischen „elementorientierter“<br />
und „datenorientierter“ Stichprobe treffen. Meistens behandeln wir<br />
Stichprobenprobleme nur unter dem Aspekt der Auswahl von Fällen, ohne zu berück<strong>sich</strong>tigen,<br />
dass es bei statistischen Verfahren immer um Stichproben von Datenwerten<br />
geht. Die Relevanz dieser Unterscheidung lässt <strong>sich</strong> nun gerade im Zusammenhang mit<br />
<strong>Vollerhebungen</strong> gut illustrieren. Im Sinne der Fallauswahl ist die elementorientierte<br />
Stichprobe bei einer Vollerhebung gleich der Grundgesamtheit. Die an den einzelnen<br />
Fällen bzw. Datenträgern erhobenen Messwerte allerdings stellen eine Stichprobe aus<br />
dem Universum aller potenziell möglichen Mengen von Messwerten dar, die anhand<br />
der Datenträger erhoben werden können. D.h. jeder bezüglich eines einzelnen Falls ermittelte<br />
Messwert ist die Realisierung einer Zufallsvariable.<br />
Beab<strong>sich</strong>tigen wir z.B. die Untersuchung der Differenz zweier Gruppenmittelwerte<br />
in einer Vollerhebung, dann gilt im einfachsten Fall die „Highlander-Bedingung“ für<br />
den gruppenspezifischen Messwert: Es gibt für jede Gruppe nur einen einzigen richtigen<br />
Wert, der am besten durch den Gruppenmittelwert geschätzt wird, und die gesamte<br />
Varianz innerhalb der Gruppe ist <strong>auf</strong> Messfehler zurückzuführen. Die Untersuchung,<br />
ob die Differenz zwischen den Gruppen allein <strong>auf</strong>grund von Messfehlern zustande gekommen<br />
ist, kann dann mit Hilfe eines simplen <strong>Signifikanztests</strong> <strong>auf</strong> Mittelwertunterschiede<br />
vorgenommen werden.<br />
Gilt die „Highlander-Bedingung“ für den gruppenspezifischen Messwert jedoch<br />
nicht, dann handelt es <strong>sich</strong> bei der Varianz innerhalb der Gruppen um eine zusammengesetzte<br />
Varianz, die aus der Messfehlerkomponente und einer substanziellen Komponente<br />
besteht. Die substanzielle Varianz gibt hierbei unterschiedliche Ausprägungen<br />
der Variablen wieder, die <strong>auf</strong> tatsächlich vorliegenden Merkmalsunterschieden zwischen<br />
den Elementen in der Vollerhebung beruhen. Die direkte Durchführung eines <strong>Signifikanztests</strong><br />
mit Hilfe eines Statistikprogramms führt daher zu einem verfälschten Ergebnis,<br />
da dann auch die substanzielle Varianz des Messwertes so behandelt wird, als ob
O-8 Joachim Behnke<br />
sie durch stochastische Prozesse zu Stande gekommen wäre. 1 Die stochastische Varianz,<br />
<strong>auf</strong> die <strong>sich</strong> der Signifikanztest gründet, wird also überschätzt. Bevor wir einen Signifikanztest<br />
durchführen, müssen wir daher eine Varianzdekomposition in eine substanzielle<br />
und eine Messfehlervarianz vornehmen. Um die durch den Messfehler verursachte<br />
Varianz zu bestimmen, können wir dabei unter Umständen <strong>auf</strong> Messwiederholungen<br />
zurückgreifen (soweit dies ohne systematische Verzerrung der Messwerte möglich<br />
ist). Dann ist es möglich, einen Signifikanztest auch für eine Vollerhebung durchzuführen,<br />
wenn wir die ursprüngliche Varianz um den substanziellen Anteil bereinigt haben,<br />
so dass nur noch die Messfehlervarianz für die Streuung der Werte in den Gruppen<br />
verantwortlich ist.<br />
3.2 Ein Anwendungsbeispiel aus der Politikwissenschaft: Wahlwerbung<br />
Ich will die erwähnten Aspekte an einem konkreten Problem aus der Politikwissenschaft<br />
illustrieren. Nehmen wir an, wir hätten eine Vollerhebung aller bisherigen Wahlanzeigen<br />
der Parteien unternommen. Der Einfachheit halber beschränken wir unser<br />
Beispiel <strong>auf</strong> zwei Parteien, die wir „SPD“ und „CDU“ nennen. Als Untersuchungsvariable<br />
nehmen wir lediglich das Thema der Anzeigen, wobei es insgesamt nur zwei<br />
Themen, nämlich „Wirtschaft“ und „Soziales“, gibt. Dieses sehr beschränkte und vereinfachte<br />
Beispiel genügt vollkommen, um die Problematik von <strong>Signifikanztests</strong> bei<br />
<strong>Vollerhebungen</strong> zu verdeutlichen. Die uns interessierende Fragestellung lautet, ob die<br />
Themenschwerpunkte der beiden Parteien <strong>sich</strong> voneinander unterscheiden. Dazu ermitteln<br />
wir die relative Häufigkeit der Themen und stellen fest, dass der Anteil von<br />
Anzeigen zu „Soziales“ bei der SPD 60 Prozent beträgt, bei der CDU hingegen nur 40<br />
Prozent. Die entscheidende Frage lautet nun: Ist es sinnvoll, zur Untersuchung des Unterschieds<br />
der Anteile einen Signifikanztest einzusetzen? Die Antwort lautet wieder wie<br />
oben: Es kommt dar<strong>auf</strong> an, was wir genau ermitteln wollen.<br />
Wir wollen zuerst davon ausgehen, dass keine Messfehler <strong>auf</strong>treten. Wenn wir dann<br />
einen Signifikanztest einsetzen, dann sagt uns das Ergebnis lediglich, wie wahrscheinlich<br />
die beobachtete Verteilung der Themen ist, wenn wir davon ausgehen, dass beide<br />
Parteien die jeweiligen Themen mit derselben a-priori-Wahrscheinlichkeit wählen, die<br />
z.B. bei einem Chi²-Test durch die Randverteilung des Merkmals in der Stichprobe geschätzt<br />
wird. Nehmen wir an, die Anzahl aller Anzeigen von SPD und CDU sei gleich<br />
groß, dann wäre in unserem speziellen Fall diese a-priori-Wahrscheinlichkeit gleich 0,5.<br />
Die Unterschiede können dann als Ergebnis eines stochastischen Prozesses bei der Generierung<br />
der Daten, d.h. der Themenwahl, interpretiert werden. Wenn der Unterschied<br />
statistisch signifikant ausfällt, dann heißt dies lediglich, dass wir auch hier einen<br />
„Designeffekt“ vorliegen haben, d.h. dass die Parteien ihre Themen nicht zufällig, sondern<br />
bewusst wählen. Dies scheint aber theoretisch keine besonders gehaltvolle Aussage<br />
zu sein, denn natürlich gehen wir davon aus, dass Parteien ihre Themen bewusst wäh-<br />
1 Auch bei normalen Schlüssen von Stichproben <strong>auf</strong> die Grundgesamtheit gehen wir davon aus,<br />
dass die Varianz des untersuchten Merkmals in der Grundgesamtheit substanzieller Art ist.<br />
Nicht die Variable selbst ist zufällig verteilt, sondern der Stichprobenmittelwert, der durch die<br />
zufällige Auswahl einer Menge von Werten der Variable aus der Grundgesamtheit gebildet wurde.
<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-9<br />
len. Mit Hilfe des <strong>Signifikanztests</strong> können wir zwar feststellen, dass <strong>sich</strong> Parteien bei<br />
der Wahl ihrer Anzeigen nicht erratisch, sondern bewusst verhalten, aber die „substanzielle<br />
Signifikanz“ dieser Erkenntnis ist wohl ungefähr so hoch einzuschätzen wie die,<br />
dass die Schrittabfolge „Rechts-Links-Rechts-Links ...“ beim Gehen ebenfalls in einer<br />
statistisch höchst signifikanten Weise von einem durch Zufall generierten Muster abweicht.<br />
Die Zufallshypothese ist im Gegensatz zum Beispiel der Geschlechterratio bei<br />
der Wahl der Anzeigen wohl kaum eine theoretisch interessante Annahme, da sie nicht<br />
<strong>auf</strong> theoretisch gerechtfertigten Erwartungen basiert, die wir als ernsthaft zu erwägende<br />
Alternative betrachten. Es handelt <strong>sich</strong> hier um Wahlentscheidungen, die als Ausdruck<br />
von Präferenzen gedeutet werden können. Geschmacksurteile, soweit vorhanden, sind<br />
aber ein konstitutiver Bestandteil der Definition der Elemente. Man ist, wofür man<br />
<strong>sich</strong> entscheidet. Wir interessieren uns nicht dafür, ob <strong>sich</strong> bestimmte Personen oder<br />
Personengruppen per se voneinander statistisch signifikant unterscheiden. Dies wäre<br />
eine tautologische Angelegenheit, denn das Konzept der „Verschiedenheit“ im Sinne<br />
von Nicht-Identität verlangt nicht nur hohe Wahrscheinlichkeiten, sondern Gewissheit.<br />
Vielmehr interessieren wir uns dafür, ob gewisse Unterschiede der einen Art <strong>auf</strong>fällig<br />
mit Unterschieden der anderen Art verknüpft sind. 2<br />
Die Anwendung eines statistischen <strong>Signifikanztests</strong> im erwähnten Beispiel ist weniger<br />
unzulässig als vielmehr unnötig und daher nur verwirrend. Wenn die Nullhypothese,<br />
es handele <strong>sich</strong> bei den beobachteten Unterschieden um zufällig hervorgerufene, zurückgewiesen<br />
wird, dann erfahren wir nur, was wir ohnehin schon wissen: Die Daten<br />
sind nicht zufällig generiert worden. Ein Generierungsprozess im Rahmen des Selbstentwurfs<br />
eines Individuums kann schon per definitionem nicht als stochastischer Prozess<br />
verstanden werden. Demnach ist auch eine Analogie zu einem Auswahlprozess im<br />
Sinne einer Stichprobenziehung nicht gegeben. Im klassischen Fisher-Test ist die Nullhypothese<br />
immer ein „straw-man claim“ (Mohr 1990: 50), also eine Annahme, bei der<br />
man nicht an ihrer Bestätigung, sondern an ihrer Widerlegung interessiert ist, und bei<br />
der man, wenn man den Test durchführt, oft schon davon ausgeht, dass diese Widerlegung<br />
gelingen wird. Gerade die Metapher vom Strohmann macht aber deutlich, dass<br />
bei der Durchführung eines <strong>Signifikanztests</strong> nicht zuletzt so etwas wie der Sportsgeist<br />
des Statistikers gefragt ist. Nichts ist leichter, als <strong>sich</strong> einen Strohmann zu basteln, dessen<br />
Widerlegung von vornherein gewährleistet ist. Die <strong>auf</strong> diese Weise gefundenen<br />
„signifikanten“ Ergebnisse sind aber alles andere als inhaltlich interessant, sondern lediglich<br />
banal zu nennen. Wenn das Ergebnis des Tests wirklich interessant sein soll,<br />
dann muss der Strohmann unserer Nullhypothese eine ernstzunehmende Herausforderung<br />
darstellen, und es muss <strong>auf</strong> jeden Fall vorstellbar sein, dass wir bei der Widerlegung<br />
unserer Nullhypothese auch scheitern könnten. Beim normalen Schluss von der<br />
Stichprobe <strong>auf</strong> die Grundgesamtheit liegt die theoretische Rechtfertigung des Zufallscharakters<br />
der beobachteten Verteilung in der Zufallsnatur des Auswahlprozesses. Die<br />
Signifikanz einer Beobachtung liegt nicht in der a priori „Unwahrscheinlichkeit“ des<br />
beobachteten Ereignisses an <strong>sich</strong> (denn jedes tatsächlich <strong>auf</strong>tretende Ereignis ist a priori<br />
„unwahrscheinlich“), sondern in der Voraussage eines Ereignisses, das äußerst „unwahr-<br />
2 Genauer zum Problembereich „Identität und <strong>Signifikanztests</strong> bei <strong>Vollerhebungen</strong>“ vgl. Behnke<br />
(2003).
O-10 Joachim Behnke<br />
scheinlich“ wäre, wenn die Theorie, <strong>auf</strong> die <strong>sich</strong> die Voraussage stützt, nicht zutreffen<br />
würde. 3 Dazu muss es allerdings auch eine Theorie geben, und diese Theorie sollte<br />
nicht nur zu wahren Implikationen über die Wirklichkeit, sondern auch zu relevanten<br />
Aussagen führen. „Wir wollen mehr als die bloße Wahrheit: Wir suchen nach interessanter<br />
Wahrheit – nach Wahrheit, an die schwer heranzukommen ist“ (Popper 1994:<br />
335).<br />
Die erfolgreiche Zurückweisung der Nullhypothese in unserem Beispiel wäre also<br />
banal und würde uns zu keinem neuen Wissen verhelfen. Was aber, wenn die Zurückweisung<br />
der Nullhypothese misslingen würde und wir <strong>auf</strong>grund des Tests nicht ausschließen<br />
könnten, dass die Unterschiede „zufällig“ zustande gekommen sind? Nach<br />
dem Testergebnis bleibt die Frage unbeantwortet, ob der Prozess der Datengenerierung<br />
zufällig abgel<strong>auf</strong>en sein könnte. In diesem Fall wissen wir <strong>auf</strong>grund unserer Kenntnis<br />
des Generierungsprozesses mehr als der Test, denn wir wissen ja trotzdem, dass der<br />
Prozess der Datengenerierung nicht zufällig war, sondern bewusst vollzogen wurde.<br />
Unsere Kenntnis des Wesens des Datengenerierungsprozesses liefert uns in unserem<br />
Beispiel also <strong>auf</strong> jeden Fall mindestens so viel Wissen wie der Signifikanztest, nämlich<br />
dann, wenn er zur Ablehnung der Nullhypothese führt, aber in gewissen Fällen auch<br />
mehr, nämlich dann, wenn die Nullhypothese durch den Test nicht abgelehnt wird.<br />
Wenn das Analyseziel der Vollerhebung dasselbe ist, das es wäre, wenn es <strong>sich</strong> statt<br />
der Vollerhebung um eine Stichprobe handeln würde, nämlich die adäquate Beschreibung<br />
der Struktur der Grundgesamtheit, dann ist ein Signifikanztest in diesem Zusammenhang<br />
irrelevant. Nur wenn <strong>sich</strong> das Analyseziel ändert, nämlich wenn wir nicht<br />
mehr an der Deskription allein interessiert sind, wobei wir bei Stichproben den Zufallscharakter<br />
der Auswahl berück<strong>sich</strong>tigen müssen, sondern am Zufallscharakter der Generierung<br />
von Daten, nur dann sollten wir einen Signifikanztest anwenden. Es ist dann<br />
allerdings von großer Bedeutung, diesen Wechsel des Analyseziels explizit zu machen.<br />
Wenn wir einen Signifikanztest bei einer Vollerhebung anwenden, dann sollten wir daher<br />
mit guten theoretischen Argumenten erklären können, warum wir hier ein anderes<br />
Ziel verfolgen als wir es verfolgen würden, wenn wir statt der Vollerhebung nur eine<br />
Stichprobe zur Verfügung gehabt hätten. Die Untersuchung, ob Parteien die Thematik<br />
ihrer Wahlanzeigen zufällig auswählen, scheint theoretisch wenig ergiebig zu sein. Die<br />
3 Der Begriff „unwahrscheinlich“ ist in Anführungszeichen gesetzt, weil es <strong>sich</strong> hier um eine bedingte<br />
Wahrscheinlichkeit handelt. Etwas, das unter der Bedingung, dass die Theorie nicht zutrifft,<br />
als äußerst unwahrscheinlich angesehen werden muss, ist unter der Annahme der Geltung<br />
der Theorie hingegen vermutlich sehr wahrscheinlich. Dies entspricht ungefähr dem Begriff der<br />
„logischen Wahrscheinlichkeit“, wie ihn Popper (1989: 83) in der „Logik der Forschung“ verwendet.<br />
Besser prüfbare Theorien sind „logisch unwahrscheinlicher“, das heißt, die Wahrscheinlichkeit,<br />
dass sie den Prüfungen erfolgreich widerstehen, ist wesentlich geringer, wenn sie<br />
falsch sind. Deutlicher (allerdings leicht abweichend) äußert <strong>sich</strong> Popper an anderer Stelle, wo er<br />
bemerkt, dass Voraussagen einer neuen Theorie „im Lichte unseres früheren Wissens“ als<br />
„höchst unwahrscheinlich“ angesehen werden müssen (Popper 1994: 320). Der Begriff der<br />
Wahrscheinlichkeit bezieht <strong>sich</strong> bei Popper also <strong>auf</strong> die Überlebenswahrscheinlichkeit einer falschen<br />
Theorie und nicht etwa <strong>auf</strong> probabilistische Aussagen. Ganz im Gegenteil geht Popper<br />
praktisch ausschließlich von deterministischen Aussagen aus (zur Übertragbarkeit des falsifikationistischen<br />
Prinzips <strong>auf</strong> statistische Tests vgl. Gillies (2000: 145ff.), wobei allerdings zu beachten<br />
ist, dass bei statistischen Tests die Zielrichtung des Falsifikationsversuchs genau umgekehrt<br />
verläuft (vgl. Behnke/Behnke 2003: Kap. 9, 2004: Kap. 13)).
<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-11<br />
uns interessierende Fragestellung lautet vielmehr, wo <strong>sich</strong> Parteien denn genau positionieren,<br />
vorausgesetzt, dass sie <strong>sich</strong> bewusst positionieren – wovon wir ausgehen. Genau<br />
dies lässt <strong>sich</strong> aber direkt durch die deskriptive Analyse der Daten feststellen. Frei nach<br />
Erich Fried gilt: Es ist signifikant, sagt der Test, es ist, was es ist, sagt die Deskription.<br />
In diesem Falle ist der Signifikanztest bestenfalls banal, schlimmstenfalls jedoch suggeriert<br />
er eine Asymmetrie der Ergebnisse, wo diese gar nicht vorhanden ist. Dies ist allerdings<br />
eine allgemeine Problematik von <strong>Signifikanztests</strong>, die <strong>sich</strong> nicht nur bei <strong>Vollerhebungen</strong><br />
ergibt.<br />
Aber auch wenn wir lediglich an einer Deskription der Daten interessiert sind, also<br />
an dem, was der Fall ist, und nicht an dem, was auch hätte der Fall sein können, so<br />
sind wir an einer Deskription der „wahren Tatsachen“ und nicht an einer Deskription<br />
unserer Messungen interessiert. Wir sollten daher das Messproblem nicht unberück<strong>sich</strong>tigt<br />
lassen, wenn wir Anlass zur Vermutung haben, dass die Messung unzuverlässig<br />
gewesen sein könnte und wir über Verfahren verfügen, den Messfehler zu schätzen. Bei<br />
inhaltsanalytischen Verfahren können wir nicht ohne Weiteres davon ausgehen, dass<br />
die Messung „objektiv“ in dem Sinn ist, dass sie bei Wiederholungen den gleichen<br />
Wert ergibt. Im Gegensatz zu anderen Verfahren wie Befragungen können wir bei Inhaltsanalysen<br />
jedoch den Messfehler mit Hilfe von Reliabilitätstests relativ genau abschätzen.<br />
Nehmen wir an, der Reliabilitätstest hätte ergeben, dass die Kategorien mit<br />
einer Wahrscheinlichkeit von 90 Prozent richtig erkannt werden (unabhängig von den<br />
Ausprägungen der untersuchten Variablen). Dann lässt <strong>sich</strong> für jeden echten Anteil einer<br />
Kategorie eine (zusammengesetzte) Binomialverteilung ermitteln, mit der die gemessenen<br />
Anteile um den echten streuen. Nehmen wir an, der Anteil der Anzeigen der<br />
SPD zum Thema „Soziales“ betrage in Wirklichkeit 70 Prozent. Dann werden 90 Prozent<br />
dieser Fälle richtig als „Soziales“ kategorisiert und 10 Prozent der 30 Prozent<br />
„Wirtschafts“-Fälle fälschlicherweise auch. Der Erwartungswert des insgesamt gemessenen<br />
Anteils von „Soziales“-Fällen wird also bei 66 Prozent (0,9 × 0,7 + 0,1 × 0,3 =<br />
0,66) liegen. Die Streuung, mit der der gemessene Anteil um den Erwartungswert verteilt<br />
ist, ist aber die durch den Messfehler bedingte, also 0,9 × 0,1/n. Bei einer nominalkategorisierten<br />
Variablen wird der Messfehler also zu einem Bias führen, der die Anteile<br />
der Kategorien nivelliert. Umgekehrt kann dann bei einem gemessenen Anteil von<br />
60 Prozent und einem Messfehler von 10 Prozent (bei einer dichotomen Variablen) der<br />
echte Anteil geschätzt werden, und zwar als 0,6 = 0,9 ×x+0,1×(1–x),wobei <strong>sich</strong><br />
für x 0,625 ergibt. Es ist nun <strong>auf</strong>grund der bekannten Messfehlervarianz möglich, mit<br />
Hilfe eines <strong>Signifikanztests</strong> zu untersuchen, ob die beobachteten Unterschiede der Anteile<br />
allein <strong>auf</strong>grund des Messfehlers zustande gekommen sein könnten.<br />
Da das Verfahren der Bestimmung der Messfehlervarianz nicht immer ganz einfach<br />
ist, sollte man, wenn es geht, Messfehler von vornherein zu vermeiden suchen. Im Falle<br />
einer Inhaltsanalyse könnte dies durch die Vercodung einer Einheit durch mehrere unabhängige<br />
Codierer erreicht werden, aber auch eine gründliche Codiererschulung kann<br />
den Fehler erheblich reduzieren helfen.
O-12 Joachim Behnke<br />
4. Fazit<br />
Zur Durchführung eines <strong>Signifikanztests</strong> bedarf es einer Teststatistik, deren Wahrscheinlichkeitsverteilung<br />
berechnet werden kann, so dass wir <strong>auf</strong>grund bestimmter<br />
Werte der Teststatistik entscheiden können, ob ein bestimmtes Ergebnis im Sinne des<br />
angewandten Tests als signifikant einzustufen ist. Am einfachsten lässt <strong>sich</strong> die Wahrscheinlichkeitsverteilung<br />
einer solchen Teststatistik berechnen, wenn sie <strong>auf</strong>grund eines<br />
stochastischen Prozesses zustande gekommen ist. Im Falle der klassischen Test- und<br />
Schätztheorie, bei der wir von den Stichprobenstatistiken <strong>auf</strong> die Parameterwerte der<br />
Grundgesamtheit schließen, modellieren wir den stochastischen Prozess als einen Auswahlvorgang,<br />
der analog zur Durchführung eines Zufallsexperiments <strong>auf</strong>gefasst werden<br />
kann. Das Problem der Verzerrung der Stichprobe gegenüber der Grundgesamtheit<br />
wird daher in der Regel einzig und allein <strong>auf</strong> den Zufallscharakter der Auswahl der<br />
Fälle, die in die Stichprobe eingehen, zurückgeführt, und andere stochastische Elemente,<br />
die bei der Generierung der Stichprobe eine Rolle spielen könnten, werden gewöhnlich<br />
ignoriert.<br />
Stellt die Stichprobe eine Vollerhebung dar, dann fällt unter dieser Voraussetzung<br />
das stochastische Element vollkommen unter den Tisch, womit auch der Durchführung<br />
eines <strong>Signifikanztests</strong> jegliche Begründung entzogen wird. Tatsächlich aber ist der<br />
stochastische Charakter der Daten einer Stichprobe nicht nur <strong>auf</strong> die Auswahlproblematik<br />
beschränkt, vielmehr lassen <strong>sich</strong> mindestens drei wichtige Stufen der Generierung<br />
der Stichprobenwerte unterscheiden, <strong>auf</strong> denen jeweils Zufallsprozesse eine Rolle<br />
spielen. Die erste Stufe betrifft die Generierung der Daten selbst, genauer gesagt, der<br />
„echten“ Daten. Die Eigenschaften, durch deren Messung an den Elementen der Stichprobe<br />
unsere Daten erst entstehen, können unter Umständen als Ergebnis eines Zufallsprozesses<br />
<strong>auf</strong>gefasst werden, der erst die Wirklichkeit in ihrer konkreten Form, so<br />
wie wir sie vorfinden, geschaffen hat. Wir können dies daher den ontologischen stochastischen<br />
Aspekt unseres Inferenzproblems nennen. Die zweite Stufe besteht in der Abbildung<br />
der Ausprägungen der uns interessierenden Eigenschaften der Objekte in Messwerte.<br />
Prinzipiell können bei jeder Messung Fehler <strong>auf</strong>treten, und diese können größer<br />
oder kleiner ausfallen. Auch Messfehler können so betrachtet werden, als wären sie<br />
durch einen Zufallsprozess hervorgebracht worden. Die dritte Stufe stellt schließlich<br />
die Auswahl unserer Stichprobenfälle aus der Grundgesamtheit dar.<br />
Ist nun die Stichprobe eine Vollerhebung, so ist klar, dass bezüglich der Generierung<br />
unserer (datenorientierten) Stichprobe der zufällige Selektionsprozess, die dritte<br />
Stufe, keine Rolle mehr spielen kann. Es gibt nur eine Stichprobe, die sämtliche Fälle<br />
der Grundgesamtheit enthält, nämlich die Grundgesamtheit selbst. Daraus könnte nun<br />
auch die Schlussfolgerung gezogen werden: Alle Stichprobenstatistiken sind die Grundgesamtheitsparameter.<br />
Paradoxerweise ist diese Schlussfolgerung jedoch nicht unbedingt<br />
richtig, und dies liegt an den anderen beiden stochastischen Elementen, die bei der<br />
Generierung der Stichprobendatenwerte weiterhin am Werk waren.<br />
Betrachten wir zuerst den ontologischen stochastischen Aspekt unseres Problems.<br />
Wenn wir <strong>auf</strong> der Ebene der Generierung der „unverfälschten“ und „echten“ Daten einen<br />
Zufallsprozess annehmen, dann ist es weiterhin möglich, inferenzstatistische Verfahren<br />
einzusetzen. Allerdings betrachten wir unsere Vollerhebung dann nicht mehr als
<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-13<br />
die relevante Grundgesamtheit, sondern als eine Stichprobe aus der Superpopulation<br />
aller Leibnizschen möglichen Welten. Der stochastische Prozess bei der Generierung<br />
von Daten kann daher ganz genau so wie ein zufallsgesteuerter Auswahlprozess behandelt<br />
werden. Aber wer so argumentiert, sollte redlicherweise dabei kenntlich machen,<br />
dass hierbei gleichzeitig eine Zielverschiebung unseres Forschungsvorhabens stattgefunden<br />
hat, nämlich von der angemessenen Beschreibung der uns vorliegenden konkreten<br />
Welt zur Untersuchung der Fragestellung, wie wahrscheinlich es ist, dass die uns vorliegende<br />
Welt das Produkt eines im einzelnen spezifizierten Zufallsprozesses ist. Möglicherweise<br />
ist dies aber ein Aspekt, der viele Forscher gar nicht interessiert, denen es<br />
lediglich um die Untersuchung der Zusammenhänge in unserer Welt geht und nicht<br />
darum, wie diese zustande gekommen sind. Wenn es mehr Jungen gibt als Mädchen,<br />
dann gibt es eben mehr Jungen als Mädchen, und es ist für viele nicht die brennendste<br />
Frage der Welt, ob das Geschlecht des Kindes von Gott mit einer fairen Münze oder<br />
einer Münze mit einem leichten Bias ermittelt wird. 4<br />
Es gibt Aspekte der Wirklichkeit, hin<strong>sich</strong>tlich derer unter Wissenschaftlern praktisch<br />
ungeteilte Einigkeit besteht, dass sie nur als stochastische Prozesse angemessen beschrieben<br />
werden können, d.h. die Natur der Prozesse selbst ist ebenfalls stochastisch.<br />
Dies trifft z.B. <strong>auf</strong> den radioaktiven Zerfall bestimmter Elemente zu. Es gibt andere<br />
Aspekte der Wirklichkeit, deren Natur selbst nicht stochastisch, sondern deterministisch<br />
ist, die aber durch ein stochastisches Modell der Wirklichkeit gut beschrieben<br />
werden können. Hierfür ist die Geschlechterverteilung ein gutes Beispiel. Schließlich<br />
gibt es Aspekte der Wirklichkeit, die weder in ihrer Natur stochastisch sind, noch<br />
durch ein stochastisches Modell angemessen beschrieben werden können. Dies sind<br />
z.B. alle Gegebenheiten, die wir als unmittelbare Folgen bewussten Handelns <strong>auf</strong>fassen.<br />
Der bloße Hinweis <strong>auf</strong> den stochastischen Charakter unserer Wirklichkeit an <strong>sich</strong><br />
genügt daher keineswegs schon zur Rechtfertigung der Durchführung eines <strong>Signifikanztests</strong><br />
oder der Berechnung von Konfidenzintervallen. Vielmehr kommt es eben dar<strong>auf</strong><br />
an, ob der untersuchte Aspekt der Wirklichkeit stochastischen Charakter hat. Der<br />
behauptete Zufallsprozess selbst muss dann direkt oder indirekt Gegenstand unseres<br />
Forschungsvorhabens sein. Wenn die Grundgesamtheit tatsächlich nur die Grundgesamtheit<br />
und nicht die Superpopulation ist, dann ist die Vollerhebung auch eine Vollerhebung<br />
und keine bloße Stichprobe.<br />
Doch auch derjenige, den es nicht interessiert, wie seine Daten ursprünglich zustande<br />
gekommen sind, sollte natürlich Wert dar<strong>auf</strong> legen, dass seine Daten das aussagen,<br />
was sie auszusagen vorgeben. Das Messproblem ist daher wohl für jeden Forscher<br />
relevant und kann nicht wie das ontologische stochastische Element aus theoretischen<br />
Gründen unberück<strong>sich</strong>tigt bleiben. Um aber den Messfehler genau bestimmen zu kön-<br />
4 Die theoretisch interessantere Frage wäre, warum Gott eine Münze und nicht einen Tetraeder<br />
oder einen Würfel nimmt. Anders ausgedrückt: Warum gibt es überhaupt genau zwei Geschlechter<br />
und nicht z.B. drei wie in Asimovs Roman „Lunatico“ (The Gods themselves), und<br />
warum kommen diese beiden Geschlechter in der Wirklichkeit annähernd in gleichen Anteilen<br />
vor? Die interessante Frage für moderne Biologen ist nicht die Abweichung von der Gleichverteilung<br />
der Geschlechter, sondern wie überhaupt eine annähernde Gleichverteilung zustande<br />
kommen kann. Der Zufallsgenerator selbst, der die Gleichverteilung schließlich bewirkt, wird<br />
dann als Ergebnis des evolutionären Prozesses verstanden.
O-14 Joachim Behnke<br />
nen, sind wir wieder <strong>auf</strong> eine explizite Theorie der Entstehung des Messfehlers angewiesen,<br />
bzw. <strong>auf</strong> eine genaue Kenntnis des Zufallsprozesses, der den Messfehler hervorruft.<br />
In den meisten Fällen dürfte es uns äußerst schwer fallen, den Messfehler genau<br />
zu bestimmen, womit wir auch den zu Grunde liegenden stochastischen Prozess nicht<br />
eindeutig modellieren können. Das beste Rezept lautet daher zu versuchen, den Messfehler<br />
von vorneherein durch entsprechende Operationalisierungen so klein wie möglich<br />
zu halten. Wenn der Messfehler eindeutig bestimmt werden kann, dann können<br />
auch <strong>Signifikanztests</strong> bei einer Vollerhebung durchgeführt werden, bei denen die entsprechende<br />
Wahrscheinlichkeitsverteilung der Teststatistik aus dem Messprozess abgeleitet<br />
werden kann.<br />
Grundsätzlich gilt: Auch wenn mit mehr oder weniger guten Gründen für das Vorhandensein<br />
stochastischer Elemente bei der Generierung der Stichprobendatenwerte argumentiert<br />
und damit die Durchführung eines <strong>Signifikanztests</strong> als zulässig betrachtet<br />
werden kann, so heißt dies noch lange nicht, dass man dann als konkreten Signifikanztest<br />
genau den gleichen anwenden kann, der von Statistikprogrammen bezüglich der<br />
Schätzung von Stichprobenunterschieden angeboten wird. Dies mag von Fall zu Fall<br />
bei dem ontologischen stochastischen Element noch angemessen sein, da dieses analog<br />
zu einem Auswahlproblem behandelt werden kann, es ist aber in jedem Fall falsch bei<br />
der Behandlung des stochastischen Elements, das durch Messfehler hervorgerufen wird.<br />
Vor der Durchführung eines <strong>Signifikanztests</strong> oder der Bestimmung von Konfidenzintervallen<br />
sollte daher genau geprüft werden, ob die Bedingungen hierfür vorliegen.<br />
Sind diese Bedingungen nicht gegeben, dann ist es ratsamer, <strong>auf</strong> <strong>Signifikanztests</strong> zu<br />
verzichten. Das bedeutet nicht, dass man das Un<strong>sich</strong>erheitsmoment bezüglich der eigenen<br />
Interpretationen und Schlussfolgerungen unterschlagen soll. Aber ich persönlich<br />
würde eine verbale Darstellung der Un<strong>sich</strong>erheit immer einer formalen vorziehen, die<br />
in der Angabe von Standardfehlern besteht, die unter nicht zutreffenden Bedingungen<br />
berechnet worden sind.<br />
Literatur<br />
Behnke, Joachim, 2003: Kausalprozesse und Identität. Über den Sinn von <strong>Signifikanztests</strong> und Konfidenzintervallen<br />
bei <strong>Vollerhebungen</strong>, in:<br />
http://www.uni-bamberg.de/sowi/poltheory/meth/papers.<br />
Behnke, Joachim/Behnke, Nathalie, 2003: Wissenschaftstheorie. Studienbrief an der FernUniversität<br />
in Hagen Nr. 33206. Hagen.<br />
Behnke, Joachim/Behnke, Nathalie, 2004: Statistik. Studienbrief an der FernUniversität in Hagen<br />
Nr. 33208. Hagen.<br />
Berk, Richard A./Western, Bruce/Weiss, Robert E., 1995: Statistical Inference for Apparent Populations,<br />
in: Sociological Methodology 25, 421–458.<br />
Broscheid, Andreas/Gschwend, Thomas, 2003: Augäpfel, Murmeltiere und Bayes: Zur Auswertung<br />
stochastischer Daten aus <strong>Vollerhebungen</strong>. MPIfG Working Paper 03/7.<br />
Gigerenzer, Gerd/Swijtink, Zeno/Porter, Theodore/Daston, Lorraine/Beatty, John/Krüger, Lorenz, 1989:<br />
The Empire of Chance. How Probability Changed Science and Everyday Life. Cambridge.<br />
Gillies, Donald, 2000: Philosophical Theories of Probability. London.<br />
Hacking, Ian, 1975: The Emergence of Probability. Cambridge.
<strong>Lassen</strong> <strong>sich</strong> <strong>Signifikanztests</strong> <strong>auf</strong> <strong>Vollerhebungen</strong> anwenden? O-15<br />
Kunz, Volker, 2000: Kulturelle Variablen, organisatorische Netzwerke und demokratische Staatsstrukturen<br />
als Determinanten der wirtschaftlichen Entwicklung im internationalen Vergleich,<br />
in: Kölner Zeitschrift für Soziologie und Sozialpsychologie 52, 195–225.<br />
Kunz, Volker, 2001: „Do Institutions matter?“ Politische Bestimmungsfaktoren des Wirtschaftswachstums<br />
in demokratischen Industriegesellschaften. Antwort <strong>auf</strong> Herbert Obinger, in: Kölner<br />
Zeitschrift für Soziologie und Sozialpsychologie 53, 149–165.<br />
Mohr, Lawrence B., 1990: Understanding Significance Testing. Quantitative Applications in the Social<br />
Sciences, Vol. 73. Newbury Park, CA.<br />
Obinger, Herbert, 2001: Verteilungskoalitionen und demokratische Staatsstrukturen als Determinanten<br />
der wirtschaftlichen Entwicklung. Eine Replik <strong>auf</strong> Volker Kunz, in: Kölner Zeitschrift für<br />
Soziologie und Sozialpsychologie 53, 136–148.<br />
Popper, Karl R., 1989 [1935]: Logik der Forschung. Tübingen.<br />
Popper, Karl R., 1994 [1963]: Vermutungen und Widerlegungen. Teilband I: Vermutungen. Tübingen.<br />
Stigler, Stephen M., 1986: The History of Statistics. The Measurement of Uncertainty before 1900.<br />
Cambridge.