Lassen sich Signifikanztests auf Vollerhebungen ... - SpringerLink

Weitere Magazine

Empfehlungen

Info

O-2 Joachim Behnke dass die zu Grunde liegende Datenmenge eine Stichprobe darstellt. Das heißt, es wird damit vorausgesetzt, dass diese Daten durch einen Prozess generiert worden sind, der als zufällige Auswahl einzelner Elemente aus einer weit größeren Anzahl von Elementen, der Grundgesamtheit, modelliert werden kann. Sinn der Inferenzstatistik ist es nun, mit Hilfe des Wirklichkeitsausschnitts, den uns die Stichprobe gibt, auf die Struktur der „ganzen“ Wirklichkeit, also der Grundgesamtheit, zu schließen. Dieser Schluss mit Hilfe der inferenzstatistischen Methoden kann nur unter bestimmten Vorbehalten und mit bestimmten Einschränkungen gemacht werden. D.h. aufgrund der durch den Zufallsprozess bedingten Unsicherheit können die Aussagen über die Grundgesamtheit nur mit einer gewissen Unschärfe getroffen werden, die ihren sichtbaren statistischen Ausdruck in der Angabe des Standardfehlers bzw. in der Formulierung von Konfidenzintervallen findet, wobei die Festlegung des Bereichs der Konfidenzintervalle auf dem Standardfehler beruht. Die Zulässigkeit des inferenzstatistischen Schlusses selbst aber beruht auf dem grundsätzlichen Vorbehalt, dass die Stichprobe tatsächlich als Zufallsauswahl der Grundgesamtheit zustande gekommen ist. So paradox sich dies vielleicht auch anhören mag: Die „unsicheren“ Aussagen, die wir mit inferenzstatistischen Methoden gewinnen, sind nur insoweit aussagekräftig, wie wir uns über das Vorliegen der Ursache der Unsicherheit, d.h. des Zufalls, sicher sein können. Der Unterschied zwischen inferenzstatistischen Tests und Schätzverfahren besteht nun darin, inwiefern der Zufall als Erklärung für bestimmte Eigenschaften der Beobachtungsdaten angenommen werden kann bzw. soll. Bei einem Test gehen wir von einer Art stochastischer Fiktion aus, d.h. wir unterstellen, dass bestimmte beobachtete Unterschiede allein durch zufällige Schwankungen zu erklären sind, die durch den Auswahlprozess entstanden sind. Diese beobachteten Unterschiede werden erst dadurch sichtbar, dass wir unsere Stichprobe auf systematische Weise in Untergruppen eingeteilt haben. Z.B. können wir aus einer Stichprobe von 1000 zufällig ausgewählten Personen zwei Untergruppen von Männern und Frauen bilden und anschließend feststellen, dass die durchschnittliche Körpergröße der Männer um einige Zentimeter höher ausfällt als die der Frauen. Wenn wir nun aber feststellen, dass diese Unterschiede weit über das Ausmaß hinausgehen, das wir allein aufgrund des Wirkens des Zufalls erwarten würden, dann schließen wir daraus, dass diese Unterschiede im Ganzen nur durch die Annahme einer zusätzlichen Ursache erklärt werden können. Dieses nicht-zufällige Element muss aber durch die Form der Gruppierung in die Beobachtungsdaten gelangt sein. Die systematische Ursache des Größenunterschieds muss daher das Geschlecht der Personen sein. Das Ziel des Tests besteht also in der Demonstration, dass die stochastische Fiktion nicht aufrecht erhalten werden kann: Bestimmte Merkmale der Struktur der Beobachtungsdaten können nicht allein auf Zufälligkeiten beim Auswahlprozess zurückgeführt werden. Die Gefahr, dass uns die Annahme, dass bestimmte Eigenschaften unserer Beobachtungsdaten auf der stochastischen Struktur des Datengenerierungsprozesses beruhen, zu falschen, d.h. unberechtigten, Schlussfolgerungen verleitet, ist beim statistischen Test insofern eher gering, als der Test selbst darauf abzielt, diese Annahme als unbegründet zu entlarven. Das substanzielle Ergebnis eines wie oben beschriebenen Tests in der Tradition von R.A. Fisher besteht ja in der Zurückweisung des Zufalls als alleinige Ursache bestimmter Beobachtungen. Misslingt diese Zurückweisung, darf daraus keineswegs geschlossen werden, dass alle Unterschiede tatsächlich nur zufällig be-
Lassen sich Signifikanztests auf Vollerhebungen anwenden? O-3 dingt sind, sondern lediglich, dass sie von zufällig zustande gekommenen nicht mit einem hinreichenden Grad an Sicherheit unterschieden werden können. Der einzige Fehler, den wir bei der Durchführung eines Fisher-Tests machen können, besteht in der fälschlichen Zurückweisung des Zufalls als alleinige Ursache der beobachteten Unterschiede. Die Rolle des Zufalls kann bei einem statistischen Test in der Tradition Fishers daher nur unterschätzt, aber niemals überschätzt werden. Der Test besitzt ein eingebautes Korrektiv gegen die unzulässige Annahme des Zufalls, da eine inhaltliche Interpretation des Testergebnisses nur dann erfolgt, wenn diese Annahme als unbegründet zurückgewiesen wird. Komplizierter verhält es sich hingegen, wenn wir inferenzstatistische Methoden bei der Schätzung von Parametern der Grundgesamtheit wie Mittelwerte oder Anteilswerte durch die entsprechenden statistischen Kennwerte der Stichprobe einsetzen. Der hierbei ermittelte Standardfehler der Schätzung, und damit die daraus abgeleiteten Konfidenzintervalle, beruht ganz und gar auf der Annahme der stochastischen Natur des Auswahlprozesses, der der Datengenerierung zu Grunde liegt. Da hier kein eingebautes Korrektiv im Verfahren selbst vorhanden ist, muss die stochastische Natur des Datengenerierungsprozesses bekannt sein, und sie muss darüber hinaus genau analog zu der eines Auswahlprozesses bei Stichproben sein, wenn wir die übliche Statistiksoftware verwenden. Welche Relevanz haben nun diese Ausführungen, wenn es sich bei den untersuchten Datenfällen nicht um eine „echte“ Stichprobe handelt, sondern um eine „Vollerhebung“? Ob man in diesem Fall einen statistischen Test durchführen soll, oder inwiefern dieser Test über eine theoretisch interessante Frage Aufschluss gibt, hängt davon ab, inwiefern die Vollerhebung in irgendeinem Sinn wie eine Stichprobe behandelt werden kann. Damit hängt dies aber auch davon ab, von welcher Art die untersuchte Frage selbst ist. Wendet man inferenzstatistische Methoden auf Vollerhebungen an, dann bedeutet dies, dass die zulässigen Interpretationen entsprechend eingeschränkt sind. Der Kontext, in dem inferenzstatistische Methoden auch bei Vollerhebungen angewandt werden, kann in verschiedene Fälle unterschieden werden. 2. Fall 1: Die Vollerhebung wird anlog zu einer Stichprobe behandelt Im ersten Moment scheint die Anwendung statistischer Tests auf Vollerhebungen per definitionem unsinnig, und zwar dann, wenn man die Vollerhebung als identisch mit der Grundgesamtheit betrachtet. Tatsächlich aber bezeichnen wir häufig etwas als Vollerhebung wenn wir damit ausdrücken wollen, dass wir alle verfügbaren Daten dieses Typs vollständig erhoben haben bzw. dass weitere Daten dieses Typs nicht mehr erreicht werden können. In diesem Sinn wären z.B. alle Lottoergebnisse vom 1.1.1970 bis zum 31.12.2000 eine Vollerhebung, oder alle bisherigen Lottoergebnisse überhaupt. Obwohl es in diesem Fall nicht möglich ist, zusätzliche Daten zu beschaffen – es gibt nun einmal nur die Lottoergebnisse, die es gibt –, scheint es doch nicht grundsätzlich unzulässig, die bisherigen Ergebnisse wie eine Stichprobe aufzufassen. Auch eine Vollerhebung kann als eine Stichprobe verstanden werden, wenn man sie als Realisierung einer konkreten Wirklichkeit aus einer unendlichen Vielzahl potenziell
Seite 1: Lassen sich Signifikanztests auf Vo
Seite 5 und 6: Lassen sich Signifikanztests auf Vo
Seite 15: Lassen sich Signifikanztests auf Vo

Lassen sich Signifikanztests auf Vollerhebungen ... - SpringerLink

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?