FORSCHUNGSMETHODEN

FORSCHUNGSMETHODEN 

Von: Josua Handerer 

Kontakt: Josua.Handerer@t-online.de 

1

1. Einführung 

1.1. Methoden: 

Wissenschaft zeichnet sich durch methodisches Vorgehen aus. 

Nicht das „was“, sprich das Thema oder der Gegenstand einer Wissenschaft ist 

also entscheidend, sondern das „wie“. 

Eigenschaften von Methoden: 

Methoden sind gewissermaßen Regeln. 

Sie müssen mitteilbar sein. 

Sie haben normativen bzw. präskriptiven Charakter. 

Ihre Befolgung wird erwartet, ihre Verletzung sanktioniert. 

Methoden können in einem hierarchischen Verhältnis zueinander stehen. 

Nach Roth: „Methodenanwendung ist eine aufgrund einer (Anwendungs-) 

Entscheidung erfolgende Steuerung des zielgerichteten Handelns durch ein 

Regelsystem, das im jeweiligen Handlungsplan der Akteure repräsentiert und 

verfügbar ist. Diese methodenspezifische Handlungssteuerung ist regulativ, und 

weitgehend adaptiv und reflexiv.“ 

adaptiv: Nicht alle Methoden sind immer durchführbar (z.B. aus ethischen oder 

praktischen Gründen). 

reflexiv: Die zugrunde gelegten Methoden müssen reflektiert / kritisch 

hinterfragt werden. 

regulativ: Unter Umständen müssen neue Methoden zugrunde gelegt werden. 

1.2. Grundlegendes: 

Sarris nimmt in seinem „Spiralenmodell der Forschung“ an, dass 

wissenschaftliches Arbeiten als mehrstufiger Entscheidungsprozess abläuft. 

1. Hypothese 

2. Versuchsplanung 

3. Versuchsaufbau 

4. Versuchsdurchführung (Beobachtung) 

5. Auswertung (Datenanalyse) 

6. Schlussfolgerungen 

Daraufhin evtl. Modifikation des Versuchsaufbaus und erneuter Durchlauf. 

Man unterscheidet zwischen dimensionalen Analysen und semantischen Analysen. 

Dimensionale Analysen: v.a. bei deskriptiven Untersuchungen 

Semantische Analysen: v.a. bei theorie-/hypothesentestenden Untersuchungen 

1.2.1. Die Variablen 

Die unabhängige Variable (UV); auch: „Reizvariable“ 

Die UV wird vom Versuchsleiter direkt oder indirekt verändert (durch 

Manipulation oder Selektion) 

Die abhängige Variable (AV); auch „Reaktionsvariable“ 

Die AV ist ein Ereignis, das die Folge der Manipulation der UV beobachtet. 

AV = f (UV); d.h. dass Abstufungen der UV die AV systematisch 

verändern oder dass die UV Ursache, die AV Wirkung ist. 

Der Versuchsleiter hat auf die AV keinen direkten Einfluss; der Einfluss von 

Störvariablen ist allerdings wahrscheinlich. 

Moderierende Variablen (Kontrollvariablen und Störvariablen) 

2

Moderierende Variablen beeinflussen die Wirkung der UV auf die AV; korrekt 

ausgedrückt ist die AV also eine Funktion der UV und moderierender Variablen: 

AV = f (UV, moderierende Variablen) 

Z.B.: Lärm, Tageszeit; Alter, Motivation, Persönlichkeitsmerkmale der Vp... 

Bei denn moderierenden Variablen muss zwischen Kontroll- und Störvariablen 

unterschieden werden: 

1. Kontrollvariablen 

Moderierende Variablen werden zu Kontrollvariablen, wenn sie bei 

Untersuchungen mit erhoben werden; ihr Einfluss schlägt sich in der 

Sekundärvarianz (s.u.) nieder. 

2. Störvariablen (SV) 

Moderierende Variablen werden zu Störvariablen, wenn sie nicht 

beachtet oder sogar übersehen werden; ihr Einfluss schlägt sich in der 

Fehlervarianz (s.u.) nieder. 

* Werden die Störvariablen mittels experimenteller Techniken 

kontrolliert, werden sie zu Kontrollvariablen (s.o.). 

Variablen können folgendermaßen klassifiziert werden: 

1. gemäß des Stellenwerts in der Untersuchung (s.o.) 

UV, AV, moderierende Variablen (Kontrollvariablen, SV) 

2. je nach Art der Merkmalsausprägungen 

diskrete Variablen (z.B. Geschwisterzahl): 

- dichotom (2 Abstufungen) vs. polytom (mehr als 2 Abstufungen) 

- natürlich (z.B. Geschlecht) vs. künstlich (Alter: jung – mittel – alt) 

stetige Variablen (z.B. Gewicht, Länge, Zeit) 

3. gemäß der empirischen Zugänglichkeit 

Manifeste Variable (direkt beobachtbar; z.B. Anzahl gelöster Testaufgaben) 

Latente Variable (nicht-beobachtbar; liegt einer manifesten Variable als 

hypothetisches Konstrukt zugrunde: z.B. Intelligenz) 

1.2.2. Die Hypothese 

Definition: Eine wissenschaftliche Hypothese formuliert eine Beziehung zwischen 

zwei oder mehr Variablen, die für eine bestimmte Population vergleichbarer 

Objekte oder Ereignisse gelten soll. 

Dabei muss eine wissenschaftliche Hypothese folgende Kriterien erfüllen: 

1. Generalisierbarkeit 

Eine wissenschaftliche Hypothese ist eine allgemeingültige, über den 

Einzelfall oder ein singuläres Ereignis hinausgehende Behauptung (All-Satz) 

2. Konditionalsatz 

Einer wissenschaftlichen Hypothese muss zumindest implizit die 

Formalstruktur eines sinnvollen Konditionalsatzes („Wenn-Dann-Satz“ bzw. 

„Je-Desto-Satz“) zugrunde liegen. 

3. Falsifizierbarkeit 

Der Konditionalsatz muss potentiell falsifizierbar sein, d.h. es müssen 

Ereignisse denkbar sein, die dem Konditionalsatz widersprechen. 

Aus diesem Grund können Existenzsätze („Es gibt…“; „…kann…“) keine 

wissenschaftlichen Hypothesen sein; sie erfüllen keines der besagten Kriterien! 

Man unterscheidet zwischen inhaltlichen- und statistischen Hypothesen. 

Inhaltliche Hypothesen sind verbale Behauptungen über kausale/nicht-kausale 

Beziehungen zwischen Variablen; sie werden aus begründeten Vorannahmen, 

Modellen oder Theorien abgeleitet. 

3

Statistische Hypothesen sind die Zuspitzung einer solchen inhaltlichen 

Hypothese zu einer empirischen Vorhersage des Untersuchungsergebnisses. 

Solche Vorhersagen beziehen sich auf statistische Maße, die die inhaltliche 

Aussage am besten wiedergeben. 

1. Kennwerte der zentralen Tendenz (Lage): Mittelwert, Modus, Median 

2. Kennwerte der Dispersion: Standardabweichung/Varianz, Streubreite 

3. Kennwerte der Schiefe: Schiefe = Abweichung von der Symmetrie 

4. Kennwerte des Exzess: Steilheit 

In statistischen Hypothesen werden also Annahmen über die Verteilung einer 

oder mehrerer Zufallsvariablen oder über bestimmte Parameter dieser 

Verteilung gemacht. 

Man unterscheidet zwischen Unterschieds- und Zusammenhangshypothesen: 

1. Unterschiedshypothese: H0: µ0 = µ1 ; H1: µ0 = µ1 

2. Zusammenhangshypothese: H0: r12 = 0 ; H1: r12 = 0 

Statistische Hypothesen sind Wahrscheinlichkeitsaussagen (also nicht 

deterministisch, sondern probabilistisch). 

1.2.3. Operationalisierung 

Definition: Die Operationalisierung ist die Umsetzung der Problempräzisierung 

(Begriffe) in Techniken bzw. Forschungsoperationen. 

Die Operationalisierung enthält „technische“ Anweisungen, wie in der 

Untersuchung vorzugehen ist, um Informationen zu erhalten. 

Sie beinhaltet u.a. Angaben zu Gestaltung und Handhabung des Messinstruments 

(z.B. Fragebogen; Ort des Interviews; Formulierung und Reihenfolge der 

Fragen…) 

Ihr zugrunde liegen Entscheidungen bezüglich… 

der Forschungsform (z.B. Labor- vs. Feldforschung) 

der Versuchsgruppen (z.B. Stichprobe, Probandenmerkmale) 

der Datenquelle(n) (z.B. Befragung, Beobachtung, objektive Verfahren) 

des Versuchsplans (z.B. experimentell vs. korrelativ) 

1.2.4. Mögliche Störvariablen 

Mögliche Quellen von Störvariablen sind die Untersuchungssituation, die 

Versuchsperson oder der Versuchsleiter. 

1. Situation 

Untersuchungsort (steriles Labor vs. gemütlicher Raum, Lärm, usw.) 

Untersuchungszeit (Konzentrationsfähigkeit, Hungergefühl,… können sich 

im Laufe des Tages ändern; es ist also nicht unwichtig, 

wann ein Versuch stattfindet) 

Atmosphäre (weiße Kittel usw. können das Ergebnis beeinflussen) 

2. Versuchsperson (Motivation, Erwartung,…) 

„Demand-Effekte“: Vpn, die mit Absicht versuchen, die Hypothesen des 

Experiments zu bestätigen. 

„Effekt der sozialen Erwünschtheit“: v.a. bei Fragebögen 

Prozesse in der Vp: Ermüdung, Lernen, Übung,… 

3. Versuchsleiter 

„Rosenthal-Effekt“: Wenn der Vl weiß, in welcher Bedingung die Vp ist, 

kann seine Erwartungshaltung die Auswertung oder das Verhalten der Vp 

selbst beeinflussen („Self-fullfilling Prophecy“). 

Vp-Vl-Interaktion: Mann-Frau usw. 

4

Versuchsleiter-Artefakte und deren Kontrolle: 

Versuchsleiter-Artefakte (s.o.) entstehen durch die Abweichung des 

Versuchsleiters vom geplanten Verhalten. 

Versuchsleiter- und andere Artefakte können auf folgende Weise kontrolliert 

werden: 

1. Standardisierte Instruktionen (wobei die Instruktion nicht nur den 

verbalen Anweisungsteil umfasst, sondern alle Versuchsumstände) 

2. Konstante Untersuchungsbedingungen (Beleuchtung, Geräusche, 

Temperatur) 

3. Einhaltung des zeitlichen Ablaufs 

4. Selbstkontrolle des Versuchsleiters (auf eigene Stimmungen achten und 

gegebenenfalls protokollieren, Abweichungen vom geplanten Ablauf 

protokollieren,…) 

5. Beobachtung des Versuchsleiters durch neutrale Beobachter 

(Aufzeichnung des Versuchs per Video) 

6. Verwendung „blinder“ Versuchsleiter (die nicht wissen, in welcher 

Bedingung die Versuchspersonen jeweils sind) 

7. Vorerhebung sollte vom Untersuchungsleiter selbst durchgeführt werden 

8. Nachbefragung der Probanden (nach dem Versuch) 

1.2.5. Gütekriterien einer Messung 

Die 3 entscheidenden Gütekriterien einer Messung sind Validität, Reliabilität und 

Objektivität. 

1. Objektivität: Grad der Unabhängigkeit der Ergebnisse vom Untersucher! 

2. Reliabilität: Grad der Genauigkeit, mit dem etwas gemessen wird 

(unabhängig davon, ob dies auch gemessen werden soll) 

Wenn bei einem Test immer dasselbe herauskommt, ist er reliabel. Ob er 

dabei auch das misst, was er messen soll (Validität) weiß man deswegen 

noch nicht. 

3. Validität: Grad der Genauigkeit, das zu messen oder vorherzusagen, was 

gemessen oder vorhergesagt werden soll. 

OBJEKTIVITÄT 

Die Objektivität wird bestimmt, indem man die Ergebnisse verschiedener 

Untersucher miteinander korreliert. 

Zu unterscheiden ist zwischen: 

1. Durchführungsobjektivität 

Unabhängigkeit des Ergebnisses von zufälligen oder systematischen 

Verhaltensvariationen des Untersuchers bzw. Versuchsleiters während des 

Versuchs (Versuchsleiter-Artefakte) 

2. Auswertungsobjektivität 

Unabhängigkeit der Ergebnisse von Variationen des Untersuchers während 

der Auswertung (v.a. bei Verfahren mit vielen Freiheitsgraden wie z.B. 

projektiven Tests oder freien Interviews) 

3. Interpretationsobjektivität 

Unabhängigkeit der Ergebnisse von der interpretierenden Person (v.a. wenn 

ein Ergebnis vieldeutig ist) 

5

RELIABILITÄT 

Jeder Messwert (X) setzt sich additiv aus dem „wahren Wert“ (T) und einem 

Messfehler (E) zusammen. Die Reliabilität ist dementsprechend umso größer, je 

kleiner der zu einem Messwert X gehörende Fehleranteil E. 

Der Idealfall (X=T; E=0) tritt in der Realität quasi nie auf. Ursache dafür sind 

technische-, menschliche- und situative Fehlerquellen. 

Definition: Die Reliabilität ist der Anteil der wahren Varianz an beobachteter 

Varianz. 

Je größer dieser Anteil ist, je geringer also die Fehlervarianz ist, desto höher die 

Reliabilität. 

Es gibt mehrere Möglichkeiten, die Reliabilität zu bestimmen: 

Paralleltest-Reliabilität: Vergleichbare Paralleltests werden identischen 

Stichproben vorgegeben und deren Ergebnisse miteinander korreliert. 

Retest-Reliabilität: Ein und derselbe Test werden einer Stichprobe mehrmals 

vorgegeben und die Ergebnisreihen miteinander korreliert. 

Innere Konsistenz: 

Split-Half-Reliabilität: Test wird in zwei gleichwertige Hälften geteilt und 

die Ergebnisse miteinander korreliert. 

Konsistenzanalyse: Test wird in beliebig viele Testelemente geteilt und die 

Reliabilität über Aufgabenschwierigkeit und Trennschärfekoeffizienten 

bestimmt. 

VALIDITÄT 

Man unterscheidet zwischen: 

1. Inhaltliche Validität 

Wie valide bzw. genau ist das Messverfahren in Bezug auf den zu messenden 

Inhalt?! 

Bestimmungsmaß: Rating von Experten 

2. Konstruktvalidität 

Wie valide bzw. genau ist das Messverfahren in Bezug auf das zu 

untersuchende Konstrukt (z.B. Intelligenz)?! 

Bestimmungsmaß: Rating von Experten 

3. Kriterienbezogene Validität 

Wie genau stimmt der Test mit einem unabhängig vom Test erhobenen 

Außenkriterium (z.B. Schulleistung) überein?! 

Bestimmungsmaß: Korrelation des Testergebnisses mit einem 

Außenkriterium 

Außerdem ist zu unterscheiden zwischen interner – und externer Validität: 

Interne Validität: Ein Versuch ist intern valide, wenn Veränderungen der AV 

eindeutig auf Variationen der UV zurückzuführen sind. 

Am höchsten ist die interne Validität dementsprechend, wenn SV=0! 

Externe Validität: Ein Versuch ist extern valide, wenn die Ergebnisse der 

Stichprobe auf die Population übertragbar sind (Generalisierbarkeit der 

Ergebnisse)! 

Die externe Validität ist v.a. dann problematisch, wenn unter „realen 

Bedingungen“ noch andere Faktoren als in der Untersuchung eine Rolle 

spielen. 

Die interne Validität ist eine notwendige, aber keineswegs hinreichende 

Bedingung für externe Validität! 

6

1.2.6. Störvariablen, die die externe Validität betreffen 

Reaktive Effekte der Experimentalsituation 

Durch die „künstliche“ Situation in einem Experiment kann das Verhalten der 

Pbn beeinflusst werden. 

Demandeffekte (s.o.) 

Soziale Erwünschtheit (v.a. bei Fragebögen) 

Reaktanz der Vpn 

Interaktion von Vortest und UV 

Durch einen Vortest kann die Sensitivität der Pbn gegenüber der UV beeinflusst- 

und damit deren Verhalten im eigentlichen Experiment verändert werden 

Kurzinterview zur Vorauswahl einer Stichprobe 

Einflüsse bei Mehrfachmessungen 

z.B. Reihenfolgeneffekte 

Interaktion von Selektionseffekten und UV 

Selektionseffekte: es kann z.B. passieren, dass in einer Versuchsgruppe im 

Schnitt intelligentere Vpn sind, was einen Einfluss auf die AV haben kann. 

1.2.7. Die Bedeutung des Faktors „Zeit“ 

Der Faktor „Zeit“ hat mehrere Effekte, die das Versuchsergebnis beeinflussen 

können: 

1. Geschichtlichkeit 

Ein vom Untersucher unabhängiger und genereller Effekt 

1.1. Über lange Zeiträume hinweg gibt es immer wieder „zufällige“ 

Schwankungen und Veränderungen (ein „besonderes“ Jahr). 

Untersucht man z.B. die Verringerung der Unfallzahlen (AV) 

durch die Einführung eines Tempolimits (UV), kann u.a. die 

Witterung oder der Bezinpreis während des 

Untersuchungszeitraums (geschichtliche Effekte) einen 

störenden Einfluss auf das Ergebnis haben. 

1.2. Kohorteneffekte: 

Z.B. Folgen früherer Lebensbedingungen oder natürliche 

Entwicklungen wie die Abnahme der kognitiven 

Leistungsfähigkeit mit zunehmendem Alter. 

2. Entwicklungseffekte 

Ein vom Untersucher unabhängiger und spezieller Effekt 

Die einzelnen Versuchspersonen, aber auch die Stichprobe als Ganzes 

kann sich während des Untersuchungszeitraums verändern. 

2.1. Regressionseffekt B (negative Rückkopplung) 

2.2. Pbn werden während eines Versuchs müder, hungriger, lustloser,… 

2.3. Über einen längeren Untersuchungszeitraum hinweg kann sich sogar 

die Stichprobe verändern: z.B. dadurch, dass einzelne 

Versuchspersonen aussteigen oder sterben (Mortalität); wenn z.B. die 

älteren, Vpn „wegsterben“ oder die wenig Motivierten aussteigen 

wird die Stichprobe im Schnitt „jünger“, „gesünder“ u. „motivierter“ 

(= „Effekt der positiven Selbstauswahl“). 

3. Selektion und Messeffekte 

Ein vom Untersucher abhängiger und genereller Effekt 

3.1.Regressionseffekt A (Ergebnisse von fehlerhaften Messinstrumenten 

tendieren bei erneuter Messung zur Mitte) 

3.2.Änderung der Messinstrumente (z.B. durch Verstellen des Messfühlers 

oder durch Ermüdung der Beobachter) 

7

4. Testeffekte 

Ein vom Untersucher abhängiger und spezieller Effekt 

4.1.Reihenfolgeneffekte oder Lerneffekte aus vorhergehenden 

Untersuchungen (macht man einen IQ-Test zum 2. Mal, schneidet 

man im Schnitt 3-5 Punkte besser ab) 

4.2.Residualeffekte im Cross Over (Trotz Cross-Over wird die Wirkung 

einer Behandlung durch personenbedingte Störeinflüsse 

„verunreinigt“) 

4.3.Experimentelle Mortalität und drop-out 

1.2.8. Datenanalyse u. deskriptive Statistik 

Maße der zentralen Tendenz (Lage) 

1. Mittelwert (arithmetisch, geometrisch, harmonisch) 

Voraussetzung: Intervallskalierte Daten 

Gibt Auskunft über den „Schwerpunkt“ einer Verteilung 

Empfohlen v.a. bei symmetrischer Verteilung (insbes. Normalverteilung), da 

anfällig bei Ausreißerwerten; ist v.a. in Kombination mit anderen Werten 

(z.B. Varianz) aussagekräftig 

2. Medianwert 

Voraussetzung: Ordinalskalierte Daten 

Gibt Auskunft über die „obere“ und „untere“ Hälfte der Messwertverteilung 

Empfohlen bei schiefer Verteilung oder wenn nur eine unvollständige 

Verteilung vorliegt. 

3. Modalwert (Modus) 

Voraussetzung: Nominalskalierte Daten 

Grobe Schätzung der zentralen Tendenz; schnellstmögliche Kenntnis des 

zentralen Wertes 

Maße der Dispersion (Variabilität) 

1. Standardabweichung bzw. Varianz 

Voraussetzung: Intervallskalierte Daten 

Wichtigstes Maß der Dispersion; bezieht alle Werte mit ein 

2. Bereichsmaße (Streubreite, Interquartilbereich,…) 

Voraussetzung: Ordinalskalierte Daten 

Zur ersten Orientierung hilfreich; starke Ausreißerempfindlichkeit (Lösung: 

gestutzte Streubreite) 

3. Informationsmaß h 

Voraussetzung: Nominalskalierte Daten 

Bei psychologischen Hypothesen handelt es sich um Wahrscheinlichkeitsaussagen 

(s.o.). Im Prinzip sind sie daher weder falsifizierbar, noch verifizierbar. 

Um die Aussagen zumindest falsifizierbar zu machen, müssen vor der 

Versuchsdurchführung ein statistisches Prüfkriterium festgelegt werden: das sog. 

Signifikanzniveau! 

Erst durch den statistischen Nachweis, dass eine Hypothese sehr 

unwahrscheinlich ist, kann sie abgelehnt werden. 

Ein Signifikanztest hat v.a. 2 Funktionen: 

1. Als Screening-Prozedur: Wo lohnt es sich, nachzuschauen bzw. genauer 

nachzuschauen?! 

2. Als zufallskritische Absicherung: Ein Signifikanztest gewährleistet, dass es 

äußerst unwahrscheinlich ist, dass ein Ergebnis zufällig zustande gekommen 

ist. 

8

2. Forschungsformen und Stichproben 

2.1. Die verschiedenen Forschungsformen 

Folgende Forschungsformen sind möglich: 

1. Labor- vs. Feldforschung 

2. Web-Experimente 

3. Einzelfallforschung 

4. Quer- und Längsschnittstudien (z.B. Panelforschung) 

5. Sekundäranalysen 

2.1.1. Labor- vs. Feldforschung 

Laborforschung: in künstlichem, z. Zweck der Untersuchung entwickeltem Umfeld 

Vorteile: 

Situation und Verhalten sind leichter manipulierbar 

Bessere Kontrolle der Störvariablen 

Schaffung optimaler Bedingungen für die Untersuchung (höhere interne 

Validität) 

Nachteile: 

unnatürliche und ungewohnte Umgebung (mögl. Abhilfe: 

Gewöhnungsphase) 

Die Personen wissen, dass sie untersucht werden und verändern deswegen 

u.U. ihr Verhalten (Reaktanz) 

Kann man die Ergebnisse auf „normales“ Verhalten übertragen (externe 

Validität?!)? 

Feldforschung: in natürlichem Umfeld 

Vorteile: 

natürliche Umgebung 

Spontanes, „normales“ Verhalten 

Keine oder nur geringe Verfälschung durch Wissen um Studie 

Besser übertragbar auf natürliches Verhalten (höhere externe Validität) 

Nachteile: 

Schlechte Kontrolle der Störvariablen 

Manipulation von Situation und Verhalten schwierig 

Verhalten nur schwer zugänglich 

Keine optimalen Untersuchungsbedingungen (interne Validität?!) 

Es ist allgemeiner Konsens, dass die Laborforschung eine hohe interne-, dafür aber 

eine geringe externe Validität hat, während es bei der Feldforschung umgekehrt ist. 

Dafür spricht die hohe inhaltliche Validität dieser Annahme und die Tatsache, 

dass die Ergebnisse der Feld- und Laborforschung z.T. stark divergieren. 

Kritisch angemerkt werden muss jedoch, dass es keine systematischen 

Vergleiche von Labor- und Feldforschung gibt und dass die besagte Annahme 

auf dem Vergleich der Pole der jeweiligen Forschungsrichtungen beruht; 

Mischformen (wie z.B. die experimentelle Felduntersuchung) bleiben also 

unberücksichtigt. 

Welche der beiden Forschungsformen sinnvoller ist, hängt v.a. vom aktuellen 

Kenntnisstand ab: 

Liegen z.B. schon viele Laborstudien vor, die intern valide Methoden 

vorschlagen, dann empfiehlt sich eine Feldstudie. 

9

Empfehlenswert ist außerdem die Kombination beider Forschungsformen in einer 

sog. experimentellen Felduntersuchung. 

z.B. die Veränderung politischer Einstellungen durch die Lektüre von 

Tageszeitungen. 

2.1.2. Web-Experimente 

Ergänzung zur klassischen Feld- und Laborforschung 

Vorteile: 

ermöglicht die Untersuchung heterogener Populationen 

sehr große Stichproben (hohe statistische Power) 

geringer organisatorischer und finanzieller Aufwand 

Hoher Automatisierungsgrad (Kontrolle von VL-Artefakten) 

Hohe externe Validität (Generalisierung auf Populationen, Settings und 

Situationen, da der Versuch ja „zum Probanden kommt“) 

Nachteile: 

Möglichkeit einer Mehrfachteilnahme der Pbn (Lösung: 

Personalisierungsitems; Überprüfung der internen Konsistenz und der 

Zeitkonsistenz der Antworten) 

Fehlende Vl-Vp-Interaktion (keine Möglichkeit zur Nachfrage) 

Hohe Dropout (Abbrecher)-Quote 

Interne Validität aufgrund nicht kontrollierbarer Störvariablen fraglich 

(unterschiedliche „Versuchsräume“, Bildschirmgrößen,…) 

Zu unterscheiden ist zwischen „Item-Non-Respondern“ und „Unit-Non-Respondern“ 

Item-Non-Response: Nichtbeantwortung einzelner Items 

Lösung bei Web-Experimenten: Es müssen einfach alle Items beantwortet 

sein, bevor der Fragebogen anerkannt wird. 

Unit-Non-Response: Komplette Verweigerung der Auskunft (Ablehnung der 

Teilnahme, keine Rücksendung des Fragebogens, vorzeitiger Abbruch) 

Die Unit-Non-Responderquote kann z.B. durch finanzielle Anreize und 

persönliche Fragen zu Versuchsbeginn verringert werden. Außerdem sollten 

ladeaufwendige Inhalte (Bilder, Filme, Sounds) vermieden werden. 

Verringerung der Dropout-Quote: 

High-Hurdle-Technique 

konzentrierte Darbietung evtl. demotivierender Informationen am 

Versuchsbeginn 

Aufwendigere Items, die eine höhere Konzentration erfordern (viel Text usw.) 

ebenfalls am Anfang des Versuchs platzieren. 

Warm-Up-Technique 

genaue Instruktion und Übungsseiten vor dem Beginn des eigentlichen 

Versuchs, da die meisten Dropouts bereits nach wenigen Seiten auftreten. 

Seriosness-Check 

Abfragen der Involviertheit der Pbn vor Versuchsbeginn (evtl. Nicht- 

Zulassung zum Versuch) 

Steigerung der internen Validität: 

Erfassung der Computermerkmale des Pbn (Browsertyp, 

Bildschirmmerkmale,…) 

10

2.1.3. Einzelfallforschung 

Wenn lediglich eine Untersuchungseinheit vorliegt: 

ein einzelnes Individuum (z.B. bei seltenen Krankheiten) 

ein genau abgrenzbares Kollektiv (z.B. ein Verein, eine Kultur) 

Ziele: (1) Detaillierte und sorgfältige Beschreibung eines Phänomens; 

(2) Hypothesengenerierung 

Vorteile: 

Das Problem der externen Validität stellt sich nicht, da die Ergebnisse ohnehin 

nicht auf eine Gesamtpopulation übertragen werden sollen. 

Es muss kein großer Aufwand auf die Standardisierung des Verfahrens 

verwendet werden. 

Nachteile: 

Nahezu nicht replizierbar und damit auch nur bedingt generalisierbar 

Die Zusammenfassung von Einzelergebnissen ist problematisch 

2.1.4. Längsschnittstudien 

Definition: Dieselbe Stichprobe von Individuen wird mehrmals zu verschiedenen 

Zeitpunkten mit demselben oder einem vergleichbaren Messinstrument untersucht. 

z.B.: Untersuchung der kognitiven Entwicklung im Kindesalter: Dieselben 

Kinder werden zu unterschiedlichen Zeitpunkten untersucht. 

Vorteile: 

Unterschiede in den Messwerten dürfen als intraindividuelle Veränderungen 

interpretiert werden. 

Unterschiede innerhalb der Stichprobe dürfen als interindividuelle Unterschiede 


Für die Auswertung von abhängigen Stichproben („Within-Subject-Design“) 

stehen effizientere statistische Verfahren zur Verfügung. 

Nachteile: 

Beeinflussung der Ergebnisse durch „Zeiteffekte“ (s.o.): 

Geschichtlichkeit: Die Anwendung derselben Methode über einen längeren 

Zeitraum hinweg bzw. in verschiedenen Altersgruppen ist fraglich. Der 

Einfluss geänderter Umweltbedingungen ist schwer kalkulierbar! 

Entwicklung: Mortalität und Alterung der Probanden 

Testeffekte: Lerneffekte, reaktive Effekte 

Das Untersuchungsverfahren kann im Lauf der Studie nicht mehr geändert 

werden, ohne die Vergleichbarkeit der Ergebnisse zu gefährden. 

Beispiel: Panelforschung 

Definition: in bestimmten zeitlichen Abständen („Wellen“) werden von 

denselben Untersuchungseinheiten dieselben Merkmale erhoben. 

z.B. regelmäßige Befragungen zum Einkaufsverhalten 

Ziel: Erfassung intraindividueller und interindividueller Veränderungen über die 

Zeit hinweg 

Nachteile und Störvariablen: 

Lerneffekte sind abhängig von der Zahl und dem zeitlichen Abstand der 

erhebungen („Wellen“). 

Durch die Befragung können reaktive Testeffekte auftreten (z.B. erhöhtes 

Preisbewusstsein). 

11

Mortalität (zufälliger und systematischer Ausfall von Erhebungseinheiten): 

Bei systematischen Ausfällen tritt der „Effekt der positiven Selbstauswahl“ 

auf, da es von Persönlichkeitsmerkmalen (Motivation usw.) abhängt, wer 

aussteigt (s.o.). 

Selektionseffekte sind bereits in der Anwerbungsphase zu erwarten: die 

Verweigerungsquote liegt bei über 20%! 

Geschichtlichkeit (s.o.) 

Lösungsvorschläge: 

Bildung sehr großer Ausgangsstichproben, damit trotz Mortalität am Ende 

genügend Einheiten übrig bleiben (bleibt allerdings das Problem der positiven 

Selbstauswahl) 

Auffüllen der ausgefallenen Einheiten (Vergleichbarkeit?!) 

Alternierendes Panel: Bildung von (zwei) Subgruppen, die abwechselnd 

untersucht werden; Vorteil: größerer zeitlicher Abstand zwischen den 

„Wellen“ und weniger „Wellen“ => weniger Testeffekte; Nachteil: enorm 

große Ausgangsstichprobe vonnöten 

Rotierendes Panel: Bildung mehrer Subgruppen, wobei nur eine Subgruppe 

bei allen Wellen teilnimmt, die anderen nur bei bestimmten, manche nur bei 

jeweils einer Welle; Vorteil: bessere Kontrolle der „Zeiteffekte“; Nachteil: 

sehr aufwendig, da bei jeder „Welle“ eine neue Subgruppe gebildet werden 

muss. 

Geteiltes Panel: Nur eine Subgruppe durchläuft alle Wellen, die übrigen 

Subgruppen jeweils nur eine, wobei auch hier die Zahl der Wellen der Zahl 

der Subgruppen entspricht; Vorteil: nur bei der ersten Gruppe schlagen die 

negativen Effekte voll durch, bei den übrigen gar nicht bzw. nur bedingt; 

Nachteil: siehe rotierendes Panel! 

2.1.5. Querschnittstudien 

Definition: Zu einem bestimmten Zeitpunkt werden mehrere Stichproben von 

Individuen mit demselben oder einem vergleichbaren Messinstrument jeweils 

nur einmal untersucht. 

z.B.: Untersuchung der kognitiven Entwicklung im Kindesalter: Kinder 

verschiedenen Alters werden zum selben Zeitpunkt untersucht. 

Vorteile: 

Kurze Durchführungsdauer der Untersuchung; geringerer Aufwand 

Umfang der Stichprobe bleibt im Erhebungszeitraum konstant 

Nachteile: 

Unterschiede zwischen den Versuchsgruppen können durch Unterschiede 

zwischen den Gruppen oder zwischen den Probanden bedingt sein – und müssen 

insofern nicht unbedingt eine Folge der UV sein. 

Unabhängige Stichproben erlauben keine Aussagen zu intraindividuellen 

Unterschieden. 

Für unabhängige Stichproben stehen weniger effiziente statistische Verfahren zur 

Verfügung. 

Generalisierung der Ergebnisse über den Zeitpunkt der Untersuchung hinaus ist 

streng genommen nicht zulässig. 

12

2.1.6. Sekundäranalysen 

Primäranalysen: Selbständige Datenerhebung 

Sekundäranalysen: Rückgriff auf bereits existierende Datenbestände 

z.B.: Wirtschaftsforschung (Bruttoinlandsprodukt), Literaturreviews,… 

Vorteile: geringer Aufwand 

Nachteile: Qualität der Daten hängt vom jew. Untersucher ab; die Daten sind u.U. 

veraltet und wurden zu anderem Zweck erhoben (Übertragbarkeit auf die eigene 

Fragestellung?!) 

2.2. Selektion: Das Problem der Stichprobe 

Definitionen: 

Population (Grundgesamtheit): Alle potentiell untersuchbaren Einheiten, die 

ein gemeinsames Merkmal, eine gemeinsame Merkmalskombination 

aufweisen 

Stichprobe: Teilmenge aller Untersuchungseinheiten, die die relevanten 

Eigenschaften der Grundgesamtheit möglichst gut abbildet. 

Man unterscheidet zwischen globaler und spezifischer Repräsentativität 

Je besser die Stichprobe die Population repräsentiert, desto präziser sind 

die Aussagen über die Grundgesamtheit 

Je größer die Stichprobe, desto präziser sind die Aussagen über die 

Grundgesamtheit. 

Zufallsgesteuerte Stichproben: 

1. Zufallsstichprobe: 

In eine Zufallsstichprobe kann jedes Element der Grundgesamtheit mit 

gleicher Wahrscheinlichkeit aufgenommen werden. 

z.B. zufällige Stichprobenauswahl über das Einwohnermeldeamt 

Empfohlen, wenn über das relevante Untersuchungsmerkmal praktisch nichts 

bekannt ist. 

2. Klumpenstichprobe: 

Bei einer Klumpenstichprobe wird auf mehrere, zufällig ausgewählte 

Teilmengen zurückgegriffen, die ihrerseits bereits vorgruppiert sind. 

z.B. mehrere Schulklassen einer Jahrgangsstufe 

Wird nur ein zufällig ausgewählter Klumpen untersucht (z.B. eine 

Schulklasse), spricht man von einer Ad-hoc-Stichprobe. 

Empfohlen bei ökonomischen Zwängen 

3. Geschichtete (stratifiziere Stichprobe): 

Geschichtete Stichproben sind Stichproben, deren Einheiten sich bezüglich 

einer oder mehrerer das Untersuchungsmerkmal moderierender Variablen 

unterscheiden; die Auswahl innerhalb einer Schicht erfolgt nach dem 

Zufallsprinzip. 

z.B.: Berücksichtigung des Jahreseinkommens bei der Befragung zu 

Konsumgewohnheiten. 

proportional geschichtet: Die prozentuale Verteilung der 

Schichtungsmerkmale der Stichprobe stimmt mit deren Verteilung in der 

Grundgesamtheit überein. 

Problem: Explosion der Schichtanzahl bei mehreren Schichtungsvariablen 

(da deren verschiedene Kombinationsmöglichkeiten berücksichtigt werden 

müssen) 

13

4. Mehrstufige Stichprobe: 

Stichprobenartige Untersuchung von Klumpen- oder geschichteten 

Stichproben 

Empfohlen, wenn die Klumpen bzw. Schichten zu groß sind 

Nicht-zufallsgesteuerte Stichproben (unter allen Umständen zu vermeiden!): 

1. Anhand willkürlich definierter Kriterien zusammengestellte Stichproben 

2. Quotenstichproben: 

Von jeder Stichprobe müssen bestimmte Quoten erfüllt werden (z.B. soundso 

viele Frauen, soundso viele Männer usw.) 

wird häufig in der Umfragenforschung verwendet. 

Probleme: 

Nur die prozentuale Aufteilung der Quotierungsmerkmale wird 

betrachtet, i.d.R. nicht deren Kombinationsmöglichkeiten (wie bei der 

geschichteten Stichprobe) 

Die Auswahl der Einheiten innerhalb dieser Quoten bleibt id.R. dem 

Untersucher überlassen und erfolgt deswegen meist nicht nach dem 

Zufallsprinzip (wie bei der geschichteten Stichprobe), sondern z.B. nach 

dem Verfügbarkeitsprinzip (bei Befragungen werden z.B. oft die 

höheren Stockwerke vernachlässigt). 

Die Repräsentativität von Stichproben: 

Stichprobenkennwerte sind Schätzwerte; sie repräsentieren die 

entsprechenden Populationsparameter immer nur mit einer gewissen 

Wahrscheinlichkeit. 

=> Die für die Stichprobe erhobenen Messwerte sind Schätzwerte für die wahren 

Werte (in der Population). 

Das Vertrauens- bzw. Konfidenzintervall gibt an, zwischen welchen Werten 

sich der wahre Wert bei gegebenem Stichprobenwert mit hoher 

Wahrscheinlichkeit (meistens 95%) bewegt. 

Je größer die Stichprobe, desto kleiner das Konfidenzintervall. 

Will man das Konfidenzintervall verkleinern, muss man den 

Stichprobenumfang entsprechend vergrößern (quadrieren!) 

=> Halbierung des Konfidenzintervalls = 4-facher Stichprobenumfang 

14

3. Datenquellen I: Beobachtung 

3.1. Was ist eine Beobachtung? 

Bebachtung ist in den empirischen Wissenschaften die grundlegende Methode der 

Datengewinnung. 

Definition (nach Laatz): Das „Sammeln von Erfahrung im nicht-kommunikativen 

Prozess mit Hilfe sämtlicher Wahrnehmungshilfen“ 

Alltagsbeobachtung: unsystematisch, naiv 

Wissenschaftliche Beobachtung: zielgerichtet, methodisch kontrolliert 

Zielgerichtetheit: 

Zielgerichtetheit ist notwendig, aufgrund der begrenzten Informationsverarbeitungskapazität 

des Beobachters. 

Zielgerichtetheit impliziert, dass der Beobachter eine Theorie über den 

Beobachtungsgegenstand hat. 

Methodische Kontrolle: 

Beachtung des Kontextes (Wo wird beobachtet?) 

Kontrolle des Beobachterverhaltens (da Wahrnehmung ein aktiver Prozess ist) 

Speichern der Beobachtung (Der Zugriff auf die Beobachtungsergebnisse sollte 

jederzeit zugänglich sein) 

Wissenschaftliche Beobachtung umfasst die verschiedensten Methoden: 

Ablesen von Skalen 

Auswertung von Fragebögen 

(Direktes) Beobachten von Verhalten 

Ablesen von Testergebnissen (z.B. Reaktionszeiten) 

3.2. Beobachtungssysteme: Die Kodierung von Beobachtungen 

Zu unterscheiden ist zwischen Verbal- und Nominalsystemen. 

1. Verbalsysteme 

Möglichst genaue verbale (freie) Beschreibung von Verhaltensweisen 

Umfassend, da keine Vorgaben; dafür aber schwierig zu standardisieren 

2. Nominalsysteme 

Kodierung beobachteter Verhaltensweisen nach einem bestimmten Schema 

Katalog möglicher Verhaltensweisen, die möglichst genau definiert sind 

Adäquate Übersetzung dieser Verhaltensweisen in Zeichen (Bildung von 

Kategorien: entweder für jede Beobachtungseinheit eine eigene 

Kategorie oder übergeordnete Kategorien, in die sich mehrere ähnliche 

Beobachtungseinheiten einordnen lassen) 

Beobachtung als Zuordnung zu Kategorien (Dauer und Häufigkeit eines 

Verhaltens; nominalskaliert): 

1. Time-Sampling (Zeitstichprobe) 

Beobachtungseinheit = festes Zeitintervall 

Es wird pro Zeitintervall kodiert, welches Verhalten aufgetreten ist 

Ergebnis: annähernde Information über Häufigkeit und Dauer des Verhaltens 

2. Event-Sampling (Ereignisstichprobe) 

Beobachtungseinheit = eine bestimmte Verhaltensweise 

Art der Verhaltensweise sowie deren Beginn und Ende werden 

festgehalten 

Ergebnis: exakte Information über Häufigkeit und Dauer des Verhaltens 

Gefahr der Überforderung, insbes. bei sehr kurzen Verhaltensweisen 

Beobachtung als Einschätzung auf Ratingskalen (Ausprägung eines Verhaltens; 

intervallskaliert). 

15

3.3. Beobachterfehler und wie man sie vermindert 

Ermüdung, Langeweile, Überlastung und Aufmerksamkeitsschwankungen des 

Beobachters 

1. Beobachtertraining 

2. Vereinfachung der Beobachtung (s.u.) 

3. Mehrere Beobachter (Interraterreliabilität und Verwendung von Mittelwerten 

über mehrere Rater) 

4. Aufzeichnung der Beobachtung (= s.u.: „vermittelte Beobachtung“) 

Mangelnde Standardisierung der Beobachtung 

1. Vereinfachung und Standardisierung der Beobachtung 

Begrenzte Anzahl klar definierter Kategorien 

Keine Globalurteile, sondern „Merkmal für Merkmal“ 

Verwendung adäquater Skalen (evtl. kombinierte Verbal- 

/Numeralskalen) 

Beobachtertraining 

Generelle und spezielle Erwartungseffekte sowie Reaktivitätseffekte 

Rosenthal- bzw. Pygmalion-Effekt (s.o.) 

Unbeabsichtigte Beeinflussung des Pbn durch verbales u. nonverbales 

Verhalten des Beobachters bzw. durch die Tatsache der Beobachtung 

selbst! 

Zentrale Tendenz 

häufigere Verwendung der mittleren Kategorien 

Milde-Tendenz 

Vermeidung extremer Kategorien 

Primacy-Recency-Effekt 

v.a. bei retrospektiver Beobachtung: die ersten und letzten Beobachtungen 

werden besser gemerkt und sind im Nachhinein leichter abrufbar. 

Halo-Effekt 

Unzulässige Generalisierung von beobachteten Verhaltensweisen auf 

erwartete Persönlichkeitsmerkmale 

1. Beobachtertraining (Problembewusstsein) 

2. Postumer Ausschluss einzelner Beobachter und/oder Beobachtungsgegenstände 

(bei der Auswertung) 

3. Mehrere Beobachter (Interraterreliabilität) 

4. „Einseitig verdeckte Beobachtung“ (z.B. durch Coverstory, s.u.) 

5. „Indirekte Beobachtung“ (keine Interaktion zw. Vp und Vl, s.u.) 

6. „Vermittelte Beobachtung“ (Aufzeichnung des Verhaltens, s.u.) 

7. Gewöhnungsphase (zur Abschwächung reaktiver Effekte seitens der Vp) 

16

3.4. Selbst- und Fremdbeobachtung 

Probleme der Selbstbeobachtung: 

Reaktivität: Die Tatsache, dass der Beobachter weiß, was beobachtet werden 

soll, kann die Beobachtung beeinflussen. 

Da Verhalten und Beobachtung simultan ablaufen, Gefahr der kognitiven 

Überforderung (Grenzen der Verarbeitungskapazität); Probleme retrospektiver 

Beobachtung (s.o.) 

Veränderung des Beobachtungsgegenstandes durch die Beobachtung 

(Reaktivität) 

Nicht alle Phänomene können von einem selbst beobachtet werden. 

Die Ergebnisse der Beobachtung sind nicht nachprüfbar. 

Aspekte der Fremdbeobachtung: 

Natürliches vs. künstliches Beobachtungsumfeld 

Siehe oben: Feld- und Laborforschung 

Wissentliche / offene vs. unwissentliche / verdeckte Beobachtung 

Unwissentlich (non-reaktiv): Probanden wissen nicht, dass sie beobachtet 

werden (z.B. durch eine Einwegscheibe, mittels einer versteckten 

Kamera,…) = einseitige Verbindung vom Vl zur Vp 

einseitig verdeckt (non-reaktiv): Proband weiß nicht, was beobachtet wird 

(z.B. Coverstories) 

beidseitig verdeckt (non-reaktiv): 

wissentlich/offen (reakativ): Reaktivitätsprobleme (s.u.)!! 

Teilnehmende vs. nicht-teilnehmende Beobachtung 

Nicht-teilnehmend: Beobachter hat keinen Einfluss auf den 

Versuchsgegenstand; es findet keine Interaktion zw. Vp und Beobachter 

statt 

Teilnehmend: Problem der Reaktivität und der möglichen Überforderung 

des Beobachters (begrenzte Verarbeitungskapazität) 

Direkte vs. indirekte (non-reaktive) Beobachtung 

Direkte Beobachtung: das Verhalten selber wird beobachtet. 

Indirekte Beobachtung: Lediglich die Spuren bzw. Auswirkungen des 

Verhaltens werden beobachtet (z.B. Wrong-Number Technik, Lost-Letter 

Technik, Auswertung bereits vorhandener Dokumente,…). 

* Die Interpretation solcher Daten verlangt eine Verhaltenstheorie 

(Welches Verhalten hat die Daten erzeugt?) und eine 

Stichprobentheorie (Wer kann die Daten erzeugt haben?); eine 

Individualzuweisung der Daten ist meistens nicht möglich. 

Vermittelte vs. unvermittelte Beobachtung 

Vermittelte Beobachtung: Zu beobachtendes Verhalten wird gespeichert 

(z.B. mittels Audio- oder Videoaufnahme), und ist dadurch beliebig 

abrufbar und wieder verwendbar. 

Unvermittelte Beobachtung: mindestens 2 Beobachter 

17

3.5. Güte einer Beobachtung 

Retest-Reliabilität (intraindividueller Vergleich der Beobachter) 

Übereinstimmung der Beobachtungsergebnisse bei wiederholter Durchführung 

(Stabilität und Konsistenz eines Beobachters) 

Interraterreliabilität (interindividueller Vergleich der Beobachter) 

Übereinstimmung verschiedener Beobachter (Kappa-Maß) 

Interpretation: Die zufallskorrigierte Beobachterübereinstimmung beträgt X %. 

gute Übereinstimmung: Kappa-Werte > 70% 

zufrieden stellende Übereinstimmung: Kappa-Werte > 50% 

3.6. Zusammenfassung: Aspekte des Beobachtungsprozesses 

Objekt der Beobachtung 

Subjekt der Beobachtung 

Umstände der Beobachtung 

Mittel der Beobachtung (Sinnesorgane; Geräte; Prozeduren) 

Implizites oder explizites theoretisches Wissen, mit dessen Hilfe die o.g. Aspekte 

aufeinander bezogen werden. 

18

4. Datenquellen II: Befragung 

4.1. Was ist Befragung? 

Alltagsverständnis: verbale Kommunikation zwischen Personen 

Wissenschaftliches Verständnis: Informationsfluss zwischen Personen (nicht 

zwangsläufig verbaler Art) 

Kennzeichen einer wissenschaftlichen Befragung ist die Kontrolle jedes 

einzelnen Befragungsschrittes: 

Systematische Vorbereitung und Durchführung (präzise Formulierung 

der Fragen; genaue Instruktion; Wahl eines adäquaten 

Befragungsinstruments usw.) 

Berücksichtigt werden müssen dabei v.a. die Befragungssituation sowie 

Personenmerkmale des Interviewers und des Befragten (s.u.) 

4.2. Klassifikation von Befragungen 

4.2.1. Ausmaß der Standardisierung 

Man unterscheidet zwischen strukturierten, halb-strukturierten und unstrukturierten 

Befragungen. 

Eine standardisierte bzw. strukturierte Befragung gibt die Abfolge und den 

Wortlaut der Fragen vor. Antwortvorgaben sind dagegen nicht unbedingt notwendig. 

Offene Fragen sind also auch in einer standardisierten Befragung durchaus möglich. 

Offene Fragen (freie Formulierung der Antworten): bei stetigen Merkmalen 

(z.B. Alter) oder wenn die Antworten vorher nicht absehbar sind 

Geschlossene Fragen (Vorgabe mehrerer Antwortoptionen): wenn eine 

Begrenzung der Antworten auf bestimmte Bereiche sinnvoll erscheint; 

einfachere Auswertung 

Standardisierte Befragungen eignen sich bei umgrenzten Themenbereichen oder 

wenn bereits Vorwissen zu dem betreffenden Thema besteht. 

Bei halbstandardisierten Befragungen orientiert sich der Interviewer an einem mehr 

oder minder groben Leitfaden. Reihenfolge und Art der einzelnen Fragen sind also 

nicht vollkommen vorgeschrieben. Ermöglicht höhere Flexibilität; daher am besten! 

Teilweise offene, teilweise geschlossene Fragen 

4.2.2. Autoritätsanspruch des Interviewers 

Man unterscheidet zwischen „weichen-“, „harten-“ und „neutralen Interviews“. 

„Weiche“ Interviews beruhen auf den Prinzipien der Gesprächstherapie (nondirektiv, 

emphatisch, wertschätzend, selbstkongruent) 

Ziel: aufrichtige, offene und reichhaltige Antworten (ohne Hemmungen) 

„Harte“ Interviews: autoritär-aggressiver Fragestil, häufiges Anzweifeln der 

Antworten, schnelle Aufeinanderfolge der Fragen 

Ziel: „Überrennen“ von Abwehrmechanismen 

„Neutrale“ Interviews: Betonung der informationssuchenden Funktion der 

Befragung; Fragender und Befragter als gleichwertige Partner 

19

4.2.3. Art des Kontakts 

Man unterscheidet zwischen direkten/persönlichen, telefonischen und schriftlichen 

Befragungen. 

Persönliche Befragung („Face-to-Face-Interview“): hoher Aufwand, dafür hohe 

subjektive Vertraulichkeit 

Telefonische Befragung („Telefoninterview“): schnell und preiswert; vom Befragten 

als anonymer und weniger bedrängend erlebt als persönliche Interviews; geringe 

Verweigerungsquote 

Schriftliche Befragung („Paper-and-Pencil“): kostspielig, unkontrollierte 

Erhebungssituation, heterogene Rücklaufquote, statt sequentieller Reihenfolge 

simultan (da vor- und zurückgeblättert werden kann) 

Neuere, computerunterstützte Befragungstechniken: 

“Computer Assisted Personal interviewing“ (CAPI) 

“Computer Assisted Telephone Interviewing” (CATI) 

“Computer Assisted Self Interviewing” (CASI) 

“Computer Self-Administered Questionnaire” (CSAQ) 

“Disk by Mail” (DBM) 

Voice Recognition (VR) 

4.2.4. Anzahl der befragten Personen 

Man unterscheidet zwischen Gruppen- und Einzelinterviews 

Einzelinterviews: bei Themenbereichen, in denen Gruppeneffekte auftreten können 

(Leistungsdruck, sozialer Druck) 

Gruppeninterviews: Geringere Kosten; einheitliche Befragungssituation für 

jeweilige Gruppe 

Befragte machen Angaben auf Antwortbogen 

4.2.5. Anzahl der Interviewer 

Zu unterschieden ist zwischen: Ein Interviewer; „Tandem“ und „Hearing“ 

Ein Interviewer: am ökonomischsten 

Tandem-Interview (2 Interviewer): sinnvoll bei anspruchsvollen Interviews, wie 

z.B. Expertenbefragungen 

Hearing / Board-Interviews (Mehrere Interviewer): Möglichkeit der gegenseitigen 

Ergänzung, vom Befragten als belastend wahrgenommen (z.B. bei 

Personalkommissionen) 

4.2.6. Funktion des Interviews 

Informationsermittelnde Funktion: Erfassung von Fakten (z.B. Zeugeninterviews; 

Panel-Befragungen,…) 

Invormationsvermittelnde Funktion: Beratungsgespräche (z.B. Berufsberatung) 

20

4.3. Allgemeines psychologisches Grundmodell der Befragung 

Die Antwort einer Person hängt ab von: 

1. Aspekten der Frage (z.B. Wortlaut, Reihenfolge) 

2. Merkmalen des Befragten (z.B. Motivation, Kompetenz) 

3. Kontext der Befragungssituation (z.B. Art, Zweck, Merkmale des Interviewers) 

Ergo: Es gibt eine Vielzahl an Einflussfaktoren auf die Antwort 

4.3.1. Aspekte der Frage 

Die Reihenfolge der Frage kann die Antwort beeinflussen. 

Werden kontextuell ähnliche Fragen direkt hintereinander gestellt, versucht der 

Befragte die 2. Frage meist einem anderen Kontext zuzuordnen und etwas anderes, 

sprich neues, zu antworten („Given-new-Contract“). 

Ergo: Thematisch oder kontextuell ähnliche Fragen immer auseinander 

ziehen! 

Die Formulierung der Fragen kann die Antwort beeinflussen (möglichst präzise und 

einfach). 

Die Formatierung der Antwortskala (s.u.) hat einen Einfluss darauf, wie die 

dazugehörige Frage interpretiert wird. 

Wie oft ärgern sie sich?! 

Skala 1: mehrmals am Tag …Weniger als 1 Mal pro Woche 

Skala 2: mehrmals im Jahr … Weniger als 1 Mal pro Jahr 

4.3.2. Merkmale des Befragten 

Motivation: Pb will keine validen Angaben machen 

Demand-Effekte: Pb will die „Erwartungen“ des Befragers erfüllen 

Soziale Erwünschtheit: Formulierung sozial akzeptierter Antworten 

„Self-Disclosure“: Auskunftsverweigerung (Item- vs. Unit-Nonresponder) 

Kompetenz: Pb kann keine validen Angaben machen 

Pb ist von den Fragen überfordert und kann schlicht und einfach nicht antworten! 

4.3.3. Kontext der Befragungssituation 

Der Zweck einer Befragung beeinflusst die Bereitschaft, daran teilzunehmen und 

Ausführlichkeit und Inhalt der Antworten. 

Befragung als wahrgenommenes „Bürgerreferendum“ (extremere Positionen); 

Befragung als wahrgenommenes „intimes Gespräch“ (Orientierung an der 

Meinung des Interviewers) 

Merkmale des Interviewers (wie Alter, Geschlecht, Rasse,…) können die Antworten 

beeinflussen. 

Beispiel: ein Ausländer führt Befragung zu Ausländerfeindlichkeit durch 

(Demandeffekte, soziale Erwünschtheit,…) 

21

4.4. Formatierung der Antwortskala 

Numeralskala (Zahlenwerte): z.B. von 0 bis 5 (unipolar) oder von -2 bis 2. 

(-) Verwendung negativer Skalenwerte ist umstritten 

(-) Fraglich, ob Ureile in Zahlen ausgedrückt werden können (evtl. zu abstrakt) 

Daher: (+) Verbale Verankerung der Pole!! 

(-) Anfälliger für Urteilseffekte als Verbalskalen 

Verbalskala (Begriffe): z.B. von „stimmt gar nicht“ bis „stimmt völlig“ 

(-) Durch verbale Bezeichnung u.U. unpräzise 

(-) Äquidistanz zwischen den Kategorien nicht immer sichergestellt 

(+) Weniger anfällig für Urteilseffekte als Numeralskalen 

Symbolskalen: z.B. „Thermometerskala“, „Kunin-Skala“ (mit Smileys) 

(+) v.a. bei Kindern sinnvoll 

Visuelle Analogskala: Antworten werden auf einer kontinuierlichen Linie abgetragen 

(z.B. von „sehr selten“ bis „sehr häufig“) 

(-) Hoher Auswertungsaufwand 

(-) Anfangs höhere Unsicherheit bei den Probanden 

(+) Später aber: höhere Motivation der Befragten und schneller Antworten 

(+) Feinere Abstufungen des Urteils möglich 

(+) Entspricht Intervallniveau 

(+) Geringe Erinnerungseffekte: Pbn können sich angegebene Position nur 

schwer merken 

Standardskala: Eine durch Beispiele verankerte Skala 

(-) Hoher Entwicklungsaufwand 

(+) Plastische Wirkung für Befragten 

Empfehlungen: 

Bei Numeralskalen: Verbale Verankerung! 

Kategorienzahl an der Differenziertheit des Messgegenstandes und der 

Differenzierungsfähigkeit der Befragten ausrichten 

* Rohrmann empfiehlt Ratingskalen mit 5 Kategorien; bei akademischen 

Stichproben aber auch größere Kategorienzahl möglich. 

Ungerade Anzahl von Kategorien bzw. Aufnahme einer Mittelkategorie 

(„weder-noch“/ „unentschieden“) 

(-) Sind Mittelkategorien explizit vorgegeben, werden sie auch häufiger 

genutzt. 

(-) Unterscheidung von Unwissenheit, neutraler Position und Bequemlichkeit 

nur schwer möglich. 

=> Daher: Einführung einer optisch getrennten Ausweichkategorie für 

Unwissenheit. 

Gerade Anzahl von Kategorien (keine Mittelkategorie) 

(+) Entscheidung des Pb wird erzwungen 

(- ) Gefahr häufiger Missings 

Bei bipolaren Skalen: Balancierung (sprich: genauso viele positive wie 

negative Kategorien + eine Mittelkategorie) 

22

4.5. Auskunftsverweigerung 

Item-Nonresponder: Nichtbeantwortung einzelner Items 

Ursachen: Verweigerung der Auskunft (v.a. bei intimeren Fragen), Nicht- 

Informiertheit, Meinungslosigkeit, Unentschlossenheit 

Personenprofil: Unsichere Personen, ältere Menschen, Personen mit geringem 

Sozialstatus 

Unit-Nonresponder: komplette Auskunftsverweigerung 

Kontrollmöglichkeiten: Hinreichend große Stichprobe, Auffüllen der 

Stichprobe 

Problem: Systematische Unterschiede zwischen Respondern und 

Nonrespondern => Verzerrung der Stichprobe (Repräsentativität) 

Personenprofil: 

bei Interviews: ältere Menschen, Frauen, geringer Bildungsstatus 

bei schriftlichen Befragungen: geringer Bildungsstatus, geringere 

Intelligenz, geringes Interesse am Thema, fehlende Beziehung zum 

Unterssucher 

Verweigerungsquoten: 

Bei persönlicher Befragung: 7-14% 

Bei telefonischer Befragung: 7% 

Bei schriftlicher Befragung: 10-90% 

Freistempelung des Briefes (34%); frankierter Rückumschlag (26%) 

Computerunterstützte Befragung: ähnliche Verweigerungsquoten, aber höhere 

Rücklaufgeschwindigkeit! 

Die Rücklaufquoten bei schriftlichen Befragungen können gesteigert werden, durch: 

Stichproben, die den Umgang mit schriftlichen Texten gewohnt sind 

aktuelle und interessante Themen 

ansprechende Gestaltung des Fragebogens 

vorheriges Ankündigungsschreiben (2 mal so hoch) oder kurzen Anruf (3 mal 

so hoch) 

Festlegung einer Deadline (Einsendeschluss) 

Entscheidend für die Qualität und Verwertbarkeit einer schriftlichen Befragung ist 

nicht die Höhe des Rücklaufs, sondern die Repräsentativität der Stichprobe! 

Möglichkeiten zur qualitativen Kontrolle der Rückläufe: 

Überprüfung der Repräsentativität (z.B. mittels Sozialstatistiken) 

Gezielte telefonische, schriftliche oder persönliche Nachbefragung der Non- 

Responder 

23

5. Datenquellen III: Apparative Techniken 

5.1. Psychophysiologische Methoden 

Grundannahme: „Die Herstellung kausaler Beziehungen zwischen Gehirn, Körper 

und Verhalten erfordert die simultane Erfassung und Beeinflussung von 

physiologischen und psychologischen Variablen.“ (Birbaumer & Schmidt) 

Dabei sind 2 Strategien zu unterscheiden: 

1. Manipulation des physiologischen Substrats (UV) => Beobachtung des 

Verhaltens (AV) 

z.B. Zerstörung oder Reizung einer Hirnregion (UV) => Beobachtung 

des Verhaltens (AV) 

v.a. in der biologischen Psychologie und Neuropsychologie 

angewandt (überwiegend Tierversuche) 

Ziel ist es, Zusammenhänge zwischen Hirnstrukturen und 

Verhalten herauszufinden. 

2. Manipulation des Verhaltens (UV) => Veränderungen des Substrats 

(AV) 

z.B. Darbietung eines Reizes (UV) => Messen der elektrischen 

Hirnaktivität (AV) 

wird v.a. in der Psychophysiologie angewendet (Humanversuche) 

Ziel ist es, Zusammenhänge zwischen Hirnprozessen und Verhalten 

herauszufinden. 

Biosignale: Alle physikalisch messbaren, kontinuierlich oder nahezu 

kontinuierlich registrierbaren Körperfunktionen. 

Folgende Arten von Biosignalen sind zu unterscheiden: 

1. Direkte bioelektrische Signale 

Gehen mit elektrischen Spannungsänderungen einher: z.B. Herzschlag 

oder Hirnaktivität 

2. Indirekte bioelektrische Signale 

z.B. Hautleitfähigkeit (gibt Auskunft über die Schweißproduktion) 

3. Nicht-elektrische Biosignale 

z.B. Blutdruck, Atemfrequenz, Temperatur (lassen sich in nahezu 

kontinuierliche, bioelektrische Signale umwandeln!) 

Biosignale werden über die Amplitude, Frequenz, und Wellenform interpretiert! Je 

nach Fragestellung kann auch nur eine dieser Ausprägungen relevant sein. 

5.2. Messanordnung 

Die typische Messanordnung zur Erhebung von Biosignalen umfasst 4 Schritte: 

1. Messquelle: Biosignale (s.o.) 

2. Ableitung der Biosignale durch Messfühler (Elektroden, Wandler) 

3. Signalverarbeitung (Filterung und Verstärkung des Signals zur Kontrolle von 

Störgrößen) 

4. Aufzeichnung, Darstellung und Speicherung 

24

Folgende Arten von Messfühlern sind zu unterscheiden: 

Elektroden: Zur Ableitung bioelektrischer Signale 

Bipolare Ableitung: Relevante Spannungsänderung wird mit zwei 

Elektroden erfasst, wobei beide Elektroden über der die Spannung 

erzeugenden Struktur angebracht werden (z.B. EMG). 

Unipolare Ableitung: Spannungsdifferenz zwischen der interessierenden 

Struktur und einer „neutralen“ Referenzelektrode (z.B. EEG, EKG). 

Subdermalelektroden: Unter der Hautoberfläche (v.a. bei Tierversuchen, 

für Psychologen verboten, da diese nur nicht-invasiv arbeiten dürfen) 

Oberflächenelektroden: Auf der Hautoberfläche angebrachte Elektroden 

Wandler: Zur Ableitung nicht-elektrischer Biosignale und deren Umwandlung 

in elektrische Signale 

Mechanische, chemische und andere nichtelektrische Biosignale werden 

durch Wandler in bioelektrische Signale umgewandelt (die Atmung z.B. 

mit einem Atemgürtel, die Temperatur mittels Thermofühler usw.). 

Analog-Wandler: analoges Signal = wert- und zeitkontinuierliche 

Zuordnung einer physikalischen Messgröße zu einer anderen (z.B. Zeit, 

Kraft oder Weg) 

Digital-Wandler: Digitale Signale = wert- und zeitdiskrete Zahlenfolgen 

Störgrößen: Die Messung kann durch sog. Artefekate beeinflusst werden, d.h. 

durch aufgefangene Signale, die anderen Ursprungs sind als das zu messende 

Biosignal. Dabei ist zu unterscheiden zwischen Artefakten physiologischer Herkunft, 

Bewegungsartefakten und Artefakten durch externe elektrische Einstreuung: 

Artefakte physiologischer Herkunft 

Potentialschwankungen und Signalstörungen durch parallel ablaufende 

physiologische Prozesse 

Lösung: bessere Elektroden / elektronische Komponenten 

Bewegungsartefakte 

Lösung: optimale Platzierung der Elektroden 

Artefakte durch externe elektrische Einstreuung 

Lösung: Bessere elektronische Komponenten (Verwendung von 

abgeschirmten Leitungen, Masseelektroden usw.); Abschirmung des 

Raumes bzw. des Probanden; Filterung und Verstärkung 

Filterung: Durch elektronische Filter wird das aufgenommene Signal vor der 

weiteren Verarbeitung aufbereitet; Störsignale werden weitestgehend herausgefiltert. 

Tiefpassfilter: Begrenzen den Frequenzbereich nach oben 

Dämpfung hoher Frequenzen: tiefe (unterhalb der jew. Grenzfrequenz 

gelegene) Frequenzen kommen zu 100 % durch, während hohe 

Frequenzen den Filter nur zu einem geringeren Prozentsatz passieren. 

Tiefpassfilter werden am häufigsten verwendet (z.B. zur Unterdrückung 

von Rauschen, u.a. des 50Hz-Netzgebrumms) 

Hochpassfilter: Begrenzen den Frequenzbereich nach unten 

Dämpfung niedriger Frequenzen: s.o. 

Grenzfrequenz: Frequenz, bei der das Signal auf 70,7% der ursprünglichen 

Amplitude reduziert wird. Je weiter die herauszufilternde Frequenz jenseits 

dieses Grenzwerts liegt, desto stärker die Filterung. 

Problem: Signale, die jenseits der Grenzfrequenz liegen, werden nicht 

vollständig herausgefiltert, sondern lediglich gehemmt. 

Bandpass-Filter: Passage ausgewählter Frequenzbänder 

Bandsperr-Filter: Selektives Herausfiltern spezifischer Frequenzbänder (z.B. 

50Hz- Netzgebrumm) 

25

Prinzip der Differenzverstärkung: Verstärkung von Spannungsdifferenzen 

zwischen 2 Ableiteelektroden. 

Zu diesem Zweck werden 2 Elektroden an jeweils unterschiedlichen Stellen 

angebracht. Da sich Störsignale im Gegensatz zu bioelektrischen Signalen mit 

enormer Geschwindigkeit ausbreiten, kommen sie mehr oder minder 

gleichphasig an den beiden Elektroden an und werden durch Differenzbildung 

fast vollständig eliminiert. 

Was bleibt, ist das relevante bioelektrische Signal, das aufgrund seiner 

langsameren Ausbreitung zu unterschiedlichen Zeitpunkten an den 

Elektroden ankommt und sich dementsprechend bei der Differenzbildung 

nicht aufhebt. 

Masse-Elektroden: gleichen Potentialunterschiede zwischen Proband und Gerät aus. 

Eichung: Erhebung eines Referenzsignals, mit dem dann Eichmessungen 

vorgenommen werden können. Ein Referenzsignal ist ein Signal, dessen Höhe 

bekannt ist und das man gleichzeitig einem bestimmten Verhalten zuordnen kann 

(Wie sieht z.B. das Lidschlusssignal aus bzw. wie verändert es sich, wenn der Blick 

nach vorne auf die Straße, auf den Tacho oder sonst wohin gerichtet ist?!) 

Ziele: (1) Verwendung der Amplitude des Referenzsignals als Bezugsgröße für 

die weiteren Auswertungen. (2) Überprüfung, ob die Verstärkungseinheiten 

adäquat arbeiten. 

5.3. Messprobleme: 

Artefakte (s.o.) 

Spezifitätsproblematik: Physiologische Reaktionen sind nicht eindeutig, sondern 

zumindest z.T. individualspezifisch. Sie können also unabhängig vom Stimulus und 

der Motivation der Vp stark variieren. 

Dem einen schlägt Stress z.B. auf den Magen, dem anderen auf die Blase. 

Außerdem können verschiedene Stimuli und Motivationen dieselbe 

physiologische Reaktion hervorrufen. Z.B. kann die Ursache einer erhöhten 

Herzfrequenz sowohl Angst als auch Freude sein. 

Bei der Auswertung physiologischer Reaktionen muss also bedacht werden, dass es 

sich um individual-, stimuli- und motivationsspezifische Reaktionen handelt. 

Ausgangswertproblematik: Physiologische Reaktionen hängen vom jeweiligen 

Ausgangswert ab. Das Ausgangswertgesetz von Wilder besagt: Je stärker 

vegetative Organe aktiviert sind, desto stärker ist ihre Ansprechbarkeit auf 

hemmende Reize und desto schwächer ist ihre Ansprechbarkeit auf aktivierende 

Reize. 

Regressionseffekt B: Zwischen Ausgangswert und Veränderungswert besteht 

eine negative Korrelation. Dementsprechend enthalten die Veränderungswerte 

einen systematischen Fehler. 

Mögliche Lösungen: 

Differenzbildung: Behandlung – Baseline 

Prozentuale Veränderung: (Behandlung – Baseline)/Baseline 

Kovarianzanalytische Methoden: Baseline als Kovariable 

Regressionsanalytische Methoden 

Physiologische Messungen hängen nicht zuletzt von inneren u. äußeren Variablen ab: 

Äußere Störvariablen: Tageszeit, Raum-/Außentemperatur, Versuchssetting 

Innere Störvariablen: Motivation, Stimmung, Alter, Geschlecht,… 

26

5.4. Physiologische Maße 

Zentrales Nervensystem (Rückenmark und Gehirn) 

EEG (Elektroenzephalogramm): Messung der neuronalen Aktivität im Gehirn 

Bildgebende Verfahren 

PET (Positronen-Emissions-Tomographie): Sichtbarmachung des Gehirnstoffwechsels 

durch Injektion radioaktiv markierter Glucose 

Computertomographie: Absorption von Röntgenstrahlen 

Kernspintomographie: Schwingungsverhalten von Atomen nach 

Magnetbestrahlung 

Peripheres Nervensystem (nervöses Gewebe außerhalb des ZNS) 

EMG (Elektromyogramm): Ableitung elektronischer Potentiale auf der Haut, die 

von der Aktivität des darunter liegenden Muskels herrühren. 

EKG (Elektrokardiogramm): Messung der Herzfrequenz 

SCR (Skin Conductance Response): Messung der elektrischen Hautleitfähigkeit 

der Haut (meist an den Handflächen), um so auf die Aktivität der Schweißdrüsen 

zu schließen: Je aktiver nämlich die Schweißdrüsen, desto leitfähiger die Haut! 

Lidschlagmessung 

Endokrines (hormonelles) System 

Blut-, Urin- und Speichelproben zur Messung des Hormongehalts 

Immunsystem 

Blutproben (je entspannter, desto größer die Immunsystemaktivität) 

Sprechverhalten: Logoport 

27

6. Versuchsplanung I 

6.1. Grundlegendes zur Versuchsplanung 

Grundidee: Um den Kausalzusammenhang zwischen einer UV und einer AV zu 

prüfen, werden Situationen hergestellt, die sich nur durch die Ausprägung der UV 

unterscheiden. Verändert sich in diesem Fall die AV, ist die Veränderung auf die 

Variation der AV zurückzuführen. 

Der Idealfall zweier Situationen, die sich nur in der UV unterscheiden ist in der 

Praxis nicht herzustellen. Stattdessen setzt sich in jedem Experiment die 

Gesamtvarianz aus Primär-, Sekundär- und Fehlervarianz zusammen. 

1. Primärvarianz 

Systematische Variation der Messwerte 

Zurückzuführen auf die Variation der UV 

2. Sekundärvarianz 

Systematische Variation der Messwerte 

Zurückzuführen auf die systematische Variation identifizierbarer 

Störvariablen (= Kontrollvariablen) 

3. Fehlervarianz (Zufallsfehler) 

Unsystematische Variation der Messwerte 

Weder auf den Einfluss der Variation der UV, noch auf den Einfluss der 

Variation identifizierbarer Störvariablen zurückzuführen 

Die UV hat gewirkt, wenn die Primärvarianz größer als die Fehlervarianz ist 

(PV/FV > 1); ob die Wirkung auch signifikant, d.h. wahrscheinlich nicht zufällig, 

ist, kann erst ein entsprechendes Testverfahren zeigen. 

Dabei wird den erhobenen Daten eine Verteilung zugrunde gelegt, die unter der 

Annahme der Nullhypothese zu erwarten ist. 

Bei einer ungerichteten Alternativhypothese (zweiseitige Fragestellung) werden 

die Messwerte an beiden Enden dieser Verteilung erwartet. 

Bei einer gerichteten Alternativhypothese (einseitige Fragestellung) werden die 

Messwerte entweder am oberen oder am unteren Ende der Verteilung erwartet. 

Das Signifikanzniveau (z.B. 5%): Wenn das Ergebnis zu den 5% 

unwahrscheinlichsten Ergebnissen unter dem Modell der Nullhypothese gehört, ist 

das Ergebnis so unwahrscheinlich, dass die zugrunde liegende Nullhypothese 

abgelehnt werden kann; es ist signifikant! 

Fehler 1. Art (Alpha-Fehler): H0 ablehnen, obwohl H0 gilt 

wird im Allgemeinen auf Alpha = 1% oder Alpha = 5% festgelegt 

(Konvention) 

wenn die H0 nicht abgelehnt, sondern bewiesen werden soll, wird das 

Alphaniveau größer gewählt. 

Fehler 2. Art (Beta-Fehler): H0 annehmen, obwohl H0 nicht gilt 

28

6.2. Die Varianzanalyse 

Grundgedanke: In der Varianzanalyse geht es darum, aufzuklären, wie viel 

Variation der AV durch die UV erzeugt wird. Kurz: Es geht um die Ermittlung der 

Primärvarianz. 

Zu diesem Zweck wird die Gesamtvarianz in die Primär- und Fehlervarianz 

aufgeteilt und beides miteinander verglichen (PV/FV > 1?!) 

Wenn die Primärvarianz „größer“ ist als die Fehlervarianz, muss im weiteren 

Verlauf der Analyse (F-Werte) geprüft werden, ob sie auch „groß“ genug ist, um 

als signifikant gelten zu können! 

Ist das empirische Verhältnis PV/FV in der entsprechend der 

Nullhypothese erstellten Verteilung sehr unwahrscheinlich, kann die H0 

abgelehnt werden! 

Die Varianzanalyse wird angewandt, wenn die UV mehr als 2 Stufen hat 

(einfaktorielle Varianzanalyse) oder 2 oder mehr UVn vorliegen. 

Angenommen werden muss ferner Intervallniveau und Normalverteilung 

Bei mehr als 2 Stufen der UV oder bei mehreren UVn scheidet die Differenz 

zwischen den Versuchsgruppen als Maß für die Veränderungen der AV aus. In der 

Varianzanalyse dienen daher die Quadratsummen als Maß der 

Unterschiedlichkeit. 

QS Total: gibt an, wie unterschiedlich die Personen innerhalb der untersuchten 

Stichprobe sind. 

QSHW1 / QSHW2 / QSWW: geben an, wie unterschiedlich die Gruppen unter den 

Stufen der UV sind. 

QS Fehler: gibt an, wie unterschiedlich die Personen noch sind, wenn die durch 

die Stufen der UV entstandenen Unterschiede abgezogen wurden. 

Zweifaktoriell: QS Total = QSA + QSB + QSAB + QS Fehler 

Im zweifaktoriellen Fall, also bei zwei AVn, setzt sich der Wert Xijk, den eine 

Versuchsperson k liefert, aus folgenden Einflussgrößen zusammen: 

1. G… = Typischer Wert der untersuchten Stichprobe (Gesamtmittelwert; sprich: 

Summe aller Messwerte / n = Anzahl der Pbn) 

2. Ai.. = Einfluss der Stufe i der ersten UV (z.B. Einfluss des Geschlechts) 

3. B.j. = Einfluss der Stufe j der zweiten UV (z.B. Einfluss des Alkohols) 

4. ABij. = Einfluss der Kombination aus UV 1 und UV 2 (WW) 

5. Eijk = Typischer Wert der Person k („Fehler“) 

Einfaktoriell: X = G + A + E 

Zweifaktoriell: X = G + A + B + AB + E 

Dreifaktoriell: X = G + A + B+ C + AB + AC + BC + ABC + E 

Im zweifaktoriellen Beispiel gibt es 3 Arten von Primärvarianz, die jeweils durch 

die UV A (HW A), die UV B (HW B) und die Wechselwirkung der beiden Variablen 

(WW) erzeugt werden. 

Jede dieser drei Primärvarianzen muss jeweils mit der Fehlervarianz verglichen 

werden: Dies geschieht durch den Vergleich der mittleren Quadratsummen (MQ) 

1. MQA / MQ Fehler 

2. MQB / MQ Fehler F-Brüche 

3. MQAB / MQ Fehler 

29

In einer Varianztafel werden für die AVn, die Wechselwirkung und den 

Fehleranteil jeweils folgende Werte eingetragen: 

Quadratsumme (QS) => Summe der (Ausgangswerte – Stichprobenmittelwert)² 

Freiheitsgrade (df) => Anzahl der frei wählbaren Werte in einer Kontingenz- 

a = Anzahl der Stufen der UV A 

b = Anzahl der Stufen der UV B 

n = Stichprobenumfang / Anzahl 

der Probanden 

tafel 

1) HW A: df = a – 1 

2) HW B: df = b – 1 

3) WWAB: df = (a – 1) (b – 1) 

4) Fehler: df = n – (a b) 

5) Total: df = n – 1 

Mittlere Quadratsumme (MQ) => QS/df 

F-Bruch (F) => MQ Effekt/MQ Fehler 

F-Bruch < 1 = keine Wirkung 

F-Bruch > 1 = eventuelle Wirkung 

(abhängig von der Wahrscheinlichkeit, 

mit der das Ergebnis zur 

angenommenen Modellverteilung 

gehört.) 

6.3. Interpretation der Wirkungen 

UNPROBLEMATISCH 

HW1 und/oder HW2 signifikant – WW nicht signifikant 

Alle signifikanten Hauptwirkungen können interpretiert werden. 

Weder HW1 noch HW2 signifikant – WW signifikant 

Wechselwirkung darf interpretiert werden. 

PROBLEMATISCH 

HW1 und/oder HW2 signifikant – WW signifikant 

HW darf nur dann interpretiert werden, wenn WW die Richtung dieser nicht 

verändert. 

Daraus folgt, dass bei signifikanten Wechselwirkungen die Effekte graphisch oder 

tabellarisch veranschaulicht werden müssen, bevor sie interpretiert werden 

können. 

I, Ordinale Wechselwirkung (gleiches Vorzeichen der Steigung) 

Die Reaktion auf die UVn ist unterschiedlich stark, 

verläuft aber in die gleiche Richtung. 

Beide HW (sofern signifikant) dürfen 


WW darf interpretiert werden. 

30

II, Disordinale Wechselwirkung (verschieden Vorzeichen der Steigung) 

III, Semidisordinale (hybride) Wechselwirkung 

Überkreuzung (Haupteffekte verlaufen in 

unterschiedliche Richtungen) 

Nur WW darf interpretiert werden! 

Ein Haupteffekt geht in die gleiche Richtung, der 

andere nicht. 

Die HW, die über beide Stufen der anderen UV 

in die gleiche Richtung tendiert, darf 

interpretiert werden, die andere nicht. 

WW darf interpretiert werden. 

Fazit: Bei Signifikanz darf WW immer interpretiert werden, die HWn in Abhängigkeit von 

ihrer „Richtung“. 

31

7. Versuchsplanung II 

7.1. Das Experiment 

Definition: Ein Experiment ist ein systematischer Beobachtungsvorgang, bei dem 

eine oder mehrere unabhängige Variablen planmäßig manipuliert- und 

systematische und/oder unsystematische Störvariablen ausgeschaltet oder 

kontrolliert werden. 

1. Datengewinnung über systematische Beobachtung (einer oder mehrer 

abhängigen Variablen) 

2. Aktive und planmäßige Manipulation einer oder mehrerer unabhängiger 

Variablen 

3. Ausschaltung bzw. Kontrolle von Störvariablen, um auf diese Weise 

sicherzustellen, dass evtl. Veränderungen der AV auf die Variation der UV 

zurückzuführen sind. 

Experimentelle Kontrolltechniken 

Versuchsplanerische Kontrolltechniken 

Statistische Kontrolltechniken 

7.2. Das MAX-KON-MIN-Prinzip 

Das MAX-KON-MIN-Prinzip basiert auf 3 Maximen: 

1. MAXimiere die Primärvarianz 

Die Stufen der AV sind so zu wählen, dass zwischen den Versuchsgruppen, 

die den jeweiligen Stufen entsprechen, möglichst große Unterschiede in der 

AV entstehen. 

2. KONtrolliere die Sekundärvarianz 

Sorge dafür, dass bekannte Störvariablen in allen Gruppen gleich wirken 

(interne Validität) und bestimme deren Einfluss, d.h. die Varianz, die sie 

erzeugen (=Sekundärvarianz). 

3. MINimiere die Fehlervarianz 

Fehler auf Seiten der Versuchssituation (Konstanthalten der Bedingungen), 

der Datenerfassung (Beobachter: Reliabilität; Messinstrumente) und der 

Datenverarbeitung (z.B. doppelte Eingabe) sind zu vermeiden. 

7.2.1. Maximierung der Primärvarianz 

Kontrolltechniken zur MAXimierung der Primärvarianz: 

1. Wahl von mehreren experimentellen Bedingungen (> als 2 Stufen) 

Die Anzahl der Stufen hängt von der Art des Zusammenhangs ab, den man 

erwartet. Erwartet man einen monotonen Zusammenhang reichen prinzipiell 2 

Stufen der UV, erwartet man dagegen z.B. einen quadratischen oder 

kubischen Zusammenhang bedarf es mehrerer Stufen der UV! 

2. Wahl extremer experimenteller Bedingungen („Extremgruppenverfahren“) 

3. Wahl von mehrfaktoriellen Designs (> als 2 UVn) 

Ziel: Auf diese Weise sollen Effekte der UV möglichst „maximal“ zum Vorschein 

gebracht werden! 

32

7.2.2. Kontrolliere die Sekundärvarianz 

Experimentelle und statistische Techniken zur Kontrolle der Sekundärvarianz: 

Experimentelle Kontrolle: 

1. Abschirmung (Beschränkung möglicher Störeffekte wie z.B. Lärm) 

2. Eliminierung (Vollständige Abschirmung möglicher Störeffekte) 

3. Konstanthaltung (Mögliche Störeffekte werden unter den versch. 

Versuchsbedingungen konstant gehalten, so dass sie in allen 

Versuchsgruppen gleich stark wirken) 

Statistische Kontrolle (im Nachhinein): 

1. Allgemeine statistische Kontrolle: 

Nicht nur die Mittelwerte vergleichen, da Mittelwerte nicht unbedingt 

repräsentativ sein müssen (z.B. bei einer bimodalen Verteilung)! 

Statt dessen möglichst umfassende Analyse der Rohdaten und 

graphische Darstellung der Ergebnisse in Form sog. „Box-Plots“ 

(enthalten nicht nur den Mittelwert, sondern auch die 

Standardabweichung, den Interquartilbereich, Extremwerte und 

Ausreißerwerte) 

2. Kovarianzanalytische Kontrolle: 

Kovarianzanalyse 

Ziel: Mittels dieser Techniken sollen „Nicht-UVn“, die als Störvariablen einen 

systematischen Einfluss auf das Ergebnis haben können, bestmöglich unter Kontrolle 

gehalten werden. 

7.2.3. Minimiere die Fehlervarianz 

Versuchsplanerische Kontrolltechniken zur Minimierung der Fehlervarianz 

1. Randomisierung (zufällige Zuweisung der Pbn zu den 

Versuchsbedingungen, z.B. mittels Münzwurf oder einer Zufallszahlentabelle) 

Man geht davon aus, dass Zufallsstichproben, die derselben Population 

entstammen, einander weitgehend gleichen. Ziel der Randomisierung ist 

dementsprechend die Erwartungswertgleichheit der verschiedenen 

Versuchsgruppen und die Kontrolle der interindividuellen Varianz. 

Empfehlenswert, wenn ein Vielzahl möglicher Störvariablen 

kontrolliert werden muss, über deren Effekt nichts Genaueres bekannt 

ist. 

Prinzip wirkt allerdings nur, wenn die betreffenden Stichproben 

hinreichend groß sind (> 10); bei weniger Pbn sind Blockversuchspläne 

oder Wiederholungsmessungen empfehlenswerter! 

2. Blockbildung (Parallelisierung der Versuchsgruppen) 

Umwandlung möglicher Störvariablen, die evtl. einen Einfluss auf die 

UV haben (d.h. mit ihr korrelieren), in eine UV. Ziel dieses Vorgehens ist 

die Kontrolle der interindividuellen Varianz. 

Solche Störvariablen, die durch Blockbildung zu sog. Kontrollvariablen 

„umfunktioniert“ werden, sind meistens Organismusvariablen wie z.B. 

Alter oder Intelligenz. 

Vorgehen: 

1) Es werden Pbn ausgewählt, die sich hinsichtlich des 

Parallelisierungsmerkmals (z.B. Intelligenz) gleichen. 

2) Aufstellen einer Rangreihe (bezogen auf die Ausprägung des 

Parallelisierungsmerkmals) 

33

3) Bildung sog. „Blöcke“, wobei immer die Pbn einem Block zugeordnet 

werden, die in der Rangreihe aufeinander folgen; sich also in dem 

betreffenden Merkmal am ähnlichsten sind. 

4) Die Pbn eines Blocks werden per Zufall jeweils einer anderen 

Bedingung zugeordnet („Statistische Zwillinge“). 

3. Wiederholungsmessung („Within-Subject-Design“) 

Es wird auf unabhängige Versuchsgruppen verzichtet. Stattdessen werden 

interindividuelle Unterschiede zwischen den Bedingungen durch 

Mehrfachmessung eliminiert. 

Alle Probanden werden unter sämtlichen Versuchsbedingungen 

untersucht 

Vorteile: ökonomisch; hohe Wahrscheinlichkeit, vorhandene Effekte zu 

entdecken; 

Nachteile: Auch einzelne Versuchspersonen bleiben nicht von Messung zu 

Messung konstant (Lerneffekte, Carry-over-Effekte,…); Replizierbarkeit 

und externe Validität sind fraglich; 

Ziel: Durch die o.g. Techniken sollen die Auswirkungen von unbekannten bzw. 

bekannten Störvariablen so klein wie möglich gehalten werden. 

7.3. Zusammenfassung: Problemkreise Experiment 

Problem der internen Validität: Ist es wirklich die UV, die die Veränderungen der 

AV verursacht? 

Eine Frage des Versuchsdesigns und der Versuchsplanung (Max-Kon-Min- 

Prinzip) 

Problem der Signifikanz: Sind der Veränderungen der AV bedeutsam, d.h. größer 

als „zufällige“ Schwankungen? 

Eine Frage der Versuchsplanung (Max-Kon-Min-Prnizip) und Prüfung 

(inferenzstatistische Verfahren = Hypothesentests) 

Problem der externen Validität: Für wen gelten die Ergebnisse des Versuchs; 

inwieweit lassen sich die Ergebnisse verallgemeinern und auf andere Personen, 

Situationen und Variablen übertragen? 

Eine Frage der Operationalisierung 

34

8. Versuchsplanung III 

8.1. Vorexperimentelle Versuchspläne 

One-Shot Case Study (Schrotschussdesign): 

Einmalige Nachhermessung an einer einzelnen Versuchsgruppe 

Vorteile: geringstmöglicher Aufwand 

Nachteile: fehlende experimentelle Kontrolle; keine 

Vergleichsmöglichkeiten der Untersuchungsbedingungen => nahezu keine 

interne Validität 

Einfache Vorher-Nachher-Messung: 

Vorhermessung (Ausgangswerte) => Treatment => Nachhermessung 

Vorteile: Interindividuelle Verhaltensvariabilitäten untersuchbar; 

zumindest Vergleich der AV vorher und nachher möglich 

Nachteile: Müdigkeits- oder Gewöhnungseffekte können für das Ergebnis 

verantwortlich sein; Testeffekte (Carry-over-Effekte) aufgrund 

zweimaliger Testung; offener Versuch: evtl. reaktive Verhaltensweisen von 

Pb und Vl. 

Statischer Gruppenvergleich 

Vergleich von zwei oder mehreren experimentell unterschiedlich behandelten 

Gruppen. Bei den Gruppen handelt es sich allerdings um statische Gruppen, 

sprich vorgefundene Gruppen, die nicht durch Randomisierung gebildet 

wurden. 

Vorteile: Vergleich der verschiedenen Bedingungen prinzipiell möglich; 

Einsatz empfohlen, wenn keine Randomisierung möglich ist. 

Nachteile: Mangelnde Konztrolle von Störvariablen: Gleichheit der 

Versuchsgruppen ist nicht gewährleistet, „Reifungseffekte“ werden nicht 

kontrolliert. 

Zusammenfassende Bewertung vorexperimenteller Designs: 

1. Einführung mindestens einer experimentellen Bedingung, ABER: Keine 

Kontrolle von Störvariablen. 

2. Daher sind die Ergebnisse solcher Versuche prinzipiell mehrdeutig und 

können außerdem stark verzerrt sein. 

Wenn überhaupt, dann eine äußerst geringe interne Validität! 

3. Wenn, dann nur für Pilotstudien (Erkundungsexperimente) geeignet mit dem 

Ziel der Hypothesengenerierung und Entwicklung eines adäquaten 

Versuchsdesigns. 

8.2. Experimentelle Versuchspläne 

Klassifikation von Versuchsplänen: 

Anzahl der untersuchten Versuchsgruppen 

Einstichprobenplan 

Zweistichprobenplan 

Mehrstichprobenplan 

Anzahl der unabhängigen Variablen (UV) 

Einfaktorieller Plan (eine UV) 

Zweifaktorieller Plan (zwei UVn) 

Mehrfaktorieller Plan (mehrere UVn) 

Anzahl der abhängigen Variablen (AV) 

Univariater Plan (eine AV) 

Multivariater Plan (zwei oder mehr AVn) 

35

Darstellung von Versuchsplänen in Abhängigkeit von der Anzahl der UVn und der 

Anzahl der Stufen dieser UVn: 

Zweifaktorieller Plan: 2 2-Design = 4 Zellen (2 UVn mit jew. 2 Stufen) 

3 3-Design = 6 Zellen (2 UVn mit jew. 3 Stufen) 

Mehrfaktorieller Plan: 2 2 2-Design = 8 Zellen (3 UVn mit jew. 2 Stufen) 

Zu den experimentellen Versuchsplänen gehören experimentelle Designs, quasiexperimentelle 

Designs und Ex-post-facto-Designs. 

8.2.1. Experimentelle Designs 

Merkmale experimenteller Designs: 

1. Es wird eine kausaltheoretische Vorhersage getroffen (Hypothese). 

2. Relevante Variablen werden systematisch manipuliert (Manipulation). 

3. Störvariablen, die die Interpretierbarkeit und Gültigkeit der Ergebnisse 

beeinträchtigen könnten, werden kontrolliert (Kontrolle). 

Folgende Versuchspläne sind denkbar: 

1. Versuchspläne mit Zufallsgruppenbildung (Randomisierung) 

Zufällige Zuweisung der Pbn zu den Versuchsgruppen, danach zufällige 

Zuweisung der Versuchsgruppen zu den Bedingungen 

Prinzipielle Vergleichbarkeit (Erwartungswertgleichheit) der 

Ausgangsbedingungen und Ausgangsmesswerte 

1.1. Zufallsgruppenplan ohne Vortest 

Einfach und ökonomisch 

ABER: keine Kontrolle von interindividuellen Messwertdifferenzen 

1.2. Zufallsgruppenplan mit Vortest 

Zusätzliche Information durch Vorher-Messung (vor dem Treatment); 

dadurch Kontrolle von interindividuellen Messwertdifferenzen. 

* Bei unterschiedlichen Ausgangsmesswerten kann die Differenz zw. 

Vorher- und Nachhermessung interpretiert werden! 

ABER: Anfällig für Testeffekte (Vorher-Messung kann die Wirkung 

des Treatments beeinflussen) 

1.3. Zufallsgruppenplan mit teilweisem Vortest (Solomon-Dreigruppen-Plan) 

Insgesamt 3 Versuchsgruppen; zwei Versuchsgruppen mit Vorher- 

Nachher-Messung; dritte Versuchsgruppe nur mit Nachher-Messung 

Vorteil gegenüber Zufallsgruppenplan mit Vortest: Die dritte 

Versuchsgruppe, mit der kein Vortest gemacht wird, dient als eine 

Art Kontrollgruppe. Anhand von ihr können in den anderen beiden 

Gruppen die Effekte des Vortests auf die Wirkung des Treatments 

abgeschätzt werden. 

1.4. Zwei- und Mehrfaktorielle Zufallsgruppenpläne 

Man braucht so viele Zufallsgruppen wie es Bedingungen gibt; bei 

einem 2 2 2-Design braucht man dementsprechend 8 Gruppen 

(=Zellen in der Kontingenztafel) 

Mehrstichprobenpläne bzw. mehrfaktorielle Versuchspläne haben 

Vorteile: höhere interne Validität (breitere Analyse möglich, MAX- 

Prinzip); höhere externe Validität (Aussagen über Wechselwirkungen 

möglich; daher: realitätsnäher, differenziertere Analyse) 

Probleme: Stichproben müssen > 10 sein; mit der Anzahl der 

Faktoren steigt die Anzahl der Versuchsgruppen rapide an; 

Interaktionen bei 3- und mehrfaktoriellen Plänen sind kaum noch 

interpretierbar! 

36

2. Versuchspläne mit Wiederholungsmessung („Within-Subject-Design) 

Untersuchung einer (abhängigen) Versuchsgruppe zu verschiedenen 

Messzeitpunkten (Anzahl der Messungen bzw. Bedingungen = Anzahl der 

„Stichproben“) 

Vorteile: 

Ökonomisch, da nur geringe Probandenzahl vonnöten ist 

Geringere interindividuelle Varianz als bei „Between-Subject- 

Designs“ (Ergo: Wirksamkeit der experimentellen Effekte leichter 

nachweisbar) 

Nachteile: 

Anfällig für Test- bzw. Carry-over-Effekte (Lern-, Übungs-, 

Gewöhnungs-, Ermüdungseffekte usw.) 

* Lösung: Wahl eines hinreichend großen Zeitabstandes zwischen 

den einzelnen Messungen; Ausbalancierung der Reihenfolge der 

Versuchsbedingungen (bei 3 Bedingungen sind 6 Reihenfolgen 

möglich: 3 2 1 = 6) 

3. Blockversuchspläne (Parallelisierung) 

Siehe oben: Bildung einer Rangreihe hinsichtlich eines 

Parallelisierungsmerkmals => Zuordnung ähnlicher, in der Rangreihe 

aufeinander folgender Pbn zu Blöcken => Bildung „experimenteller 

Zwillinge“ bzw. „- Drillinge“ (Anzahl der parallelisierten Versuchsgruppen 

= Anzahl der „Stichproben“) 

Kombination aus Mehrfachmessungs- und Zufallsgruppendesign: 

Mehrfachmessung: Blockbildung basiert auf einem Vortest 

Zufallsgruppen: Zuordnung der parallelisierten Pbn zu den versch. 

Bedingungen erfolgt per Zufall, basiert also auf Randomisierung. 

Vorteil: Die Nachteile des Mehrfachmessungs- und Zufallgruppendesigns 

werden kompensiert: 

Schon bei kleinen Versuchsgruppen kann prinzipiell von 

Erwartungsgleichheit ausgegangen werden. 

Test- bzw. Übertragungseffekte werden ausgeschlossen. 

Nachteile: 

Aufwändig (wenn z.B. ein Pb ausfällt, müssen völlig neue Blöcke 

gebildet werden) 

Vortestvariablen, die hoch mit der AV korrelieren, müssen bekannt 

sein 

4. Mischversuchspläne 

Zwei- oder mehrfaktorielle Designs, bei denen die einzelnen Faktoren 

verschiedenen Designtypen entsprechen: 

Zufallsgruppenfaktor („R“ = Randomisierung) 

Faktor mit wiederholter Messung („W“ = Wiederholung) 

Blockfaktor („O“ = Block) 

Beispiel: Untersucht werden soll die Schreibleistung in einem Büro, in 

Abhängigkeit vom Alter der Versuchsperson, dem Bürokomfort und in 

Abhängigkeit davon, ob die erbrachte Leistung belohnt wird oder nicht. 

Belohnung = Zufallsgruppenfaktor (2 Stufen) 

Bürokomfort = Wiederholungsfaktor (3 Stufen) RWO- 2 3 4 

Alter = Blockfaktor (4 Stufen) 

Vorteil: Hohe Flexibilität; Wahl des jew. Designs kann genau auf die Art 

der Fragestellung abgestimmt werden; v.a. wenn der Zeitvverlauf 

interessiert, empfehlenswert! 

37

8.2.2. Quasi-experimentelle Designs 

Merkmale quasi-experimenteller Designs: 

1. systematische Manipulation relevanter Variablen 

2. KEINE Kontrolle von Störvariablen 

Beispiele für quasi-experimentelle Designs: 

1. Zeitreihenversuchspläne mit einer Gruppe oder mit statischen Gruppen 

1.1. Eingruppen-Zeitreihendesign 

Mehrere Vorher- und Nachher-Messungen an einer einzelnen Gruppe 

(z.B. ABAB-Plan) 

1.2. Zeitreihendesign mit mehreren statischen Gruppen 

Mehrere Vorher- und Nachher-Messungen an mehreren Gruppen, die 

allerdings nicht durch Randomisierung zustande gekommen sind, 

sondern vom Untersucher vorgefunden wurden. 

s 

Die Unterschiede zu experimentellen Versuchsplänen mit 

Wiederholungsmessung: 

Keine bzw. unvollständige Ausbalancierung der Reihenfolge 

* Im experimentellen Design bedarf es bei mehreren Bedingungen 

der vollständigen Permutation dieser Bedingungen: d.h. alle 

möglichen Behandlungskombinationen müssen mittels 

verschiedener Versuchsgruppen untersucht werden. 

Keine Randomisierung zur Kontrolle evtl. Störvariablen 

2. Einzelfallversuchspläne 

Siehe oben (Forschungsformen): Einzellfallstudien 

Nachteile: fehlende inferenzstatistische Verfahren; Problem der 

Verallgemeinerbarkeit (externe Validität) 

Vor- und Nachteile quasiexperimenteller Designs: 

Vorteile: Zeitreihenversuchspläne (ökonomisch, ermöglichen die Untersuchung 

von Prozessen); Einzelfallversuchspläne (detaillierte Beschreibung seltener 

Phänomene; Brückenschlag zwischen Allgemeiner und Differentieller 

Psychologie) 

Nachteile: Zeitreihenversuchspläne (Hohe Anfälligkeit für Zeiteffekte und 

andere Störvariablen); Einzelfallversuchspläne (s.o.) 

8.2.3. Ex-post-facto-Designs 

Ableitung von Kausalzusammenhängen aus nicht manipulierten bzw. nichtmanipulierbaren 

Variablen (Feldforschung) 

Problem: Da die UV nicht aktiv manipuliert wird und dadurch mögl. Störvariablen 

nur bedingt kontrolliert werden können, sind die Ergebnisse streng genommen nur 

„korrelativ“ zu interpretieren. 

Empfiehlt sich bei Fragestellungen, die aus ethischen oder praktischen Gründen nicht 

hinreichend operationalisiert werden können. 

Exkurs: Forschungsethik 

1. Wäge Kosten und Nutzen eines Experiments ab! 

2. Übernehme persönlicher Verantwortung! 

3. Informiere die Pbn und schließe eine Übereinkunft mit ihnen! 

4. Sei offen und ehrlich! 

5. Versuchsteilnahme ist freiwillig! 

6. Nutze Vpn nicht aus! 

38

7. Schütze die VPn vor Schäden (Sicherheit der Pbn)! 

8. Aufklärung der Pbn! 

9. Schließe negative Folgen für die Pbn aus! 

10. Bewahre Vertraulichkeit! 

39

FORSCHUNGSMETHODEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?