11.04.2013 Aufrufe

FORSCHUNGSMETHODEN

FORSCHUNGSMETHODEN

FORSCHUNGSMETHODEN

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>FORSCHUNGSMETHODEN</strong><br />

Von: Josua Handerer<br />

Kontakt: Josua.Handerer@t-online.de<br />

1


1. Einführung<br />

1.1. Methoden:<br />

Wissenschaft zeichnet sich durch methodisches Vorgehen aus.<br />

Nicht das „was“, sprich das Thema oder der Gegenstand einer Wissenschaft ist<br />

also entscheidend, sondern das „wie“.<br />

Eigenschaften von Methoden:<br />

Methoden sind gewissermaßen Regeln.<br />

Sie müssen mitteilbar sein.<br />

Sie haben normativen bzw. präskriptiven Charakter.<br />

Ihre Befolgung wird erwartet, ihre Verletzung sanktioniert.<br />

Methoden können in einem hierarchischen Verhältnis zueinander stehen.<br />

Nach Roth: „Methodenanwendung ist eine aufgrund einer (Anwendungs-)<br />

Entscheidung erfolgende Steuerung des zielgerichteten Handelns durch ein<br />

Regelsystem, das im jeweiligen Handlungsplan der Akteure repräsentiert und<br />

verfügbar ist. Diese methodenspezifische Handlungssteuerung ist regulativ, und<br />

weitgehend adaptiv und reflexiv.“<br />

adaptiv: Nicht alle Methoden sind immer durchführbar (z.B. aus ethischen oder<br />

praktischen Gründen).<br />

reflexiv: Die zugrunde gelegten Methoden müssen reflektiert / kritisch<br />

hinterfragt werden.<br />

regulativ: Unter Umständen müssen neue Methoden zugrunde gelegt werden.<br />

1.2. Grundlegendes:<br />

Sarris nimmt in seinem „Spiralenmodell der Forschung“ an, dass<br />

wissenschaftliches Arbeiten als mehrstufiger Entscheidungsprozess abläuft.<br />

1. Hypothese<br />

2. Versuchsplanung<br />

3. Versuchsaufbau<br />

4. Versuchsdurchführung (Beobachtung)<br />

5. Auswertung (Datenanalyse)<br />

6. Schlussfolgerungen<br />

Daraufhin evtl. Modifikation des Versuchsaufbaus und erneuter Durchlauf.<br />

Man unterscheidet zwischen dimensionalen Analysen und semantischen Analysen.<br />

Dimensionale Analysen: v.a. bei deskriptiven Untersuchungen<br />

Semantische Analysen: v.a. bei theorie-/hypothesentestenden Untersuchungen<br />

1.2.1. Die Variablen<br />

Die unabhängige Variable (UV); auch: „Reizvariable“<br />

Die UV wird vom Versuchsleiter direkt oder indirekt verändert (durch<br />

Manipulation oder Selektion)<br />

Die abhängige Variable (AV); auch „Reaktionsvariable“<br />

Die AV ist ein Ereignis, das die Folge der Manipulation der UV beobachtet.<br />

AV = f (UV); d.h. dass Abstufungen der UV die AV systematisch<br />

verändern oder dass die UV Ursache, die AV Wirkung ist.<br />

Der Versuchsleiter hat auf die AV keinen direkten Einfluss; der Einfluss von<br />

Störvariablen ist allerdings wahrscheinlich.<br />

Moderierende Variablen (Kontrollvariablen und Störvariablen)<br />

2


Moderierende Variablen beeinflussen die Wirkung der UV auf die AV; korrekt<br />

ausgedrückt ist die AV also eine Funktion der UV und moderierender Variablen:<br />

AV = f (UV, moderierende Variablen)<br />

Z.B.: Lärm, Tageszeit; Alter, Motivation, Persönlichkeitsmerkmale der Vp...<br />

Bei denn moderierenden Variablen muss zwischen Kontroll- und Störvariablen<br />

unterschieden werden:<br />

1. Kontrollvariablen<br />

Moderierende Variablen werden zu Kontrollvariablen, wenn sie bei<br />

Untersuchungen mit erhoben werden; ihr Einfluss schlägt sich in der<br />

Sekundärvarianz (s.u.) nieder.<br />

2. Störvariablen (SV)<br />

Moderierende Variablen werden zu Störvariablen, wenn sie nicht<br />

beachtet oder sogar übersehen werden; ihr Einfluss schlägt sich in der<br />

Fehlervarianz (s.u.) nieder.<br />

* Werden die Störvariablen mittels experimenteller Techniken<br />

kontrolliert, werden sie zu Kontrollvariablen (s.o.).<br />

Variablen können folgendermaßen klassifiziert werden:<br />

1. gemäß des Stellenwerts in der Untersuchung (s.o.)<br />

UV, AV, moderierende Variablen (Kontrollvariablen, SV)<br />

2. je nach Art der Merkmalsausprägungen<br />

diskrete Variablen (z.B. Geschwisterzahl):<br />

- dichotom (2 Abstufungen) vs. polytom (mehr als 2 Abstufungen)<br />

- natürlich (z.B. Geschlecht) vs. künstlich (Alter: jung – mittel – alt)<br />

stetige Variablen (z.B. Gewicht, Länge, Zeit)<br />

3. gemäß der empirischen Zugänglichkeit<br />

Manifeste Variable (direkt beobachtbar; z.B. Anzahl gelöster Testaufgaben)<br />

Latente Variable (nicht-beobachtbar; liegt einer manifesten Variable als<br />

hypothetisches Konstrukt zugrunde: z.B. Intelligenz)<br />

1.2.2. Die Hypothese<br />

Definition: Eine wissenschaftliche Hypothese formuliert eine Beziehung zwischen<br />

zwei oder mehr Variablen, die für eine bestimmte Population vergleichbarer<br />

Objekte oder Ereignisse gelten soll.<br />

Dabei muss eine wissenschaftliche Hypothese folgende Kriterien erfüllen:<br />

1. Generalisierbarkeit<br />

Eine wissenschaftliche Hypothese ist eine allgemeingültige, über den<br />

Einzelfall oder ein singuläres Ereignis hinausgehende Behauptung (All-Satz)<br />

2. Konditionalsatz<br />

Einer wissenschaftlichen Hypothese muss zumindest implizit die<br />

Formalstruktur eines sinnvollen Konditionalsatzes („Wenn-Dann-Satz“ bzw.<br />

„Je-Desto-Satz“) zugrunde liegen.<br />

3. Falsifizierbarkeit<br />

Der Konditionalsatz muss potentiell falsifizierbar sein, d.h. es müssen<br />

Ereignisse denkbar sein, die dem Konditionalsatz widersprechen.<br />

Aus diesem Grund können Existenzsätze („Es gibt…“; „…kann…“) keine<br />

wissenschaftlichen Hypothesen sein; sie erfüllen keines der besagten Kriterien!<br />

Man unterscheidet zwischen inhaltlichen- und statistischen Hypothesen.<br />

Inhaltliche Hypothesen sind verbale Behauptungen über kausale/nicht-kausale<br />

Beziehungen zwischen Variablen; sie werden aus begründeten Vorannahmen,<br />

Modellen oder Theorien abgeleitet.<br />

3


Statistische Hypothesen sind die Zuspitzung einer solchen inhaltlichen<br />

Hypothese zu einer empirischen Vorhersage des Untersuchungsergebnisses.<br />

Solche Vorhersagen beziehen sich auf statistische Maße, die die inhaltliche<br />

Aussage am besten wiedergeben.<br />

1. Kennwerte der zentralen Tendenz (Lage): Mittelwert, Modus, Median<br />

2. Kennwerte der Dispersion: Standardabweichung/Varianz, Streubreite<br />

3. Kennwerte der Schiefe: Schiefe = Abweichung von der Symmetrie<br />

4. Kennwerte des Exzess: Steilheit<br />

In statistischen Hypothesen werden also Annahmen über die Verteilung einer<br />

oder mehrerer Zufallsvariablen oder über bestimmte Parameter dieser<br />

Verteilung gemacht.<br />

Man unterscheidet zwischen Unterschieds- und Zusammenhangshypothesen:<br />

1. Unterschiedshypothese: H0: µ0 = µ1 ; H1: µ0 = µ1<br />

2. Zusammenhangshypothese: H0: r12 = 0 ; H1: r12 = 0<br />

Statistische Hypothesen sind Wahrscheinlichkeitsaussagen (also nicht<br />

deterministisch, sondern probabilistisch).<br />

1.2.3. Operationalisierung<br />

Definition: Die Operationalisierung ist die Umsetzung der Problempräzisierung<br />

(Begriffe) in Techniken bzw. Forschungsoperationen.<br />

Die Operationalisierung enthält „technische“ Anweisungen, wie in der<br />

Untersuchung vorzugehen ist, um Informationen zu erhalten.<br />

Sie beinhaltet u.a. Angaben zu Gestaltung und Handhabung des Messinstruments<br />

(z.B. Fragebogen; Ort des Interviews; Formulierung und Reihenfolge der<br />

Fragen…)<br />

Ihr zugrunde liegen Entscheidungen bezüglich…<br />

der Forschungsform (z.B. Labor- vs. Feldforschung)<br />

der Versuchsgruppen (z.B. Stichprobe, Probandenmerkmale)<br />

der Datenquelle(n) (z.B. Befragung, Beobachtung, objektive Verfahren)<br />

des Versuchsplans (z.B. experimentell vs. korrelativ)<br />

1.2.4. Mögliche Störvariablen<br />

Mögliche Quellen von Störvariablen sind die Untersuchungssituation, die<br />

Versuchsperson oder der Versuchsleiter.<br />

1. Situation<br />

Untersuchungsort (steriles Labor vs. gemütlicher Raum, Lärm, usw.)<br />

Untersuchungszeit (Konzentrationsfähigkeit, Hungergefühl,… können sich<br />

im Laufe des Tages ändern; es ist also nicht unwichtig,<br />

wann ein Versuch stattfindet)<br />

Atmosphäre (weiße Kittel usw. können das Ergebnis beeinflussen)<br />

2. Versuchsperson (Motivation, Erwartung,…)<br />

„Demand-Effekte“: Vpn, die mit Absicht versuchen, die Hypothesen des<br />

Experiments zu bestätigen.<br />

„Effekt der sozialen Erwünschtheit“: v.a. bei Fragebögen<br />

Prozesse in der Vp: Ermüdung, Lernen, Übung,…<br />

3. Versuchsleiter<br />

„Rosenthal-Effekt“: Wenn der Vl weiß, in welcher Bedingung die Vp ist,<br />

kann seine Erwartungshaltung die Auswertung oder das Verhalten der Vp<br />

selbst beeinflussen („Self-fullfilling Prophecy“).<br />

Vp-Vl-Interaktion: Mann-Frau usw.<br />

4


Versuchsleiter-Artefakte und deren Kontrolle:<br />

Versuchsleiter-Artefakte (s.o.) entstehen durch die Abweichung des<br />

Versuchsleiters vom geplanten Verhalten.<br />

Versuchsleiter- und andere Artefakte können auf folgende Weise kontrolliert<br />

werden:<br />

1. Standardisierte Instruktionen (wobei die Instruktion nicht nur den<br />

verbalen Anweisungsteil umfasst, sondern alle Versuchsumstände)<br />

2. Konstante Untersuchungsbedingungen (Beleuchtung, Geräusche,<br />

Temperatur)<br />

3. Einhaltung des zeitlichen Ablaufs<br />

4. Selbstkontrolle des Versuchsleiters (auf eigene Stimmungen achten und<br />

gegebenenfalls protokollieren, Abweichungen vom geplanten Ablauf<br />

protokollieren,…)<br />

5. Beobachtung des Versuchsleiters durch neutrale Beobachter<br />

(Aufzeichnung des Versuchs per Video)<br />

6. Verwendung „blinder“ Versuchsleiter (die nicht wissen, in welcher<br />

Bedingung die Versuchspersonen jeweils sind)<br />

7. Vorerhebung sollte vom Untersuchungsleiter selbst durchgeführt werden<br />

8. Nachbefragung der Probanden (nach dem Versuch)<br />

1.2.5. Gütekriterien einer Messung<br />

Die 3 entscheidenden Gütekriterien einer Messung sind Validität, Reliabilität und<br />

Objektivität.<br />

1. Objektivität: Grad der Unabhängigkeit der Ergebnisse vom Untersucher!<br />

2. Reliabilität: Grad der Genauigkeit, mit dem etwas gemessen wird<br />

(unabhängig davon, ob dies auch gemessen werden soll)<br />

Wenn bei einem Test immer dasselbe herauskommt, ist er reliabel. Ob er<br />

dabei auch das misst, was er messen soll (Validität) weiß man deswegen<br />

noch nicht.<br />

3. Validität: Grad der Genauigkeit, das zu messen oder vorherzusagen, was<br />

gemessen oder vorhergesagt werden soll.<br />

OBJEKTIVITÄT<br />

Die Objektivität wird bestimmt, indem man die Ergebnisse verschiedener<br />

Untersucher miteinander korreliert.<br />

Zu unterscheiden ist zwischen:<br />

1. Durchführungsobjektivität<br />

Unabhängigkeit des Ergebnisses von zufälligen oder systematischen<br />

Verhaltensvariationen des Untersuchers bzw. Versuchsleiters während des<br />

Versuchs (Versuchsleiter-Artefakte)<br />

2. Auswertungsobjektivität<br />

Unabhängigkeit der Ergebnisse von Variationen des Untersuchers während<br />

der Auswertung (v.a. bei Verfahren mit vielen Freiheitsgraden wie z.B.<br />

projektiven Tests oder freien Interviews)<br />

3. Interpretationsobjektivität<br />

Unabhängigkeit der Ergebnisse von der interpretierenden Person (v.a. wenn<br />

ein Ergebnis vieldeutig ist)<br />

5


RELIABILITÄT<br />

Jeder Messwert (X) setzt sich additiv aus dem „wahren Wert“ (T) und einem<br />

Messfehler (E) zusammen. Die Reliabilität ist dementsprechend umso größer, je<br />

kleiner der zu einem Messwert X gehörende Fehleranteil E.<br />

Der Idealfall (X=T; E=0) tritt in der Realität quasi nie auf. Ursache dafür sind<br />

technische-, menschliche- und situative Fehlerquellen.<br />

Definition: Die Reliabilität ist der Anteil der wahren Varianz an beobachteter<br />

Varianz.<br />

Je größer dieser Anteil ist, je geringer also die Fehlervarianz ist, desto höher die<br />

Reliabilität.<br />

Es gibt mehrere Möglichkeiten, die Reliabilität zu bestimmen:<br />

Paralleltest-Reliabilität: Vergleichbare Paralleltests werden identischen<br />

Stichproben vorgegeben und deren Ergebnisse miteinander korreliert.<br />

Retest-Reliabilität: Ein und derselbe Test werden einer Stichprobe mehrmals<br />

vorgegeben und die Ergebnisreihen miteinander korreliert.<br />

Innere Konsistenz:<br />

Split-Half-Reliabilität: Test wird in zwei gleichwertige Hälften geteilt und<br />

die Ergebnisse miteinander korreliert.<br />

Konsistenzanalyse: Test wird in beliebig viele Testelemente geteilt und die<br />

Reliabilität über Aufgabenschwierigkeit und Trennschärfekoeffizienten<br />

bestimmt.<br />

VALIDITÄT<br />

Man unterscheidet zwischen:<br />

1. Inhaltliche Validität<br />

Wie valide bzw. genau ist das Messverfahren in Bezug auf den zu messenden<br />

Inhalt?!<br />

Bestimmungsmaß: Rating von Experten<br />

2. Konstruktvalidität<br />

Wie valide bzw. genau ist das Messverfahren in Bezug auf das zu<br />

untersuchende Konstrukt (z.B. Intelligenz)?!<br />

Bestimmungsmaß: Rating von Experten<br />

3. Kriterienbezogene Validität<br />

Wie genau stimmt der Test mit einem unabhängig vom Test erhobenen<br />

Außenkriterium (z.B. Schulleistung) überein?!<br />

Bestimmungsmaß: Korrelation des Testergebnisses mit einem<br />

Außenkriterium<br />

Außerdem ist zu unterscheiden zwischen interner – und externer Validität:<br />

Interne Validität: Ein Versuch ist intern valide, wenn Veränderungen der AV<br />

eindeutig auf Variationen der UV zurückzuführen sind.<br />

Am höchsten ist die interne Validität dementsprechend, wenn SV=0!<br />

Externe Validität: Ein Versuch ist extern valide, wenn die Ergebnisse der<br />

Stichprobe auf die Population übertragbar sind (Generalisierbarkeit der<br />

Ergebnisse)!<br />

Die externe Validität ist v.a. dann problematisch, wenn unter „realen<br />

Bedingungen“ noch andere Faktoren als in der Untersuchung eine Rolle<br />

spielen.<br />

Die interne Validität ist eine notwendige, aber keineswegs hinreichende<br />

Bedingung für externe Validität!<br />

6


1.2.6. Störvariablen, die die externe Validität betreffen<br />

Reaktive Effekte der Experimentalsituation<br />

Durch die „künstliche“ Situation in einem Experiment kann das Verhalten der<br />

Pbn beeinflusst werden.<br />

Demandeffekte (s.o.)<br />

Soziale Erwünschtheit (v.a. bei Fragebögen)<br />

Reaktanz der Vpn<br />

Interaktion von Vortest und UV<br />

Durch einen Vortest kann die Sensitivität der Pbn gegenüber der UV beeinflusst-<br />

und damit deren Verhalten im eigentlichen Experiment verändert werden<br />

Kurzinterview zur Vorauswahl einer Stichprobe<br />

Einflüsse bei Mehrfachmessungen<br />

z.B. Reihenfolgeneffekte<br />

Interaktion von Selektionseffekten und UV<br />

Selektionseffekte: es kann z.B. passieren, dass in einer Versuchsgruppe im<br />

Schnitt intelligentere Vpn sind, was einen Einfluss auf die AV haben kann.<br />

1.2.7. Die Bedeutung des Faktors „Zeit“<br />

Der Faktor „Zeit“ hat mehrere Effekte, die das Versuchsergebnis beeinflussen<br />

können:<br />

1. Geschichtlichkeit<br />

Ein vom Untersucher unabhängiger und genereller Effekt<br />

1.1. Über lange Zeiträume hinweg gibt es immer wieder „zufällige“<br />

Schwankungen und Veränderungen (ein „besonderes“ Jahr).<br />

Untersucht man z.B. die Verringerung der Unfallzahlen (AV)<br />

durch die Einführung eines Tempolimits (UV), kann u.a. die<br />

Witterung oder der Bezinpreis während des<br />

Untersuchungszeitraums (geschichtliche Effekte) einen<br />

störenden Einfluss auf das Ergebnis haben.<br />

1.2. Kohorteneffekte:<br />

Z.B. Folgen früherer Lebensbedingungen oder natürliche<br />

Entwicklungen wie die Abnahme der kognitiven<br />

Leistungsfähigkeit mit zunehmendem Alter.<br />

2. Entwicklungseffekte<br />

Ein vom Untersucher unabhängiger und spezieller Effekt<br />

Die einzelnen Versuchspersonen, aber auch die Stichprobe als Ganzes<br />

kann sich während des Untersuchungszeitraums verändern.<br />

2.1. Regressionseffekt B (negative Rückkopplung)<br />

2.2. Pbn werden während eines Versuchs müder, hungriger, lustloser,…<br />

2.3. Über einen längeren Untersuchungszeitraum hinweg kann sich sogar<br />

die Stichprobe verändern: z.B. dadurch, dass einzelne<br />

Versuchspersonen aussteigen oder sterben (Mortalität); wenn z.B. die<br />

älteren, Vpn „wegsterben“ oder die wenig Motivierten aussteigen<br />

wird die Stichprobe im Schnitt „jünger“, „gesünder“ u. „motivierter“<br />

(= „Effekt der positiven Selbstauswahl“).<br />

3. Selektion und Messeffekte<br />

Ein vom Untersucher abhängiger und genereller Effekt<br />

3.1.Regressionseffekt A (Ergebnisse von fehlerhaften Messinstrumenten<br />

tendieren bei erneuter Messung zur Mitte)<br />

3.2.Änderung der Messinstrumente (z.B. durch Verstellen des Messfühlers<br />

oder durch Ermüdung der Beobachter)<br />

7


4. Testeffekte<br />

Ein vom Untersucher abhängiger und spezieller Effekt<br />

4.1.Reihenfolgeneffekte oder Lerneffekte aus vorhergehenden<br />

Untersuchungen (macht man einen IQ-Test zum 2. Mal, schneidet<br />

man im Schnitt 3-5 Punkte besser ab)<br />

4.2.Residualeffekte im Cross Over (Trotz Cross-Over wird die Wirkung<br />

einer Behandlung durch personenbedingte Störeinflüsse<br />

„verunreinigt“)<br />

4.3.Experimentelle Mortalität und drop-out<br />

1.2.8. Datenanalyse u. deskriptive Statistik<br />

Maße der zentralen Tendenz (Lage)<br />

1. Mittelwert (arithmetisch, geometrisch, harmonisch)<br />

Voraussetzung: Intervallskalierte Daten<br />

Gibt Auskunft über den „Schwerpunkt“ einer Verteilung<br />

Empfohlen v.a. bei symmetrischer Verteilung (insbes. Normalverteilung), da<br />

anfällig bei Ausreißerwerten; ist v.a. in Kombination mit anderen Werten<br />

(z.B. Varianz) aussagekräftig<br />

2. Medianwert<br />

Voraussetzung: Ordinalskalierte Daten<br />

Gibt Auskunft über die „obere“ und „untere“ Hälfte der Messwertverteilung<br />

Empfohlen bei schiefer Verteilung oder wenn nur eine unvollständige<br />

Verteilung vorliegt.<br />

3. Modalwert (Modus)<br />

Voraussetzung: Nominalskalierte Daten<br />

Grobe Schätzung der zentralen Tendenz; schnellstmögliche Kenntnis des<br />

zentralen Wertes<br />

Maße der Dispersion (Variabilität)<br />

1. Standardabweichung bzw. Varianz<br />

Voraussetzung: Intervallskalierte Daten<br />

Wichtigstes Maß der Dispersion; bezieht alle Werte mit ein<br />

2. Bereichsmaße (Streubreite, Interquartilbereich,…)<br />

Voraussetzung: Ordinalskalierte Daten<br />

Zur ersten Orientierung hilfreich; starke Ausreißerempfindlichkeit (Lösung:<br />

gestutzte Streubreite)<br />

3. Informationsmaß h<br />

Voraussetzung: Nominalskalierte Daten<br />

Bei psychologischen Hypothesen handelt es sich um Wahrscheinlichkeitsaussagen<br />

(s.o.). Im Prinzip sind sie daher weder falsifizierbar, noch verifizierbar.<br />

Um die Aussagen zumindest falsifizierbar zu machen, müssen vor der<br />

Versuchsdurchführung ein statistisches Prüfkriterium festgelegt werden: das sog.<br />

Signifikanzniveau!<br />

Erst durch den statistischen Nachweis, dass eine Hypothese sehr<br />

unwahrscheinlich ist, kann sie abgelehnt werden.<br />

Ein Signifikanztest hat v.a. 2 Funktionen:<br />

1. Als Screening-Prozedur: Wo lohnt es sich, nachzuschauen bzw. genauer<br />

nachzuschauen?!<br />

2. Als zufallskritische Absicherung: Ein Signifikanztest gewährleistet, dass es<br />

äußerst unwahrscheinlich ist, dass ein Ergebnis zufällig zustande gekommen<br />

ist.<br />

8


2. Forschungsformen und Stichproben<br />

2.1. Die verschiedenen Forschungsformen<br />

Folgende Forschungsformen sind möglich:<br />

1. Labor- vs. Feldforschung<br />

2. Web-Experimente<br />

3. Einzelfallforschung<br />

4. Quer- und Längsschnittstudien (z.B. Panelforschung)<br />

5. Sekundäranalysen<br />

2.1.1. Labor- vs. Feldforschung<br />

Laborforschung: in künstlichem, z. Zweck der Untersuchung entwickeltem Umfeld<br />

Vorteile:<br />

Situation und Verhalten sind leichter manipulierbar<br />

Bessere Kontrolle der Störvariablen<br />

Schaffung optimaler Bedingungen für die Untersuchung (höhere interne<br />

Validität)<br />

Nachteile:<br />

unnatürliche und ungewohnte Umgebung (mögl. Abhilfe:<br />

Gewöhnungsphase)<br />

Die Personen wissen, dass sie untersucht werden und verändern deswegen<br />

u.U. ihr Verhalten (Reaktanz)<br />

Kann man die Ergebnisse auf „normales“ Verhalten übertragen (externe<br />

Validität?!)?<br />

Feldforschung: in natürlichem Umfeld<br />

Vorteile:<br />

natürliche Umgebung<br />

Spontanes, „normales“ Verhalten<br />

Keine oder nur geringe Verfälschung durch Wissen um Studie<br />

Besser übertragbar auf natürliches Verhalten (höhere externe Validität)<br />

Nachteile:<br />

Schlechte Kontrolle der Störvariablen<br />

Manipulation von Situation und Verhalten schwierig<br />

Verhalten nur schwer zugänglich<br />

Keine optimalen Untersuchungsbedingungen (interne Validität?!)<br />

Es ist allgemeiner Konsens, dass die Laborforschung eine hohe interne-, dafür aber<br />

eine geringe externe Validität hat, während es bei der Feldforschung umgekehrt ist.<br />

Dafür spricht die hohe inhaltliche Validität dieser Annahme und die Tatsache,<br />

dass die Ergebnisse der Feld- und Laborforschung z.T. stark divergieren.<br />

Kritisch angemerkt werden muss jedoch, dass es keine systematischen<br />

Vergleiche von Labor- und Feldforschung gibt und dass die besagte Annahme<br />

auf dem Vergleich der Pole der jeweiligen Forschungsrichtungen beruht;<br />

Mischformen (wie z.B. die experimentelle Felduntersuchung) bleiben also<br />

unberücksichtigt.<br />

Welche der beiden Forschungsformen sinnvoller ist, hängt v.a. vom aktuellen<br />

Kenntnisstand ab:<br />

Liegen z.B. schon viele Laborstudien vor, die intern valide Methoden<br />

vorschlagen, dann empfiehlt sich eine Feldstudie.<br />

9


Empfehlenswert ist außerdem die Kombination beider Forschungsformen in einer<br />

sog. experimentellen Felduntersuchung.<br />

z.B. die Veränderung politischer Einstellungen durch die Lektüre von<br />

Tageszeitungen.<br />

2.1.2. Web-Experimente<br />

Ergänzung zur klassischen Feld- und Laborforschung<br />

Vorteile:<br />

ermöglicht die Untersuchung heterogener Populationen<br />

sehr große Stichproben (hohe statistische Power)<br />

geringer organisatorischer und finanzieller Aufwand<br />

Hoher Automatisierungsgrad (Kontrolle von VL-Artefakten)<br />

Hohe externe Validität (Generalisierung auf Populationen, Settings und<br />

Situationen, da der Versuch ja „zum Probanden kommt“)<br />

Nachteile:<br />

Möglichkeit einer Mehrfachteilnahme der Pbn (Lösung:<br />

Personalisierungsitems; Überprüfung der internen Konsistenz und der<br />

Zeitkonsistenz der Antworten)<br />

Fehlende Vl-Vp-Interaktion (keine Möglichkeit zur Nachfrage)<br />

Hohe Dropout (Abbrecher)-Quote<br />

Interne Validität aufgrund nicht kontrollierbarer Störvariablen fraglich<br />

(unterschiedliche „Versuchsräume“, Bildschirmgrößen,…)<br />

Zu unterscheiden ist zwischen „Item-Non-Respondern“ und „Unit-Non-Respondern“<br />

Item-Non-Response: Nichtbeantwortung einzelner Items<br />

Lösung bei Web-Experimenten: Es müssen einfach alle Items beantwortet<br />

sein, bevor der Fragebogen anerkannt wird.<br />

Unit-Non-Response: Komplette Verweigerung der Auskunft (Ablehnung der<br />

Teilnahme, keine Rücksendung des Fragebogens, vorzeitiger Abbruch)<br />

Die Unit-Non-Responderquote kann z.B. durch finanzielle Anreize und<br />

persönliche Fragen zu Versuchsbeginn verringert werden. Außerdem sollten<br />

ladeaufwendige Inhalte (Bilder, Filme, Sounds) vermieden werden.<br />

Verringerung der Dropout-Quote:<br />

High-Hurdle-Technique<br />

konzentrierte Darbietung evtl. demotivierender Informationen am<br />

Versuchsbeginn<br />

Aufwendigere Items, die eine höhere Konzentration erfordern (viel Text usw.)<br />

ebenfalls am Anfang des Versuchs platzieren.<br />

Warm-Up-Technique<br />

genaue Instruktion und Übungsseiten vor dem Beginn des eigentlichen<br />

Versuchs, da die meisten Dropouts bereits nach wenigen Seiten auftreten.<br />

Seriosness-Check<br />

Abfragen der Involviertheit der Pbn vor Versuchsbeginn (evtl. Nicht-<br />

Zulassung zum Versuch)<br />

Steigerung der internen Validität:<br />

Erfassung der Computermerkmale des Pbn (Browsertyp,<br />

Bildschirmmerkmale,…)<br />

10


2.1.3. Einzelfallforschung<br />

Wenn lediglich eine Untersuchungseinheit vorliegt:<br />

ein einzelnes Individuum (z.B. bei seltenen Krankheiten)<br />

ein genau abgrenzbares Kollektiv (z.B. ein Verein, eine Kultur)<br />

Ziele: (1) Detaillierte und sorgfältige Beschreibung eines Phänomens;<br />

(2) Hypothesengenerierung<br />

Vorteile:<br />

Das Problem der externen Validität stellt sich nicht, da die Ergebnisse ohnehin<br />

nicht auf eine Gesamtpopulation übertragen werden sollen.<br />

Es muss kein großer Aufwand auf die Standardisierung des Verfahrens<br />

verwendet werden.<br />

Nachteile:<br />

Nahezu nicht replizierbar und damit auch nur bedingt generalisierbar<br />

Die Zusammenfassung von Einzelergebnissen ist problematisch<br />

2.1.4. Längsschnittstudien<br />

Definition: Dieselbe Stichprobe von Individuen wird mehrmals zu verschiedenen<br />

Zeitpunkten mit demselben oder einem vergleichbaren Messinstrument untersucht.<br />

z.B.: Untersuchung der kognitiven Entwicklung im Kindesalter: Dieselben<br />

Kinder werden zu unterschiedlichen Zeitpunkten untersucht.<br />

Vorteile:<br />

Unterschiede in den Messwerten dürfen als intraindividuelle Veränderungen<br />

interpretiert werden.<br />

Unterschiede innerhalb der Stichprobe dürfen als interindividuelle Unterschiede<br />

interpretiert werden.<br />

Für die Auswertung von abhängigen Stichproben („Within-Subject-Design“)<br />

stehen effizientere statistische Verfahren zur Verfügung.<br />

Nachteile:<br />

Beeinflussung der Ergebnisse durch „Zeiteffekte“ (s.o.):<br />

Geschichtlichkeit: Die Anwendung derselben Methode über einen längeren<br />

Zeitraum hinweg bzw. in verschiedenen Altersgruppen ist fraglich. Der<br />

Einfluss geänderter Umweltbedingungen ist schwer kalkulierbar!<br />

Entwicklung: Mortalität und Alterung der Probanden<br />

Testeffekte: Lerneffekte, reaktive Effekte<br />

Das Untersuchungsverfahren kann im Lauf der Studie nicht mehr geändert<br />

werden, ohne die Vergleichbarkeit der Ergebnisse zu gefährden.<br />

Beispiel: Panelforschung<br />

Definition: in bestimmten zeitlichen Abständen („Wellen“) werden von<br />

denselben Untersuchungseinheiten dieselben Merkmale erhoben.<br />

z.B. regelmäßige Befragungen zum Einkaufsverhalten<br />

Ziel: Erfassung intraindividueller und interindividueller Veränderungen über die<br />

Zeit hinweg<br />

Nachteile und Störvariablen:<br />

Lerneffekte sind abhängig von der Zahl und dem zeitlichen Abstand der<br />

erhebungen („Wellen“).<br />

Durch die Befragung können reaktive Testeffekte auftreten (z.B. erhöhtes<br />

Preisbewusstsein).<br />

11


Mortalität (zufälliger und systematischer Ausfall von Erhebungseinheiten):<br />

Bei systematischen Ausfällen tritt der „Effekt der positiven Selbstauswahl“<br />

auf, da es von Persönlichkeitsmerkmalen (Motivation usw.) abhängt, wer<br />

aussteigt (s.o.).<br />

Selektionseffekte sind bereits in der Anwerbungsphase zu erwarten: die<br />

Verweigerungsquote liegt bei über 20%!<br />

Geschichtlichkeit (s.o.)<br />

Lösungsvorschläge:<br />

Bildung sehr großer Ausgangsstichproben, damit trotz Mortalität am Ende<br />

genügend Einheiten übrig bleiben (bleibt allerdings das Problem der positiven<br />

Selbstauswahl)<br />

Auffüllen der ausgefallenen Einheiten (Vergleichbarkeit?!)<br />

Alternierendes Panel: Bildung von (zwei) Subgruppen, die abwechselnd<br />

untersucht werden; Vorteil: größerer zeitlicher Abstand zwischen den<br />

„Wellen“ und weniger „Wellen“ => weniger Testeffekte; Nachteil: enorm<br />

große Ausgangsstichprobe vonnöten<br />

Rotierendes Panel: Bildung mehrer Subgruppen, wobei nur eine Subgruppe<br />

bei allen Wellen teilnimmt, die anderen nur bei bestimmten, manche nur bei<br />

jeweils einer Welle; Vorteil: bessere Kontrolle der „Zeiteffekte“; Nachteil:<br />

sehr aufwendig, da bei jeder „Welle“ eine neue Subgruppe gebildet werden<br />

muss.<br />

Geteiltes Panel: Nur eine Subgruppe durchläuft alle Wellen, die übrigen<br />

Subgruppen jeweils nur eine, wobei auch hier die Zahl der Wellen der Zahl<br />

der Subgruppen entspricht; Vorteil: nur bei der ersten Gruppe schlagen die<br />

negativen Effekte voll durch, bei den übrigen gar nicht bzw. nur bedingt;<br />

Nachteil: siehe rotierendes Panel!<br />

2.1.5. Querschnittstudien<br />

Definition: Zu einem bestimmten Zeitpunkt werden mehrere Stichproben von<br />

Individuen mit demselben oder einem vergleichbaren Messinstrument jeweils<br />

nur einmal untersucht.<br />

z.B.: Untersuchung der kognitiven Entwicklung im Kindesalter: Kinder<br />

verschiedenen Alters werden zum selben Zeitpunkt untersucht.<br />

Vorteile:<br />

Kurze Durchführungsdauer der Untersuchung; geringerer Aufwand<br />

Umfang der Stichprobe bleibt im Erhebungszeitraum konstant<br />

Nachteile:<br />

Unterschiede zwischen den Versuchsgruppen können durch Unterschiede<br />

zwischen den Gruppen oder zwischen den Probanden bedingt sein – und müssen<br />

insofern nicht unbedingt eine Folge der UV sein.<br />

Unabhängige Stichproben erlauben keine Aussagen zu intraindividuellen<br />

Unterschieden.<br />

Für unabhängige Stichproben stehen weniger effiziente statistische Verfahren zur<br />

Verfügung.<br />

Generalisierung der Ergebnisse über den Zeitpunkt der Untersuchung hinaus ist<br />

streng genommen nicht zulässig.<br />

12


2.1.6. Sekundäranalysen<br />

Primäranalysen: Selbständige Datenerhebung<br />

Sekundäranalysen: Rückgriff auf bereits existierende Datenbestände<br />

z.B.: Wirtschaftsforschung (Bruttoinlandsprodukt), Literaturreviews,…<br />

Vorteile: geringer Aufwand<br />

Nachteile: Qualität der Daten hängt vom jew. Untersucher ab; die Daten sind u.U.<br />

veraltet und wurden zu anderem Zweck erhoben (Übertragbarkeit auf die eigene<br />

Fragestellung?!)<br />

2.2. Selektion: Das Problem der Stichprobe<br />

Definitionen:<br />

Population (Grundgesamtheit): Alle potentiell untersuchbaren Einheiten, die<br />

ein gemeinsames Merkmal, eine gemeinsame Merkmalskombination<br />

aufweisen<br />

Stichprobe: Teilmenge aller Untersuchungseinheiten, die die relevanten<br />

Eigenschaften der Grundgesamtheit möglichst gut abbildet.<br />

Man unterscheidet zwischen globaler und spezifischer Repräsentativität<br />

Je besser die Stichprobe die Population repräsentiert, desto präziser sind<br />

die Aussagen über die Grundgesamtheit<br />

Je größer die Stichprobe, desto präziser sind die Aussagen über die<br />

Grundgesamtheit.<br />

Zufallsgesteuerte Stichproben:<br />

1. Zufallsstichprobe:<br />

In eine Zufallsstichprobe kann jedes Element der Grundgesamtheit mit<br />

gleicher Wahrscheinlichkeit aufgenommen werden.<br />

z.B. zufällige Stichprobenauswahl über das Einwohnermeldeamt<br />

Empfohlen, wenn über das relevante Untersuchungsmerkmal praktisch nichts<br />

bekannt ist.<br />

2. Klumpenstichprobe:<br />

Bei einer Klumpenstichprobe wird auf mehrere, zufällig ausgewählte<br />

Teilmengen zurückgegriffen, die ihrerseits bereits vorgruppiert sind.<br />

z.B. mehrere Schulklassen einer Jahrgangsstufe<br />

Wird nur ein zufällig ausgewählter Klumpen untersucht (z.B. eine<br />

Schulklasse), spricht man von einer Ad-hoc-Stichprobe.<br />

Empfohlen bei ökonomischen Zwängen<br />

3. Geschichtete (stratifiziere Stichprobe):<br />

Geschichtete Stichproben sind Stichproben, deren Einheiten sich bezüglich<br />

einer oder mehrerer das Untersuchungsmerkmal moderierender Variablen<br />

unterscheiden; die Auswahl innerhalb einer Schicht erfolgt nach dem<br />

Zufallsprinzip.<br />

z.B.: Berücksichtigung des Jahreseinkommens bei der Befragung zu<br />

Konsumgewohnheiten.<br />

proportional geschichtet: Die prozentuale Verteilung der<br />

Schichtungsmerkmale der Stichprobe stimmt mit deren Verteilung in der<br />

Grundgesamtheit überein.<br />

Problem: Explosion der Schichtanzahl bei mehreren Schichtungsvariablen<br />

(da deren verschiedene Kombinationsmöglichkeiten berücksichtigt werden<br />

müssen)<br />

13


4. Mehrstufige Stichprobe:<br />

Stichprobenartige Untersuchung von Klumpen- oder geschichteten<br />

Stichproben<br />

Empfohlen, wenn die Klumpen bzw. Schichten zu groß sind<br />

Nicht-zufallsgesteuerte Stichproben (unter allen Umständen zu vermeiden!):<br />

1. Anhand willkürlich definierter Kriterien zusammengestellte Stichproben<br />

2. Quotenstichproben:<br />

Von jeder Stichprobe müssen bestimmte Quoten erfüllt werden (z.B. soundso<br />

viele Frauen, soundso viele Männer usw.)<br />

wird häufig in der Umfragenforschung verwendet.<br />

Probleme:<br />

Nur die prozentuale Aufteilung der Quotierungsmerkmale wird<br />

betrachtet, i.d.R. nicht deren Kombinationsmöglichkeiten (wie bei der<br />

geschichteten Stichprobe)<br />

Die Auswahl der Einheiten innerhalb dieser Quoten bleibt id.R. dem<br />

Untersucher überlassen und erfolgt deswegen meist nicht nach dem<br />

Zufallsprinzip (wie bei der geschichteten Stichprobe), sondern z.B. nach<br />

dem Verfügbarkeitsprinzip (bei Befragungen werden z.B. oft die<br />

höheren Stockwerke vernachlässigt).<br />

Die Repräsentativität von Stichproben:<br />

Stichprobenkennwerte sind Schätzwerte; sie repräsentieren die<br />

entsprechenden Populationsparameter immer nur mit einer gewissen<br />

Wahrscheinlichkeit.<br />

=> Die für die Stichprobe erhobenen Messwerte sind Schätzwerte für die wahren<br />

Werte (in der Population).<br />

Das Vertrauens- bzw. Konfidenzintervall gibt an, zwischen welchen Werten<br />

sich der wahre Wert bei gegebenem Stichprobenwert mit hoher<br />

Wahrscheinlichkeit (meistens 95%) bewegt.<br />

Je größer die Stichprobe, desto kleiner das Konfidenzintervall.<br />

Will man das Konfidenzintervall verkleinern, muss man den<br />

Stichprobenumfang entsprechend vergrößern (quadrieren!)<br />

=> Halbierung des Konfidenzintervalls = 4-facher Stichprobenumfang<br />

14


3. Datenquellen I: Beobachtung<br />

3.1. Was ist eine Beobachtung?<br />

Bebachtung ist in den empirischen Wissenschaften die grundlegende Methode der<br />

Datengewinnung.<br />

Definition (nach Laatz): Das „Sammeln von Erfahrung im nicht-kommunikativen<br />

Prozess mit Hilfe sämtlicher Wahrnehmungshilfen“<br />

Alltagsbeobachtung: unsystematisch, naiv<br />

Wissenschaftliche Beobachtung: zielgerichtet, methodisch kontrolliert<br />

Zielgerichtetheit:<br />

Zielgerichtetheit ist notwendig, aufgrund der begrenzten Informationsverarbeitungskapazität<br />

des Beobachters.<br />

Zielgerichtetheit impliziert, dass der Beobachter eine Theorie über den<br />

Beobachtungsgegenstand hat.<br />

Methodische Kontrolle:<br />

Beachtung des Kontextes (Wo wird beobachtet?)<br />

Kontrolle des Beobachterverhaltens (da Wahrnehmung ein aktiver Prozess ist)<br />

Speichern der Beobachtung (Der Zugriff auf die Beobachtungsergebnisse sollte<br />

jederzeit zugänglich sein)<br />

Wissenschaftliche Beobachtung umfasst die verschiedensten Methoden:<br />

Ablesen von Skalen<br />

Auswertung von Fragebögen<br />

(Direktes) Beobachten von Verhalten<br />

Ablesen von Testergebnissen (z.B. Reaktionszeiten)<br />

3.2. Beobachtungssysteme: Die Kodierung von Beobachtungen<br />

Zu unterscheiden ist zwischen Verbal- und Nominalsystemen.<br />

1. Verbalsysteme<br />

Möglichst genaue verbale (freie) Beschreibung von Verhaltensweisen<br />

Umfassend, da keine Vorgaben; dafür aber schwierig zu standardisieren<br />

2. Nominalsysteme<br />

Kodierung beobachteter Verhaltensweisen nach einem bestimmten Schema<br />

Katalog möglicher Verhaltensweisen, die möglichst genau definiert sind<br />

Adäquate Übersetzung dieser Verhaltensweisen in Zeichen (Bildung von<br />

Kategorien: entweder für jede Beobachtungseinheit eine eigene<br />

Kategorie oder übergeordnete Kategorien, in die sich mehrere ähnliche<br />

Beobachtungseinheiten einordnen lassen)<br />

Beobachtung als Zuordnung zu Kategorien (Dauer und Häufigkeit eines<br />

Verhaltens; nominalskaliert):<br />

1. Time-Sampling (Zeitstichprobe)<br />

Beobachtungseinheit = festes Zeitintervall<br />

Es wird pro Zeitintervall kodiert, welches Verhalten aufgetreten ist<br />

Ergebnis: annähernde Information über Häufigkeit und Dauer des Verhaltens<br />

2. Event-Sampling (Ereignisstichprobe)<br />

Beobachtungseinheit = eine bestimmte Verhaltensweise<br />

Art der Verhaltensweise sowie deren Beginn und Ende werden<br />

festgehalten<br />

Ergebnis: exakte Information über Häufigkeit und Dauer des Verhaltens<br />

Gefahr der Überforderung, insbes. bei sehr kurzen Verhaltensweisen<br />

Beobachtung als Einschätzung auf Ratingskalen (Ausprägung eines Verhaltens;<br />

intervallskaliert).<br />

15


3.3. Beobachterfehler und wie man sie vermindert<br />

Ermüdung, Langeweile, Überlastung und Aufmerksamkeitsschwankungen des<br />

Beobachters<br />

1. Beobachtertraining<br />

2. Vereinfachung der Beobachtung (s.u.)<br />

3. Mehrere Beobachter (Interraterreliabilität und Verwendung von Mittelwerten<br />

über mehrere Rater)<br />

4. Aufzeichnung der Beobachtung (= s.u.: „vermittelte Beobachtung“)<br />

Mangelnde Standardisierung der Beobachtung<br />

1. Vereinfachung und Standardisierung der Beobachtung<br />

Begrenzte Anzahl klar definierter Kategorien<br />

Keine Globalurteile, sondern „Merkmal für Merkmal“<br />

Verwendung adäquater Skalen (evtl. kombinierte Verbal-<br />

/Numeralskalen)<br />

Beobachtertraining<br />

Generelle und spezielle Erwartungseffekte sowie Reaktivitätseffekte<br />

Rosenthal- bzw. Pygmalion-Effekt (s.o.)<br />

Unbeabsichtigte Beeinflussung des Pbn durch verbales u. nonverbales<br />

Verhalten des Beobachters bzw. durch die Tatsache der Beobachtung<br />

selbst!<br />

Zentrale Tendenz<br />

häufigere Verwendung der mittleren Kategorien<br />

Milde-Tendenz<br />

Vermeidung extremer Kategorien<br />

Primacy-Recency-Effekt<br />

v.a. bei retrospektiver Beobachtung: die ersten und letzten Beobachtungen<br />

werden besser gemerkt und sind im Nachhinein leichter abrufbar.<br />

Halo-Effekt<br />

Unzulässige Generalisierung von beobachteten Verhaltensweisen auf<br />

erwartete Persönlichkeitsmerkmale<br />

1. Beobachtertraining (Problembewusstsein)<br />

2. Postumer Ausschluss einzelner Beobachter und/oder Beobachtungsgegenstände<br />

(bei der Auswertung)<br />

3. Mehrere Beobachter (Interraterreliabilität)<br />

4. „Einseitig verdeckte Beobachtung“ (z.B. durch Coverstory, s.u.)<br />

5. „Indirekte Beobachtung“ (keine Interaktion zw. Vp und Vl, s.u.)<br />

6. „Vermittelte Beobachtung“ (Aufzeichnung des Verhaltens, s.u.)<br />

7. Gewöhnungsphase (zur Abschwächung reaktiver Effekte seitens der Vp)<br />

16


3.4. Selbst- und Fremdbeobachtung<br />

Probleme der Selbstbeobachtung:<br />

Reaktivität: Die Tatsache, dass der Beobachter weiß, was beobachtet werden<br />

soll, kann die Beobachtung beeinflussen.<br />

Da Verhalten und Beobachtung simultan ablaufen, Gefahr der kognitiven<br />

Überforderung (Grenzen der Verarbeitungskapazität); Probleme retrospektiver<br />

Beobachtung (s.o.)<br />

Veränderung des Beobachtungsgegenstandes durch die Beobachtung<br />

(Reaktivität)<br />

Nicht alle Phänomene können von einem selbst beobachtet werden.<br />

Die Ergebnisse der Beobachtung sind nicht nachprüfbar.<br />

Aspekte der Fremdbeobachtung:<br />

Natürliches vs. künstliches Beobachtungsumfeld<br />

Siehe oben: Feld- und Laborforschung<br />

Wissentliche / offene vs. unwissentliche / verdeckte Beobachtung<br />

Unwissentlich (non-reaktiv): Probanden wissen nicht, dass sie beobachtet<br />

werden (z.B. durch eine Einwegscheibe, mittels einer versteckten<br />

Kamera,…) = einseitige Verbindung vom Vl zur Vp<br />

einseitig verdeckt (non-reaktiv): Proband weiß nicht, was beobachtet wird<br />

(z.B. Coverstories)<br />

beidseitig verdeckt (non-reaktiv):<br />

wissentlich/offen (reakativ): Reaktivitätsprobleme (s.u.)!!<br />

Teilnehmende vs. nicht-teilnehmende Beobachtung<br />

Nicht-teilnehmend: Beobachter hat keinen Einfluss auf den<br />

Versuchsgegenstand; es findet keine Interaktion zw. Vp und Beobachter<br />

statt<br />

Teilnehmend: Problem der Reaktivität und der möglichen Überforderung<br />

des Beobachters (begrenzte Verarbeitungskapazität)<br />

Direkte vs. indirekte (non-reaktive) Beobachtung<br />

Direkte Beobachtung: das Verhalten selber wird beobachtet.<br />

Indirekte Beobachtung: Lediglich die Spuren bzw. Auswirkungen des<br />

Verhaltens werden beobachtet (z.B. Wrong-Number Technik, Lost-Letter<br />

Technik, Auswertung bereits vorhandener Dokumente,…).<br />

* Die Interpretation solcher Daten verlangt eine Verhaltenstheorie<br />

(Welches Verhalten hat die Daten erzeugt?) und eine<br />

Stichprobentheorie (Wer kann die Daten erzeugt haben?); eine<br />

Individualzuweisung der Daten ist meistens nicht möglich.<br />

Vermittelte vs. unvermittelte Beobachtung<br />

Vermittelte Beobachtung: Zu beobachtendes Verhalten wird gespeichert<br />

(z.B. mittels Audio- oder Videoaufnahme), und ist dadurch beliebig<br />

abrufbar und wieder verwendbar.<br />

Unvermittelte Beobachtung: mindestens 2 Beobachter<br />

17


3.5. Güte einer Beobachtung<br />

Retest-Reliabilität (intraindividueller Vergleich der Beobachter)<br />

Übereinstimmung der Beobachtungsergebnisse bei wiederholter Durchführung<br />

(Stabilität und Konsistenz eines Beobachters)<br />

Interraterreliabilität (interindividueller Vergleich der Beobachter)<br />

Übereinstimmung verschiedener Beobachter (Kappa-Maß)<br />

Interpretation: Die zufallskorrigierte Beobachterübereinstimmung beträgt X %.<br />

gute Übereinstimmung: Kappa-Werte > 70%<br />

zufrieden stellende Übereinstimmung: Kappa-Werte > 50%<br />

3.6. Zusammenfassung: Aspekte des Beobachtungsprozesses<br />

Objekt der Beobachtung<br />

Subjekt der Beobachtung<br />

Umstände der Beobachtung<br />

Mittel der Beobachtung (Sinnesorgane; Geräte; Prozeduren)<br />

Implizites oder explizites theoretisches Wissen, mit dessen Hilfe die o.g. Aspekte<br />

aufeinander bezogen werden.<br />

18


4. Datenquellen II: Befragung<br />

4.1. Was ist Befragung?<br />

Alltagsverständnis: verbale Kommunikation zwischen Personen<br />

Wissenschaftliches Verständnis: Informationsfluss zwischen Personen (nicht<br />

zwangsläufig verbaler Art)<br />

Kennzeichen einer wissenschaftlichen Befragung ist die Kontrolle jedes<br />

einzelnen Befragungsschrittes:<br />

Systematische Vorbereitung und Durchführung (präzise Formulierung<br />

der Fragen; genaue Instruktion; Wahl eines adäquaten<br />

Befragungsinstruments usw.)<br />

Berücksichtigt werden müssen dabei v.a. die Befragungssituation sowie<br />

Personenmerkmale des Interviewers und des Befragten (s.u.)<br />

4.2. Klassifikation von Befragungen<br />

4.2.1. Ausmaß der Standardisierung<br />

Man unterscheidet zwischen strukturierten, halb-strukturierten und unstrukturierten<br />

Befragungen.<br />

Eine standardisierte bzw. strukturierte Befragung gibt die Abfolge und den<br />

Wortlaut der Fragen vor. Antwortvorgaben sind dagegen nicht unbedingt notwendig.<br />

Offene Fragen sind also auch in einer standardisierten Befragung durchaus möglich.<br />

Offene Fragen (freie Formulierung der Antworten): bei stetigen Merkmalen<br />

(z.B. Alter) oder wenn die Antworten vorher nicht absehbar sind<br />

Geschlossene Fragen (Vorgabe mehrerer Antwortoptionen): wenn eine<br />

Begrenzung der Antworten auf bestimmte Bereiche sinnvoll erscheint;<br />

einfachere Auswertung<br />

Standardisierte Befragungen eignen sich bei umgrenzten Themenbereichen oder<br />

wenn bereits Vorwissen zu dem betreffenden Thema besteht.<br />

Bei halbstandardisierten Befragungen orientiert sich der Interviewer an einem mehr<br />

oder minder groben Leitfaden. Reihenfolge und Art der einzelnen Fragen sind also<br />

nicht vollkommen vorgeschrieben. Ermöglicht höhere Flexibilität; daher am besten!<br />

Teilweise offene, teilweise geschlossene Fragen<br />

4.2.2. Autoritätsanspruch des Interviewers<br />

Man unterscheidet zwischen „weichen-“, „harten-“ und „neutralen Interviews“.<br />

„Weiche“ Interviews beruhen auf den Prinzipien der Gesprächstherapie (nondirektiv,<br />

emphatisch, wertschätzend, selbstkongruent)<br />

Ziel: aufrichtige, offene und reichhaltige Antworten (ohne Hemmungen)<br />

„Harte“ Interviews: autoritär-aggressiver Fragestil, häufiges Anzweifeln der<br />

Antworten, schnelle Aufeinanderfolge der Fragen<br />

Ziel: „Überrennen“ von Abwehrmechanismen<br />

„Neutrale“ Interviews: Betonung der informationssuchenden Funktion der<br />

Befragung; Fragender und Befragter als gleichwertige Partner<br />

19


4.2.3. Art des Kontakts<br />

Man unterscheidet zwischen direkten/persönlichen, telefonischen und schriftlichen<br />

Befragungen.<br />

Persönliche Befragung („Face-to-Face-Interview“): hoher Aufwand, dafür hohe<br />

subjektive Vertraulichkeit<br />

Telefonische Befragung („Telefoninterview“): schnell und preiswert; vom Befragten<br />

als anonymer und weniger bedrängend erlebt als persönliche Interviews; geringe<br />

Verweigerungsquote<br />

Schriftliche Befragung („Paper-and-Pencil“): kostspielig, unkontrollierte<br />

Erhebungssituation, heterogene Rücklaufquote, statt sequentieller Reihenfolge<br />

simultan (da vor- und zurückgeblättert werden kann)<br />

Neuere, computerunterstützte Befragungstechniken:<br />

“Computer Assisted Personal interviewing“ (CAPI)<br />

“Computer Assisted Telephone Interviewing” (CATI)<br />

“Computer Assisted Self Interviewing” (CASI)<br />

“Computer Self-Administered Questionnaire” (CSAQ)<br />

“Disk by Mail” (DBM)<br />

Voice Recognition (VR)<br />

4.2.4. Anzahl der befragten Personen<br />

Man unterscheidet zwischen Gruppen- und Einzelinterviews<br />

Einzelinterviews: bei Themenbereichen, in denen Gruppeneffekte auftreten können<br />

(Leistungsdruck, sozialer Druck)<br />

Gruppeninterviews: Geringere Kosten; einheitliche Befragungssituation für<br />

jeweilige Gruppe<br />

Befragte machen Angaben auf Antwortbogen<br />

4.2.5. Anzahl der Interviewer<br />

Zu unterschieden ist zwischen: Ein Interviewer; „Tandem“ und „Hearing“<br />

Ein Interviewer: am ökonomischsten<br />

Tandem-Interview (2 Interviewer): sinnvoll bei anspruchsvollen Interviews, wie<br />

z.B. Expertenbefragungen<br />

Hearing / Board-Interviews (Mehrere Interviewer): Möglichkeit der gegenseitigen<br />

Ergänzung, vom Befragten als belastend wahrgenommen (z.B. bei<br />

Personalkommissionen)<br />

4.2.6. Funktion des Interviews<br />

Informationsermittelnde Funktion: Erfassung von Fakten (z.B. Zeugeninterviews;<br />

Panel-Befragungen,…)<br />

Invormationsvermittelnde Funktion: Beratungsgespräche (z.B. Berufsberatung)<br />

20


4.3. Allgemeines psychologisches Grundmodell der Befragung<br />

Die Antwort einer Person hängt ab von:<br />

1. Aspekten der Frage (z.B. Wortlaut, Reihenfolge)<br />

2. Merkmalen des Befragten (z.B. Motivation, Kompetenz)<br />

3. Kontext der Befragungssituation (z.B. Art, Zweck, Merkmale des Interviewers)<br />

Ergo: Es gibt eine Vielzahl an Einflussfaktoren auf die Antwort<br />

4.3.1. Aspekte der Frage<br />

Die Reihenfolge der Frage kann die Antwort beeinflussen.<br />

Werden kontextuell ähnliche Fragen direkt hintereinander gestellt, versucht der<br />

Befragte die 2. Frage meist einem anderen Kontext zuzuordnen und etwas anderes,<br />

sprich neues, zu antworten („Given-new-Contract“).<br />

Ergo: Thematisch oder kontextuell ähnliche Fragen immer auseinander<br />

ziehen!<br />

Die Formulierung der Fragen kann die Antwort beeinflussen (möglichst präzise und<br />

einfach).<br />

Die Formatierung der Antwortskala (s.u.) hat einen Einfluss darauf, wie die<br />

dazugehörige Frage interpretiert wird.<br />

Wie oft ärgern sie sich?!<br />

Skala 1: mehrmals am Tag …Weniger als 1 Mal pro Woche<br />

Skala 2: mehrmals im Jahr … Weniger als 1 Mal pro Jahr<br />

4.3.2. Merkmale des Befragten<br />

Motivation: Pb will keine validen Angaben machen<br />

Demand-Effekte: Pb will die „Erwartungen“ des Befragers erfüllen<br />

Soziale Erwünschtheit: Formulierung sozial akzeptierter Antworten<br />

„Self-Disclosure“: Auskunftsverweigerung (Item- vs. Unit-Nonresponder)<br />

Kompetenz: Pb kann keine validen Angaben machen<br />

Pb ist von den Fragen überfordert und kann schlicht und einfach nicht antworten!<br />

4.3.3. Kontext der Befragungssituation<br />

Der Zweck einer Befragung beeinflusst die Bereitschaft, daran teilzunehmen und<br />

Ausführlichkeit und Inhalt der Antworten.<br />

Befragung als wahrgenommenes „Bürgerreferendum“ (extremere Positionen);<br />

Befragung als wahrgenommenes „intimes Gespräch“ (Orientierung an der<br />

Meinung des Interviewers)<br />

Merkmale des Interviewers (wie Alter, Geschlecht, Rasse,…) können die Antworten<br />

beeinflussen.<br />

Beispiel: ein Ausländer führt Befragung zu Ausländerfeindlichkeit durch<br />

(Demandeffekte, soziale Erwünschtheit,…)<br />

21


4.4. Formatierung der Antwortskala<br />

Numeralskala (Zahlenwerte): z.B. von 0 bis 5 (unipolar) oder von -2 bis 2.<br />

(-) Verwendung negativer Skalenwerte ist umstritten<br />

(-) Fraglich, ob Ureile in Zahlen ausgedrückt werden können (evtl. zu abstrakt)<br />

Daher: (+) Verbale Verankerung der Pole!!<br />

(-) Anfälliger für Urteilseffekte als Verbalskalen<br />

Verbalskala (Begriffe): z.B. von „stimmt gar nicht“ bis „stimmt völlig“<br />

(-) Durch verbale Bezeichnung u.U. unpräzise<br />

(-) Äquidistanz zwischen den Kategorien nicht immer sichergestellt<br />

(+) Weniger anfällig für Urteilseffekte als Numeralskalen<br />

Symbolskalen: z.B. „Thermometerskala“, „Kunin-Skala“ (mit Smileys)<br />

(+) v.a. bei Kindern sinnvoll<br />

Visuelle Analogskala: Antworten werden auf einer kontinuierlichen Linie abgetragen<br />

(z.B. von „sehr selten“ bis „sehr häufig“)<br />

(-) Hoher Auswertungsaufwand<br />

(-) Anfangs höhere Unsicherheit bei den Probanden<br />

(+) Später aber: höhere Motivation der Befragten und schneller Antworten<br />

(+) Feinere Abstufungen des Urteils möglich<br />

(+) Entspricht Intervallniveau<br />

(+) Geringe Erinnerungseffekte: Pbn können sich angegebene Position nur<br />

schwer merken<br />

Standardskala: Eine durch Beispiele verankerte Skala<br />

(-) Hoher Entwicklungsaufwand<br />

(+) Plastische Wirkung für Befragten<br />

Empfehlungen:<br />

Bei Numeralskalen: Verbale Verankerung!<br />

Kategorienzahl an der Differenziertheit des Messgegenstandes und der<br />

Differenzierungsfähigkeit der Befragten ausrichten<br />

* Rohrmann empfiehlt Ratingskalen mit 5 Kategorien; bei akademischen<br />

Stichproben aber auch größere Kategorienzahl möglich.<br />

Ungerade Anzahl von Kategorien bzw. Aufnahme einer Mittelkategorie<br />

(„weder-noch“/ „unentschieden“)<br />

(-) Sind Mittelkategorien explizit vorgegeben, werden sie auch häufiger<br />

genutzt.<br />

(-) Unterscheidung von Unwissenheit, neutraler Position und Bequemlichkeit<br />

nur schwer möglich.<br />

=> Daher: Einführung einer optisch getrennten Ausweichkategorie für<br />

Unwissenheit.<br />

Gerade Anzahl von Kategorien (keine Mittelkategorie)<br />

(+) Entscheidung des Pb wird erzwungen<br />

(- ) Gefahr häufiger Missings<br />

Bei bipolaren Skalen: Balancierung (sprich: genauso viele positive wie<br />

negative Kategorien + eine Mittelkategorie)<br />

22


4.5. Auskunftsverweigerung<br />

Item-Nonresponder: Nichtbeantwortung einzelner Items<br />

Ursachen: Verweigerung der Auskunft (v.a. bei intimeren Fragen), Nicht-<br />

Informiertheit, Meinungslosigkeit, Unentschlossenheit<br />

Personenprofil: Unsichere Personen, ältere Menschen, Personen mit geringem<br />

Sozialstatus<br />

Unit-Nonresponder: komplette Auskunftsverweigerung<br />

Kontrollmöglichkeiten: Hinreichend große Stichprobe, Auffüllen der<br />

Stichprobe<br />

Problem: Systematische Unterschiede zwischen Respondern und<br />

Nonrespondern => Verzerrung der Stichprobe (Repräsentativität)<br />

Personenprofil:<br />

bei Interviews: ältere Menschen, Frauen, geringer Bildungsstatus<br />

bei schriftlichen Befragungen: geringer Bildungsstatus, geringere<br />

Intelligenz, geringes Interesse am Thema, fehlende Beziehung zum<br />

Unterssucher<br />

Verweigerungsquoten:<br />

Bei persönlicher Befragung: 7-14%<br />

Bei telefonischer Befragung: 7%<br />

Bei schriftlicher Befragung: 10-90%<br />

Freistempelung des Briefes (34%); frankierter Rückumschlag (26%)<br />

Computerunterstützte Befragung: ähnliche Verweigerungsquoten, aber höhere<br />

Rücklaufgeschwindigkeit!<br />

Die Rücklaufquoten bei schriftlichen Befragungen können gesteigert werden, durch:<br />

Stichproben, die den Umgang mit schriftlichen Texten gewohnt sind<br />

aktuelle und interessante Themen<br />

ansprechende Gestaltung des Fragebogens<br />

vorheriges Ankündigungsschreiben (2 mal so hoch) oder kurzen Anruf (3 mal<br />

so hoch)<br />

Festlegung einer Deadline (Einsendeschluss)<br />

Entscheidend für die Qualität und Verwertbarkeit einer schriftlichen Befragung ist<br />

nicht die Höhe des Rücklaufs, sondern die Repräsentativität der Stichprobe!<br />

Möglichkeiten zur qualitativen Kontrolle der Rückläufe:<br />

Überprüfung der Repräsentativität (z.B. mittels Sozialstatistiken)<br />

Gezielte telefonische, schriftliche oder persönliche Nachbefragung der Non-<br />

Responder<br />

23


5. Datenquellen III: Apparative Techniken<br />

5.1. Psychophysiologische Methoden<br />

Grundannahme: „Die Herstellung kausaler Beziehungen zwischen Gehirn, Körper<br />

und Verhalten erfordert die simultane Erfassung und Beeinflussung von<br />

physiologischen und psychologischen Variablen.“ (Birbaumer & Schmidt)<br />

Dabei sind 2 Strategien zu unterscheiden:<br />

1. Manipulation des physiologischen Substrats (UV) => Beobachtung des<br />

Verhaltens (AV)<br />

z.B. Zerstörung oder Reizung einer Hirnregion (UV) => Beobachtung<br />

des Verhaltens (AV)<br />

v.a. in der biologischen Psychologie und Neuropsychologie<br />

angewandt (überwiegend Tierversuche)<br />

Ziel ist es, Zusammenhänge zwischen Hirnstrukturen und<br />

Verhalten herauszufinden.<br />

2. Manipulation des Verhaltens (UV) => Veränderungen des Substrats<br />

(AV)<br />

z.B. Darbietung eines Reizes (UV) => Messen der elektrischen<br />

Hirnaktivität (AV)<br />

wird v.a. in der Psychophysiologie angewendet (Humanversuche)<br />

Ziel ist es, Zusammenhänge zwischen Hirnprozessen und Verhalten<br />

herauszufinden.<br />

Biosignale: Alle physikalisch messbaren, kontinuierlich oder nahezu<br />

kontinuierlich registrierbaren Körperfunktionen.<br />

Folgende Arten von Biosignalen sind zu unterscheiden:<br />

1. Direkte bioelektrische Signale<br />

Gehen mit elektrischen Spannungsänderungen einher: z.B. Herzschlag<br />

oder Hirnaktivität<br />

2. Indirekte bioelektrische Signale<br />

z.B. Hautleitfähigkeit (gibt Auskunft über die Schweißproduktion)<br />

3. Nicht-elektrische Biosignale<br />

z.B. Blutdruck, Atemfrequenz, Temperatur (lassen sich in nahezu<br />

kontinuierliche, bioelektrische Signale umwandeln!)<br />

Biosignale werden über die Amplitude, Frequenz, und Wellenform interpretiert! Je<br />

nach Fragestellung kann auch nur eine dieser Ausprägungen relevant sein.<br />

5.2. Messanordnung<br />

Die typische Messanordnung zur Erhebung von Biosignalen umfasst 4 Schritte:<br />

1. Messquelle: Biosignale (s.o.)<br />

2. Ableitung der Biosignale durch Messfühler (Elektroden, Wandler)<br />

3. Signalverarbeitung (Filterung und Verstärkung des Signals zur Kontrolle von<br />

Störgrößen)<br />

4. Aufzeichnung, Darstellung und Speicherung<br />

24


Folgende Arten von Messfühlern sind zu unterscheiden:<br />

Elektroden: Zur Ableitung bioelektrischer Signale<br />

Bipolare Ableitung: Relevante Spannungsänderung wird mit zwei<br />

Elektroden erfasst, wobei beide Elektroden über der die Spannung<br />

erzeugenden Struktur angebracht werden (z.B. EMG).<br />

Unipolare Ableitung: Spannungsdifferenz zwischen der interessierenden<br />

Struktur und einer „neutralen“ Referenzelektrode (z.B. EEG, EKG).<br />

Subdermalelektroden: Unter der Hautoberfläche (v.a. bei Tierversuchen,<br />

für Psychologen verboten, da diese nur nicht-invasiv arbeiten dürfen)<br />

Oberflächenelektroden: Auf der Hautoberfläche angebrachte Elektroden<br />

Wandler: Zur Ableitung nicht-elektrischer Biosignale und deren Umwandlung<br />

in elektrische Signale<br />

Mechanische, chemische und andere nichtelektrische Biosignale werden<br />

durch Wandler in bioelektrische Signale umgewandelt (die Atmung z.B.<br />

mit einem Atemgürtel, die Temperatur mittels Thermofühler usw.).<br />

Analog-Wandler: analoges Signal = wert- und zeitkontinuierliche<br />

Zuordnung einer physikalischen Messgröße zu einer anderen (z.B. Zeit,<br />

Kraft oder Weg)<br />

Digital-Wandler: Digitale Signale = wert- und zeitdiskrete Zahlenfolgen<br />

Störgrößen: Die Messung kann durch sog. Artefekate beeinflusst werden, d.h.<br />

durch aufgefangene Signale, die anderen Ursprungs sind als das zu messende<br />

Biosignal. Dabei ist zu unterscheiden zwischen Artefakten physiologischer Herkunft,<br />

Bewegungsartefakten und Artefakten durch externe elektrische Einstreuung:<br />

Artefakte physiologischer Herkunft<br />

Potentialschwankungen und Signalstörungen durch parallel ablaufende<br />

physiologische Prozesse<br />

Lösung: bessere Elektroden / elektronische Komponenten<br />

Bewegungsartefakte<br />

Lösung: optimale Platzierung der Elektroden<br />

Artefakte durch externe elektrische Einstreuung<br />

Lösung: Bessere elektronische Komponenten (Verwendung von<br />

abgeschirmten Leitungen, Masseelektroden usw.); Abschirmung des<br />

Raumes bzw. des Probanden; Filterung und Verstärkung<br />

Filterung: Durch elektronische Filter wird das aufgenommene Signal vor der<br />

weiteren Verarbeitung aufbereitet; Störsignale werden weitestgehend herausgefiltert.<br />

Tiefpassfilter: Begrenzen den Frequenzbereich nach oben<br />

Dämpfung hoher Frequenzen: tiefe (unterhalb der jew. Grenzfrequenz<br />

gelegene) Frequenzen kommen zu 100 % durch, während hohe<br />

Frequenzen den Filter nur zu einem geringeren Prozentsatz passieren.<br />

Tiefpassfilter werden am häufigsten verwendet (z.B. zur Unterdrückung<br />

von Rauschen, u.a. des 50Hz-Netzgebrumms)<br />

Hochpassfilter: Begrenzen den Frequenzbereich nach unten<br />

Dämpfung niedriger Frequenzen: s.o.<br />

Grenzfrequenz: Frequenz, bei der das Signal auf 70,7% der ursprünglichen<br />

Amplitude reduziert wird. Je weiter die herauszufilternde Frequenz jenseits<br />

dieses Grenzwerts liegt, desto stärker die Filterung.<br />

Problem: Signale, die jenseits der Grenzfrequenz liegen, werden nicht<br />

vollständig herausgefiltert, sondern lediglich gehemmt.<br />

Bandpass-Filter: Passage ausgewählter Frequenzbänder<br />

Bandsperr-Filter: Selektives Herausfiltern spezifischer Frequenzbänder (z.B.<br />

50Hz- Netzgebrumm)<br />

25


Prinzip der Differenzverstärkung: Verstärkung von Spannungsdifferenzen<br />

zwischen 2 Ableiteelektroden.<br />

Zu diesem Zweck werden 2 Elektroden an jeweils unterschiedlichen Stellen<br />

angebracht. Da sich Störsignale im Gegensatz zu bioelektrischen Signalen mit<br />

enormer Geschwindigkeit ausbreiten, kommen sie mehr oder minder<br />

gleichphasig an den beiden Elektroden an und werden durch Differenzbildung<br />

fast vollständig eliminiert.<br />

Was bleibt, ist das relevante bioelektrische Signal, das aufgrund seiner<br />

langsameren Ausbreitung zu unterschiedlichen Zeitpunkten an den<br />

Elektroden ankommt und sich dementsprechend bei der Differenzbildung<br />

nicht aufhebt.<br />

Masse-Elektroden: gleichen Potentialunterschiede zwischen Proband und Gerät aus.<br />

Eichung: Erhebung eines Referenzsignals, mit dem dann Eichmessungen<br />

vorgenommen werden können. Ein Referenzsignal ist ein Signal, dessen Höhe<br />

bekannt ist und das man gleichzeitig einem bestimmten Verhalten zuordnen kann<br />

(Wie sieht z.B. das Lidschlusssignal aus bzw. wie verändert es sich, wenn der Blick<br />

nach vorne auf die Straße, auf den Tacho oder sonst wohin gerichtet ist?!)<br />

Ziele: (1) Verwendung der Amplitude des Referenzsignals als Bezugsgröße für<br />

die weiteren Auswertungen. (2) Überprüfung, ob die Verstärkungseinheiten<br />

adäquat arbeiten.<br />

5.3. Messprobleme:<br />

Artefakte (s.o.)<br />

Spezifitätsproblematik: Physiologische Reaktionen sind nicht eindeutig, sondern<br />

zumindest z.T. individualspezifisch. Sie können also unabhängig vom Stimulus und<br />

der Motivation der Vp stark variieren.<br />

Dem einen schlägt Stress z.B. auf den Magen, dem anderen auf die Blase.<br />

Außerdem können verschiedene Stimuli und Motivationen dieselbe<br />

physiologische Reaktion hervorrufen. Z.B. kann die Ursache einer erhöhten<br />

Herzfrequenz sowohl Angst als auch Freude sein.<br />

Bei der Auswertung physiologischer Reaktionen muss also bedacht werden, dass es<br />

sich um individual-, stimuli- und motivationsspezifische Reaktionen handelt.<br />

Ausgangswertproblematik: Physiologische Reaktionen hängen vom jeweiligen<br />

Ausgangswert ab. Das Ausgangswertgesetz von Wilder besagt: Je stärker<br />

vegetative Organe aktiviert sind, desto stärker ist ihre Ansprechbarkeit auf<br />

hemmende Reize und desto schwächer ist ihre Ansprechbarkeit auf aktivierende<br />

Reize.<br />

Regressionseffekt B: Zwischen Ausgangswert und Veränderungswert besteht<br />

eine negative Korrelation. Dementsprechend enthalten die Veränderungswerte<br />

einen systematischen Fehler.<br />

Mögliche Lösungen:<br />

Differenzbildung: Behandlung – Baseline<br />

Prozentuale Veränderung: (Behandlung – Baseline)/Baseline<br />

Kovarianzanalytische Methoden: Baseline als Kovariable<br />

Regressionsanalytische Methoden<br />

Physiologische Messungen hängen nicht zuletzt von inneren u. äußeren Variablen ab:<br />

Äußere Störvariablen: Tageszeit, Raum-/Außentemperatur, Versuchssetting<br />

Innere Störvariablen: Motivation, Stimmung, Alter, Geschlecht,…<br />

26


5.4. Physiologische Maße<br />

Zentrales Nervensystem (Rückenmark und Gehirn)<br />

EEG (Elektroenzephalogramm): Messung der neuronalen Aktivität im Gehirn<br />

Bildgebende Verfahren<br />

PET (Positronen-Emissions-Tomographie): Sichtbarmachung des Gehirnstoffwechsels<br />

durch Injektion radioaktiv markierter Glucose<br />

Computertomographie: Absorption von Röntgenstrahlen<br />

Kernspintomographie: Schwingungsverhalten von Atomen nach<br />

Magnetbestrahlung<br />

Peripheres Nervensystem (nervöses Gewebe außerhalb des ZNS)<br />

EMG (Elektromyogramm): Ableitung elektronischer Potentiale auf der Haut, die<br />

von der Aktivität des darunter liegenden Muskels herrühren.<br />

EKG (Elektrokardiogramm): Messung der Herzfrequenz<br />

SCR (Skin Conductance Response): Messung der elektrischen Hautleitfähigkeit<br />

der Haut (meist an den Handflächen), um so auf die Aktivität der Schweißdrüsen<br />

zu schließen: Je aktiver nämlich die Schweißdrüsen, desto leitfähiger die Haut!<br />

Lidschlagmessung<br />

Endokrines (hormonelles) System<br />

Blut-, Urin- und Speichelproben zur Messung des Hormongehalts<br />

Immunsystem<br />

Blutproben (je entspannter, desto größer die Immunsystemaktivität)<br />

Sprechverhalten: Logoport<br />

27


6. Versuchsplanung I<br />

6.1. Grundlegendes zur Versuchsplanung<br />

Grundidee: Um den Kausalzusammenhang zwischen einer UV und einer AV zu<br />

prüfen, werden Situationen hergestellt, die sich nur durch die Ausprägung der UV<br />

unterscheiden. Verändert sich in diesem Fall die AV, ist die Veränderung auf die<br />

Variation der AV zurückzuführen.<br />

Der Idealfall zweier Situationen, die sich nur in der UV unterscheiden ist in der<br />

Praxis nicht herzustellen. Stattdessen setzt sich in jedem Experiment die<br />

Gesamtvarianz aus Primär-, Sekundär- und Fehlervarianz zusammen.<br />

1. Primärvarianz<br />

Systematische Variation der Messwerte<br />

Zurückzuführen auf die Variation der UV<br />

2. Sekundärvarianz<br />

Systematische Variation der Messwerte<br />

Zurückzuführen auf die systematische Variation identifizierbarer<br />

Störvariablen (= Kontrollvariablen)<br />

3. Fehlervarianz (Zufallsfehler)<br />

Unsystematische Variation der Messwerte<br />

Weder auf den Einfluss der Variation der UV, noch auf den Einfluss der<br />

Variation identifizierbarer Störvariablen zurückzuführen<br />

Die UV hat gewirkt, wenn die Primärvarianz größer als die Fehlervarianz ist<br />

(PV/FV > 1); ob die Wirkung auch signifikant, d.h. wahrscheinlich nicht zufällig,<br />

ist, kann erst ein entsprechendes Testverfahren zeigen.<br />

Dabei wird den erhobenen Daten eine Verteilung zugrunde gelegt, die unter der<br />

Annahme der Nullhypothese zu erwarten ist.<br />

Bei einer ungerichteten Alternativhypothese (zweiseitige Fragestellung) werden<br />

die Messwerte an beiden Enden dieser Verteilung erwartet.<br />

Bei einer gerichteten Alternativhypothese (einseitige Fragestellung) werden die<br />

Messwerte entweder am oberen oder am unteren Ende der Verteilung erwartet.<br />

Das Signifikanzniveau (z.B. 5%): Wenn das Ergebnis zu den 5%<br />

unwahrscheinlichsten Ergebnissen unter dem Modell der Nullhypothese gehört, ist<br />

das Ergebnis so unwahrscheinlich, dass die zugrunde liegende Nullhypothese<br />

abgelehnt werden kann; es ist signifikant!<br />

Fehler 1. Art (Alpha-Fehler): H0 ablehnen, obwohl H0 gilt<br />

wird im Allgemeinen auf Alpha = 1% oder Alpha = 5% festgelegt<br />

(Konvention)<br />

wenn die H0 nicht abgelehnt, sondern bewiesen werden soll, wird das<br />

Alphaniveau größer gewählt.<br />

Fehler 2. Art (Beta-Fehler): H0 annehmen, obwohl H0 nicht gilt<br />

28


6.2. Die Varianzanalyse<br />

Grundgedanke: In der Varianzanalyse geht es darum, aufzuklären, wie viel<br />

Variation der AV durch die UV erzeugt wird. Kurz: Es geht um die Ermittlung der<br />

Primärvarianz.<br />

Zu diesem Zweck wird die Gesamtvarianz in die Primär- und Fehlervarianz<br />

aufgeteilt und beides miteinander verglichen (PV/FV > 1?!)<br />

Wenn die Primärvarianz „größer“ ist als die Fehlervarianz, muss im weiteren<br />

Verlauf der Analyse (F-Werte) geprüft werden, ob sie auch „groß“ genug ist, um<br />

als signifikant gelten zu können!<br />

Ist das empirische Verhältnis PV/FV in der entsprechend der<br />

Nullhypothese erstellten Verteilung sehr unwahrscheinlich, kann die H0<br />

abgelehnt werden!<br />

Die Varianzanalyse wird angewandt, wenn die UV mehr als 2 Stufen hat<br />

(einfaktorielle Varianzanalyse) oder 2 oder mehr UVn vorliegen.<br />

Angenommen werden muss ferner Intervallniveau und Normalverteilung<br />

Bei mehr als 2 Stufen der UV oder bei mehreren UVn scheidet die Differenz<br />

zwischen den Versuchsgruppen als Maß für die Veränderungen der AV aus. In der<br />

Varianzanalyse dienen daher die Quadratsummen als Maß der<br />

Unterschiedlichkeit.<br />

QS Total: gibt an, wie unterschiedlich die Personen innerhalb der untersuchten<br />

Stichprobe sind.<br />

QSHW1 / QSHW2 / QSWW: geben an, wie unterschiedlich die Gruppen unter den<br />

Stufen der UV sind.<br />

QS Fehler: gibt an, wie unterschiedlich die Personen noch sind, wenn die durch<br />

die Stufen der UV entstandenen Unterschiede abgezogen wurden.<br />

Zweifaktoriell: QS Total = QSA + QSB + QSAB + QS Fehler<br />

Im zweifaktoriellen Fall, also bei zwei AVn, setzt sich der Wert Xijk, den eine<br />

Versuchsperson k liefert, aus folgenden Einflussgrößen zusammen:<br />

1. G… = Typischer Wert der untersuchten Stichprobe (Gesamtmittelwert; sprich:<br />

Summe aller Messwerte / n = Anzahl der Pbn)<br />

2. Ai.. = Einfluss der Stufe i der ersten UV (z.B. Einfluss des Geschlechts)<br />

3. B.j. = Einfluss der Stufe j der zweiten UV (z.B. Einfluss des Alkohols)<br />

4. ABij. = Einfluss der Kombination aus UV 1 und UV 2 (WW)<br />

5. Eijk = Typischer Wert der Person k („Fehler“)<br />

Einfaktoriell: X = G + A + E<br />

Zweifaktoriell: X = G + A + B + AB + E<br />

Dreifaktoriell: X = G + A + B+ C + AB + AC + BC + ABC + E<br />

Im zweifaktoriellen Beispiel gibt es 3 Arten von Primärvarianz, die jeweils durch<br />

die UV A (HW A), die UV B (HW B) und die Wechselwirkung der beiden Variablen<br />

(WW) erzeugt werden.<br />

Jede dieser drei Primärvarianzen muss jeweils mit der Fehlervarianz verglichen<br />

werden: Dies geschieht durch den Vergleich der mittleren Quadratsummen (MQ)<br />

1. MQA / MQ Fehler<br />

2. MQB / MQ Fehler F-Brüche<br />

3. MQAB / MQ Fehler<br />

29


In einer Varianztafel werden für die AVn, die Wechselwirkung und den<br />

Fehleranteil jeweils folgende Werte eingetragen:<br />

Quadratsumme (QS) => Summe der (Ausgangswerte – Stichprobenmittelwert)²<br />

Freiheitsgrade (df) => Anzahl der frei wählbaren Werte in einer Kontingenz-<br />

a = Anzahl der Stufen der UV A<br />

b = Anzahl der Stufen der UV B<br />

n = Stichprobenumfang / Anzahl<br />

der Probanden<br />

tafel<br />

1) HW A: df = a – 1<br />

2) HW B: df = b – 1<br />

3) WWAB: df = (a – 1) (b – 1)<br />

4) Fehler: df = n – (a b)<br />

5) Total: df = n – 1<br />

Mittlere Quadratsumme (MQ) => QS/df<br />

F-Bruch (F) => MQ Effekt/MQ Fehler<br />

F-Bruch < 1 = keine Wirkung<br />

F-Bruch > 1 = eventuelle Wirkung<br />

(abhängig von der Wahrscheinlichkeit,<br />

mit der das Ergebnis zur<br />

angenommenen Modellverteilung<br />

gehört.)<br />

6.3. Interpretation der Wirkungen<br />

UNPROBLEMATISCH<br />

HW1 und/oder HW2 signifikant – WW nicht signifikant<br />

Alle signifikanten Hauptwirkungen können interpretiert werden.<br />

Weder HW1 noch HW2 signifikant – WW signifikant<br />

Wechselwirkung darf interpretiert werden.<br />

PROBLEMATISCH<br />

HW1 und/oder HW2 signifikant – WW signifikant<br />

HW darf nur dann interpretiert werden, wenn WW die Richtung dieser nicht<br />

verändert.<br />

Daraus folgt, dass bei signifikanten Wechselwirkungen die Effekte graphisch oder<br />

tabellarisch veranschaulicht werden müssen, bevor sie interpretiert werden<br />

können.<br />

I, Ordinale Wechselwirkung (gleiches Vorzeichen der Steigung)<br />

Die Reaktion auf die UVn ist unterschiedlich stark,<br />

verläuft aber in die gleiche Richtung.<br />

Beide HW (sofern signifikant) dürfen<br />

interpretiert werden.<br />

WW darf interpretiert werden.<br />

30


II, Disordinale Wechselwirkung (verschieden Vorzeichen der Steigung)<br />

III, Semidisordinale (hybride) Wechselwirkung<br />

Überkreuzung (Haupteffekte verlaufen in<br />

unterschiedliche Richtungen)<br />

Nur WW darf interpretiert werden!<br />

Ein Haupteffekt geht in die gleiche Richtung, der<br />

andere nicht.<br />

Die HW, die über beide Stufen der anderen UV<br />

in die gleiche Richtung tendiert, darf<br />

interpretiert werden, die andere nicht.<br />

WW darf interpretiert werden.<br />

Fazit: Bei Signifikanz darf WW immer interpretiert werden, die HWn in Abhängigkeit von<br />

ihrer „Richtung“.<br />

31


7. Versuchsplanung II<br />

7.1. Das Experiment<br />

Definition: Ein Experiment ist ein systematischer Beobachtungsvorgang, bei dem<br />

eine oder mehrere unabhängige Variablen planmäßig manipuliert- und<br />

systematische und/oder unsystematische Störvariablen ausgeschaltet oder<br />

kontrolliert werden.<br />

1. Datengewinnung über systematische Beobachtung (einer oder mehrer<br />

abhängigen Variablen)<br />

2. Aktive und planmäßige Manipulation einer oder mehrerer unabhängiger<br />

Variablen<br />

3. Ausschaltung bzw. Kontrolle von Störvariablen, um auf diese Weise<br />

sicherzustellen, dass evtl. Veränderungen der AV auf die Variation der UV<br />

zurückzuführen sind.<br />

Experimentelle Kontrolltechniken<br />

Versuchsplanerische Kontrolltechniken<br />

Statistische Kontrolltechniken<br />

7.2. Das MAX-KON-MIN-Prinzip<br />

Das MAX-KON-MIN-Prinzip basiert auf 3 Maximen:<br />

1. MAXimiere die Primärvarianz<br />

Die Stufen der AV sind so zu wählen, dass zwischen den Versuchsgruppen,<br />

die den jeweiligen Stufen entsprechen, möglichst große Unterschiede in der<br />

AV entstehen.<br />

2. KONtrolliere die Sekundärvarianz<br />

Sorge dafür, dass bekannte Störvariablen in allen Gruppen gleich wirken<br />

(interne Validität) und bestimme deren Einfluss, d.h. die Varianz, die sie<br />

erzeugen (=Sekundärvarianz).<br />

3. MINimiere die Fehlervarianz<br />

Fehler auf Seiten der Versuchssituation (Konstanthalten der Bedingungen),<br />

der Datenerfassung (Beobachter: Reliabilität; Messinstrumente) und der<br />

Datenverarbeitung (z.B. doppelte Eingabe) sind zu vermeiden.<br />

7.2.1. Maximierung der Primärvarianz<br />

Kontrolltechniken zur MAXimierung der Primärvarianz:<br />

1. Wahl von mehreren experimentellen Bedingungen (> als 2 Stufen)<br />

Die Anzahl der Stufen hängt von der Art des Zusammenhangs ab, den man<br />

erwartet. Erwartet man einen monotonen Zusammenhang reichen prinzipiell 2<br />

Stufen der UV, erwartet man dagegen z.B. einen quadratischen oder<br />

kubischen Zusammenhang bedarf es mehrerer Stufen der UV!<br />

2. Wahl extremer experimenteller Bedingungen („Extremgruppenverfahren“)<br />

3. Wahl von mehrfaktoriellen Designs (> als 2 UVn)<br />

Ziel: Auf diese Weise sollen Effekte der UV möglichst „maximal“ zum Vorschein<br />

gebracht werden!<br />

32


7.2.2. Kontrolliere die Sekundärvarianz<br />

Experimentelle und statistische Techniken zur Kontrolle der Sekundärvarianz:<br />

Experimentelle Kontrolle:<br />

1. Abschirmung (Beschränkung möglicher Störeffekte wie z.B. Lärm)<br />

2. Eliminierung (Vollständige Abschirmung möglicher Störeffekte)<br />

3. Konstanthaltung (Mögliche Störeffekte werden unter den versch.<br />

Versuchsbedingungen konstant gehalten, so dass sie in allen<br />

Versuchsgruppen gleich stark wirken)<br />

Statistische Kontrolle (im Nachhinein):<br />

1. Allgemeine statistische Kontrolle:<br />

Nicht nur die Mittelwerte vergleichen, da Mittelwerte nicht unbedingt<br />

repräsentativ sein müssen (z.B. bei einer bimodalen Verteilung)!<br />

Statt dessen möglichst umfassende Analyse der Rohdaten und<br />

graphische Darstellung der Ergebnisse in Form sog. „Box-Plots“<br />

(enthalten nicht nur den Mittelwert, sondern auch die<br />

Standardabweichung, den Interquartilbereich, Extremwerte und<br />

Ausreißerwerte)<br />

2. Kovarianzanalytische Kontrolle:<br />

Kovarianzanalyse<br />

Ziel: Mittels dieser Techniken sollen „Nicht-UVn“, die als Störvariablen einen<br />

systematischen Einfluss auf das Ergebnis haben können, bestmöglich unter Kontrolle<br />

gehalten werden.<br />

7.2.3. Minimiere die Fehlervarianz<br />

Versuchsplanerische Kontrolltechniken zur Minimierung der Fehlervarianz<br />

1. Randomisierung (zufällige Zuweisung der Pbn zu den<br />

Versuchsbedingungen, z.B. mittels Münzwurf oder einer Zufallszahlentabelle)<br />

Man geht davon aus, dass Zufallsstichproben, die derselben Population<br />

entstammen, einander weitgehend gleichen. Ziel der Randomisierung ist<br />

dementsprechend die Erwartungswertgleichheit der verschiedenen<br />

Versuchsgruppen und die Kontrolle der interindividuellen Varianz.<br />

Empfehlenswert, wenn ein Vielzahl möglicher Störvariablen<br />

kontrolliert werden muss, über deren Effekt nichts Genaueres bekannt<br />

ist.<br />

Prinzip wirkt allerdings nur, wenn die betreffenden Stichproben<br />

hinreichend groß sind (> 10); bei weniger Pbn sind Blockversuchspläne<br />

oder Wiederholungsmessungen empfehlenswerter!<br />

2. Blockbildung (Parallelisierung der Versuchsgruppen)<br />

Umwandlung möglicher Störvariablen, die evtl. einen Einfluss auf die<br />

UV haben (d.h. mit ihr korrelieren), in eine UV. Ziel dieses Vorgehens ist<br />

die Kontrolle der interindividuellen Varianz.<br />

Solche Störvariablen, die durch Blockbildung zu sog. Kontrollvariablen<br />

„umfunktioniert“ werden, sind meistens Organismusvariablen wie z.B.<br />

Alter oder Intelligenz.<br />

Vorgehen:<br />

1) Es werden Pbn ausgewählt, die sich hinsichtlich des<br />

Parallelisierungsmerkmals (z.B. Intelligenz) gleichen.<br />

2) Aufstellen einer Rangreihe (bezogen auf die Ausprägung des<br />

Parallelisierungsmerkmals)<br />

33


3) Bildung sog. „Blöcke“, wobei immer die Pbn einem Block zugeordnet<br />

werden, die in der Rangreihe aufeinander folgen; sich also in dem<br />

betreffenden Merkmal am ähnlichsten sind.<br />

4) Die Pbn eines Blocks werden per Zufall jeweils einer anderen<br />

Bedingung zugeordnet („Statistische Zwillinge“).<br />

3. Wiederholungsmessung („Within-Subject-Design“)<br />

Es wird auf unabhängige Versuchsgruppen verzichtet. Stattdessen werden<br />

interindividuelle Unterschiede zwischen den Bedingungen durch<br />

Mehrfachmessung eliminiert.<br />

Alle Probanden werden unter sämtlichen Versuchsbedingungen<br />

untersucht<br />

Vorteile: ökonomisch; hohe Wahrscheinlichkeit, vorhandene Effekte zu<br />

entdecken;<br />

Nachteile: Auch einzelne Versuchspersonen bleiben nicht von Messung zu<br />

Messung konstant (Lerneffekte, Carry-over-Effekte,…); Replizierbarkeit<br />

und externe Validität sind fraglich;<br />

Ziel: Durch die o.g. Techniken sollen die Auswirkungen von unbekannten bzw.<br />

bekannten Störvariablen so klein wie möglich gehalten werden.<br />

7.3. Zusammenfassung: Problemkreise Experiment<br />

Problem der internen Validität: Ist es wirklich die UV, die die Veränderungen der<br />

AV verursacht?<br />

Eine Frage des Versuchsdesigns und der Versuchsplanung (Max-Kon-Min-<br />

Prinzip)<br />

Problem der Signifikanz: Sind der Veränderungen der AV bedeutsam, d.h. größer<br />

als „zufällige“ Schwankungen?<br />

Eine Frage der Versuchsplanung (Max-Kon-Min-Prnizip) und Prüfung<br />

(inferenzstatistische Verfahren = Hypothesentests)<br />

Problem der externen Validität: Für wen gelten die Ergebnisse des Versuchs;<br />

inwieweit lassen sich die Ergebnisse verallgemeinern und auf andere Personen,<br />

Situationen und Variablen übertragen?<br />

Eine Frage der Operationalisierung<br />

34


8. Versuchsplanung III<br />

8.1. Vorexperimentelle Versuchspläne<br />

One-Shot Case Study (Schrotschussdesign):<br />

Einmalige Nachhermessung an einer einzelnen Versuchsgruppe<br />

Vorteile: geringstmöglicher Aufwand<br />

Nachteile: fehlende experimentelle Kontrolle; keine<br />

Vergleichsmöglichkeiten der Untersuchungsbedingungen => nahezu keine<br />

interne Validität<br />

Einfache Vorher-Nachher-Messung:<br />

Vorhermessung (Ausgangswerte) => Treatment => Nachhermessung<br />

Vorteile: Interindividuelle Verhaltensvariabilitäten untersuchbar;<br />

zumindest Vergleich der AV vorher und nachher möglich<br />

Nachteile: Müdigkeits- oder Gewöhnungseffekte können für das Ergebnis<br />

verantwortlich sein; Testeffekte (Carry-over-Effekte) aufgrund<br />

zweimaliger Testung; offener Versuch: evtl. reaktive Verhaltensweisen von<br />

Pb und Vl.<br />

Statischer Gruppenvergleich<br />

Vergleich von zwei oder mehreren experimentell unterschiedlich behandelten<br />

Gruppen. Bei den Gruppen handelt es sich allerdings um statische Gruppen,<br />

sprich vorgefundene Gruppen, die nicht durch Randomisierung gebildet<br />

wurden.<br />

Vorteile: Vergleich der verschiedenen Bedingungen prinzipiell möglich;<br />

Einsatz empfohlen, wenn keine Randomisierung möglich ist.<br />

Nachteile: Mangelnde Konztrolle von Störvariablen: Gleichheit der<br />

Versuchsgruppen ist nicht gewährleistet, „Reifungseffekte“ werden nicht<br />

kontrolliert.<br />

Zusammenfassende Bewertung vorexperimenteller Designs:<br />

1. Einführung mindestens einer experimentellen Bedingung, ABER: Keine<br />

Kontrolle von Störvariablen.<br />

2. Daher sind die Ergebnisse solcher Versuche prinzipiell mehrdeutig und<br />

können außerdem stark verzerrt sein.<br />

Wenn überhaupt, dann eine äußerst geringe interne Validität!<br />

3. Wenn, dann nur für Pilotstudien (Erkundungsexperimente) geeignet mit dem<br />

Ziel der Hypothesengenerierung und Entwicklung eines adäquaten<br />

Versuchsdesigns.<br />

8.2. Experimentelle Versuchspläne<br />

Klassifikation von Versuchsplänen:<br />

Anzahl der untersuchten Versuchsgruppen<br />

Einstichprobenplan<br />

Zweistichprobenplan<br />

Mehrstichprobenplan<br />

Anzahl der unabhängigen Variablen (UV)<br />

Einfaktorieller Plan (eine UV)<br />

Zweifaktorieller Plan (zwei UVn)<br />

Mehrfaktorieller Plan (mehrere UVn)<br />

Anzahl der abhängigen Variablen (AV)<br />

Univariater Plan (eine AV)<br />

Multivariater Plan (zwei oder mehr AVn)<br />

35


Darstellung von Versuchsplänen in Abhängigkeit von der Anzahl der UVn und der<br />

Anzahl der Stufen dieser UVn:<br />

Zweifaktorieller Plan: 2 2-Design = 4 Zellen (2 UVn mit jew. 2 Stufen)<br />

3 3-Design = 6 Zellen (2 UVn mit jew. 3 Stufen)<br />

Mehrfaktorieller Plan: 2 2 2-Design = 8 Zellen (3 UVn mit jew. 2 Stufen)<br />

Zu den experimentellen Versuchsplänen gehören experimentelle Designs, quasiexperimentelle<br />

Designs und Ex-post-facto-Designs.<br />

8.2.1. Experimentelle Designs<br />

Merkmale experimenteller Designs:<br />

1. Es wird eine kausaltheoretische Vorhersage getroffen (Hypothese).<br />

2. Relevante Variablen werden systematisch manipuliert (Manipulation).<br />

3. Störvariablen, die die Interpretierbarkeit und Gültigkeit der Ergebnisse<br />

beeinträchtigen könnten, werden kontrolliert (Kontrolle).<br />

Folgende Versuchspläne sind denkbar:<br />

1. Versuchspläne mit Zufallsgruppenbildung (Randomisierung)<br />

Zufällige Zuweisung der Pbn zu den Versuchsgruppen, danach zufällige<br />

Zuweisung der Versuchsgruppen zu den Bedingungen<br />

Prinzipielle Vergleichbarkeit (Erwartungswertgleichheit) der<br />

Ausgangsbedingungen und Ausgangsmesswerte<br />

1.1. Zufallsgruppenplan ohne Vortest<br />

Einfach und ökonomisch<br />

ABER: keine Kontrolle von interindividuellen Messwertdifferenzen<br />

1.2. Zufallsgruppenplan mit Vortest<br />

Zusätzliche Information durch Vorher-Messung (vor dem Treatment);<br />

dadurch Kontrolle von interindividuellen Messwertdifferenzen.<br />

* Bei unterschiedlichen Ausgangsmesswerten kann die Differenz zw.<br />

Vorher- und Nachhermessung interpretiert werden!<br />

ABER: Anfällig für Testeffekte (Vorher-Messung kann die Wirkung<br />

des Treatments beeinflussen)<br />

1.3. Zufallsgruppenplan mit teilweisem Vortest (Solomon-Dreigruppen-Plan)<br />

Insgesamt 3 Versuchsgruppen; zwei Versuchsgruppen mit Vorher-<br />

Nachher-Messung; dritte Versuchsgruppe nur mit Nachher-Messung<br />

Vorteil gegenüber Zufallsgruppenplan mit Vortest: Die dritte<br />

Versuchsgruppe, mit der kein Vortest gemacht wird, dient als eine<br />

Art Kontrollgruppe. Anhand von ihr können in den anderen beiden<br />

Gruppen die Effekte des Vortests auf die Wirkung des Treatments<br />

abgeschätzt werden.<br />

1.4. Zwei- und Mehrfaktorielle Zufallsgruppenpläne<br />

Man braucht so viele Zufallsgruppen wie es Bedingungen gibt; bei<br />

einem 2 2 2-Design braucht man dementsprechend 8 Gruppen<br />

(=Zellen in der Kontingenztafel)<br />

Mehrstichprobenpläne bzw. mehrfaktorielle Versuchspläne haben<br />

Vorteile: höhere interne Validität (breitere Analyse möglich, MAX-<br />

Prinzip); höhere externe Validität (Aussagen über Wechselwirkungen<br />

möglich; daher: realitätsnäher, differenziertere Analyse)<br />

Probleme: Stichproben müssen > 10 sein; mit der Anzahl der<br />

Faktoren steigt die Anzahl der Versuchsgruppen rapide an;<br />

Interaktionen bei 3- und mehrfaktoriellen Plänen sind kaum noch<br />

interpretierbar!<br />

36


2. Versuchspläne mit Wiederholungsmessung („Within-Subject-Design)<br />

Untersuchung einer (abhängigen) Versuchsgruppe zu verschiedenen<br />

Messzeitpunkten (Anzahl der Messungen bzw. Bedingungen = Anzahl der<br />

„Stichproben“)<br />

Vorteile:<br />

Ökonomisch, da nur geringe Probandenzahl vonnöten ist<br />

Geringere interindividuelle Varianz als bei „Between-Subject-<br />

Designs“ (Ergo: Wirksamkeit der experimentellen Effekte leichter<br />

nachweisbar)<br />

Nachteile:<br />

Anfällig für Test- bzw. Carry-over-Effekte (Lern-, Übungs-,<br />

Gewöhnungs-, Ermüdungseffekte usw.)<br />

* Lösung: Wahl eines hinreichend großen Zeitabstandes zwischen<br />

den einzelnen Messungen; Ausbalancierung der Reihenfolge der<br />

Versuchsbedingungen (bei 3 Bedingungen sind 6 Reihenfolgen<br />

möglich: 3 2 1 = 6)<br />

3. Blockversuchspläne (Parallelisierung)<br />

Siehe oben: Bildung einer Rangreihe hinsichtlich eines<br />

Parallelisierungsmerkmals => Zuordnung ähnlicher, in der Rangreihe<br />

aufeinander folgender Pbn zu Blöcken => Bildung „experimenteller<br />

Zwillinge“ bzw. „- Drillinge“ (Anzahl der parallelisierten Versuchsgruppen<br />

= Anzahl der „Stichproben“)<br />

Kombination aus Mehrfachmessungs- und Zufallsgruppendesign:<br />

Mehrfachmessung: Blockbildung basiert auf einem Vortest<br />

Zufallsgruppen: Zuordnung der parallelisierten Pbn zu den versch.<br />

Bedingungen erfolgt per Zufall, basiert also auf Randomisierung.<br />

Vorteil: Die Nachteile des Mehrfachmessungs- und Zufallgruppendesigns<br />

werden kompensiert:<br />

Schon bei kleinen Versuchsgruppen kann prinzipiell von<br />

Erwartungsgleichheit ausgegangen werden.<br />

Test- bzw. Übertragungseffekte werden ausgeschlossen.<br />

Nachteile:<br />

Aufwändig (wenn z.B. ein Pb ausfällt, müssen völlig neue Blöcke<br />

gebildet werden)<br />

Vortestvariablen, die hoch mit der AV korrelieren, müssen bekannt<br />

sein<br />

4. Mischversuchspläne<br />

Zwei- oder mehrfaktorielle Designs, bei denen die einzelnen Faktoren<br />

verschiedenen Designtypen entsprechen:<br />

Zufallsgruppenfaktor („R“ = Randomisierung)<br />

Faktor mit wiederholter Messung („W“ = Wiederholung)<br />

Blockfaktor („O“ = Block)<br />

Beispiel: Untersucht werden soll die Schreibleistung in einem Büro, in<br />

Abhängigkeit vom Alter der Versuchsperson, dem Bürokomfort und in<br />

Abhängigkeit davon, ob die erbrachte Leistung belohnt wird oder nicht.<br />

Belohnung = Zufallsgruppenfaktor (2 Stufen)<br />

Bürokomfort = Wiederholungsfaktor (3 Stufen) RWO- 2 3 4<br />

Alter = Blockfaktor (4 Stufen)<br />

Vorteil: Hohe Flexibilität; Wahl des jew. Designs kann genau auf die Art<br />

der Fragestellung abgestimmt werden; v.a. wenn der Zeitvverlauf<br />

interessiert, empfehlenswert!<br />

37


8.2.2. Quasi-experimentelle Designs<br />

Merkmale quasi-experimenteller Designs:<br />

1. systematische Manipulation relevanter Variablen<br />

2. KEINE Kontrolle von Störvariablen<br />

Beispiele für quasi-experimentelle Designs:<br />

1. Zeitreihenversuchspläne mit einer Gruppe oder mit statischen Gruppen<br />

1.1. Eingruppen-Zeitreihendesign<br />

Mehrere Vorher- und Nachher-Messungen an einer einzelnen Gruppe<br />

(z.B. ABAB-Plan)<br />

1.2. Zeitreihendesign mit mehreren statischen Gruppen<br />

Mehrere Vorher- und Nachher-Messungen an mehreren Gruppen, die<br />

allerdings nicht durch Randomisierung zustande gekommen sind,<br />

sondern vom Untersucher vorgefunden wurden.<br />

s<br />

Die Unterschiede zu experimentellen Versuchsplänen mit<br />

Wiederholungsmessung:<br />

Keine bzw. unvollständige Ausbalancierung der Reihenfolge<br />

* Im experimentellen Design bedarf es bei mehreren Bedingungen<br />

der vollständigen Permutation dieser Bedingungen: d.h. alle<br />

möglichen Behandlungskombinationen müssen mittels<br />

verschiedener Versuchsgruppen untersucht werden.<br />

Keine Randomisierung zur Kontrolle evtl. Störvariablen<br />

2. Einzelfallversuchspläne<br />

Siehe oben (Forschungsformen): Einzellfallstudien<br />

Nachteile: fehlende inferenzstatistische Verfahren; Problem der<br />

Verallgemeinerbarkeit (externe Validität)<br />

Vor- und Nachteile quasiexperimenteller Designs:<br />

Vorteile: Zeitreihenversuchspläne (ökonomisch, ermöglichen die Untersuchung<br />

von Prozessen); Einzelfallversuchspläne (detaillierte Beschreibung seltener<br />

Phänomene; Brückenschlag zwischen Allgemeiner und Differentieller<br />

Psychologie)<br />

Nachteile: Zeitreihenversuchspläne (Hohe Anfälligkeit für Zeiteffekte und<br />

andere Störvariablen); Einzelfallversuchspläne (s.o.)<br />

8.2.3. Ex-post-facto-Designs<br />

Ableitung von Kausalzusammenhängen aus nicht manipulierten bzw. nichtmanipulierbaren<br />

Variablen (Feldforschung)<br />

Problem: Da die UV nicht aktiv manipuliert wird und dadurch mögl. Störvariablen<br />

nur bedingt kontrolliert werden können, sind die Ergebnisse streng genommen nur<br />

„korrelativ“ zu interpretieren.<br />

Empfiehlt sich bei Fragestellungen, die aus ethischen oder praktischen Gründen nicht<br />

hinreichend operationalisiert werden können.<br />

Exkurs: Forschungsethik<br />

1. Wäge Kosten und Nutzen eines Experiments ab!<br />

2. Übernehme persönlicher Verantwortung!<br />

3. Informiere die Pbn und schließe eine Übereinkunft mit ihnen!<br />

4. Sei offen und ehrlich!<br />

5. Versuchsteilnahme ist freiwillig!<br />

6. Nutze Vpn nicht aus!<br />

38


7. Schütze die VPn vor Schäden (Sicherheit der Pbn)!<br />

8. Aufklärung der Pbn!<br />

9. Schließe negative Folgen für die Pbn aus!<br />

10. Bewahre Vertraulichkeit!<br />

39

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!