FORSCHUNGSMETHODEN
FORSCHUNGSMETHODEN
FORSCHUNGSMETHODEN
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>FORSCHUNGSMETHODEN</strong><br />
Von: Josua Handerer<br />
Kontakt: Josua.Handerer@t-online.de<br />
1
1. Einführung<br />
1.1. Methoden:<br />
Wissenschaft zeichnet sich durch methodisches Vorgehen aus.<br />
Nicht das „was“, sprich das Thema oder der Gegenstand einer Wissenschaft ist<br />
also entscheidend, sondern das „wie“.<br />
Eigenschaften von Methoden:<br />
Methoden sind gewissermaßen Regeln.<br />
Sie müssen mitteilbar sein.<br />
Sie haben normativen bzw. präskriptiven Charakter.<br />
Ihre Befolgung wird erwartet, ihre Verletzung sanktioniert.<br />
Methoden können in einem hierarchischen Verhältnis zueinander stehen.<br />
Nach Roth: „Methodenanwendung ist eine aufgrund einer (Anwendungs-)<br />
Entscheidung erfolgende Steuerung des zielgerichteten Handelns durch ein<br />
Regelsystem, das im jeweiligen Handlungsplan der Akteure repräsentiert und<br />
verfügbar ist. Diese methodenspezifische Handlungssteuerung ist regulativ, und<br />
weitgehend adaptiv und reflexiv.“<br />
adaptiv: Nicht alle Methoden sind immer durchführbar (z.B. aus ethischen oder<br />
praktischen Gründen).<br />
reflexiv: Die zugrunde gelegten Methoden müssen reflektiert / kritisch<br />
hinterfragt werden.<br />
regulativ: Unter Umständen müssen neue Methoden zugrunde gelegt werden.<br />
1.2. Grundlegendes:<br />
Sarris nimmt in seinem „Spiralenmodell der Forschung“ an, dass<br />
wissenschaftliches Arbeiten als mehrstufiger Entscheidungsprozess abläuft.<br />
1. Hypothese<br />
2. Versuchsplanung<br />
3. Versuchsaufbau<br />
4. Versuchsdurchführung (Beobachtung)<br />
5. Auswertung (Datenanalyse)<br />
6. Schlussfolgerungen<br />
Daraufhin evtl. Modifikation des Versuchsaufbaus und erneuter Durchlauf.<br />
Man unterscheidet zwischen dimensionalen Analysen und semantischen Analysen.<br />
Dimensionale Analysen: v.a. bei deskriptiven Untersuchungen<br />
Semantische Analysen: v.a. bei theorie-/hypothesentestenden Untersuchungen<br />
1.2.1. Die Variablen<br />
Die unabhängige Variable (UV); auch: „Reizvariable“<br />
Die UV wird vom Versuchsleiter direkt oder indirekt verändert (durch<br />
Manipulation oder Selektion)<br />
Die abhängige Variable (AV); auch „Reaktionsvariable“<br />
Die AV ist ein Ereignis, das die Folge der Manipulation der UV beobachtet.<br />
AV = f (UV); d.h. dass Abstufungen der UV die AV systematisch<br />
verändern oder dass die UV Ursache, die AV Wirkung ist.<br />
Der Versuchsleiter hat auf die AV keinen direkten Einfluss; der Einfluss von<br />
Störvariablen ist allerdings wahrscheinlich.<br />
Moderierende Variablen (Kontrollvariablen und Störvariablen)<br />
2
Moderierende Variablen beeinflussen die Wirkung der UV auf die AV; korrekt<br />
ausgedrückt ist die AV also eine Funktion der UV und moderierender Variablen:<br />
AV = f (UV, moderierende Variablen)<br />
Z.B.: Lärm, Tageszeit; Alter, Motivation, Persönlichkeitsmerkmale der Vp...<br />
Bei denn moderierenden Variablen muss zwischen Kontroll- und Störvariablen<br />
unterschieden werden:<br />
1. Kontrollvariablen<br />
Moderierende Variablen werden zu Kontrollvariablen, wenn sie bei<br />
Untersuchungen mit erhoben werden; ihr Einfluss schlägt sich in der<br />
Sekundärvarianz (s.u.) nieder.<br />
2. Störvariablen (SV)<br />
Moderierende Variablen werden zu Störvariablen, wenn sie nicht<br />
beachtet oder sogar übersehen werden; ihr Einfluss schlägt sich in der<br />
Fehlervarianz (s.u.) nieder.<br />
* Werden die Störvariablen mittels experimenteller Techniken<br />
kontrolliert, werden sie zu Kontrollvariablen (s.o.).<br />
Variablen können folgendermaßen klassifiziert werden:<br />
1. gemäß des Stellenwerts in der Untersuchung (s.o.)<br />
UV, AV, moderierende Variablen (Kontrollvariablen, SV)<br />
2. je nach Art der Merkmalsausprägungen<br />
diskrete Variablen (z.B. Geschwisterzahl):<br />
- dichotom (2 Abstufungen) vs. polytom (mehr als 2 Abstufungen)<br />
- natürlich (z.B. Geschlecht) vs. künstlich (Alter: jung – mittel – alt)<br />
stetige Variablen (z.B. Gewicht, Länge, Zeit)<br />
3. gemäß der empirischen Zugänglichkeit<br />
Manifeste Variable (direkt beobachtbar; z.B. Anzahl gelöster Testaufgaben)<br />
Latente Variable (nicht-beobachtbar; liegt einer manifesten Variable als<br />
hypothetisches Konstrukt zugrunde: z.B. Intelligenz)<br />
1.2.2. Die Hypothese<br />
Definition: Eine wissenschaftliche Hypothese formuliert eine Beziehung zwischen<br />
zwei oder mehr Variablen, die für eine bestimmte Population vergleichbarer<br />
Objekte oder Ereignisse gelten soll.<br />
Dabei muss eine wissenschaftliche Hypothese folgende Kriterien erfüllen:<br />
1. Generalisierbarkeit<br />
Eine wissenschaftliche Hypothese ist eine allgemeingültige, über den<br />
Einzelfall oder ein singuläres Ereignis hinausgehende Behauptung (All-Satz)<br />
2. Konditionalsatz<br />
Einer wissenschaftlichen Hypothese muss zumindest implizit die<br />
Formalstruktur eines sinnvollen Konditionalsatzes („Wenn-Dann-Satz“ bzw.<br />
„Je-Desto-Satz“) zugrunde liegen.<br />
3. Falsifizierbarkeit<br />
Der Konditionalsatz muss potentiell falsifizierbar sein, d.h. es müssen<br />
Ereignisse denkbar sein, die dem Konditionalsatz widersprechen.<br />
Aus diesem Grund können Existenzsätze („Es gibt…“; „…kann…“) keine<br />
wissenschaftlichen Hypothesen sein; sie erfüllen keines der besagten Kriterien!<br />
Man unterscheidet zwischen inhaltlichen- und statistischen Hypothesen.<br />
Inhaltliche Hypothesen sind verbale Behauptungen über kausale/nicht-kausale<br />
Beziehungen zwischen Variablen; sie werden aus begründeten Vorannahmen,<br />
Modellen oder Theorien abgeleitet.<br />
3
Statistische Hypothesen sind die Zuspitzung einer solchen inhaltlichen<br />
Hypothese zu einer empirischen Vorhersage des Untersuchungsergebnisses.<br />
Solche Vorhersagen beziehen sich auf statistische Maße, die die inhaltliche<br />
Aussage am besten wiedergeben.<br />
1. Kennwerte der zentralen Tendenz (Lage): Mittelwert, Modus, Median<br />
2. Kennwerte der Dispersion: Standardabweichung/Varianz, Streubreite<br />
3. Kennwerte der Schiefe: Schiefe = Abweichung von der Symmetrie<br />
4. Kennwerte des Exzess: Steilheit<br />
In statistischen Hypothesen werden also Annahmen über die Verteilung einer<br />
oder mehrerer Zufallsvariablen oder über bestimmte Parameter dieser<br />
Verteilung gemacht.<br />
Man unterscheidet zwischen Unterschieds- und Zusammenhangshypothesen:<br />
1. Unterschiedshypothese: H0: µ0 = µ1 ; H1: µ0 = µ1<br />
2. Zusammenhangshypothese: H0: r12 = 0 ; H1: r12 = 0<br />
Statistische Hypothesen sind Wahrscheinlichkeitsaussagen (also nicht<br />
deterministisch, sondern probabilistisch).<br />
1.2.3. Operationalisierung<br />
Definition: Die Operationalisierung ist die Umsetzung der Problempräzisierung<br />
(Begriffe) in Techniken bzw. Forschungsoperationen.<br />
Die Operationalisierung enthält „technische“ Anweisungen, wie in der<br />
Untersuchung vorzugehen ist, um Informationen zu erhalten.<br />
Sie beinhaltet u.a. Angaben zu Gestaltung und Handhabung des Messinstruments<br />
(z.B. Fragebogen; Ort des Interviews; Formulierung und Reihenfolge der<br />
Fragen…)<br />
Ihr zugrunde liegen Entscheidungen bezüglich…<br />
der Forschungsform (z.B. Labor- vs. Feldforschung)<br />
der Versuchsgruppen (z.B. Stichprobe, Probandenmerkmale)<br />
der Datenquelle(n) (z.B. Befragung, Beobachtung, objektive Verfahren)<br />
des Versuchsplans (z.B. experimentell vs. korrelativ)<br />
1.2.4. Mögliche Störvariablen<br />
Mögliche Quellen von Störvariablen sind die Untersuchungssituation, die<br />
Versuchsperson oder der Versuchsleiter.<br />
1. Situation<br />
Untersuchungsort (steriles Labor vs. gemütlicher Raum, Lärm, usw.)<br />
Untersuchungszeit (Konzentrationsfähigkeit, Hungergefühl,… können sich<br />
im Laufe des Tages ändern; es ist also nicht unwichtig,<br />
wann ein Versuch stattfindet)<br />
Atmosphäre (weiße Kittel usw. können das Ergebnis beeinflussen)<br />
2. Versuchsperson (Motivation, Erwartung,…)<br />
„Demand-Effekte“: Vpn, die mit Absicht versuchen, die Hypothesen des<br />
Experiments zu bestätigen.<br />
„Effekt der sozialen Erwünschtheit“: v.a. bei Fragebögen<br />
Prozesse in der Vp: Ermüdung, Lernen, Übung,…<br />
3. Versuchsleiter<br />
„Rosenthal-Effekt“: Wenn der Vl weiß, in welcher Bedingung die Vp ist,<br />
kann seine Erwartungshaltung die Auswertung oder das Verhalten der Vp<br />
selbst beeinflussen („Self-fullfilling Prophecy“).<br />
Vp-Vl-Interaktion: Mann-Frau usw.<br />
4
Versuchsleiter-Artefakte und deren Kontrolle:<br />
Versuchsleiter-Artefakte (s.o.) entstehen durch die Abweichung des<br />
Versuchsleiters vom geplanten Verhalten.<br />
Versuchsleiter- und andere Artefakte können auf folgende Weise kontrolliert<br />
werden:<br />
1. Standardisierte Instruktionen (wobei die Instruktion nicht nur den<br />
verbalen Anweisungsteil umfasst, sondern alle Versuchsumstände)<br />
2. Konstante Untersuchungsbedingungen (Beleuchtung, Geräusche,<br />
Temperatur)<br />
3. Einhaltung des zeitlichen Ablaufs<br />
4. Selbstkontrolle des Versuchsleiters (auf eigene Stimmungen achten und<br />
gegebenenfalls protokollieren, Abweichungen vom geplanten Ablauf<br />
protokollieren,…)<br />
5. Beobachtung des Versuchsleiters durch neutrale Beobachter<br />
(Aufzeichnung des Versuchs per Video)<br />
6. Verwendung „blinder“ Versuchsleiter (die nicht wissen, in welcher<br />
Bedingung die Versuchspersonen jeweils sind)<br />
7. Vorerhebung sollte vom Untersuchungsleiter selbst durchgeführt werden<br />
8. Nachbefragung der Probanden (nach dem Versuch)<br />
1.2.5. Gütekriterien einer Messung<br />
Die 3 entscheidenden Gütekriterien einer Messung sind Validität, Reliabilität und<br />
Objektivität.<br />
1. Objektivität: Grad der Unabhängigkeit der Ergebnisse vom Untersucher!<br />
2. Reliabilität: Grad der Genauigkeit, mit dem etwas gemessen wird<br />
(unabhängig davon, ob dies auch gemessen werden soll)<br />
Wenn bei einem Test immer dasselbe herauskommt, ist er reliabel. Ob er<br />
dabei auch das misst, was er messen soll (Validität) weiß man deswegen<br />
noch nicht.<br />
3. Validität: Grad der Genauigkeit, das zu messen oder vorherzusagen, was<br />
gemessen oder vorhergesagt werden soll.<br />
OBJEKTIVITÄT<br />
Die Objektivität wird bestimmt, indem man die Ergebnisse verschiedener<br />
Untersucher miteinander korreliert.<br />
Zu unterscheiden ist zwischen:<br />
1. Durchführungsobjektivität<br />
Unabhängigkeit des Ergebnisses von zufälligen oder systematischen<br />
Verhaltensvariationen des Untersuchers bzw. Versuchsleiters während des<br />
Versuchs (Versuchsleiter-Artefakte)<br />
2. Auswertungsobjektivität<br />
Unabhängigkeit der Ergebnisse von Variationen des Untersuchers während<br />
der Auswertung (v.a. bei Verfahren mit vielen Freiheitsgraden wie z.B.<br />
projektiven Tests oder freien Interviews)<br />
3. Interpretationsobjektivität<br />
Unabhängigkeit der Ergebnisse von der interpretierenden Person (v.a. wenn<br />
ein Ergebnis vieldeutig ist)<br />
5
RELIABILITÄT<br />
Jeder Messwert (X) setzt sich additiv aus dem „wahren Wert“ (T) und einem<br />
Messfehler (E) zusammen. Die Reliabilität ist dementsprechend umso größer, je<br />
kleiner der zu einem Messwert X gehörende Fehleranteil E.<br />
Der Idealfall (X=T; E=0) tritt in der Realität quasi nie auf. Ursache dafür sind<br />
technische-, menschliche- und situative Fehlerquellen.<br />
Definition: Die Reliabilität ist der Anteil der wahren Varianz an beobachteter<br />
Varianz.<br />
Je größer dieser Anteil ist, je geringer also die Fehlervarianz ist, desto höher die<br />
Reliabilität.<br />
Es gibt mehrere Möglichkeiten, die Reliabilität zu bestimmen:<br />
Paralleltest-Reliabilität: Vergleichbare Paralleltests werden identischen<br />
Stichproben vorgegeben und deren Ergebnisse miteinander korreliert.<br />
Retest-Reliabilität: Ein und derselbe Test werden einer Stichprobe mehrmals<br />
vorgegeben und die Ergebnisreihen miteinander korreliert.<br />
Innere Konsistenz:<br />
Split-Half-Reliabilität: Test wird in zwei gleichwertige Hälften geteilt und<br />
die Ergebnisse miteinander korreliert.<br />
Konsistenzanalyse: Test wird in beliebig viele Testelemente geteilt und die<br />
Reliabilität über Aufgabenschwierigkeit und Trennschärfekoeffizienten<br />
bestimmt.<br />
VALIDITÄT<br />
Man unterscheidet zwischen:<br />
1. Inhaltliche Validität<br />
Wie valide bzw. genau ist das Messverfahren in Bezug auf den zu messenden<br />
Inhalt?!<br />
Bestimmungsmaß: Rating von Experten<br />
2. Konstruktvalidität<br />
Wie valide bzw. genau ist das Messverfahren in Bezug auf das zu<br />
untersuchende Konstrukt (z.B. Intelligenz)?!<br />
Bestimmungsmaß: Rating von Experten<br />
3. Kriterienbezogene Validität<br />
Wie genau stimmt der Test mit einem unabhängig vom Test erhobenen<br />
Außenkriterium (z.B. Schulleistung) überein?!<br />
Bestimmungsmaß: Korrelation des Testergebnisses mit einem<br />
Außenkriterium<br />
Außerdem ist zu unterscheiden zwischen interner – und externer Validität:<br />
Interne Validität: Ein Versuch ist intern valide, wenn Veränderungen der AV<br />
eindeutig auf Variationen der UV zurückzuführen sind.<br />
Am höchsten ist die interne Validität dementsprechend, wenn SV=0!<br />
Externe Validität: Ein Versuch ist extern valide, wenn die Ergebnisse der<br />
Stichprobe auf die Population übertragbar sind (Generalisierbarkeit der<br />
Ergebnisse)!<br />
Die externe Validität ist v.a. dann problematisch, wenn unter „realen<br />
Bedingungen“ noch andere Faktoren als in der Untersuchung eine Rolle<br />
spielen.<br />
Die interne Validität ist eine notwendige, aber keineswegs hinreichende<br />
Bedingung für externe Validität!<br />
6
1.2.6. Störvariablen, die die externe Validität betreffen<br />
Reaktive Effekte der Experimentalsituation<br />
Durch die „künstliche“ Situation in einem Experiment kann das Verhalten der<br />
Pbn beeinflusst werden.<br />
Demandeffekte (s.o.)<br />
Soziale Erwünschtheit (v.a. bei Fragebögen)<br />
Reaktanz der Vpn<br />
Interaktion von Vortest und UV<br />
Durch einen Vortest kann die Sensitivität der Pbn gegenüber der UV beeinflusst-<br />
und damit deren Verhalten im eigentlichen Experiment verändert werden<br />
Kurzinterview zur Vorauswahl einer Stichprobe<br />
Einflüsse bei Mehrfachmessungen<br />
z.B. Reihenfolgeneffekte<br />
Interaktion von Selektionseffekten und UV<br />
Selektionseffekte: es kann z.B. passieren, dass in einer Versuchsgruppe im<br />
Schnitt intelligentere Vpn sind, was einen Einfluss auf die AV haben kann.<br />
1.2.7. Die Bedeutung des Faktors „Zeit“<br />
Der Faktor „Zeit“ hat mehrere Effekte, die das Versuchsergebnis beeinflussen<br />
können:<br />
1. Geschichtlichkeit<br />
Ein vom Untersucher unabhängiger und genereller Effekt<br />
1.1. Über lange Zeiträume hinweg gibt es immer wieder „zufällige“<br />
Schwankungen und Veränderungen (ein „besonderes“ Jahr).<br />
Untersucht man z.B. die Verringerung der Unfallzahlen (AV)<br />
durch die Einführung eines Tempolimits (UV), kann u.a. die<br />
Witterung oder der Bezinpreis während des<br />
Untersuchungszeitraums (geschichtliche Effekte) einen<br />
störenden Einfluss auf das Ergebnis haben.<br />
1.2. Kohorteneffekte:<br />
Z.B. Folgen früherer Lebensbedingungen oder natürliche<br />
Entwicklungen wie die Abnahme der kognitiven<br />
Leistungsfähigkeit mit zunehmendem Alter.<br />
2. Entwicklungseffekte<br />
Ein vom Untersucher unabhängiger und spezieller Effekt<br />
Die einzelnen Versuchspersonen, aber auch die Stichprobe als Ganzes<br />
kann sich während des Untersuchungszeitraums verändern.<br />
2.1. Regressionseffekt B (negative Rückkopplung)<br />
2.2. Pbn werden während eines Versuchs müder, hungriger, lustloser,…<br />
2.3. Über einen längeren Untersuchungszeitraum hinweg kann sich sogar<br />
die Stichprobe verändern: z.B. dadurch, dass einzelne<br />
Versuchspersonen aussteigen oder sterben (Mortalität); wenn z.B. die<br />
älteren, Vpn „wegsterben“ oder die wenig Motivierten aussteigen<br />
wird die Stichprobe im Schnitt „jünger“, „gesünder“ u. „motivierter“<br />
(= „Effekt der positiven Selbstauswahl“).<br />
3. Selektion und Messeffekte<br />
Ein vom Untersucher abhängiger und genereller Effekt<br />
3.1.Regressionseffekt A (Ergebnisse von fehlerhaften Messinstrumenten<br />
tendieren bei erneuter Messung zur Mitte)<br />
3.2.Änderung der Messinstrumente (z.B. durch Verstellen des Messfühlers<br />
oder durch Ermüdung der Beobachter)<br />
7
4. Testeffekte<br />
Ein vom Untersucher abhängiger und spezieller Effekt<br />
4.1.Reihenfolgeneffekte oder Lerneffekte aus vorhergehenden<br />
Untersuchungen (macht man einen IQ-Test zum 2. Mal, schneidet<br />
man im Schnitt 3-5 Punkte besser ab)<br />
4.2.Residualeffekte im Cross Over (Trotz Cross-Over wird die Wirkung<br />
einer Behandlung durch personenbedingte Störeinflüsse<br />
„verunreinigt“)<br />
4.3.Experimentelle Mortalität und drop-out<br />
1.2.8. Datenanalyse u. deskriptive Statistik<br />
Maße der zentralen Tendenz (Lage)<br />
1. Mittelwert (arithmetisch, geometrisch, harmonisch)<br />
Voraussetzung: Intervallskalierte Daten<br />
Gibt Auskunft über den „Schwerpunkt“ einer Verteilung<br />
Empfohlen v.a. bei symmetrischer Verteilung (insbes. Normalverteilung), da<br />
anfällig bei Ausreißerwerten; ist v.a. in Kombination mit anderen Werten<br />
(z.B. Varianz) aussagekräftig<br />
2. Medianwert<br />
Voraussetzung: Ordinalskalierte Daten<br />
Gibt Auskunft über die „obere“ und „untere“ Hälfte der Messwertverteilung<br />
Empfohlen bei schiefer Verteilung oder wenn nur eine unvollständige<br />
Verteilung vorliegt.<br />
3. Modalwert (Modus)<br />
Voraussetzung: Nominalskalierte Daten<br />
Grobe Schätzung der zentralen Tendenz; schnellstmögliche Kenntnis des<br />
zentralen Wertes<br />
Maße der Dispersion (Variabilität)<br />
1. Standardabweichung bzw. Varianz<br />
Voraussetzung: Intervallskalierte Daten<br />
Wichtigstes Maß der Dispersion; bezieht alle Werte mit ein<br />
2. Bereichsmaße (Streubreite, Interquartilbereich,…)<br />
Voraussetzung: Ordinalskalierte Daten<br />
Zur ersten Orientierung hilfreich; starke Ausreißerempfindlichkeit (Lösung:<br />
gestutzte Streubreite)<br />
3. Informationsmaß h<br />
Voraussetzung: Nominalskalierte Daten<br />
Bei psychologischen Hypothesen handelt es sich um Wahrscheinlichkeitsaussagen<br />
(s.o.). Im Prinzip sind sie daher weder falsifizierbar, noch verifizierbar.<br />
Um die Aussagen zumindest falsifizierbar zu machen, müssen vor der<br />
Versuchsdurchführung ein statistisches Prüfkriterium festgelegt werden: das sog.<br />
Signifikanzniveau!<br />
Erst durch den statistischen Nachweis, dass eine Hypothese sehr<br />
unwahrscheinlich ist, kann sie abgelehnt werden.<br />
Ein Signifikanztest hat v.a. 2 Funktionen:<br />
1. Als Screening-Prozedur: Wo lohnt es sich, nachzuschauen bzw. genauer<br />
nachzuschauen?!<br />
2. Als zufallskritische Absicherung: Ein Signifikanztest gewährleistet, dass es<br />
äußerst unwahrscheinlich ist, dass ein Ergebnis zufällig zustande gekommen<br />
ist.<br />
8
2. Forschungsformen und Stichproben<br />
2.1. Die verschiedenen Forschungsformen<br />
Folgende Forschungsformen sind möglich:<br />
1. Labor- vs. Feldforschung<br />
2. Web-Experimente<br />
3. Einzelfallforschung<br />
4. Quer- und Längsschnittstudien (z.B. Panelforschung)<br />
5. Sekundäranalysen<br />
2.1.1. Labor- vs. Feldforschung<br />
Laborforschung: in künstlichem, z. Zweck der Untersuchung entwickeltem Umfeld<br />
Vorteile:<br />
Situation und Verhalten sind leichter manipulierbar<br />
Bessere Kontrolle der Störvariablen<br />
Schaffung optimaler Bedingungen für die Untersuchung (höhere interne<br />
Validität)<br />
Nachteile:<br />
unnatürliche und ungewohnte Umgebung (mögl. Abhilfe:<br />
Gewöhnungsphase)<br />
Die Personen wissen, dass sie untersucht werden und verändern deswegen<br />
u.U. ihr Verhalten (Reaktanz)<br />
Kann man die Ergebnisse auf „normales“ Verhalten übertragen (externe<br />
Validität?!)?<br />
Feldforschung: in natürlichem Umfeld<br />
Vorteile:<br />
natürliche Umgebung<br />
Spontanes, „normales“ Verhalten<br />
Keine oder nur geringe Verfälschung durch Wissen um Studie<br />
Besser übertragbar auf natürliches Verhalten (höhere externe Validität)<br />
Nachteile:<br />
Schlechte Kontrolle der Störvariablen<br />
Manipulation von Situation und Verhalten schwierig<br />
Verhalten nur schwer zugänglich<br />
Keine optimalen Untersuchungsbedingungen (interne Validität?!)<br />
Es ist allgemeiner Konsens, dass die Laborforschung eine hohe interne-, dafür aber<br />
eine geringe externe Validität hat, während es bei der Feldforschung umgekehrt ist.<br />
Dafür spricht die hohe inhaltliche Validität dieser Annahme und die Tatsache,<br />
dass die Ergebnisse der Feld- und Laborforschung z.T. stark divergieren.<br />
Kritisch angemerkt werden muss jedoch, dass es keine systematischen<br />
Vergleiche von Labor- und Feldforschung gibt und dass die besagte Annahme<br />
auf dem Vergleich der Pole der jeweiligen Forschungsrichtungen beruht;<br />
Mischformen (wie z.B. die experimentelle Felduntersuchung) bleiben also<br />
unberücksichtigt.<br />
Welche der beiden Forschungsformen sinnvoller ist, hängt v.a. vom aktuellen<br />
Kenntnisstand ab:<br />
Liegen z.B. schon viele Laborstudien vor, die intern valide Methoden<br />
vorschlagen, dann empfiehlt sich eine Feldstudie.<br />
9
Empfehlenswert ist außerdem die Kombination beider Forschungsformen in einer<br />
sog. experimentellen Felduntersuchung.<br />
z.B. die Veränderung politischer Einstellungen durch die Lektüre von<br />
Tageszeitungen.<br />
2.1.2. Web-Experimente<br />
Ergänzung zur klassischen Feld- und Laborforschung<br />
Vorteile:<br />
ermöglicht die Untersuchung heterogener Populationen<br />
sehr große Stichproben (hohe statistische Power)<br />
geringer organisatorischer und finanzieller Aufwand<br />
Hoher Automatisierungsgrad (Kontrolle von VL-Artefakten)<br />
Hohe externe Validität (Generalisierung auf Populationen, Settings und<br />
Situationen, da der Versuch ja „zum Probanden kommt“)<br />
Nachteile:<br />
Möglichkeit einer Mehrfachteilnahme der Pbn (Lösung:<br />
Personalisierungsitems; Überprüfung der internen Konsistenz und der<br />
Zeitkonsistenz der Antworten)<br />
Fehlende Vl-Vp-Interaktion (keine Möglichkeit zur Nachfrage)<br />
Hohe Dropout (Abbrecher)-Quote<br />
Interne Validität aufgrund nicht kontrollierbarer Störvariablen fraglich<br />
(unterschiedliche „Versuchsräume“, Bildschirmgrößen,…)<br />
Zu unterscheiden ist zwischen „Item-Non-Respondern“ und „Unit-Non-Respondern“<br />
Item-Non-Response: Nichtbeantwortung einzelner Items<br />
Lösung bei Web-Experimenten: Es müssen einfach alle Items beantwortet<br />
sein, bevor der Fragebogen anerkannt wird.<br />
Unit-Non-Response: Komplette Verweigerung der Auskunft (Ablehnung der<br />
Teilnahme, keine Rücksendung des Fragebogens, vorzeitiger Abbruch)<br />
Die Unit-Non-Responderquote kann z.B. durch finanzielle Anreize und<br />
persönliche Fragen zu Versuchsbeginn verringert werden. Außerdem sollten<br />
ladeaufwendige Inhalte (Bilder, Filme, Sounds) vermieden werden.<br />
Verringerung der Dropout-Quote:<br />
High-Hurdle-Technique<br />
konzentrierte Darbietung evtl. demotivierender Informationen am<br />
Versuchsbeginn<br />
Aufwendigere Items, die eine höhere Konzentration erfordern (viel Text usw.)<br />
ebenfalls am Anfang des Versuchs platzieren.<br />
Warm-Up-Technique<br />
genaue Instruktion und Übungsseiten vor dem Beginn des eigentlichen<br />
Versuchs, da die meisten Dropouts bereits nach wenigen Seiten auftreten.<br />
Seriosness-Check<br />
Abfragen der Involviertheit der Pbn vor Versuchsbeginn (evtl. Nicht-<br />
Zulassung zum Versuch)<br />
Steigerung der internen Validität:<br />
Erfassung der Computermerkmale des Pbn (Browsertyp,<br />
Bildschirmmerkmale,…)<br />
10
2.1.3. Einzelfallforschung<br />
Wenn lediglich eine Untersuchungseinheit vorliegt:<br />
ein einzelnes Individuum (z.B. bei seltenen Krankheiten)<br />
ein genau abgrenzbares Kollektiv (z.B. ein Verein, eine Kultur)<br />
Ziele: (1) Detaillierte und sorgfältige Beschreibung eines Phänomens;<br />
(2) Hypothesengenerierung<br />
Vorteile:<br />
Das Problem der externen Validität stellt sich nicht, da die Ergebnisse ohnehin<br />
nicht auf eine Gesamtpopulation übertragen werden sollen.<br />
Es muss kein großer Aufwand auf die Standardisierung des Verfahrens<br />
verwendet werden.<br />
Nachteile:<br />
Nahezu nicht replizierbar und damit auch nur bedingt generalisierbar<br />
Die Zusammenfassung von Einzelergebnissen ist problematisch<br />
2.1.4. Längsschnittstudien<br />
Definition: Dieselbe Stichprobe von Individuen wird mehrmals zu verschiedenen<br />
Zeitpunkten mit demselben oder einem vergleichbaren Messinstrument untersucht.<br />
z.B.: Untersuchung der kognitiven Entwicklung im Kindesalter: Dieselben<br />
Kinder werden zu unterschiedlichen Zeitpunkten untersucht.<br />
Vorteile:<br />
Unterschiede in den Messwerten dürfen als intraindividuelle Veränderungen<br />
interpretiert werden.<br />
Unterschiede innerhalb der Stichprobe dürfen als interindividuelle Unterschiede<br />
interpretiert werden.<br />
Für die Auswertung von abhängigen Stichproben („Within-Subject-Design“)<br />
stehen effizientere statistische Verfahren zur Verfügung.<br />
Nachteile:<br />
Beeinflussung der Ergebnisse durch „Zeiteffekte“ (s.o.):<br />
Geschichtlichkeit: Die Anwendung derselben Methode über einen längeren<br />
Zeitraum hinweg bzw. in verschiedenen Altersgruppen ist fraglich. Der<br />
Einfluss geänderter Umweltbedingungen ist schwer kalkulierbar!<br />
Entwicklung: Mortalität und Alterung der Probanden<br />
Testeffekte: Lerneffekte, reaktive Effekte<br />
Das Untersuchungsverfahren kann im Lauf der Studie nicht mehr geändert<br />
werden, ohne die Vergleichbarkeit der Ergebnisse zu gefährden.<br />
Beispiel: Panelforschung<br />
Definition: in bestimmten zeitlichen Abständen („Wellen“) werden von<br />
denselben Untersuchungseinheiten dieselben Merkmale erhoben.<br />
z.B. regelmäßige Befragungen zum Einkaufsverhalten<br />
Ziel: Erfassung intraindividueller und interindividueller Veränderungen über die<br />
Zeit hinweg<br />
Nachteile und Störvariablen:<br />
Lerneffekte sind abhängig von der Zahl und dem zeitlichen Abstand der<br />
erhebungen („Wellen“).<br />
Durch die Befragung können reaktive Testeffekte auftreten (z.B. erhöhtes<br />
Preisbewusstsein).<br />
11
Mortalität (zufälliger und systematischer Ausfall von Erhebungseinheiten):<br />
Bei systematischen Ausfällen tritt der „Effekt der positiven Selbstauswahl“<br />
auf, da es von Persönlichkeitsmerkmalen (Motivation usw.) abhängt, wer<br />
aussteigt (s.o.).<br />
Selektionseffekte sind bereits in der Anwerbungsphase zu erwarten: die<br />
Verweigerungsquote liegt bei über 20%!<br />
Geschichtlichkeit (s.o.)<br />
Lösungsvorschläge:<br />
Bildung sehr großer Ausgangsstichproben, damit trotz Mortalität am Ende<br />
genügend Einheiten übrig bleiben (bleibt allerdings das Problem der positiven<br />
Selbstauswahl)<br />
Auffüllen der ausgefallenen Einheiten (Vergleichbarkeit?!)<br />
Alternierendes Panel: Bildung von (zwei) Subgruppen, die abwechselnd<br />
untersucht werden; Vorteil: größerer zeitlicher Abstand zwischen den<br />
„Wellen“ und weniger „Wellen“ => weniger Testeffekte; Nachteil: enorm<br />
große Ausgangsstichprobe vonnöten<br />
Rotierendes Panel: Bildung mehrer Subgruppen, wobei nur eine Subgruppe<br />
bei allen Wellen teilnimmt, die anderen nur bei bestimmten, manche nur bei<br />
jeweils einer Welle; Vorteil: bessere Kontrolle der „Zeiteffekte“; Nachteil:<br />
sehr aufwendig, da bei jeder „Welle“ eine neue Subgruppe gebildet werden<br />
muss.<br />
Geteiltes Panel: Nur eine Subgruppe durchläuft alle Wellen, die übrigen<br />
Subgruppen jeweils nur eine, wobei auch hier die Zahl der Wellen der Zahl<br />
der Subgruppen entspricht; Vorteil: nur bei der ersten Gruppe schlagen die<br />
negativen Effekte voll durch, bei den übrigen gar nicht bzw. nur bedingt;<br />
Nachteil: siehe rotierendes Panel!<br />
2.1.5. Querschnittstudien<br />
Definition: Zu einem bestimmten Zeitpunkt werden mehrere Stichproben von<br />
Individuen mit demselben oder einem vergleichbaren Messinstrument jeweils<br />
nur einmal untersucht.<br />
z.B.: Untersuchung der kognitiven Entwicklung im Kindesalter: Kinder<br />
verschiedenen Alters werden zum selben Zeitpunkt untersucht.<br />
Vorteile:<br />
Kurze Durchführungsdauer der Untersuchung; geringerer Aufwand<br />
Umfang der Stichprobe bleibt im Erhebungszeitraum konstant<br />
Nachteile:<br />
Unterschiede zwischen den Versuchsgruppen können durch Unterschiede<br />
zwischen den Gruppen oder zwischen den Probanden bedingt sein – und müssen<br />
insofern nicht unbedingt eine Folge der UV sein.<br />
Unabhängige Stichproben erlauben keine Aussagen zu intraindividuellen<br />
Unterschieden.<br />
Für unabhängige Stichproben stehen weniger effiziente statistische Verfahren zur<br />
Verfügung.<br />
Generalisierung der Ergebnisse über den Zeitpunkt der Untersuchung hinaus ist<br />
streng genommen nicht zulässig.<br />
12
2.1.6. Sekundäranalysen<br />
Primäranalysen: Selbständige Datenerhebung<br />
Sekundäranalysen: Rückgriff auf bereits existierende Datenbestände<br />
z.B.: Wirtschaftsforschung (Bruttoinlandsprodukt), Literaturreviews,…<br />
Vorteile: geringer Aufwand<br />
Nachteile: Qualität der Daten hängt vom jew. Untersucher ab; die Daten sind u.U.<br />
veraltet und wurden zu anderem Zweck erhoben (Übertragbarkeit auf die eigene<br />
Fragestellung?!)<br />
2.2. Selektion: Das Problem der Stichprobe<br />
Definitionen:<br />
Population (Grundgesamtheit): Alle potentiell untersuchbaren Einheiten, die<br />
ein gemeinsames Merkmal, eine gemeinsame Merkmalskombination<br />
aufweisen<br />
Stichprobe: Teilmenge aller Untersuchungseinheiten, die die relevanten<br />
Eigenschaften der Grundgesamtheit möglichst gut abbildet.<br />
Man unterscheidet zwischen globaler und spezifischer Repräsentativität<br />
Je besser die Stichprobe die Population repräsentiert, desto präziser sind<br />
die Aussagen über die Grundgesamtheit<br />
Je größer die Stichprobe, desto präziser sind die Aussagen über die<br />
Grundgesamtheit.<br />
Zufallsgesteuerte Stichproben:<br />
1. Zufallsstichprobe:<br />
In eine Zufallsstichprobe kann jedes Element der Grundgesamtheit mit<br />
gleicher Wahrscheinlichkeit aufgenommen werden.<br />
z.B. zufällige Stichprobenauswahl über das Einwohnermeldeamt<br />
Empfohlen, wenn über das relevante Untersuchungsmerkmal praktisch nichts<br />
bekannt ist.<br />
2. Klumpenstichprobe:<br />
Bei einer Klumpenstichprobe wird auf mehrere, zufällig ausgewählte<br />
Teilmengen zurückgegriffen, die ihrerseits bereits vorgruppiert sind.<br />
z.B. mehrere Schulklassen einer Jahrgangsstufe<br />
Wird nur ein zufällig ausgewählter Klumpen untersucht (z.B. eine<br />
Schulklasse), spricht man von einer Ad-hoc-Stichprobe.<br />
Empfohlen bei ökonomischen Zwängen<br />
3. Geschichtete (stratifiziere Stichprobe):<br />
Geschichtete Stichproben sind Stichproben, deren Einheiten sich bezüglich<br />
einer oder mehrerer das Untersuchungsmerkmal moderierender Variablen<br />
unterscheiden; die Auswahl innerhalb einer Schicht erfolgt nach dem<br />
Zufallsprinzip.<br />
z.B.: Berücksichtigung des Jahreseinkommens bei der Befragung zu<br />
Konsumgewohnheiten.<br />
proportional geschichtet: Die prozentuale Verteilung der<br />
Schichtungsmerkmale der Stichprobe stimmt mit deren Verteilung in der<br />
Grundgesamtheit überein.<br />
Problem: Explosion der Schichtanzahl bei mehreren Schichtungsvariablen<br />
(da deren verschiedene Kombinationsmöglichkeiten berücksichtigt werden<br />
müssen)<br />
13
4. Mehrstufige Stichprobe:<br />
Stichprobenartige Untersuchung von Klumpen- oder geschichteten<br />
Stichproben<br />
Empfohlen, wenn die Klumpen bzw. Schichten zu groß sind<br />
Nicht-zufallsgesteuerte Stichproben (unter allen Umständen zu vermeiden!):<br />
1. Anhand willkürlich definierter Kriterien zusammengestellte Stichproben<br />
2. Quotenstichproben:<br />
Von jeder Stichprobe müssen bestimmte Quoten erfüllt werden (z.B. soundso<br />
viele Frauen, soundso viele Männer usw.)<br />
wird häufig in der Umfragenforschung verwendet.<br />
Probleme:<br />
Nur die prozentuale Aufteilung der Quotierungsmerkmale wird<br />
betrachtet, i.d.R. nicht deren Kombinationsmöglichkeiten (wie bei der<br />
geschichteten Stichprobe)<br />
Die Auswahl der Einheiten innerhalb dieser Quoten bleibt id.R. dem<br />
Untersucher überlassen und erfolgt deswegen meist nicht nach dem<br />
Zufallsprinzip (wie bei der geschichteten Stichprobe), sondern z.B. nach<br />
dem Verfügbarkeitsprinzip (bei Befragungen werden z.B. oft die<br />
höheren Stockwerke vernachlässigt).<br />
Die Repräsentativität von Stichproben:<br />
Stichprobenkennwerte sind Schätzwerte; sie repräsentieren die<br />
entsprechenden Populationsparameter immer nur mit einer gewissen<br />
Wahrscheinlichkeit.<br />
=> Die für die Stichprobe erhobenen Messwerte sind Schätzwerte für die wahren<br />
Werte (in der Population).<br />
Das Vertrauens- bzw. Konfidenzintervall gibt an, zwischen welchen Werten<br />
sich der wahre Wert bei gegebenem Stichprobenwert mit hoher<br />
Wahrscheinlichkeit (meistens 95%) bewegt.<br />
Je größer die Stichprobe, desto kleiner das Konfidenzintervall.<br />
Will man das Konfidenzintervall verkleinern, muss man den<br />
Stichprobenumfang entsprechend vergrößern (quadrieren!)<br />
=> Halbierung des Konfidenzintervalls = 4-facher Stichprobenumfang<br />
14
3. Datenquellen I: Beobachtung<br />
3.1. Was ist eine Beobachtung?<br />
Bebachtung ist in den empirischen Wissenschaften die grundlegende Methode der<br />
Datengewinnung.<br />
Definition (nach Laatz): Das „Sammeln von Erfahrung im nicht-kommunikativen<br />
Prozess mit Hilfe sämtlicher Wahrnehmungshilfen“<br />
Alltagsbeobachtung: unsystematisch, naiv<br />
Wissenschaftliche Beobachtung: zielgerichtet, methodisch kontrolliert<br />
Zielgerichtetheit:<br />
Zielgerichtetheit ist notwendig, aufgrund der begrenzten Informationsverarbeitungskapazität<br />
des Beobachters.<br />
Zielgerichtetheit impliziert, dass der Beobachter eine Theorie über den<br />
Beobachtungsgegenstand hat.<br />
Methodische Kontrolle:<br />
Beachtung des Kontextes (Wo wird beobachtet?)<br />
Kontrolle des Beobachterverhaltens (da Wahrnehmung ein aktiver Prozess ist)<br />
Speichern der Beobachtung (Der Zugriff auf die Beobachtungsergebnisse sollte<br />
jederzeit zugänglich sein)<br />
Wissenschaftliche Beobachtung umfasst die verschiedensten Methoden:<br />
Ablesen von Skalen<br />
Auswertung von Fragebögen<br />
(Direktes) Beobachten von Verhalten<br />
Ablesen von Testergebnissen (z.B. Reaktionszeiten)<br />
3.2. Beobachtungssysteme: Die Kodierung von Beobachtungen<br />
Zu unterscheiden ist zwischen Verbal- und Nominalsystemen.<br />
1. Verbalsysteme<br />
Möglichst genaue verbale (freie) Beschreibung von Verhaltensweisen<br />
Umfassend, da keine Vorgaben; dafür aber schwierig zu standardisieren<br />
2. Nominalsysteme<br />
Kodierung beobachteter Verhaltensweisen nach einem bestimmten Schema<br />
Katalog möglicher Verhaltensweisen, die möglichst genau definiert sind<br />
Adäquate Übersetzung dieser Verhaltensweisen in Zeichen (Bildung von<br />
Kategorien: entweder für jede Beobachtungseinheit eine eigene<br />
Kategorie oder übergeordnete Kategorien, in die sich mehrere ähnliche<br />
Beobachtungseinheiten einordnen lassen)<br />
Beobachtung als Zuordnung zu Kategorien (Dauer und Häufigkeit eines<br />
Verhaltens; nominalskaliert):<br />
1. Time-Sampling (Zeitstichprobe)<br />
Beobachtungseinheit = festes Zeitintervall<br />
Es wird pro Zeitintervall kodiert, welches Verhalten aufgetreten ist<br />
Ergebnis: annähernde Information über Häufigkeit und Dauer des Verhaltens<br />
2. Event-Sampling (Ereignisstichprobe)<br />
Beobachtungseinheit = eine bestimmte Verhaltensweise<br />
Art der Verhaltensweise sowie deren Beginn und Ende werden<br />
festgehalten<br />
Ergebnis: exakte Information über Häufigkeit und Dauer des Verhaltens<br />
Gefahr der Überforderung, insbes. bei sehr kurzen Verhaltensweisen<br />
Beobachtung als Einschätzung auf Ratingskalen (Ausprägung eines Verhaltens;<br />
intervallskaliert).<br />
15
3.3. Beobachterfehler und wie man sie vermindert<br />
Ermüdung, Langeweile, Überlastung und Aufmerksamkeitsschwankungen des<br />
Beobachters<br />
1. Beobachtertraining<br />
2. Vereinfachung der Beobachtung (s.u.)<br />
3. Mehrere Beobachter (Interraterreliabilität und Verwendung von Mittelwerten<br />
über mehrere Rater)<br />
4. Aufzeichnung der Beobachtung (= s.u.: „vermittelte Beobachtung“)<br />
Mangelnde Standardisierung der Beobachtung<br />
1. Vereinfachung und Standardisierung der Beobachtung<br />
Begrenzte Anzahl klar definierter Kategorien<br />
Keine Globalurteile, sondern „Merkmal für Merkmal“<br />
Verwendung adäquater Skalen (evtl. kombinierte Verbal-<br />
/Numeralskalen)<br />
Beobachtertraining<br />
Generelle und spezielle Erwartungseffekte sowie Reaktivitätseffekte<br />
Rosenthal- bzw. Pygmalion-Effekt (s.o.)<br />
Unbeabsichtigte Beeinflussung des Pbn durch verbales u. nonverbales<br />
Verhalten des Beobachters bzw. durch die Tatsache der Beobachtung<br />
selbst!<br />
Zentrale Tendenz<br />
häufigere Verwendung der mittleren Kategorien<br />
Milde-Tendenz<br />
Vermeidung extremer Kategorien<br />
Primacy-Recency-Effekt<br />
v.a. bei retrospektiver Beobachtung: die ersten und letzten Beobachtungen<br />
werden besser gemerkt und sind im Nachhinein leichter abrufbar.<br />
Halo-Effekt<br />
Unzulässige Generalisierung von beobachteten Verhaltensweisen auf<br />
erwartete Persönlichkeitsmerkmale<br />
1. Beobachtertraining (Problembewusstsein)<br />
2. Postumer Ausschluss einzelner Beobachter und/oder Beobachtungsgegenstände<br />
(bei der Auswertung)<br />
3. Mehrere Beobachter (Interraterreliabilität)<br />
4. „Einseitig verdeckte Beobachtung“ (z.B. durch Coverstory, s.u.)<br />
5. „Indirekte Beobachtung“ (keine Interaktion zw. Vp und Vl, s.u.)<br />
6. „Vermittelte Beobachtung“ (Aufzeichnung des Verhaltens, s.u.)<br />
7. Gewöhnungsphase (zur Abschwächung reaktiver Effekte seitens der Vp)<br />
16
3.4. Selbst- und Fremdbeobachtung<br />
Probleme der Selbstbeobachtung:<br />
Reaktivität: Die Tatsache, dass der Beobachter weiß, was beobachtet werden<br />
soll, kann die Beobachtung beeinflussen.<br />
Da Verhalten und Beobachtung simultan ablaufen, Gefahr der kognitiven<br />
Überforderung (Grenzen der Verarbeitungskapazität); Probleme retrospektiver<br />
Beobachtung (s.o.)<br />
Veränderung des Beobachtungsgegenstandes durch die Beobachtung<br />
(Reaktivität)<br />
Nicht alle Phänomene können von einem selbst beobachtet werden.<br />
Die Ergebnisse der Beobachtung sind nicht nachprüfbar.<br />
Aspekte der Fremdbeobachtung:<br />
Natürliches vs. künstliches Beobachtungsumfeld<br />
Siehe oben: Feld- und Laborforschung<br />
Wissentliche / offene vs. unwissentliche / verdeckte Beobachtung<br />
Unwissentlich (non-reaktiv): Probanden wissen nicht, dass sie beobachtet<br />
werden (z.B. durch eine Einwegscheibe, mittels einer versteckten<br />
Kamera,…) = einseitige Verbindung vom Vl zur Vp<br />
einseitig verdeckt (non-reaktiv): Proband weiß nicht, was beobachtet wird<br />
(z.B. Coverstories)<br />
beidseitig verdeckt (non-reaktiv):<br />
wissentlich/offen (reakativ): Reaktivitätsprobleme (s.u.)!!<br />
Teilnehmende vs. nicht-teilnehmende Beobachtung<br />
Nicht-teilnehmend: Beobachter hat keinen Einfluss auf den<br />
Versuchsgegenstand; es findet keine Interaktion zw. Vp und Beobachter<br />
statt<br />
Teilnehmend: Problem der Reaktivität und der möglichen Überforderung<br />
des Beobachters (begrenzte Verarbeitungskapazität)<br />
Direkte vs. indirekte (non-reaktive) Beobachtung<br />
Direkte Beobachtung: das Verhalten selber wird beobachtet.<br />
Indirekte Beobachtung: Lediglich die Spuren bzw. Auswirkungen des<br />
Verhaltens werden beobachtet (z.B. Wrong-Number Technik, Lost-Letter<br />
Technik, Auswertung bereits vorhandener Dokumente,…).<br />
* Die Interpretation solcher Daten verlangt eine Verhaltenstheorie<br />
(Welches Verhalten hat die Daten erzeugt?) und eine<br />
Stichprobentheorie (Wer kann die Daten erzeugt haben?); eine<br />
Individualzuweisung der Daten ist meistens nicht möglich.<br />
Vermittelte vs. unvermittelte Beobachtung<br />
Vermittelte Beobachtung: Zu beobachtendes Verhalten wird gespeichert<br />
(z.B. mittels Audio- oder Videoaufnahme), und ist dadurch beliebig<br />
abrufbar und wieder verwendbar.<br />
Unvermittelte Beobachtung: mindestens 2 Beobachter<br />
17
3.5. Güte einer Beobachtung<br />
Retest-Reliabilität (intraindividueller Vergleich der Beobachter)<br />
Übereinstimmung der Beobachtungsergebnisse bei wiederholter Durchführung<br />
(Stabilität und Konsistenz eines Beobachters)<br />
Interraterreliabilität (interindividueller Vergleich der Beobachter)<br />
Übereinstimmung verschiedener Beobachter (Kappa-Maß)<br />
Interpretation: Die zufallskorrigierte Beobachterübereinstimmung beträgt X %.<br />
gute Übereinstimmung: Kappa-Werte > 70%<br />
zufrieden stellende Übereinstimmung: Kappa-Werte > 50%<br />
3.6. Zusammenfassung: Aspekte des Beobachtungsprozesses<br />
Objekt der Beobachtung<br />
Subjekt der Beobachtung<br />
Umstände der Beobachtung<br />
Mittel der Beobachtung (Sinnesorgane; Geräte; Prozeduren)<br />
Implizites oder explizites theoretisches Wissen, mit dessen Hilfe die o.g. Aspekte<br />
aufeinander bezogen werden.<br />
18
4. Datenquellen II: Befragung<br />
4.1. Was ist Befragung?<br />
Alltagsverständnis: verbale Kommunikation zwischen Personen<br />
Wissenschaftliches Verständnis: Informationsfluss zwischen Personen (nicht<br />
zwangsläufig verbaler Art)<br />
Kennzeichen einer wissenschaftlichen Befragung ist die Kontrolle jedes<br />
einzelnen Befragungsschrittes:<br />
Systematische Vorbereitung und Durchführung (präzise Formulierung<br />
der Fragen; genaue Instruktion; Wahl eines adäquaten<br />
Befragungsinstruments usw.)<br />
Berücksichtigt werden müssen dabei v.a. die Befragungssituation sowie<br />
Personenmerkmale des Interviewers und des Befragten (s.u.)<br />
4.2. Klassifikation von Befragungen<br />
4.2.1. Ausmaß der Standardisierung<br />
Man unterscheidet zwischen strukturierten, halb-strukturierten und unstrukturierten<br />
Befragungen.<br />
Eine standardisierte bzw. strukturierte Befragung gibt die Abfolge und den<br />
Wortlaut der Fragen vor. Antwortvorgaben sind dagegen nicht unbedingt notwendig.<br />
Offene Fragen sind also auch in einer standardisierten Befragung durchaus möglich.<br />
Offene Fragen (freie Formulierung der Antworten): bei stetigen Merkmalen<br />
(z.B. Alter) oder wenn die Antworten vorher nicht absehbar sind<br />
Geschlossene Fragen (Vorgabe mehrerer Antwortoptionen): wenn eine<br />
Begrenzung der Antworten auf bestimmte Bereiche sinnvoll erscheint;<br />
einfachere Auswertung<br />
Standardisierte Befragungen eignen sich bei umgrenzten Themenbereichen oder<br />
wenn bereits Vorwissen zu dem betreffenden Thema besteht.<br />
Bei halbstandardisierten Befragungen orientiert sich der Interviewer an einem mehr<br />
oder minder groben Leitfaden. Reihenfolge und Art der einzelnen Fragen sind also<br />
nicht vollkommen vorgeschrieben. Ermöglicht höhere Flexibilität; daher am besten!<br />
Teilweise offene, teilweise geschlossene Fragen<br />
4.2.2. Autoritätsanspruch des Interviewers<br />
Man unterscheidet zwischen „weichen-“, „harten-“ und „neutralen Interviews“.<br />
„Weiche“ Interviews beruhen auf den Prinzipien der Gesprächstherapie (nondirektiv,<br />
emphatisch, wertschätzend, selbstkongruent)<br />
Ziel: aufrichtige, offene und reichhaltige Antworten (ohne Hemmungen)<br />
„Harte“ Interviews: autoritär-aggressiver Fragestil, häufiges Anzweifeln der<br />
Antworten, schnelle Aufeinanderfolge der Fragen<br />
Ziel: „Überrennen“ von Abwehrmechanismen<br />
„Neutrale“ Interviews: Betonung der informationssuchenden Funktion der<br />
Befragung; Fragender und Befragter als gleichwertige Partner<br />
19
4.2.3. Art des Kontakts<br />
Man unterscheidet zwischen direkten/persönlichen, telefonischen und schriftlichen<br />
Befragungen.<br />
Persönliche Befragung („Face-to-Face-Interview“): hoher Aufwand, dafür hohe<br />
subjektive Vertraulichkeit<br />
Telefonische Befragung („Telefoninterview“): schnell und preiswert; vom Befragten<br />
als anonymer und weniger bedrängend erlebt als persönliche Interviews; geringe<br />
Verweigerungsquote<br />
Schriftliche Befragung („Paper-and-Pencil“): kostspielig, unkontrollierte<br />
Erhebungssituation, heterogene Rücklaufquote, statt sequentieller Reihenfolge<br />
simultan (da vor- und zurückgeblättert werden kann)<br />
Neuere, computerunterstützte Befragungstechniken:<br />
“Computer Assisted Personal interviewing“ (CAPI)<br />
“Computer Assisted Telephone Interviewing” (CATI)<br />
“Computer Assisted Self Interviewing” (CASI)<br />
“Computer Self-Administered Questionnaire” (CSAQ)<br />
“Disk by Mail” (DBM)<br />
Voice Recognition (VR)<br />
4.2.4. Anzahl der befragten Personen<br />
Man unterscheidet zwischen Gruppen- und Einzelinterviews<br />
Einzelinterviews: bei Themenbereichen, in denen Gruppeneffekte auftreten können<br />
(Leistungsdruck, sozialer Druck)<br />
Gruppeninterviews: Geringere Kosten; einheitliche Befragungssituation für<br />
jeweilige Gruppe<br />
Befragte machen Angaben auf Antwortbogen<br />
4.2.5. Anzahl der Interviewer<br />
Zu unterschieden ist zwischen: Ein Interviewer; „Tandem“ und „Hearing“<br />
Ein Interviewer: am ökonomischsten<br />
Tandem-Interview (2 Interviewer): sinnvoll bei anspruchsvollen Interviews, wie<br />
z.B. Expertenbefragungen<br />
Hearing / Board-Interviews (Mehrere Interviewer): Möglichkeit der gegenseitigen<br />
Ergänzung, vom Befragten als belastend wahrgenommen (z.B. bei<br />
Personalkommissionen)<br />
4.2.6. Funktion des Interviews<br />
Informationsermittelnde Funktion: Erfassung von Fakten (z.B. Zeugeninterviews;<br />
Panel-Befragungen,…)<br />
Invormationsvermittelnde Funktion: Beratungsgespräche (z.B. Berufsberatung)<br />
20
4.3. Allgemeines psychologisches Grundmodell der Befragung<br />
Die Antwort einer Person hängt ab von:<br />
1. Aspekten der Frage (z.B. Wortlaut, Reihenfolge)<br />
2. Merkmalen des Befragten (z.B. Motivation, Kompetenz)<br />
3. Kontext der Befragungssituation (z.B. Art, Zweck, Merkmale des Interviewers)<br />
Ergo: Es gibt eine Vielzahl an Einflussfaktoren auf die Antwort<br />
4.3.1. Aspekte der Frage<br />
Die Reihenfolge der Frage kann die Antwort beeinflussen.<br />
Werden kontextuell ähnliche Fragen direkt hintereinander gestellt, versucht der<br />
Befragte die 2. Frage meist einem anderen Kontext zuzuordnen und etwas anderes,<br />
sprich neues, zu antworten („Given-new-Contract“).<br />
Ergo: Thematisch oder kontextuell ähnliche Fragen immer auseinander<br />
ziehen!<br />
Die Formulierung der Fragen kann die Antwort beeinflussen (möglichst präzise und<br />
einfach).<br />
Die Formatierung der Antwortskala (s.u.) hat einen Einfluss darauf, wie die<br />
dazugehörige Frage interpretiert wird.<br />
Wie oft ärgern sie sich?!<br />
Skala 1: mehrmals am Tag …Weniger als 1 Mal pro Woche<br />
Skala 2: mehrmals im Jahr … Weniger als 1 Mal pro Jahr<br />
4.3.2. Merkmale des Befragten<br />
Motivation: Pb will keine validen Angaben machen<br />
Demand-Effekte: Pb will die „Erwartungen“ des Befragers erfüllen<br />
Soziale Erwünschtheit: Formulierung sozial akzeptierter Antworten<br />
„Self-Disclosure“: Auskunftsverweigerung (Item- vs. Unit-Nonresponder)<br />
Kompetenz: Pb kann keine validen Angaben machen<br />
Pb ist von den Fragen überfordert und kann schlicht und einfach nicht antworten!<br />
4.3.3. Kontext der Befragungssituation<br />
Der Zweck einer Befragung beeinflusst die Bereitschaft, daran teilzunehmen und<br />
Ausführlichkeit und Inhalt der Antworten.<br />
Befragung als wahrgenommenes „Bürgerreferendum“ (extremere Positionen);<br />
Befragung als wahrgenommenes „intimes Gespräch“ (Orientierung an der<br />
Meinung des Interviewers)<br />
Merkmale des Interviewers (wie Alter, Geschlecht, Rasse,…) können die Antworten<br />
beeinflussen.<br />
Beispiel: ein Ausländer führt Befragung zu Ausländerfeindlichkeit durch<br />
(Demandeffekte, soziale Erwünschtheit,…)<br />
21
4.4. Formatierung der Antwortskala<br />
Numeralskala (Zahlenwerte): z.B. von 0 bis 5 (unipolar) oder von -2 bis 2.<br />
(-) Verwendung negativer Skalenwerte ist umstritten<br />
(-) Fraglich, ob Ureile in Zahlen ausgedrückt werden können (evtl. zu abstrakt)<br />
Daher: (+) Verbale Verankerung der Pole!!<br />
(-) Anfälliger für Urteilseffekte als Verbalskalen<br />
Verbalskala (Begriffe): z.B. von „stimmt gar nicht“ bis „stimmt völlig“<br />
(-) Durch verbale Bezeichnung u.U. unpräzise<br />
(-) Äquidistanz zwischen den Kategorien nicht immer sichergestellt<br />
(+) Weniger anfällig für Urteilseffekte als Numeralskalen<br />
Symbolskalen: z.B. „Thermometerskala“, „Kunin-Skala“ (mit Smileys)<br />
(+) v.a. bei Kindern sinnvoll<br />
Visuelle Analogskala: Antworten werden auf einer kontinuierlichen Linie abgetragen<br />
(z.B. von „sehr selten“ bis „sehr häufig“)<br />
(-) Hoher Auswertungsaufwand<br />
(-) Anfangs höhere Unsicherheit bei den Probanden<br />
(+) Später aber: höhere Motivation der Befragten und schneller Antworten<br />
(+) Feinere Abstufungen des Urteils möglich<br />
(+) Entspricht Intervallniveau<br />
(+) Geringe Erinnerungseffekte: Pbn können sich angegebene Position nur<br />
schwer merken<br />
Standardskala: Eine durch Beispiele verankerte Skala<br />
(-) Hoher Entwicklungsaufwand<br />
(+) Plastische Wirkung für Befragten<br />
Empfehlungen:<br />
Bei Numeralskalen: Verbale Verankerung!<br />
Kategorienzahl an der Differenziertheit des Messgegenstandes und der<br />
Differenzierungsfähigkeit der Befragten ausrichten<br />
* Rohrmann empfiehlt Ratingskalen mit 5 Kategorien; bei akademischen<br />
Stichproben aber auch größere Kategorienzahl möglich.<br />
Ungerade Anzahl von Kategorien bzw. Aufnahme einer Mittelkategorie<br />
(„weder-noch“/ „unentschieden“)<br />
(-) Sind Mittelkategorien explizit vorgegeben, werden sie auch häufiger<br />
genutzt.<br />
(-) Unterscheidung von Unwissenheit, neutraler Position und Bequemlichkeit<br />
nur schwer möglich.<br />
=> Daher: Einführung einer optisch getrennten Ausweichkategorie für<br />
Unwissenheit.<br />
Gerade Anzahl von Kategorien (keine Mittelkategorie)<br />
(+) Entscheidung des Pb wird erzwungen<br />
(- ) Gefahr häufiger Missings<br />
Bei bipolaren Skalen: Balancierung (sprich: genauso viele positive wie<br />
negative Kategorien + eine Mittelkategorie)<br />
22
4.5. Auskunftsverweigerung<br />
Item-Nonresponder: Nichtbeantwortung einzelner Items<br />
Ursachen: Verweigerung der Auskunft (v.a. bei intimeren Fragen), Nicht-<br />
Informiertheit, Meinungslosigkeit, Unentschlossenheit<br />
Personenprofil: Unsichere Personen, ältere Menschen, Personen mit geringem<br />
Sozialstatus<br />
Unit-Nonresponder: komplette Auskunftsverweigerung<br />
Kontrollmöglichkeiten: Hinreichend große Stichprobe, Auffüllen der<br />
Stichprobe<br />
Problem: Systematische Unterschiede zwischen Respondern und<br />
Nonrespondern => Verzerrung der Stichprobe (Repräsentativität)<br />
Personenprofil:<br />
bei Interviews: ältere Menschen, Frauen, geringer Bildungsstatus<br />
bei schriftlichen Befragungen: geringer Bildungsstatus, geringere<br />
Intelligenz, geringes Interesse am Thema, fehlende Beziehung zum<br />
Unterssucher<br />
Verweigerungsquoten:<br />
Bei persönlicher Befragung: 7-14%<br />
Bei telefonischer Befragung: 7%<br />
Bei schriftlicher Befragung: 10-90%<br />
Freistempelung des Briefes (34%); frankierter Rückumschlag (26%)<br />
Computerunterstützte Befragung: ähnliche Verweigerungsquoten, aber höhere<br />
Rücklaufgeschwindigkeit!<br />
Die Rücklaufquoten bei schriftlichen Befragungen können gesteigert werden, durch:<br />
Stichproben, die den Umgang mit schriftlichen Texten gewohnt sind<br />
aktuelle und interessante Themen<br />
ansprechende Gestaltung des Fragebogens<br />
vorheriges Ankündigungsschreiben (2 mal so hoch) oder kurzen Anruf (3 mal<br />
so hoch)<br />
Festlegung einer Deadline (Einsendeschluss)<br />
Entscheidend für die Qualität und Verwertbarkeit einer schriftlichen Befragung ist<br />
nicht die Höhe des Rücklaufs, sondern die Repräsentativität der Stichprobe!<br />
Möglichkeiten zur qualitativen Kontrolle der Rückläufe:<br />
Überprüfung der Repräsentativität (z.B. mittels Sozialstatistiken)<br />
Gezielte telefonische, schriftliche oder persönliche Nachbefragung der Non-<br />
Responder<br />
23
5. Datenquellen III: Apparative Techniken<br />
5.1. Psychophysiologische Methoden<br />
Grundannahme: „Die Herstellung kausaler Beziehungen zwischen Gehirn, Körper<br />
und Verhalten erfordert die simultane Erfassung und Beeinflussung von<br />
physiologischen und psychologischen Variablen.“ (Birbaumer & Schmidt)<br />
Dabei sind 2 Strategien zu unterscheiden:<br />
1. Manipulation des physiologischen Substrats (UV) => Beobachtung des<br />
Verhaltens (AV)<br />
z.B. Zerstörung oder Reizung einer Hirnregion (UV) => Beobachtung<br />
des Verhaltens (AV)<br />
v.a. in der biologischen Psychologie und Neuropsychologie<br />
angewandt (überwiegend Tierversuche)<br />
Ziel ist es, Zusammenhänge zwischen Hirnstrukturen und<br />
Verhalten herauszufinden.<br />
2. Manipulation des Verhaltens (UV) => Veränderungen des Substrats<br />
(AV)<br />
z.B. Darbietung eines Reizes (UV) => Messen der elektrischen<br />
Hirnaktivität (AV)<br />
wird v.a. in der Psychophysiologie angewendet (Humanversuche)<br />
Ziel ist es, Zusammenhänge zwischen Hirnprozessen und Verhalten<br />
herauszufinden.<br />
Biosignale: Alle physikalisch messbaren, kontinuierlich oder nahezu<br />
kontinuierlich registrierbaren Körperfunktionen.<br />
Folgende Arten von Biosignalen sind zu unterscheiden:<br />
1. Direkte bioelektrische Signale<br />
Gehen mit elektrischen Spannungsänderungen einher: z.B. Herzschlag<br />
oder Hirnaktivität<br />
2. Indirekte bioelektrische Signale<br />
z.B. Hautleitfähigkeit (gibt Auskunft über die Schweißproduktion)<br />
3. Nicht-elektrische Biosignale<br />
z.B. Blutdruck, Atemfrequenz, Temperatur (lassen sich in nahezu<br />
kontinuierliche, bioelektrische Signale umwandeln!)<br />
Biosignale werden über die Amplitude, Frequenz, und Wellenform interpretiert! Je<br />
nach Fragestellung kann auch nur eine dieser Ausprägungen relevant sein.<br />
5.2. Messanordnung<br />
Die typische Messanordnung zur Erhebung von Biosignalen umfasst 4 Schritte:<br />
1. Messquelle: Biosignale (s.o.)<br />
2. Ableitung der Biosignale durch Messfühler (Elektroden, Wandler)<br />
3. Signalverarbeitung (Filterung und Verstärkung des Signals zur Kontrolle von<br />
Störgrößen)<br />
4. Aufzeichnung, Darstellung und Speicherung<br />
24
Folgende Arten von Messfühlern sind zu unterscheiden:<br />
Elektroden: Zur Ableitung bioelektrischer Signale<br />
Bipolare Ableitung: Relevante Spannungsänderung wird mit zwei<br />
Elektroden erfasst, wobei beide Elektroden über der die Spannung<br />
erzeugenden Struktur angebracht werden (z.B. EMG).<br />
Unipolare Ableitung: Spannungsdifferenz zwischen der interessierenden<br />
Struktur und einer „neutralen“ Referenzelektrode (z.B. EEG, EKG).<br />
Subdermalelektroden: Unter der Hautoberfläche (v.a. bei Tierversuchen,<br />
für Psychologen verboten, da diese nur nicht-invasiv arbeiten dürfen)<br />
Oberflächenelektroden: Auf der Hautoberfläche angebrachte Elektroden<br />
Wandler: Zur Ableitung nicht-elektrischer Biosignale und deren Umwandlung<br />
in elektrische Signale<br />
Mechanische, chemische und andere nichtelektrische Biosignale werden<br />
durch Wandler in bioelektrische Signale umgewandelt (die Atmung z.B.<br />
mit einem Atemgürtel, die Temperatur mittels Thermofühler usw.).<br />
Analog-Wandler: analoges Signal = wert- und zeitkontinuierliche<br />
Zuordnung einer physikalischen Messgröße zu einer anderen (z.B. Zeit,<br />
Kraft oder Weg)<br />
Digital-Wandler: Digitale Signale = wert- und zeitdiskrete Zahlenfolgen<br />
Störgrößen: Die Messung kann durch sog. Artefekate beeinflusst werden, d.h.<br />
durch aufgefangene Signale, die anderen Ursprungs sind als das zu messende<br />
Biosignal. Dabei ist zu unterscheiden zwischen Artefakten physiologischer Herkunft,<br />
Bewegungsartefakten und Artefakten durch externe elektrische Einstreuung:<br />
Artefakte physiologischer Herkunft<br />
Potentialschwankungen und Signalstörungen durch parallel ablaufende<br />
physiologische Prozesse<br />
Lösung: bessere Elektroden / elektronische Komponenten<br />
Bewegungsartefakte<br />
Lösung: optimale Platzierung der Elektroden<br />
Artefakte durch externe elektrische Einstreuung<br />
Lösung: Bessere elektronische Komponenten (Verwendung von<br />
abgeschirmten Leitungen, Masseelektroden usw.); Abschirmung des<br />
Raumes bzw. des Probanden; Filterung und Verstärkung<br />
Filterung: Durch elektronische Filter wird das aufgenommene Signal vor der<br />
weiteren Verarbeitung aufbereitet; Störsignale werden weitestgehend herausgefiltert.<br />
Tiefpassfilter: Begrenzen den Frequenzbereich nach oben<br />
Dämpfung hoher Frequenzen: tiefe (unterhalb der jew. Grenzfrequenz<br />
gelegene) Frequenzen kommen zu 100 % durch, während hohe<br />
Frequenzen den Filter nur zu einem geringeren Prozentsatz passieren.<br />
Tiefpassfilter werden am häufigsten verwendet (z.B. zur Unterdrückung<br />
von Rauschen, u.a. des 50Hz-Netzgebrumms)<br />
Hochpassfilter: Begrenzen den Frequenzbereich nach unten<br />
Dämpfung niedriger Frequenzen: s.o.<br />
Grenzfrequenz: Frequenz, bei der das Signal auf 70,7% der ursprünglichen<br />
Amplitude reduziert wird. Je weiter die herauszufilternde Frequenz jenseits<br />
dieses Grenzwerts liegt, desto stärker die Filterung.<br />
Problem: Signale, die jenseits der Grenzfrequenz liegen, werden nicht<br />
vollständig herausgefiltert, sondern lediglich gehemmt.<br />
Bandpass-Filter: Passage ausgewählter Frequenzbänder<br />
Bandsperr-Filter: Selektives Herausfiltern spezifischer Frequenzbänder (z.B.<br />
50Hz- Netzgebrumm)<br />
25
Prinzip der Differenzverstärkung: Verstärkung von Spannungsdifferenzen<br />
zwischen 2 Ableiteelektroden.<br />
Zu diesem Zweck werden 2 Elektroden an jeweils unterschiedlichen Stellen<br />
angebracht. Da sich Störsignale im Gegensatz zu bioelektrischen Signalen mit<br />
enormer Geschwindigkeit ausbreiten, kommen sie mehr oder minder<br />
gleichphasig an den beiden Elektroden an und werden durch Differenzbildung<br />
fast vollständig eliminiert.<br />
Was bleibt, ist das relevante bioelektrische Signal, das aufgrund seiner<br />
langsameren Ausbreitung zu unterschiedlichen Zeitpunkten an den<br />
Elektroden ankommt und sich dementsprechend bei der Differenzbildung<br />
nicht aufhebt.<br />
Masse-Elektroden: gleichen Potentialunterschiede zwischen Proband und Gerät aus.<br />
Eichung: Erhebung eines Referenzsignals, mit dem dann Eichmessungen<br />
vorgenommen werden können. Ein Referenzsignal ist ein Signal, dessen Höhe<br />
bekannt ist und das man gleichzeitig einem bestimmten Verhalten zuordnen kann<br />
(Wie sieht z.B. das Lidschlusssignal aus bzw. wie verändert es sich, wenn der Blick<br />
nach vorne auf die Straße, auf den Tacho oder sonst wohin gerichtet ist?!)<br />
Ziele: (1) Verwendung der Amplitude des Referenzsignals als Bezugsgröße für<br />
die weiteren Auswertungen. (2) Überprüfung, ob die Verstärkungseinheiten<br />
adäquat arbeiten.<br />
5.3. Messprobleme:<br />
Artefakte (s.o.)<br />
Spezifitätsproblematik: Physiologische Reaktionen sind nicht eindeutig, sondern<br />
zumindest z.T. individualspezifisch. Sie können also unabhängig vom Stimulus und<br />
der Motivation der Vp stark variieren.<br />
Dem einen schlägt Stress z.B. auf den Magen, dem anderen auf die Blase.<br />
Außerdem können verschiedene Stimuli und Motivationen dieselbe<br />
physiologische Reaktion hervorrufen. Z.B. kann die Ursache einer erhöhten<br />
Herzfrequenz sowohl Angst als auch Freude sein.<br />
Bei der Auswertung physiologischer Reaktionen muss also bedacht werden, dass es<br />
sich um individual-, stimuli- und motivationsspezifische Reaktionen handelt.<br />
Ausgangswertproblematik: Physiologische Reaktionen hängen vom jeweiligen<br />
Ausgangswert ab. Das Ausgangswertgesetz von Wilder besagt: Je stärker<br />
vegetative Organe aktiviert sind, desto stärker ist ihre Ansprechbarkeit auf<br />
hemmende Reize und desto schwächer ist ihre Ansprechbarkeit auf aktivierende<br />
Reize.<br />
Regressionseffekt B: Zwischen Ausgangswert und Veränderungswert besteht<br />
eine negative Korrelation. Dementsprechend enthalten die Veränderungswerte<br />
einen systematischen Fehler.<br />
Mögliche Lösungen:<br />
Differenzbildung: Behandlung – Baseline<br />
Prozentuale Veränderung: (Behandlung – Baseline)/Baseline<br />
Kovarianzanalytische Methoden: Baseline als Kovariable<br />
Regressionsanalytische Methoden<br />
Physiologische Messungen hängen nicht zuletzt von inneren u. äußeren Variablen ab:<br />
Äußere Störvariablen: Tageszeit, Raum-/Außentemperatur, Versuchssetting<br />
Innere Störvariablen: Motivation, Stimmung, Alter, Geschlecht,…<br />
26
5.4. Physiologische Maße<br />
Zentrales Nervensystem (Rückenmark und Gehirn)<br />
EEG (Elektroenzephalogramm): Messung der neuronalen Aktivität im Gehirn<br />
Bildgebende Verfahren<br />
PET (Positronen-Emissions-Tomographie): Sichtbarmachung des Gehirnstoffwechsels<br />
durch Injektion radioaktiv markierter Glucose<br />
Computertomographie: Absorption von Röntgenstrahlen<br />
Kernspintomographie: Schwingungsverhalten von Atomen nach<br />
Magnetbestrahlung<br />
Peripheres Nervensystem (nervöses Gewebe außerhalb des ZNS)<br />
EMG (Elektromyogramm): Ableitung elektronischer Potentiale auf der Haut, die<br />
von der Aktivität des darunter liegenden Muskels herrühren.<br />
EKG (Elektrokardiogramm): Messung der Herzfrequenz<br />
SCR (Skin Conductance Response): Messung der elektrischen Hautleitfähigkeit<br />
der Haut (meist an den Handflächen), um so auf die Aktivität der Schweißdrüsen<br />
zu schließen: Je aktiver nämlich die Schweißdrüsen, desto leitfähiger die Haut!<br />
Lidschlagmessung<br />
Endokrines (hormonelles) System<br />
Blut-, Urin- und Speichelproben zur Messung des Hormongehalts<br />
Immunsystem<br />
Blutproben (je entspannter, desto größer die Immunsystemaktivität)<br />
Sprechverhalten: Logoport<br />
27
6. Versuchsplanung I<br />
6.1. Grundlegendes zur Versuchsplanung<br />
Grundidee: Um den Kausalzusammenhang zwischen einer UV und einer AV zu<br />
prüfen, werden Situationen hergestellt, die sich nur durch die Ausprägung der UV<br />
unterscheiden. Verändert sich in diesem Fall die AV, ist die Veränderung auf die<br />
Variation der AV zurückzuführen.<br />
Der Idealfall zweier Situationen, die sich nur in der UV unterscheiden ist in der<br />
Praxis nicht herzustellen. Stattdessen setzt sich in jedem Experiment die<br />
Gesamtvarianz aus Primär-, Sekundär- und Fehlervarianz zusammen.<br />
1. Primärvarianz<br />
Systematische Variation der Messwerte<br />
Zurückzuführen auf die Variation der UV<br />
2. Sekundärvarianz<br />
Systematische Variation der Messwerte<br />
Zurückzuführen auf die systematische Variation identifizierbarer<br />
Störvariablen (= Kontrollvariablen)<br />
3. Fehlervarianz (Zufallsfehler)<br />
Unsystematische Variation der Messwerte<br />
Weder auf den Einfluss der Variation der UV, noch auf den Einfluss der<br />
Variation identifizierbarer Störvariablen zurückzuführen<br />
Die UV hat gewirkt, wenn die Primärvarianz größer als die Fehlervarianz ist<br />
(PV/FV > 1); ob die Wirkung auch signifikant, d.h. wahrscheinlich nicht zufällig,<br />
ist, kann erst ein entsprechendes Testverfahren zeigen.<br />
Dabei wird den erhobenen Daten eine Verteilung zugrunde gelegt, die unter der<br />
Annahme der Nullhypothese zu erwarten ist.<br />
Bei einer ungerichteten Alternativhypothese (zweiseitige Fragestellung) werden<br />
die Messwerte an beiden Enden dieser Verteilung erwartet.<br />
Bei einer gerichteten Alternativhypothese (einseitige Fragestellung) werden die<br />
Messwerte entweder am oberen oder am unteren Ende der Verteilung erwartet.<br />
Das Signifikanzniveau (z.B. 5%): Wenn das Ergebnis zu den 5%<br />
unwahrscheinlichsten Ergebnissen unter dem Modell der Nullhypothese gehört, ist<br />
das Ergebnis so unwahrscheinlich, dass die zugrunde liegende Nullhypothese<br />
abgelehnt werden kann; es ist signifikant!<br />
Fehler 1. Art (Alpha-Fehler): H0 ablehnen, obwohl H0 gilt<br />
wird im Allgemeinen auf Alpha = 1% oder Alpha = 5% festgelegt<br />
(Konvention)<br />
wenn die H0 nicht abgelehnt, sondern bewiesen werden soll, wird das<br />
Alphaniveau größer gewählt.<br />
Fehler 2. Art (Beta-Fehler): H0 annehmen, obwohl H0 nicht gilt<br />
28
6.2. Die Varianzanalyse<br />
Grundgedanke: In der Varianzanalyse geht es darum, aufzuklären, wie viel<br />
Variation der AV durch die UV erzeugt wird. Kurz: Es geht um die Ermittlung der<br />
Primärvarianz.<br />
Zu diesem Zweck wird die Gesamtvarianz in die Primär- und Fehlervarianz<br />
aufgeteilt und beides miteinander verglichen (PV/FV > 1?!)<br />
Wenn die Primärvarianz „größer“ ist als die Fehlervarianz, muss im weiteren<br />
Verlauf der Analyse (F-Werte) geprüft werden, ob sie auch „groß“ genug ist, um<br />
als signifikant gelten zu können!<br />
Ist das empirische Verhältnis PV/FV in der entsprechend der<br />
Nullhypothese erstellten Verteilung sehr unwahrscheinlich, kann die H0<br />
abgelehnt werden!<br />
Die Varianzanalyse wird angewandt, wenn die UV mehr als 2 Stufen hat<br />
(einfaktorielle Varianzanalyse) oder 2 oder mehr UVn vorliegen.<br />
Angenommen werden muss ferner Intervallniveau und Normalverteilung<br />
Bei mehr als 2 Stufen der UV oder bei mehreren UVn scheidet die Differenz<br />
zwischen den Versuchsgruppen als Maß für die Veränderungen der AV aus. In der<br />
Varianzanalyse dienen daher die Quadratsummen als Maß der<br />
Unterschiedlichkeit.<br />
QS Total: gibt an, wie unterschiedlich die Personen innerhalb der untersuchten<br />
Stichprobe sind.<br />
QSHW1 / QSHW2 / QSWW: geben an, wie unterschiedlich die Gruppen unter den<br />
Stufen der UV sind.<br />
QS Fehler: gibt an, wie unterschiedlich die Personen noch sind, wenn die durch<br />
die Stufen der UV entstandenen Unterschiede abgezogen wurden.<br />
Zweifaktoriell: QS Total = QSA + QSB + QSAB + QS Fehler<br />
Im zweifaktoriellen Fall, also bei zwei AVn, setzt sich der Wert Xijk, den eine<br />
Versuchsperson k liefert, aus folgenden Einflussgrößen zusammen:<br />
1. G… = Typischer Wert der untersuchten Stichprobe (Gesamtmittelwert; sprich:<br />
Summe aller Messwerte / n = Anzahl der Pbn)<br />
2. Ai.. = Einfluss der Stufe i der ersten UV (z.B. Einfluss des Geschlechts)<br />
3. B.j. = Einfluss der Stufe j der zweiten UV (z.B. Einfluss des Alkohols)<br />
4. ABij. = Einfluss der Kombination aus UV 1 und UV 2 (WW)<br />
5. Eijk = Typischer Wert der Person k („Fehler“)<br />
Einfaktoriell: X = G + A + E<br />
Zweifaktoriell: X = G + A + B + AB + E<br />
Dreifaktoriell: X = G + A + B+ C + AB + AC + BC + ABC + E<br />
Im zweifaktoriellen Beispiel gibt es 3 Arten von Primärvarianz, die jeweils durch<br />
die UV A (HW A), die UV B (HW B) und die Wechselwirkung der beiden Variablen<br />
(WW) erzeugt werden.<br />
Jede dieser drei Primärvarianzen muss jeweils mit der Fehlervarianz verglichen<br />
werden: Dies geschieht durch den Vergleich der mittleren Quadratsummen (MQ)<br />
1. MQA / MQ Fehler<br />
2. MQB / MQ Fehler F-Brüche<br />
3. MQAB / MQ Fehler<br />
29
In einer Varianztafel werden für die AVn, die Wechselwirkung und den<br />
Fehleranteil jeweils folgende Werte eingetragen:<br />
Quadratsumme (QS) => Summe der (Ausgangswerte – Stichprobenmittelwert)²<br />
Freiheitsgrade (df) => Anzahl der frei wählbaren Werte in einer Kontingenz-<br />
a = Anzahl der Stufen der UV A<br />
b = Anzahl der Stufen der UV B<br />
n = Stichprobenumfang / Anzahl<br />
der Probanden<br />
tafel<br />
1) HW A: df = a – 1<br />
2) HW B: df = b – 1<br />
3) WWAB: df = (a – 1) (b – 1)<br />
4) Fehler: df = n – (a b)<br />
5) Total: df = n – 1<br />
Mittlere Quadratsumme (MQ) => QS/df<br />
F-Bruch (F) => MQ Effekt/MQ Fehler<br />
F-Bruch < 1 = keine Wirkung<br />
F-Bruch > 1 = eventuelle Wirkung<br />
(abhängig von der Wahrscheinlichkeit,<br />
mit der das Ergebnis zur<br />
angenommenen Modellverteilung<br />
gehört.)<br />
6.3. Interpretation der Wirkungen<br />
UNPROBLEMATISCH<br />
HW1 und/oder HW2 signifikant – WW nicht signifikant<br />
Alle signifikanten Hauptwirkungen können interpretiert werden.<br />
Weder HW1 noch HW2 signifikant – WW signifikant<br />
Wechselwirkung darf interpretiert werden.<br />
PROBLEMATISCH<br />
HW1 und/oder HW2 signifikant – WW signifikant<br />
HW darf nur dann interpretiert werden, wenn WW die Richtung dieser nicht<br />
verändert.<br />
Daraus folgt, dass bei signifikanten Wechselwirkungen die Effekte graphisch oder<br />
tabellarisch veranschaulicht werden müssen, bevor sie interpretiert werden<br />
können.<br />
I, Ordinale Wechselwirkung (gleiches Vorzeichen der Steigung)<br />
Die Reaktion auf die UVn ist unterschiedlich stark,<br />
verläuft aber in die gleiche Richtung.<br />
Beide HW (sofern signifikant) dürfen<br />
interpretiert werden.<br />
WW darf interpretiert werden.<br />
30
II, Disordinale Wechselwirkung (verschieden Vorzeichen der Steigung)<br />
III, Semidisordinale (hybride) Wechselwirkung<br />
Überkreuzung (Haupteffekte verlaufen in<br />
unterschiedliche Richtungen)<br />
Nur WW darf interpretiert werden!<br />
Ein Haupteffekt geht in die gleiche Richtung, der<br />
andere nicht.<br />
Die HW, die über beide Stufen der anderen UV<br />
in die gleiche Richtung tendiert, darf<br />
interpretiert werden, die andere nicht.<br />
WW darf interpretiert werden.<br />
Fazit: Bei Signifikanz darf WW immer interpretiert werden, die HWn in Abhängigkeit von<br />
ihrer „Richtung“.<br />
31
7. Versuchsplanung II<br />
7.1. Das Experiment<br />
Definition: Ein Experiment ist ein systematischer Beobachtungsvorgang, bei dem<br />
eine oder mehrere unabhängige Variablen planmäßig manipuliert- und<br />
systematische und/oder unsystematische Störvariablen ausgeschaltet oder<br />
kontrolliert werden.<br />
1. Datengewinnung über systematische Beobachtung (einer oder mehrer<br />
abhängigen Variablen)<br />
2. Aktive und planmäßige Manipulation einer oder mehrerer unabhängiger<br />
Variablen<br />
3. Ausschaltung bzw. Kontrolle von Störvariablen, um auf diese Weise<br />
sicherzustellen, dass evtl. Veränderungen der AV auf die Variation der UV<br />
zurückzuführen sind.<br />
Experimentelle Kontrolltechniken<br />
Versuchsplanerische Kontrolltechniken<br />
Statistische Kontrolltechniken<br />
7.2. Das MAX-KON-MIN-Prinzip<br />
Das MAX-KON-MIN-Prinzip basiert auf 3 Maximen:<br />
1. MAXimiere die Primärvarianz<br />
Die Stufen der AV sind so zu wählen, dass zwischen den Versuchsgruppen,<br />
die den jeweiligen Stufen entsprechen, möglichst große Unterschiede in der<br />
AV entstehen.<br />
2. KONtrolliere die Sekundärvarianz<br />
Sorge dafür, dass bekannte Störvariablen in allen Gruppen gleich wirken<br />
(interne Validität) und bestimme deren Einfluss, d.h. die Varianz, die sie<br />
erzeugen (=Sekundärvarianz).<br />
3. MINimiere die Fehlervarianz<br />
Fehler auf Seiten der Versuchssituation (Konstanthalten der Bedingungen),<br />
der Datenerfassung (Beobachter: Reliabilität; Messinstrumente) und der<br />
Datenverarbeitung (z.B. doppelte Eingabe) sind zu vermeiden.<br />
7.2.1. Maximierung der Primärvarianz<br />
Kontrolltechniken zur MAXimierung der Primärvarianz:<br />
1. Wahl von mehreren experimentellen Bedingungen (> als 2 Stufen)<br />
Die Anzahl der Stufen hängt von der Art des Zusammenhangs ab, den man<br />
erwartet. Erwartet man einen monotonen Zusammenhang reichen prinzipiell 2<br />
Stufen der UV, erwartet man dagegen z.B. einen quadratischen oder<br />
kubischen Zusammenhang bedarf es mehrerer Stufen der UV!<br />
2. Wahl extremer experimenteller Bedingungen („Extremgruppenverfahren“)<br />
3. Wahl von mehrfaktoriellen Designs (> als 2 UVn)<br />
Ziel: Auf diese Weise sollen Effekte der UV möglichst „maximal“ zum Vorschein<br />
gebracht werden!<br />
32
7.2.2. Kontrolliere die Sekundärvarianz<br />
Experimentelle und statistische Techniken zur Kontrolle der Sekundärvarianz:<br />
Experimentelle Kontrolle:<br />
1. Abschirmung (Beschränkung möglicher Störeffekte wie z.B. Lärm)<br />
2. Eliminierung (Vollständige Abschirmung möglicher Störeffekte)<br />
3. Konstanthaltung (Mögliche Störeffekte werden unter den versch.<br />
Versuchsbedingungen konstant gehalten, so dass sie in allen<br />
Versuchsgruppen gleich stark wirken)<br />
Statistische Kontrolle (im Nachhinein):<br />
1. Allgemeine statistische Kontrolle:<br />
Nicht nur die Mittelwerte vergleichen, da Mittelwerte nicht unbedingt<br />
repräsentativ sein müssen (z.B. bei einer bimodalen Verteilung)!<br />
Statt dessen möglichst umfassende Analyse der Rohdaten und<br />
graphische Darstellung der Ergebnisse in Form sog. „Box-Plots“<br />
(enthalten nicht nur den Mittelwert, sondern auch die<br />
Standardabweichung, den Interquartilbereich, Extremwerte und<br />
Ausreißerwerte)<br />
2. Kovarianzanalytische Kontrolle:<br />
Kovarianzanalyse<br />
Ziel: Mittels dieser Techniken sollen „Nicht-UVn“, die als Störvariablen einen<br />
systematischen Einfluss auf das Ergebnis haben können, bestmöglich unter Kontrolle<br />
gehalten werden.<br />
7.2.3. Minimiere die Fehlervarianz<br />
Versuchsplanerische Kontrolltechniken zur Minimierung der Fehlervarianz<br />
1. Randomisierung (zufällige Zuweisung der Pbn zu den<br />
Versuchsbedingungen, z.B. mittels Münzwurf oder einer Zufallszahlentabelle)<br />
Man geht davon aus, dass Zufallsstichproben, die derselben Population<br />
entstammen, einander weitgehend gleichen. Ziel der Randomisierung ist<br />
dementsprechend die Erwartungswertgleichheit der verschiedenen<br />
Versuchsgruppen und die Kontrolle der interindividuellen Varianz.<br />
Empfehlenswert, wenn ein Vielzahl möglicher Störvariablen<br />
kontrolliert werden muss, über deren Effekt nichts Genaueres bekannt<br />
ist.<br />
Prinzip wirkt allerdings nur, wenn die betreffenden Stichproben<br />
hinreichend groß sind (> 10); bei weniger Pbn sind Blockversuchspläne<br />
oder Wiederholungsmessungen empfehlenswerter!<br />
2. Blockbildung (Parallelisierung der Versuchsgruppen)<br />
Umwandlung möglicher Störvariablen, die evtl. einen Einfluss auf die<br />
UV haben (d.h. mit ihr korrelieren), in eine UV. Ziel dieses Vorgehens ist<br />
die Kontrolle der interindividuellen Varianz.<br />
Solche Störvariablen, die durch Blockbildung zu sog. Kontrollvariablen<br />
„umfunktioniert“ werden, sind meistens Organismusvariablen wie z.B.<br />
Alter oder Intelligenz.<br />
Vorgehen:<br />
1) Es werden Pbn ausgewählt, die sich hinsichtlich des<br />
Parallelisierungsmerkmals (z.B. Intelligenz) gleichen.<br />
2) Aufstellen einer Rangreihe (bezogen auf die Ausprägung des<br />
Parallelisierungsmerkmals)<br />
33
3) Bildung sog. „Blöcke“, wobei immer die Pbn einem Block zugeordnet<br />
werden, die in der Rangreihe aufeinander folgen; sich also in dem<br />
betreffenden Merkmal am ähnlichsten sind.<br />
4) Die Pbn eines Blocks werden per Zufall jeweils einer anderen<br />
Bedingung zugeordnet („Statistische Zwillinge“).<br />
3. Wiederholungsmessung („Within-Subject-Design“)<br />
Es wird auf unabhängige Versuchsgruppen verzichtet. Stattdessen werden<br />
interindividuelle Unterschiede zwischen den Bedingungen durch<br />
Mehrfachmessung eliminiert.<br />
Alle Probanden werden unter sämtlichen Versuchsbedingungen<br />
untersucht<br />
Vorteile: ökonomisch; hohe Wahrscheinlichkeit, vorhandene Effekte zu<br />
entdecken;<br />
Nachteile: Auch einzelne Versuchspersonen bleiben nicht von Messung zu<br />
Messung konstant (Lerneffekte, Carry-over-Effekte,…); Replizierbarkeit<br />
und externe Validität sind fraglich;<br />
Ziel: Durch die o.g. Techniken sollen die Auswirkungen von unbekannten bzw.<br />
bekannten Störvariablen so klein wie möglich gehalten werden.<br />
7.3. Zusammenfassung: Problemkreise Experiment<br />
Problem der internen Validität: Ist es wirklich die UV, die die Veränderungen der<br />
AV verursacht?<br />
Eine Frage des Versuchsdesigns und der Versuchsplanung (Max-Kon-Min-<br />
Prinzip)<br />
Problem der Signifikanz: Sind der Veränderungen der AV bedeutsam, d.h. größer<br />
als „zufällige“ Schwankungen?<br />
Eine Frage der Versuchsplanung (Max-Kon-Min-Prnizip) und Prüfung<br />
(inferenzstatistische Verfahren = Hypothesentests)<br />
Problem der externen Validität: Für wen gelten die Ergebnisse des Versuchs;<br />
inwieweit lassen sich die Ergebnisse verallgemeinern und auf andere Personen,<br />
Situationen und Variablen übertragen?<br />
Eine Frage der Operationalisierung<br />
34
8. Versuchsplanung III<br />
8.1. Vorexperimentelle Versuchspläne<br />
One-Shot Case Study (Schrotschussdesign):<br />
Einmalige Nachhermessung an einer einzelnen Versuchsgruppe<br />
Vorteile: geringstmöglicher Aufwand<br />
Nachteile: fehlende experimentelle Kontrolle; keine<br />
Vergleichsmöglichkeiten der Untersuchungsbedingungen => nahezu keine<br />
interne Validität<br />
Einfache Vorher-Nachher-Messung:<br />
Vorhermessung (Ausgangswerte) => Treatment => Nachhermessung<br />
Vorteile: Interindividuelle Verhaltensvariabilitäten untersuchbar;<br />
zumindest Vergleich der AV vorher und nachher möglich<br />
Nachteile: Müdigkeits- oder Gewöhnungseffekte können für das Ergebnis<br />
verantwortlich sein; Testeffekte (Carry-over-Effekte) aufgrund<br />
zweimaliger Testung; offener Versuch: evtl. reaktive Verhaltensweisen von<br />
Pb und Vl.<br />
Statischer Gruppenvergleich<br />
Vergleich von zwei oder mehreren experimentell unterschiedlich behandelten<br />
Gruppen. Bei den Gruppen handelt es sich allerdings um statische Gruppen,<br />
sprich vorgefundene Gruppen, die nicht durch Randomisierung gebildet<br />
wurden.<br />
Vorteile: Vergleich der verschiedenen Bedingungen prinzipiell möglich;<br />
Einsatz empfohlen, wenn keine Randomisierung möglich ist.<br />
Nachteile: Mangelnde Konztrolle von Störvariablen: Gleichheit der<br />
Versuchsgruppen ist nicht gewährleistet, „Reifungseffekte“ werden nicht<br />
kontrolliert.<br />
Zusammenfassende Bewertung vorexperimenteller Designs:<br />
1. Einführung mindestens einer experimentellen Bedingung, ABER: Keine<br />
Kontrolle von Störvariablen.<br />
2. Daher sind die Ergebnisse solcher Versuche prinzipiell mehrdeutig und<br />
können außerdem stark verzerrt sein.<br />
Wenn überhaupt, dann eine äußerst geringe interne Validität!<br />
3. Wenn, dann nur für Pilotstudien (Erkundungsexperimente) geeignet mit dem<br />
Ziel der Hypothesengenerierung und Entwicklung eines adäquaten<br />
Versuchsdesigns.<br />
8.2. Experimentelle Versuchspläne<br />
Klassifikation von Versuchsplänen:<br />
Anzahl der untersuchten Versuchsgruppen<br />
Einstichprobenplan<br />
Zweistichprobenplan<br />
Mehrstichprobenplan<br />
Anzahl der unabhängigen Variablen (UV)<br />
Einfaktorieller Plan (eine UV)<br />
Zweifaktorieller Plan (zwei UVn)<br />
Mehrfaktorieller Plan (mehrere UVn)<br />
Anzahl der abhängigen Variablen (AV)<br />
Univariater Plan (eine AV)<br />
Multivariater Plan (zwei oder mehr AVn)<br />
35
Darstellung von Versuchsplänen in Abhängigkeit von der Anzahl der UVn und der<br />
Anzahl der Stufen dieser UVn:<br />
Zweifaktorieller Plan: 2 2-Design = 4 Zellen (2 UVn mit jew. 2 Stufen)<br />
3 3-Design = 6 Zellen (2 UVn mit jew. 3 Stufen)<br />
Mehrfaktorieller Plan: 2 2 2-Design = 8 Zellen (3 UVn mit jew. 2 Stufen)<br />
Zu den experimentellen Versuchsplänen gehören experimentelle Designs, quasiexperimentelle<br />
Designs und Ex-post-facto-Designs.<br />
8.2.1. Experimentelle Designs<br />
Merkmale experimenteller Designs:<br />
1. Es wird eine kausaltheoretische Vorhersage getroffen (Hypothese).<br />
2. Relevante Variablen werden systematisch manipuliert (Manipulation).<br />
3. Störvariablen, die die Interpretierbarkeit und Gültigkeit der Ergebnisse<br />
beeinträchtigen könnten, werden kontrolliert (Kontrolle).<br />
Folgende Versuchspläne sind denkbar:<br />
1. Versuchspläne mit Zufallsgruppenbildung (Randomisierung)<br />
Zufällige Zuweisung der Pbn zu den Versuchsgruppen, danach zufällige<br />
Zuweisung der Versuchsgruppen zu den Bedingungen<br />
Prinzipielle Vergleichbarkeit (Erwartungswertgleichheit) der<br />
Ausgangsbedingungen und Ausgangsmesswerte<br />
1.1. Zufallsgruppenplan ohne Vortest<br />
Einfach und ökonomisch<br />
ABER: keine Kontrolle von interindividuellen Messwertdifferenzen<br />
1.2. Zufallsgruppenplan mit Vortest<br />
Zusätzliche Information durch Vorher-Messung (vor dem Treatment);<br />
dadurch Kontrolle von interindividuellen Messwertdifferenzen.<br />
* Bei unterschiedlichen Ausgangsmesswerten kann die Differenz zw.<br />
Vorher- und Nachhermessung interpretiert werden!<br />
ABER: Anfällig für Testeffekte (Vorher-Messung kann die Wirkung<br />
des Treatments beeinflussen)<br />
1.3. Zufallsgruppenplan mit teilweisem Vortest (Solomon-Dreigruppen-Plan)<br />
Insgesamt 3 Versuchsgruppen; zwei Versuchsgruppen mit Vorher-<br />
Nachher-Messung; dritte Versuchsgruppe nur mit Nachher-Messung<br />
Vorteil gegenüber Zufallsgruppenplan mit Vortest: Die dritte<br />
Versuchsgruppe, mit der kein Vortest gemacht wird, dient als eine<br />
Art Kontrollgruppe. Anhand von ihr können in den anderen beiden<br />
Gruppen die Effekte des Vortests auf die Wirkung des Treatments<br />
abgeschätzt werden.<br />
1.4. Zwei- und Mehrfaktorielle Zufallsgruppenpläne<br />
Man braucht so viele Zufallsgruppen wie es Bedingungen gibt; bei<br />
einem 2 2 2-Design braucht man dementsprechend 8 Gruppen<br />
(=Zellen in der Kontingenztafel)<br />
Mehrstichprobenpläne bzw. mehrfaktorielle Versuchspläne haben<br />
Vorteile: höhere interne Validität (breitere Analyse möglich, MAX-<br />
Prinzip); höhere externe Validität (Aussagen über Wechselwirkungen<br />
möglich; daher: realitätsnäher, differenziertere Analyse)<br />
Probleme: Stichproben müssen > 10 sein; mit der Anzahl der<br />
Faktoren steigt die Anzahl der Versuchsgruppen rapide an;<br />
Interaktionen bei 3- und mehrfaktoriellen Plänen sind kaum noch<br />
interpretierbar!<br />
36
2. Versuchspläne mit Wiederholungsmessung („Within-Subject-Design)<br />
Untersuchung einer (abhängigen) Versuchsgruppe zu verschiedenen<br />
Messzeitpunkten (Anzahl der Messungen bzw. Bedingungen = Anzahl der<br />
„Stichproben“)<br />
Vorteile:<br />
Ökonomisch, da nur geringe Probandenzahl vonnöten ist<br />
Geringere interindividuelle Varianz als bei „Between-Subject-<br />
Designs“ (Ergo: Wirksamkeit der experimentellen Effekte leichter<br />
nachweisbar)<br />
Nachteile:<br />
Anfällig für Test- bzw. Carry-over-Effekte (Lern-, Übungs-,<br />
Gewöhnungs-, Ermüdungseffekte usw.)<br />
* Lösung: Wahl eines hinreichend großen Zeitabstandes zwischen<br />
den einzelnen Messungen; Ausbalancierung der Reihenfolge der<br />
Versuchsbedingungen (bei 3 Bedingungen sind 6 Reihenfolgen<br />
möglich: 3 2 1 = 6)<br />
3. Blockversuchspläne (Parallelisierung)<br />
Siehe oben: Bildung einer Rangreihe hinsichtlich eines<br />
Parallelisierungsmerkmals => Zuordnung ähnlicher, in der Rangreihe<br />
aufeinander folgender Pbn zu Blöcken => Bildung „experimenteller<br />
Zwillinge“ bzw. „- Drillinge“ (Anzahl der parallelisierten Versuchsgruppen<br />
= Anzahl der „Stichproben“)<br />
Kombination aus Mehrfachmessungs- und Zufallsgruppendesign:<br />
Mehrfachmessung: Blockbildung basiert auf einem Vortest<br />
Zufallsgruppen: Zuordnung der parallelisierten Pbn zu den versch.<br />
Bedingungen erfolgt per Zufall, basiert also auf Randomisierung.<br />
Vorteil: Die Nachteile des Mehrfachmessungs- und Zufallgruppendesigns<br />
werden kompensiert:<br />
Schon bei kleinen Versuchsgruppen kann prinzipiell von<br />
Erwartungsgleichheit ausgegangen werden.<br />
Test- bzw. Übertragungseffekte werden ausgeschlossen.<br />
Nachteile:<br />
Aufwändig (wenn z.B. ein Pb ausfällt, müssen völlig neue Blöcke<br />
gebildet werden)<br />
Vortestvariablen, die hoch mit der AV korrelieren, müssen bekannt<br />
sein<br />
4. Mischversuchspläne<br />
Zwei- oder mehrfaktorielle Designs, bei denen die einzelnen Faktoren<br />
verschiedenen Designtypen entsprechen:<br />
Zufallsgruppenfaktor („R“ = Randomisierung)<br />
Faktor mit wiederholter Messung („W“ = Wiederholung)<br />
Blockfaktor („O“ = Block)<br />
Beispiel: Untersucht werden soll die Schreibleistung in einem Büro, in<br />
Abhängigkeit vom Alter der Versuchsperson, dem Bürokomfort und in<br />
Abhängigkeit davon, ob die erbrachte Leistung belohnt wird oder nicht.<br />
Belohnung = Zufallsgruppenfaktor (2 Stufen)<br />
Bürokomfort = Wiederholungsfaktor (3 Stufen) RWO- 2 3 4<br />
Alter = Blockfaktor (4 Stufen)<br />
Vorteil: Hohe Flexibilität; Wahl des jew. Designs kann genau auf die Art<br />
der Fragestellung abgestimmt werden; v.a. wenn der Zeitvverlauf<br />
interessiert, empfehlenswert!<br />
37
8.2.2. Quasi-experimentelle Designs<br />
Merkmale quasi-experimenteller Designs:<br />
1. systematische Manipulation relevanter Variablen<br />
2. KEINE Kontrolle von Störvariablen<br />
Beispiele für quasi-experimentelle Designs:<br />
1. Zeitreihenversuchspläne mit einer Gruppe oder mit statischen Gruppen<br />
1.1. Eingruppen-Zeitreihendesign<br />
Mehrere Vorher- und Nachher-Messungen an einer einzelnen Gruppe<br />
(z.B. ABAB-Plan)<br />
1.2. Zeitreihendesign mit mehreren statischen Gruppen<br />
Mehrere Vorher- und Nachher-Messungen an mehreren Gruppen, die<br />
allerdings nicht durch Randomisierung zustande gekommen sind,<br />
sondern vom Untersucher vorgefunden wurden.<br />
s<br />
Die Unterschiede zu experimentellen Versuchsplänen mit<br />
Wiederholungsmessung:<br />
Keine bzw. unvollständige Ausbalancierung der Reihenfolge<br />
* Im experimentellen Design bedarf es bei mehreren Bedingungen<br />
der vollständigen Permutation dieser Bedingungen: d.h. alle<br />
möglichen Behandlungskombinationen müssen mittels<br />
verschiedener Versuchsgruppen untersucht werden.<br />
Keine Randomisierung zur Kontrolle evtl. Störvariablen<br />
2. Einzelfallversuchspläne<br />
Siehe oben (Forschungsformen): Einzellfallstudien<br />
Nachteile: fehlende inferenzstatistische Verfahren; Problem der<br />
Verallgemeinerbarkeit (externe Validität)<br />
Vor- und Nachteile quasiexperimenteller Designs:<br />
Vorteile: Zeitreihenversuchspläne (ökonomisch, ermöglichen die Untersuchung<br />
von Prozessen); Einzelfallversuchspläne (detaillierte Beschreibung seltener<br />
Phänomene; Brückenschlag zwischen Allgemeiner und Differentieller<br />
Psychologie)<br />
Nachteile: Zeitreihenversuchspläne (Hohe Anfälligkeit für Zeiteffekte und<br />
andere Störvariablen); Einzelfallversuchspläne (s.o.)<br />
8.2.3. Ex-post-facto-Designs<br />
Ableitung von Kausalzusammenhängen aus nicht manipulierten bzw. nichtmanipulierbaren<br />
Variablen (Feldforschung)<br />
Problem: Da die UV nicht aktiv manipuliert wird und dadurch mögl. Störvariablen<br />
nur bedingt kontrolliert werden können, sind die Ergebnisse streng genommen nur<br />
„korrelativ“ zu interpretieren.<br />
Empfiehlt sich bei Fragestellungen, die aus ethischen oder praktischen Gründen nicht<br />
hinreichend operationalisiert werden können.<br />
Exkurs: Forschungsethik<br />
1. Wäge Kosten und Nutzen eines Experiments ab!<br />
2. Übernehme persönlicher Verantwortung!<br />
3. Informiere die Pbn und schließe eine Übereinkunft mit ihnen!<br />
4. Sei offen und ehrlich!<br />
5. Versuchsteilnahme ist freiwillig!<br />
6. Nutze Vpn nicht aus!<br />
38
7. Schütze die VPn vor Schäden (Sicherheit der Pbn)!<br />
8. Aufklärung der Pbn!<br />
9. Schließe negative Folgen für die Pbn aus!<br />
10. Bewahre Vertraulichkeit!<br />
39