15.01.2013 Aufrufe

Skript zur Vorlesung „Versuchsplanung“ (Prof. Dr. Christoph Stahl ...

Skript zur Vorlesung „Versuchsplanung“ (Prof. Dr. Christoph Stahl ...

Skript zur Vorlesung „Versuchsplanung“ (Prof. Dr. Christoph Stahl ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Weder die Autorin noch der Fachschaftsrat Psychologie übernimmt<br />

Irgendwelche Verantwortung für dieses <strong>Skript</strong>.<br />

Das <strong>Skript</strong> soll nicht die Lektüre der Prüfungsliteratur ersetzen.<br />

Verbesserungen und Korrekturen bitte an fs-psycho@uni-koeln.de mailen.<br />

Die Fachschaft dankt der Autorin im Namen aller Studierenden!<br />

Version 1.0 (2011)<br />

<strong>Skript</strong> <strong>zur</strong> <strong>Vorlesung</strong> <strong>„Versuchsplanung“</strong><br />

(<strong>Prof</strong>. <strong>Dr</strong>. <strong>Christoph</strong> <strong>Stahl</strong>)<br />

Wintersemester 2010/2011<br />

verfasst von<br />

Kim K.


1. <strong>Vorlesung</strong>: Einführung<br />

2 Bereiche wissenschaftlicher Arbeit<br />

Entdeckungszusammenhang (context of discovery)<br />

‐ Entdeckung & Beschreibung von Phänomenen, Generierung von Hypothesen & Theorien<br />

‐ meist offene Fragestellungen: „Welche Faktoren beeinflussen X?“ oder „Was geschieht mit X unter der<br />

Bedingung Y?“<br />

‐ hypothesengenerierende oder explorative Untersuchungen<br />

Begründungszusammenhang (context of justification)<br />

‐ Prüfung der Hypothesen auf logische Konsistenz, empirischen Gehalt,<br />

Kompatibilität mit bestehendem Wissen, empirische Adäquatheit<br />

‐ Typischerweise geschlossene Fragestellungen: „Passiert Y, wenn X?“, „Trifft<br />

Hypothese XY zu?“, „Hat die UV den erwarteten Effekt auf die AV?<br />

‐ hypothesenprüfende Untersuchungen<br />

Verschiedene Typen von Hypothesen<br />

‐ Kausalhypothesen = Hypothesen über Ursache‐Wirkungs‐Beziehungen � experimenteller Versuchsplan<br />

‐ Bsp.: Computerspielen erhöht die Gewaltbereitschaft von Jugendlichen<br />

‐ Korrelationshypothesen = Hypothesen über ungerichtete Zusammenhänge zwischen Merkmalen �<br />

korrelativer Versuchsplan<br />

‐ Bsp.: Die Häufigkeit des Computerspielens bei Jugendlichen steht in einem positiven Zusammenhang mit<br />

ihrer Gewaltbereitschaft<br />

‐ Deskriptive/beschreibende Hypothesen = Forschungsfragen bzgl. der Ausprägung einzelner Variablen �<br />

populationsbeschreibender Versuchsplan<br />

‐ Bsp.: Über 50% aller Jugendlichen in Deutschland spielen täglich Computerspiele<br />

Ziel der Versuchsplanung: eine empirische Untersuchung so planen, dass eine Hypothese valide & ökonomisch<br />

überprüft werden kann<br />

‐ Validität: Gültigkeit oder allgemeine Güte der Hypothesenprüfung<br />

‐ Ökonomie: mit möglichst geringem Aufwand<br />

‐ Leitfrage: Wie muss ich eine Untersuchung gestalten, damit sie mir neue Erkenntnisse über die Gültigkeit<br />

meiner Hypothese liefern kann?<br />

Das Experiment: Kernelemente<br />

1. Kausalhypothese<br />

‐ Vermutung über den Einfluss einer Variable (UV) auf eine andere Variable (AV)<br />

‐ z.B. „Ego‐Shooter verursachen erhöhte Gewaltbereitschaft“<br />

2. Manipulation einer UV<br />

‐ 2 (oder mehr) Bedingungen herstellen, die sich nur bzgl. einer einzigen Variable (UV) unterscheiden<br />

‐ z.B. Ego‐Shooter spielen vs. Flugsimulation spielen<br />

3. Randomisierung<br />

‐ jede Person (Untersuchungseinheit) wird per Zufall einer der Bedingungen zugewiesen<br />

‐ z.B. per Münzwurf entscheiden, was eine Person spielen muss<br />

4. Beobachtung (Messung) einer AV<br />

‐ die Ausprägung der interessierenden AV wird gemessen<br />

‐ z.B. das Aggressivitätsniveau der Personen messen<br />

2. & 3. <strong>Vorlesung</strong>: Grundlagen<br />

Psychologie als empirische Wissenschaft<br />

‐ Sätze: Aussagen über Sachverhalte<br />

‐ Aufgabe von Wissenschaft: Aufstellen & Prüfen von Sätzen<br />

‐ Analytische Sätze = Über Wahrheit/Falschheit kann mit formal‐logischen Argumenten entschieden werden;<br />

P � (Q v ¬Q): immer wahr (Tautologie)<br />

‐ Synthetische Sätze = Über Wahrheit/Falschheit kann nur mit empirischen Argumenten entschieden werden


Psychologie<br />

‐ stellt (überwiegend) synthetische Sätze auf<br />

‐ Zur Stützung dieser Sätze werden empirische Argumente verwendet<br />

‐ Grundlage der Psychologie ist daher die kontrollierte, systematische Beobachtung empirischer Sachverhalte<br />

Methodologien<br />

‐ formulieren Richtlinien, wie systematische & kontrollierte Beobachtungen eine möglichst fundierte Bewertung<br />

synthetischer Sätze erlauben<br />

Theorie<br />

‐ deduktives System von Hypothesen: mehrere allgemeine Hypothesen durch grundlegendere Annahmen<br />

erklären<br />

‐ möglichst viele empirische Befunde (bestätigte allgemeine Hypothesen) aus möglichst wenigen<br />

Grundannahmen (Axiome, Postulate) abzuleiten<br />

‐ Grundannahmen: hoch komprimierte Zusammenfassung des Wissens auf einem bestimmten Gebiet<br />

‐ Ermöglicht neuartige Vorhersagen über bislang nicht untersuchte Sachverhalte (um die Theorie kritischen<br />

Tests auszusetzen)<br />

Hypothese<br />

‐ Erklärung einzelner beobachteter Sachverhalte<br />

‐ Synthetischer Satz & Konditionalsatz (Wenn‐dann‐ oder Je‐desto‐Satz)<br />

‐ kann sich als falsch oder als korrekt erweisen; Allgemeingültig (All‐Satz)<br />

‐ überprüfbar/falsifizierbar: Bezug auf empirisch untersuchbare Sachverhalte<br />

Carnap: logischer Empirismus<br />

‐ Beobachtung � Hypothese � Theorie<br />

‐ „Objektive Beobachtungen“ werden in Protokoll‐ oder Basissätzen Bi festgehalten<br />

‐ Aus der Konjunktion mehrerer Basissätze wird versucht, logisch eine Hypothese (allgemeingültige<br />

Gesetzesaussage) abzuleiten: (B1 ˄ B2 ˄ B3 ˄ …. ˄ Bn) � H<br />

‐ Je häufiger sich die Basissätze empirisch bestätigen lassen, desto fester wird das Vertrauen in die Hypothese<br />

‐ Alle theoretischen Begriffe müssen also auf Beobachtungsbegriffe <strong>zur</strong>ückführbar sein<br />

‐ Experimente haben hier die Funktion, unter kontrollierten Bedingungen Basissätze bereitzustellen<br />

‐ Das Vorgehen ist induktiv: Man schließt von speziellen Beobachtungen auf ein allgemeines Gesetz<br />

Kritik am logischen Empirismus<br />

‐ keine „objektive“, theoriefreie Beobachtung<br />

‐ Beobachtungen – erst recht Sätze über Beobachtungen & Versuchsergebnisse – sind immer Interpretationen<br />

der beobachteten Tatsachen, Interpretationen im Lichte von Theorien<br />

‐ Daten werden nicht ‚gefunden’, sondern ‚kreiert’; Forscher: gestaltende Rolle (Erdfelder)<br />

‐ Auswahl der beobachteten Sachverhalte aus allen möglichen Sachverhalte beruht immer auf der Basis<br />

(impliziter oder expliziter) theoretischer Annahmen<br />

‐ Theoretische Begriffe sind mehr als nur Zusammenfassungen von Beobachtungen; sollten Erklärungswert<br />

besitzen<br />

‐ Das Induktionsprinzip ist unhaltbar<br />

‐ es gibt keine logisch zu rechtfertigenden gehaltserweiternden Schlüsse<br />

‐ Universelle Hypothesen (über offene Populationen) nie endgültig verifizierbar, sondern nur falsifizierbar<br />

‐ Mit der Anzahl bestätigender Instanzen/Basissätze wächst nicht die WS des Zutreffens einer Hypothese<br />

‐ Bsp.: Hypothese H: „Alle Schwäne (S) sind weiß (W)“ (S�W); nach induktiver Logik bestätigt jeder Sachverhalt<br />

(S˄W) die Hypothese H; je häufiger (S˄W) au�ri�, desto wahrscheinlicher sollte H demnach wahr sein<br />

‐ Auch die Existenz sehr vieler weißer Schwäne schließt nicht die Möglichkeit andersfarbiger Schwäne aus<br />

‐ Hypothese H ist äquivalent <strong>zur</strong> Hypothese H’: „Wenn nicht weiß, dann kein Schwan“ (S�W) ↔ (¬W � ¬S)<br />

‐ � alle nicht‐weißen nicht‐Schwäne als Bestätigung für die Hypothese, dass alle Schwäne weiß sind<br />

Popper: Kritischer Rationalismus<br />

‐ Theorien können nie endgültig „bewiesen“ werden<br />

‐ Kritisch: Die Verifikation einer Theorie ist logisch nicht möglich, es bleiben stets Zweifel an ihrer Gültigkeit


‐ Rationalismus: Vorrang der Ratio. Die Theorie (nicht die Beobachtung) kommt zuerst<br />

‐ Wissenschaft geht deduktiv vor: Aus einer Theorie werden Vorhersagen abgeleitet, die dann an empirischen<br />

Beobachtungen überprüft werden<br />

‐ Eine Theorie ist nie wahr oder falsch; sie gilt als mehr oder weniger gut bewährt<br />

‐ Deduktivistischer Ansatz: Das Falsifikationsprinzip<br />

‐ Zunächst werden aus der Theorie/Hypothese Vorhersagen bzgl. beobachtbarer Sachverhalte abgeleitet; diese<br />

werden dann empirisch überprüft<br />

‐ Dies ermöglicht die Falsifikation der Hypothese via ‚Modus tollens’<br />

‐ H: „Die Hypothese gilt“<br />

‐ B: „ein beobachtbarer Sachverhalt X wird beobachtet“<br />

‐ Es gelte: H � B (B ist aus H logisch<br />

ableitbar)<br />

‐ Dann: ((H � B) ˄ ¬ B) � ¬ H<br />

Theorie‐Empirie‐Überbrückungsproblem<br />

‐ „Theoriewelt“: Theoretisch‐inhaltliche Hypothese (TIH)<br />

‐ „Beobachtungswelt“: Empirisch‐inhaltliche Hypothese (EIH)<br />

‐ Psychologische Variablen sind nicht direkt beobachtbar<br />

‐ Sie müssen „operationalisiert“ werden<br />

‐ Dazu sind Zusatzannahmen oder Hilfshypothesen (HH) notwendig<br />

Deduktivistische Theorie hypothesentestender Untersuchungen<br />

‐ Grundlage: Kritischer Rationalismus<br />

‐ Frage: Welche beobachtbaren Sachverhalte können aus r vorliegender Theorie/Hypothese abgeleitet werden<br />

‐ anhand von empirischen Untersuchungen wird dann entschieden, ob Theorie/Hypothese sich bewährt oder<br />

nicht<br />

‐ Vorgehen<br />

‐ Vorhersage: Was kann aus der Hypothese/Theorie bzgl. empirischer Daten gefolgert werden?<br />

‐ Untersuchung: liegen die vorhergesagten Daten vor?<br />

‐ Entscheidung: bewährt sich die Hypothese/Theorie?<br />

‐ Die aus der Hypothese abgeleitete Vorhersage muss vor der Untersuchung aufgestellt werden!<br />

‐ Funktion eines Experiments: möglichst strenge &faire Prüfung einer Hypothese, d.h. der ernstgemeinte<br />

Versuch, sie zu falsifizieren während man ihr gleichzeitig eine faire Chance gibt, sich zu bewähren<br />

‐ Ist Hypothese mehrfach experimentell überprüft ohne falsifiziert zu werden, so hat sie sich vorläufig bewährt<br />

‐ Eine Hypothese gilt niemals als endgültig wahr; jederzeit kann sie durch Beobachtungen falsifiziert werden<br />

‐ Wenn eine Hypothese bestimmte Phänomene vorhersagt & diese (wiederholt) nicht eintreten, entscheidet<br />

man sich gegen die Hypothese<br />

‐ Voraussetzungen<br />

‐ psychologische Hypothesen (PH) werden (meist) über statistische Hypothesen (SH) geprüft<br />

‐ SH, Untersuchung (U) & Entscheidungsstrategie (ES) sind untrennbar miteinander verknüpft: (SH, U, ES)<br />

‐ Regeln<br />

‐ R1: Wähle (SH, U, ES) möglichst streng und fair<br />

‐ R2: Wähle SH möglichst so, dass Äquivalenzbeziehung zwischen PH & SH besteht (zumindest Implikation: PH �<br />

SH)<br />

‐ R3: Wähle U & ES so, dass die statistischen Irrtumswahrscheinlichkeiten α & β kontrollierbar & möglichst klein<br />

sind<br />

Dogmatischer vs. methodologischer Falsifikationismus<br />

‐ Entscheidung über eine Hypothese (PH)<br />

‐ Dogmatischer Falsifikationismus<br />

‐ streng falsifikationistisches Vorgehen; verlangt, eine Theorie zu verwerfen, wenn die in der empirischen<br />

Untersuchung beobachteten Daten nicht den vorhergesagten Daten entsprechen<br />

‐ empirische Daten als unfehlbare Basis<br />

‐ Falsifikation bedeutet automatisch den Beweis der Falschheit einer Theorie


‐ Methodologischer Falsifikationismus<br />

‐ auch eine empirisch nicht bewährte Theorie kann u.U. wahr sein, z.B. bei fehlerbehafteten empirischen<br />

Untersuchungen<br />

‐ Angesichts empirischer Basis und Validität der Untersuchung ist hier eine Entscheidung für bzw. gegen die<br />

Theorie zu fällen<br />

Deduktivistische Theorie hypothesentestender Untersuchungen (Fortsetzung)<br />

‐ R1: Wähle (SH, U, ES) möglichst streng & fair<br />

‐ fB: fälschliches Bewährungsurteil<br />

‐ Minimieren des Risikos einer fälschlichen Bewährung: möglichst strenge<br />

Untersuchung<br />

‐ Strenge = 1 ‐ fB<br />

‐ fN: fälschliches Nichtbewährungsurteil<br />

‐ Minimieren des Risikos einer fälschlichen Nichtbewährung: möglichst faire Untersuchung<br />

‐ Fairness = 1 – fN<br />

‐ Ziel der Versuchsplanung: fB & fN möglichst klein zu halten!<br />

‐ R2: Wähle SH möglichst so, dass Äquivalenzbeziehung zwischen PH & SH besteht (mind. Implikation: PH � SH)<br />

‐ Theorie‐Empirie‐Überbrückung/Operationalisierung:<br />

‐ PH sind inhaltlich formuliert, getestet werden aber SH<br />

‐ Damit dieses Vorgehen berechtigt ist, muss es eine logische Verknüpfung<br />

zwischen PH & SH geben, die es erlaubt, aus der Wahrheit oder Falschheit der<br />

SH Schlüsse auf Wahrheit bzw. Falschheit der PH zu ziehen<br />

‐ SH ist logisch aus der PH abzuleiten, so dass sich eine Implikationsbeziehung ergibt: PH � SH<br />

‐ Modus Tollens: Wenn ¬SH, dann gilt ¬PH<br />

‐ Äquivalenzbeziehung meist nicht möglich; Implikation reicht aus!<br />

‐ g: fälschliche Bewährung<br />

‐ h: fälschliche Nichtbewährung<br />

‐ Optimal: g = h = 0<br />

‐ Nur bei Äquivalenz!<br />

‐ Implikation: h = 0, g = ?<br />

‐ � Wenn SH nicht zutrifft, muss PH falsch sein!<br />

‐ � Wenn SH zutrifft, kann PH wahr oder falsch sein<br />

‐ Zusatzannahmen (Operationalisierung):<br />

‐ Zur Herleitung von SH aus PH werden Zusatzannahmen benötigt<br />

‐ Erweiterung notwendig: Ursprünglich: PH � SH; Wenn ¬SH, dann gilt ¬PH.<br />

‐ Erweitert: (PH ˄ A1 ˄ A2 ˄ … ˄ An) � SH; wenn ¬SH, dann gilt: ¬PH ν ¬A1 ν ¬A2 ν … ν ¬An<br />

‐ Aus Entscheidung gegen SH folgt nicht zwingend Entscheidung gegen PH<br />

‐ Nur bei gut bewährten Hilfshypothesen/Zusatzannahmen sollte man sich gegen PH entscheiden<br />

‐ R3: Wähle U & ES so, dass die statistischen Irrtums‐WS α & β kontrollierbar & möglichst klein sind<br />

‐ Annahme: SH = H1<br />

‐ α: WS (Kennwert überschreitet Kriterium, obwohl H0 gilt)<br />

‐ β: WS (Kennwert unterschreitet Kriterium, obwohl H1 gilt)<br />

‐ Aus signifikantem Ergebnis (Kriteriumsüberschreitung) folgt nicht zwingend die Gültigkeit der SH!<br />

‐ Aus nicht‐signifikantem Ergebnis folgt nicht zwingend die Ungültigkeit der SH!


Implikationen für Versuchsplanung<br />

‐ Aufstellen der Hypothese vor der Untersuchung!<br />

‐ Möglichst umfassende explizite Formulierung der Zusatzannahmen<br />

‐ Auswahl bewährter Operationalisierungen (erfordert umfassende Kenntnis des<br />

Untersuchungsgegenstands)<br />

‐ Implikationsbeziehung PH (mit Zusatzannahmen) � SH<br />

‐ Gütekriterien experimenteller Untersuchungen<br />

‐ Techniken: Kontrolle von Störvariablen<br />

‐ Berücksichtigung von α‐ & β‐Fehler<br />

‐ Teststärkeanalyse, Stichprobenumfangsplanung<br />

Kausalität & Korrelation<br />

- Sachverhalt: Zusammenhang zwischen H & E<br />

- H wird häufig zusammen mit E beobachtet<br />

- Mögliche Kausalbeziehungen:<br />

- (1) H verursacht E<br />

- (2) E verursacht H<br />

- (3) Eine 3. Variable S (bzw. eine Menge von zusammenhängenden Variablen X1, …, Xn) verursacht H & E<br />

- � Korrelation impliziert nicht Kausalität<br />

Kausalität & Intervention<br />

- Interventionistische Auffassung von Kausalität<br />

- "to think of a relation between events as causal is to think of it under the aspect of (possible) action. [...] that p<br />

is the cause of q [...] means that I could bring about q if I could do (so that) p. (von Wright, 1971)<br />

- The paradigmatic assertion in causal relationships is that manipulation of a cause will result in the<br />

manipulation of an effect. [...] Causation implies that by varying one factor I can make another factor vary.<br />

(Cook & Campbell, ’79)<br />

- Methodologische Implikation: aktive Manipulation der interessierenden Variablen<br />

Kausalität: X verursacht Y<br />

- Definition: Ursachen sind sog. INUS‐Bedingungen:<br />

- I = Insufficient, but<br />

- N = Necessaryparts of an<br />

- U = Unnecessary, but<br />

- S = Sufficient condition<br />

- Teil einer Menge von Bedingungen; für sich genommen nicht hinreichend (insufficient), als Bestandteil der<br />

Menge aber notwendig (necessary) für das Auftreten des zu erklärenden Sachverhalts. Die Bedingungsmenge<br />

insgesamt ist nicht notwendig (unnecessary), aber hinreichend (sufficient) für das Auftreten des zu<br />

erklärenden Sachverhalts.<br />

- Bsp.: Waldbrand verursacht durch Streichholz.<br />

- Insufficient: Es braucht auch (z.B.) Sauerstoff<br />

- Necessary: Eine Flammenquelle wird benötigt<br />

- Unnecessary: Feuerzeug geht auch<br />

- Sufficient: Sauerstoff, Streichholz, Trockenheit zusammen hinreichend<br />

- Konzeptuelle Implikationen:<br />

- Ursachen sind nur als Teil einer Menge von Randbedingungen (ermöglichenden Bedingungen) wirksam<br />

- Theorien können sich auf unterschiedliche Teile der Bedingungsmenge beziehen<br />

- Methodologische Implikationen:<br />

- Idealmodell für die Überprüfung von Kausalhypothesen: Experiment<br />

- � Manipulation der interessierenden Variablen<br />

- � Konstanthaltung aller anderen Faktoren<br />

Kausalität & Konfundierung<br />

- Methode: Experiment<br />

- Vergleich von Bedingungskonstellationen, die sich nur im Hinblick auf das Vorhandensein der<br />

vermuteten Ursache (UV) unterscheiden � Aktive Manipulation der UV


- Konstanthaltung anderer Faktoren (Kontrolle von Störvariablen)<br />

- beobachten, ob der zu erklärende Sachverhalt (AV) eintritt oder nicht<br />

- Kausale Interpretation<br />

- Ergebnis: (k)ein Effekt in der AV (Unterschied zwischen 2 oder mehr Bedingungen)<br />

- Kausale Interpretation: UV ist (k)eine Ursache für den Effekt auf die AV<br />

- Konfundierung<br />

- gemeinsame Variation der UV (vermutete Ursache) mit (mindestens) einer anderen Variable (Störvariable, SV)<br />

- SV kann als Ursache für den beobachteten Sachverhalt nicht ausgeschlossen werden � UV kann nicht als<br />

Ursache interpretiert werden!<br />

Zusammenfassung<br />

- Empirische Prüfung psychologischer Hypothesen<br />

- deduktivistischer Ansatz (Falsifikationsprinzip)<br />

- dogmatischer vs. methodologischer Falsifikationismus<br />

- Theorie‐Empirie‐Überbrückungsproblem<br />

- PH (TIH) kann nur indirekt (mithilfe von HHn) geprüft werden<br />

- TIH & HHn bilden die EIH<br />

- Deduktivistische Theorie hypothesenprüfender Untersuchungen<br />

- Strenge & Fairness maximieren: …<br />

- HHn sorgfältig auswählen & explizit benennen<br />

- Implikationsbeziehung (PH & HHn) � SH sicherstellen<br />

- statistische Fehlerniveaus kontrollieren und möglichst gering halten<br />

- Prüfung von Kausalhypothesen<br />

- Kausalität & aktive Manipulation<br />

- INUS: Ursache als Teil einer Menge von Randbedingungen<br />

- � Aktive Manipulation der interessierenden Bedingung & Konstanthaltung aller anderen Randbedingungen<br />

4. & 5. <strong>Vorlesung</strong>: Gütekriterien<br />

Gütekriterien empirischer Untersuchungen<br />

‐ Deduktivistische Theorie hypothesentestender Untersuchungen: Strenge; Fairness<br />

‐ Theorie der internen & externen Validität: Interne & Externe Validität<br />

‐ Weitere Gütekriterien: Konstruktvalidität; Statistische Validität (Validität des statistischen Schlusses)<br />

Validität<br />

‐ Gültigkeit, Wahrheit, Angemessenheit von Schlussfolgerungen oder Konstrukten<br />

‐ Ist ein Verfahren geeignet, um die jeweilige Hypothese/Fragestellung zu untersuchen?<br />

‐ Ist eine bestimmte Schlussfolgerung aus einem Untersuchungsergebnis zulässig/gültig?<br />

‐ Misst ein Verfahren, was es vorgibt zu messen?<br />

‐ Validität ist graduell, nicht absolut zu verstehen<br />

‐ Interne Validität: Gibt der beobachtete Zusammenhang zwischen UV & AV den kausalen Zusammenhang A<br />

� B wieder?<br />

‐ Externe Validität: Ist Generalisierbarkeit gegeben, wenn SP, Settings, Treatments, Messmethoden beliebig<br />

variiert werden?<br />

‐ Konstruktvalidität: Ist der Rückschluss aus den beobachteten (manifesten) Variablen auf das Konstrukt<br />

(latente Variable) gültig?<br />

‐ Statistische Validität: Werden statistische Methoden richtig angewandt & interpretiert?<br />

Gefährdung der Validität<br />

‐ Leitfragen: Was sind mögliche Gefährdungen? Sind die Gefährdungen plausibel (oder nur möglich)?<br />

Entspricht die Richtung des Effekts der Gefährdung der Richtung des zu erwartenden Effekts?<br />

‐ Vorgehen: häufige Gefährdungen auflisten (Kritik eigener Versuchspläne)<br />

‐ Ideal: Versuchsplanerischer Ausschluss von Validitätsgefährdungen (z.B. Randomisierung)<br />

‐ Alternativ: statistische Kontrolle (z.B. Kovarianzanalyse)<br />

‐ � Erkennen von Gefährdungen hängt von Theoriebildung & Erkenntnisstand ab


Gütekriterien: Theorie der internen & externen Validität (Campbell & Stanley)<br />

‐ Ausgangspunkt: Kausalhypothese bzgl. Effekt (einer/mehrerer) UV auf (eine/mehrere) AV<br />

‐ Interne Validität (I.V.)<br />

‐ Grundidee: experimentelle Bedingungen gleichen sich vor experimenteller Manipulation der UV<br />

hinsichtlich aller Bedingungen � Unterschiede nach experimenteller Manipulation durch<br />

Manipulation<br />

‐ kausale Interpretation des beobachteten Effekts der UV unter konkreten Untersuchungsbedingungen<br />

‐ gegeben, wenn systematische Fehler völlig ausgeschlossen sind<br />

‐ Systematische Fehler: Konfundierung von SV mit UV; können Effekt der UV vortäuschen bzw.<br />

verdecken<br />

‐ Kontrolle aller potentiellen SV durch Konstanthaltung bzw. Sicherung der stochastischen<br />

Unabhängigkeit<br />

‐ erlaubt nur Aussagen über spezielle Untersuchungssituation. Aber: Hypothesen beziehen sich meist auf die<br />

gesamte Population<br />

‐ Externe Validität (E.V.)<br />

‐ Grundidee: SP & Population gleichen sich bzgl. aller Eigenschaften � SP‐Ergebnis gilt für gesamte P<br />

‐ Untersuchung erlaubt Aussagen über gesamte Population, wenn die in ihr realisierten Gegebenheiten<br />

(VP, Randbedingungen, UV, AV, etc.) repräsentativ sind<br />

‐ Repräsentativität kann durch Randomisierung der VP, Randbedingungen, AV etc. aus den jeweiligen<br />

Grundgesamtheiten erreicht werden<br />

‐ Theorie der internen & externen Validität: „Ist für eine Untersuchung die interne & externe Validität<br />

gegeben, so darf ein beobachteter Effekt einer UV auf eine AV kausal interpretiert werden & auf die<br />

Population generalisiert werden.“<br />

Interne Validität<br />

‐ Leitfrage: Ist die UV die Ursache für den Effekt in der AV?<br />

‐ Wenn IV gegeben ist, dann ist eine kausale Interpretation des Effekts der UV auf AV zulässig<br />

‐ bzw. IV ist gegeben, wenn eine kausale Interpretation des Effekts der UV auf AV zulässig ist<br />

‐ Kausale Interpretation zulässig<br />

‐ … wenn alle Alternativerklärungen ausgeschlossen werden können<br />

‐ … wenn die Bedingungen sich nur hinsichtlich der UV unterscheiden & sich bzgl. aller anderen<br />

Variablen nicht systematisch unterscheiden<br />

‐ Sicherung der internen Validität durch Kontrolle von Störvariablen (SV)<br />

Gefährdungen der internen Validität („THIS MESS“)<br />

‐ 1. Testing<br />

‐ 2. History<br />

‐ 3. Instrumentation<br />

‐ 4. Statistical Regression<br />

‐ 5. Maturation<br />

‐ 6. Experimental Mortality<br />

‐ 7. Selection<br />

‐ 8. Selection‐Maturation Interaktion<br />

‐ Neu: 9. Zeitliche Reihenfolge<br />

Testing<br />

‐ Untersuchung selbst ist möglicherweise ein Treatment & hat somit einen Einfluss<br />

‐ � d.h. die Untersuchung ist reaktiv:<br />

‐ Erhebung des Körpergewichts bei KG (eigenständige Diät wird angeregt)<br />

‐ Sensibilisierungseffekte, z.B. Durchführung von Persönlichkeitstest (Selbstreflexion)<br />

‐ � Nicht jede Messung in diesem Sinne reaktiv:<br />

‐ Unbemerkt (versteckte Kamera)<br />

‐ Unbeeinflussbar (Körpergröße)<br />

‐ Weitere Beispiele:<br />

‐ Wissensprüfung in einem Vortest (Aktivierung „verschütteter“ Kenntnisse)<br />

‐ Lern‐, Übungseffekte zwischen Prä‐ & Posttest


‐ Motivation kann durch Vortest gesteigert werden<br />

‐ Müdigkeit oder Langeweile können durch Vortest gesteigert werden<br />

‐ Lösungsmöglichkeiten:<br />

‐ zeitlich ausreichender Abstand zwischen Vortest & Untersuchung<br />

‐ Effekt des Vortests untersuchen<br />

‐ z.B. in Versuchsplan, in dem nicht alle Gruppen einen Vortest machen (z.B. Solomon‐Vier‐Gruppen‐<br />

Plan)<br />

History<br />

‐ Externe Ereignisse mit Einfluss auf die VP<br />

‐ Bsp.: Ereignis in den Nachrichten (Papstwahl, Tschernobyl)<br />

‐ relevant bei Prä‐Post‐Designs (Zeit zwischen Vor‐ & Nachtest)<br />

‐ besonders relevant, wenn unterschiedliche Gruppen zu unterschiedlichen Zeitpunkten getestet werden oder<br />

aus unterschiedlichen Gebieten stammen & unterschiedlichen lokalen Historien ausgesetzt sind<br />

Instrumentation<br />

‐ Veränderung des Messinstruments über die Zeit<br />

‐ Reaktionszeittasten werden durch häufige Benutzung schneller<br />

‐ Computer <strong>zur</strong> Datenerhebung wird wegen voller Festplatte, langer Dateien langsamer<br />

‐ bei Längsschnittstudien verändern sich Fragebögen oder die Bedeutung der Items im aktuellen<br />

Sprachgebrauch<br />

‐ Beurteiler verändern schleichend ihre Kriterien (mündliche Prüfungen)<br />

Statistical Regression<br />

‐ Regression <strong>zur</strong> Mitte<br />

‐ bei Messwiederholung liegen die Werte einer Gruppe mit extremen Merkmalsausprägungen in 2. Messung<br />

(oder einer korrelierten Messung) tendenziell näher am Mittelwert<br />

‐ Grundlage: Extreme Fehler wiederholen sich (idR) nicht<br />

‐ Problem, wenn Gruppen aufgrund hoher oder niedriger Testwerte in die Studie aufgenommen werden, z.B.<br />

Studie nur mit hoch belasteten Patienten<br />

‐ Quasi‐Experimente: Interpretation schwierig, wenn Prä‐Werte von KG & EG sich signifikant unterscheiden<br />

‐ Regressionseffekte „wirken“ auch rückwärts & simultan<br />

‐ Lösungsansatz:<br />

‐ Falls die Untersuchung einer Extremgruppe ein wichtiges Ziel der Studie ist:<br />

‐ (1) möglichst große SP<br />

‐ (2) randomisierte Zuweisung auf die Treatmentbedingungen<br />

Maturation<br />

‐ „Reifung“ der VP durch psychische oder physische Veränderungen über die Zeit<br />

(werden älter, erfahrener, „erwachsener“, Pubertät etc.)<br />

‐ wichtig bei Prä‐Post‐Designs mit großem zeitlichen Abstand zwischen Messzeitpunkten; bei Langzeitstudien<br />

‐ aber auch kurzfristig (Ermüdung)<br />

‐ Bsp.: Förderprogramme im Bildungsbereich (Schule)<br />

‐ Lösungsansatz: Alle Gruppen sollten gleiche Alterszusammensetzung & ähnliche Umwelten haben<br />

Experimental Mortality<br />

‐ Systematischer Ausfall von VP (Attrition)<br />

‐ Treatmentgruppe ist anstrengender, daher mehr Abbrecher<br />

‐ nur die „Geeigneten“ halten durch (& sind auch noch erfolgreich)<br />

‐ VP in KG sind nicht interessiert oder unzufrieden, weil sie kein Treatment erhalten haben<br />

‐ eventuell auch wirkliche Todesfälle<br />

‐ Bsp.: Umfragen mit freiwilliger Teilnahme; Internetstudien<br />

‐ Problem kann nicht durch randomisierte Zuweisung zu Bedingungen behoben werden<br />

‐ Entsteht erst in der bzw. durch die zugewiesene Bedingung<br />

‐ Wichtige Frage: Warum traten diese Ausfälle auf? (z.B. Nachbefragungen)<br />

‐ Lösungsansätze: gute „Pflege“ & Motivation der KG oder eine „unsinnige“ Intervention durchführen


Selection<br />

‐ VP sind (zufällig oder absichtlich) systematisch so auf Bedingungen verteilt, dass unterschiedliche<br />

Ausgangswerte entstehen<br />

‐ Bsp.: Will jemand bei einer klinischen Untersuchung an einer Studie nicht teilnehmen, kommt er/sie u.U. in<br />

KG<br />

‐ Zusammenhang zwischen Bedingung & Motivation<br />

‐ Besonders bei Quasi‐Experimenten problematisch<br />

‐ Keine zufällige Zuordnung zu den Bedingung möglich<br />

Zusammenwirkung Selection – Maturation<br />

‐ Maturation führt zu einer Verstärkung der durch Selektion entstandenen Gefährdung<br />

‐ falls Maturation in unterschiedlichen Gruppen zu unterschiedlichen Zeitpunkten beginnt (oder<br />

unterschiedliche Verläufe nimmt), kann es zu einem Zusammenwirken der Gefährdungen kommen<br />

‐ Bsp.: Untersuchung zum Effekt von Leistungsstipendien:<br />

‐ Bezieher sind fähiger (Selektion)<br />

‐ Bezieher haben höhere Verbesserungsgeschwindigkeit (Reifung)<br />

‐ beides erhöht den „Effekt“ des Stipendiums<br />

‐ allgemein: gleichzeitiges Auftreten mehrerer Gefährdungen kann zu additiven & interaktiven Effekten<br />

führen<br />

Zeitliche Reihenfolge<br />

‐ Klarheit der zeitlichen Reihenfolge: Welches Merkmal tritt zuerst auf?<br />

‐ IV ist gefährdet, wenn die zeitliche Reihenfolge (& damit der kausale Zusammenhang) nicht eindeutig<br />

festgelegt werden kann<br />

‐ Bsp.: Konsum aggressiver Videospiele & Aggressivität<br />

Externe Validität<br />

‐ Wurde derselbe kausale Zusammenhang in verschiedenen…<br />

‐ Stichproben<br />

‐ Settings<br />

‐ Treatments<br />

‐ Ergebnismessungen<br />

‐ …innerhalb der Studie bestätigt?<br />

‐ Kann man die Ergebnisse generalisieren über Variationen dieser Elemente, die außerhalb der untersuchten<br />

Bereiche liegen, wenn sich die untersuchte SP von der P, auf die man generalisieren möchte, nicht<br />

systematisch unterscheidet?<br />

Arten der Generalisierung des kausalen Zusammenhangs<br />

‐ von einer Population auf umfassendere Population<br />

‐ von der SP auf eine einzelne Person oder Teil‐SP<br />

‐ von einer Population auf eine andere Population auf ähnlichem Aggregationsniveau<br />

‐ auf eine ähnliche oder unähnliche Gruppe von Personen<br />

‐ von der Zufalls‐SP auf andere Mitglieder der Population<br />

‐ Zufalls‐SP stellt sicher, dass sich die untersuchte SP von der P nicht systematisch unterscheidet<br />

Externe Validität & Zufallsstichproben<br />

‐ Zufallsstichprobe: Aus allen Elementen der Population zufällig auswählen<br />

‐ alle Elemente der Population werden mit derselben WS „gezogen“<br />

‐ Eigenschaften der Population bleiben in der SP erhalten<br />

‐ erlaubt nur zufällige, aber keine systematischen Unterschiede zwischen SP & Population<br />

‐ Zufallsstichproben garantieren, dass…<br />

‐ … derselbe durchschnittliche Effekt in allen anderen Zufalls‐SP aus der Population erwartet werden<br />

darf<br />

‐ … derselbe durchschnittliche Effekt in der Gesamtpopulation erwartet werden darf<br />

‐ Gilt auch für Zufallsstichproben von settings (treatments, outcomes)


‐ Problem: Zufallsstichproben oft praktisch nicht realisierbar (Datenschutz, Kosten/Aufwand, Population nicht<br />

definiert (Treatment, Outcomes))<br />

Gefährdungen der externen Validität: UTOS<br />

‐ Units: Interagiert der kausale Zusammenhang mit Merkmalen der Personen/Untersuchungseinheiten?<br />

‐ Bsp.: Bildung/Intelligenz (Psychologiestudierende); Geschlecht; Medikamente (Übertragung zulässig?)<br />

‐ Treatment: Interagiert der kausale Zusammenhang mit Merkmalen der Behandlung/Intervention?<br />

‐ Bsp.: nur die Kombination aus Medikation & Psychotherapie wirkt, nicht aber einzeln; Wirkung<br />

abhängig von Reichweite der Implementierung (soziale Programme)<br />

‐ Outcome: Interagiert der Zusammenhang mit Merkmalen der verwendeten Kriteriums/der AV?<br />

‐ Ist der Zusammenhang nur mit bestimmten Outcome‐Variablen, aber nicht mit anderen beobachtbar?<br />

‐ Bsp.: Maßnahme <strong>zur</strong> Erhöhung der Kundenzufriedenheit wirkt nur auf Beurteilung durch <strong>Dr</strong>itte, nicht<br />

auf Selbstbericht der Kunden<br />

‐ Setting: Interagiert der Zusammenhang mit dem Untersuchungskontext?<br />

‐ Bsp.: neue Unterrichtsmaßnahme wirkt im Labor, nicht in Schule; Psychotherapiestudien untypisch für<br />

Therapiealltag; Unterschiede zwischen Schulen, Kliniken, kleinen/großen Betrieben<br />

Gefährdungen der externen Validität: Prüfung der Generalisierbarkeit<br />

‐ Viele verschiedene Studien realisieren<br />

‐ Multiple Treatments (Verschiedene Arten; unterschiedliche Dosierung)<br />

‐ Outcomes (z.B. Emotion: Selbstbeobachtung, Fremdbeobachtung, physiologische Maße, …)<br />

‐ Personenstichproben (z.B. Geschlecht, Alter, Bildung, Land,...)<br />

‐ Settings (Schulen, Kliniken,…)<br />

‐ � Grenzen: erforderliche SP‐Größe, Komplexität des Versuchsplans, Statistische Power <strong>zur</strong><br />

Entdeckung von Interaktionen<br />

‐ Gesamtbewertung über unterschiedliche Studien (z.B. Metaanalyse)<br />

Konstruktvalidität<br />

- Leitfrage: Wird das relevante Konstrukt unverfälscht & vollständig erfasst?<br />

- Unverfälschtheit: wird nur das relevante Konstrukt erfasst?<br />

- Vollständigkeit (auch „Inhaltsvalidität“): werden bei der Messung alle Aspekte des zugrunde<br />

gelegten psychologischen Konstrukts erfasst?<br />

- Latentes Konstrukt muss operationalisiert werden<br />

- Frustration � Nichterreichen des Ziels<br />

- Aggression � Anzahl/Ausprägung verbal‐aggressiver Verhaltensweisen<br />

- Frage: Wurde tatsächlich Frustration untersucht, oder nur das Nichterreichen eines Ziels?<br />

- Häufiger Kritikpunkt empirischer Studien<br />

- Operationalisierung bestimmt, was tatsächlich untersucht wird<br />

- aber: Schlussfolgerung und Interpretation bezieht sich auf Konstrukt<br />

- Güte der Untersuchung abhängig von Güte der Erfassung des Konstrukts<br />

Gefährdung der Konstruktvalidität<br />

- Ungenügende Analyse der Konstrukte<br />

- Voraussetzung für Konstruktvalidität ist Konstruktexplikation<br />

- Bsp: Patientenzufriedenheit; Selbstwertgefühl<br />

- Gefahr, dass…<br />

- … die Konstrukte zu allgemein operationalisiert werden<br />

- … die Konstrukte zu spezifisch operationalisiert werden<br />

- … mehrere Konstrukte zugrunde liegen, wo nur ein Konstrukt diskutiert wird<br />

- Konfundierungen zwischen relevanten Konstrukten<br />

- unerkannte Zusammenhänge zwischen (zugrundeliegenden & intervenierenden) Konstrukten möglich<br />

- es wurden nicht alle relevanten Variablen/Konstrukte erhoben<br />

- Bsp.: wenig Psychologen in Führungspositionen � Benachteiligung Psychologen oder Frauen?<br />

- Mono‐operation‐bias<br />

- Nur eine Operationalisierung des Ergebniskonstrukts oder des Treatmentkonstrukts<br />

- erhöht das Risiko einer inadäquaten Realisierung des Konstrukts


- Besser: multiple Messungen des Konstrukts<br />

- Mono‐method‐bias<br />

- Daten werden nur mit einer Erhebungsmethode erhoben<br />

- Methode der Datenerhebung hat möglicherweise Einfluss auf Ergebnisse der Messung<br />

- Besser: mehrere Datenquellen (Selbstbeobachtung, Fremdbeobachtung, Fragebogen, etc.) verwenden<br />

- Problem: höherer Aufwand<br />

- Treatment erhöht Sensitivität für die Struktur der untersuchten Konstrukte<br />

- Bsp.: Untersuchung zum Antisemitismus; KG: Fragebogen zu Einstellungen; EG: erst Infoveranstaltung,<br />

dann Fragebogen zu Einstellungen<br />

- erhöhte Sensitivität der VP in EG � ggf. differenziertere Antworten; Veränderung des gemessenen Konstrukts<br />

- Selbstberichte/Protokolle abhängig von Motivation<br />

- Befragte antworten nicht immer wahrheitsgemäß; individuelle Ziele/Motivationen beeinflussen<br />

Antworten<br />

- Konsequenz: Messung erfasst das Zielkonstrukt nicht<br />

- Mögliche Lösungen: Fremdurteile, unverfälschbare Maße<br />

- Reaktivität in Bezug auf die experimentelle Situation<br />

- Nicht das Treatment selbst, sondern andere Aspekte der experimentellen Situation bewirken Effekte<br />

- Bsp.: Placebo‐Effekte in medizinischen Studien<br />

- Hypothesen, Erwartungen, Befürchtungen der VP, Reaktion auf VL, situative demand characteristics<br />

- Lösungsansätze:<br />

- Unaufdringliche, unverfälschbare Messungen<br />

- Zeitverzögerte Messung<br />

- sensibilisierende Prätests vermeiden (oder ihre Effekte untersuchen)<br />

- standardisierte Interaktion mit VL oder VL ganz eliminieren<br />

- falsche Erwartungen induzieren (z.B. Täuschung; soweit ethisch vertretbar)<br />

- Erwartungen des Experimentators<br />

- VL‐Erwartungen können Ergebnisse (bewusst oder unbewusst) beeinflussen<br />

- Lösungsansätze:<br />

- mehrere Untersuchungsleiter<br />

- Beobachtung der Untersuchungsleiter<br />

- Doppelblinduntersuchungen (VP & VL wissen nicht, welche Bedingung realisiert wird)<br />

- <strong>Dr</strong>eifachblinduntersuchungen (VP, VL & Auswerter wissen nicht, welche Bedingung realisiert wird)<br />

- Kontakt mit VP minimieren<br />

- Neuheiten & Unterbrechungen<br />

- Tatsache, dass Treatment/Veränderung realisiert wird, kann schon einen Einfluss haben (unabhängig von<br />

der Art der Veränderung/des Treatments)<br />

- Bsp.: Hawthorne‐Studie: jegliche Veränderung am Arbeitsplatz führte zu Verbesserung der Arbeitsleistung<br />

- Konsequenz: Effekt beruht nicht auf manipuliertem Konstrukt<br />

- Kompensatorische Gleichstellung<br />

- Bsp.: klinische Studien: Wunsch nach sozialer Gerechtigkeit führt ggf. dazu, dass VP in KG besser<br />

behandelt werden als VP in EG (bessere Betreuung der VP als „Ausgleich“ für Verweigerung des<br />

Treatments)<br />

- Folge: Nivellierung (Reduktion) der Effekte<br />

- Lösungsansätze:<br />

- Aufklärung über Sinn & Zweck der Untersuchung & Einteilung in Gruppen<br />

- Verblindung<br />

- Placebo‐Therapie<br />

- Warteliste<br />

- Kompensatorische Rivalität<br />

- VP in KG strengen sich ggf. übermäßig an<br />

- Lösungsversuche: Leistung vor & nach der Untersuchung erfassen<br />

- Nachtragende & demoralisierte Teilnehmer<br />

- VP, die nicht in die gewünschte Bedingung gelangen, reagieren unkooperativ im weiteren<br />

Untersuchungsverlauf<br />

- Lösung: Transparenz bei Zuordnung, Bildung von Warte‐KG, weitere Angebote nach Ende der Studie


- Treatmentdiffusion<br />

- „Verwässerung“ des Treatments (z.B. durch Wechsel zwischen Treatment‐Gruppen; Übernahme von<br />

Behandlungselementen in KG durch VP oder VL)<br />

- Lösungen:<br />

- verschiedene VL für unterschiedliche Treatments<br />

- räumliche oder zeitliche Trennung<br />

- Kontrolle des implementierten Treatments<br />

Fazit Konstruktvalidität:<br />

- Definition eines Konstrukts genau bedenken (berücksichtigen); von anderen relevanten Konstrukten absetzen<br />

- entscheiden, wie die Konstrukte gemessen bzw. repräsentiert werden sollen<br />

- mithilfe multipler Operationalisierungen & multipler Methoden<br />

- � über mehrere Untersuchungen hinweg kombinieren<br />

- Facetten/Empirische Bewertungsmöglichkeiten:<br />

- Konvergente & diskriminante Validität<br />

- Kriteriumsvalidität:<br />

- Kongruente Kriteriumsvalidität<br />

- Prädiktive Kriteriumsvalidität<br />

Konvergente & diskriminante Validität<br />

- Erfassen die ausgewählten Messinstrumente das zugrunde liegende theoretische Konstrukt valide?<br />

- Messung des Konstrukts soll vom verwendeten Instrument möglichst unabhängig sein<br />

- Mit verschiedenen Testverfahren sollen identische (ähnliche) Ergebnisse ermittelt werden<br />

- z.B.: hohe Konstruktvalidität, wenn Ergebnisse eines Schultest mit anderen Schultests (Schulnoten)<br />

hoch korrelieren<br />

Konvergente Validität<br />

- Korrelieren die Ergebnisse des neuen Testverfahrens mit den Messdaten bereits validierter Tests?<br />

- ein neuer Test muss hoch mit einem bekannten Test korrelieren, der das Konstrukt valide erfasst<br />

- Bsp.: In einem Fragebogen sollten die Fragen (Items) eines Inhaltsgebietes (einer Skala) hoch mit dem<br />

Gesamt‐Skalenwert (Faktor) korrelieren<br />

Ladung = Korrelation der Variable mit dem Faktor<br />

Diskriminante Validität<br />

- Ergebnisse eines neuen Testverfahrens sollten mit Tests für andere<br />

Konstrukte nicht korrelieren<br />

- ein neuer Test muss gering mit einem anderen Test korrelieren, der das<br />

relevante Konstrukt bekanntermaßen nicht erfasst (sondern ein anderes)<br />

- Bsp.: In einem Fragebogen sollte es nur eine geringe Korrelation zwischen<br />

den verschiedenen Skalen eines Fragebogens geben, die unterschiedliche<br />

Konstrukte erfassen<br />

Kriteriumsvalidität<br />

- Korrelation/Zusammenhang mit anderen etablierten Messinstrumenten (Kriterien)<br />

- erlaubt empirische Überprüfung, ob ein Instrument das Merkmal erfasst, was es zu erfassen vorgibt<br />

- Bsp.: Korrelation eines selbst entwickelten IQ‐Tests mit bewährtem Verfahren (z.B. IST‐2000)<br />

- Nachteil: Wie wurde die Kriteriumsvalidität des IST‐2000 überprüft?<br />

- 2 Arten der Kriteriumsvalidität:<br />

- Kongruente Validität (Übereinstimmungsvalidität)<br />

- Prädiktive Validität (prognostische Validität)


Kongruente Kriteriumsvalidität<br />

- Übereinstimmung mit einem (bereits bekannten) externen Kriterium<br />

- Validität eines Messverfahrens wird durch den Vergleich von durch das Messverfahren ermittelten<br />

Werten mit denen eines weiteren Verfahrens (Außenkriterum) überprüft<br />

- Erhebung beider Messwerte sollte möglichst zeitgleich erfolgen<br />

- Methodisches Problem: Validität des Kriteriums muss gewährleistet sein<br />

- Begründungsproblem: Falls beide Messverfahren hoch miteinander korrelieren: Wieso wurde ein 2.<br />

Verfahren entwickelt, das identische Inhalte misst?<br />

- z.B. weniger zeitaufwändig, kostengünstiger, paralleler Test für Messwiederholung<br />

Prädiktive Kriteriumsvalidität<br />

- Vorhersage eines (noch unbekannten) externen Kriteriums (Außenkriterium)<br />

- wird über den Vergleich mit einem später erhobenen Außenkriterium ermittelt<br />

- Ergebnisse der Messung werden <strong>zur</strong> Vorhersage der Messwerte des Außenkriteriums verwendet<br />

- Bsp: Verfahren <strong>zur</strong> Studieneignung im Fach Psychologie<br />

- Eignungstest vor dem Studium<br />

- Vorhersage der Diplomnoten/Studiendauer etc.<br />

- Nachteile / methodische Probleme (Bsp. Eignungsverfahren):<br />

- Ergebnisverzerrung durch Abweisen ungeeigneter Bewerber<br />

- Messergebnis als Intervention (z.B. Selbstselektion)<br />

Statistische Validität<br />

- Werden statistische Methoden richtig angewandt und interpretiert?<br />

Gefährdung der statistischen Validität<br />

- zu geringe statistische Power (Teststärke)<br />

- Power = WS dafür, einen Effekt als signifikant zu entdecken, wenn er existiert = 1‐WS (β‐Fehler)<br />

- Mikroskopanalogie<br />

- Folge: viele β‐Fehler, große Konfidenzintervalle<br />

- Power erhöhen: Signalstärke rauf (Effekt); Rauschen runter (Messfehler)<br />

- Wichtigster Einfluss: Aggregation (Rauschen mittelt sich raus)<br />

- Lösung: vor Untersuchung optimalen Stichprobenumfang berechnen (G‐Power)<br />

- Methoden <strong>zur</strong> Erhöhung der statistischen Power<br />

- matching, statistische Paarbildung: Variable, die matching zugrunde liegt, muss mit AV korrelieren<br />

- Erhebung von Kovariaten: Kovariate muss mit AV korrelieren; Trade‐off zwischen zusätzlicher<br />

Kovariate & höherem N<br />

- Erhöhung der Stichprobengröße<br />

- gleiche Zellenbesetzung<br />

- Verbesserung der Messung: mehr Messpunkte pro Person; Reliablere Messintrumente;<br />

Vermeidung von range restrictions (Boden/Deckeneffekte)<br />

- stärkeres Treatment: Größere Unterschiede in UV; Diffusion zwischen Stufen der UV<br />

verringern, Treatment reliabel anwenden<br />

- mehr Treatmentvariabilität: Mehr Stufen der UV realisieren, Extremstufen überrepräsentieren<br />

- Messwiederholungsdesigns: Im Labor am praktikabelsten; Ermüdung, Übung, etc.<br />

- Einsatz teststarker statistischer Verfahren: Möglichst hohes Skalenniveau; Bsp.: Kein<br />

Mediansplit; Transformation <strong>zur</strong> Normalverteilung<br />

- Verletzung der Voraussetzung der statistischen Verfahren<br />

- Nicht immer problematisch: t‐Test robust gegenüber Verletzungen der Normalverteilung, wenn große SP<br />

& gleich große Gruppen<br />

- z.B. Unabhängigkeit der SP‐Elemente nicht gegeben<br />

- Bsp.: Schulklasse; Nested designs � Hierarchische Modelle<br />

- „Fischen“ nach Signifikanzen<br />

- Viele Variablen werden untereinander korreliert<br />

- Viele Gruppenmittelwerte werden paarweise verglichen<br />

- Nur die signifikanten Ergebnisse werden berichtet


- α‐Fehler‐Kumulierung/Inflationierung: tatsächliches α bei n Tests: .05 (n=1); .14 (n=3); .64 (n=20); .92<br />

(n=50)<br />

- Lösungen: Bonferroni‐Korrektur; (multivariate Auswertungen)<br />

- Messung ist nicht reliabel<br />

- Attenuation bivariater Zusammenhänge<br />

- Korrelationen; Mittelwertsunterschiede<br />

- Bei multivariaten Zusammenhängen: Nicht vorhersehbare Effekte<br />

- Lösungsansätze:<br />

- mehr Messungen<br />

- mehr Beurteiler, besseres Beurteiler‐Training<br />

- bessere (validierte) Messinstrumente<br />

- latente Merkmalsanalyse (SEM)<br />

- restriction of range<br />

- Varianzvernichtung durch ungeeignete Datenerhebung (z.B. dichotom: erfolgreich vs. nicht‐erfolgreich)<br />

- kaum Unterschiede im Treatment (kleine vs. mittlere Medikamentendosis)<br />

- Decken‐ oder Bodeneffekte durch ungeeignete Messung oder SP‐Auswahl (z.B. nur hochintelligente Studierende)<br />

- Lösungsansätze: Pilottests<br />

- Treatment nicht reliabel implementiert<br />

- keine kontrollierten Laborbedingungen<br />

- Treatment ist abhängig vom VL<br />

- kein standardisiertes Vorgehen<br />

- Bsp.: Therapie‐Komponenten nach Bedarf zusammengestellt<br />

- � erhöht Fehlervarianz, reduziert Effektgrößen<br />

- Einfluss von Störvariablen<br />

- Störung durch Geräusche, Temperaturunterschiede, verschiedene VL<br />

- Lösungen:<br />

- standardisiertes Vorgehen (Kontrolle)<br />

- Randomisierung<br />

- Erhebung möglicher Störquellen & Berücksichtigung bei der Auswertung (z.B. Kovarianzanalyse)<br />

- ungenaue Bestimmung der Effektgrößen<br />

- z.B. Ausreißerwerte nicht eliminieren<br />

- z.B. Messung von Zusammenhängen bei dichotomen Merkmalen mit Effektgrößen für intervallskalierte<br />

Merkmale<br />

Externe, interne, statistische und Konstruktvalidität: Trade‐offs & Prioritäten<br />

- Externe & interne Validität manchmal gegenläufig<br />

- Entscheidungen der Forscher über Ressourcenverwendung<br />

- randomisierte Zuweisung zu den treatments/settings (interne Validität)<br />

- vs. Diversität untersuchter SP/treatments/settings (externe Validität)<br />

- Unterschiedliche Schwerpunkte in angewandter (externe & Konstruktvalidität der<br />

Ergebnisvariablen) & Grundlagenforschung (interne & Konstruktvalidität der Ursache)<br />

- Trade‐offs zwischen statistischer Validität & externer Validität<br />

- z.B. Homogenität vs. Heterogenität der SP<br />

6. <strong>Vorlesung</strong>: Störvariablen<br />

Kontrolle von Störvariablen<br />

- Störvariablen (SV): alle Variablen (außer der interessierenden UV), die potentiell<br />

Einfluss auf AV haben können<br />

- besonders problematisch, wenn mit UV assoziiert (konfundiert): Effekt ist u.U. nicht<br />

auf UV <strong>zur</strong>ückzuführen, sondern auf eine nicht‐kontrollierte SV, die systematisch mit<br />

der UV variiert<br />

- Ziel der Versuchsplanung (nach Hager, 1987)<br />

- gemeinsame systematische Variation von möglichen Störfaktoren mit hypothesenrelevanter UV verhindern<br />

- bzw. statistische Assoziation zwischen den potentiellen Störfaktoren & der UV auf den Wert 0 bringen<br />

- in dem Ausmaß, in dem dies für einen der möglichen Störfaktoren gelingt, nennen wir diesen kontrolliert


Störvariablen<br />

- Systematische SV<br />

- Konfundierung von SV & UV; ungleiche Verteilung auf Bedingungen<br />

- Bsp.: Motivation & Training sind konfundiert: in der EG sind viel mehr motivierte, in der KG viel mehr<br />

unmotivierte Teilnehmer)<br />

- EG (Training): MMMMMMMUMMMMMUMMU<br />

- KG (kein Training): UUUMMUUUUUUUUUUMUUU<br />

- � Quelle eines Unterschieds zwischen EG und KG: Motivation? Training?<br />

- � Quelle eines Unterschieds kann UV oder SV sein<br />

- Unsystematische SV<br />

- Keine Konfundierung von SV & UV; gleiche Verteilung auf Bedingungen<br />

- Bsp.: Motivation & Training sind nicht konfundiert: Motivierte & unmotivierte TN verteilen sich gleich auf die<br />

Bedingungen<br />

- EG (Training): MUMUMUUMMUMUMMUMUU<br />

- KG (kein Training): UMUMMUMUUMUMUMUUMM<br />

- � Quelle eines Unterschieds zwischen EG & KG: Training!<br />

- � Quelle eines Unterschieds kann nur UV sein<br />

Systematische Störvariablen<br />

- kovariiert mit UV (d.h. in verschiedenen Versuchsbedingungen unterschiedlich stark ausgeprägt)<br />

- können fälschlicherweise einen Effekt der UV auf die AV suggerieren<br />

- � Trainierte: bessere Leistung (AV), aber nicht wegen Training (UV), sondern wegen höherer Motivation (SV)<br />

- können einen tatsächlich vorhandenen Effekt verschleiern<br />

- � überwiegend unmotivierte VP im Training: positiver Effekt des Trainings (UV) wird durch negativen Effekt<br />

der Motivation (SV) verdeckt<br />

- Konsequenz systematischer SVn: falsche Schlussfolgerungen hinsichtlich des Effekts der UV auf die AV sind<br />

möglich, wenn SV nicht berücksichtigt wird<br />

Unsystematische Störvariablen<br />

- kovariiert nicht mit der UV (d.h. in allen Versuchsbedingungen ungefähr gleich stark ausgeprägt)<br />

- können systematische Effekte der UV durch hohe Fehlervarianz überdecken<br />

- können das Auftreten von Effekten nicht erklären<br />

- gibt es in jeder Untersuchung; vergrößern die Varianz in der AV/der Messung (Fehlervarianz; „Rauschen“;<br />

geringe Reliabilität der Messung)<br />

- Konsequenz: Wenn kein Effekt gefunden wird, kann dies an der erhöhten Fehlervarianz liegen. Wenn ein<br />

Effekt beobachtet wird, kann die unsystematische SV nicht dafür verantwortlich sein<br />

Kontrolle von Störvariablen<br />

- 2 Ziele:<br />

- 1) Kontrolle systematischer Fehler/SV<br />

- „… die gemeinsame systematische Variation von möglichen Störfaktoren mit der hypothesenrelevanten UV<br />

zu verhindern und die statistische Assoziation zwischen den potentiellen Störfaktoren und der UV auf den<br />

Wert Null zu bringen….“<br />

- � erhöht interne Validität<br />

- 2) Reduktion unsystematischer/zufälliger Fehler/SVn<br />

- Reduktion der Fehlervarianz erhöht den Anteil der Effektvarianz an der Gesamtvarianz<br />

- � erhöht Präzision/statistische Validität<br />

Quellen von Störvariablen<br />

- Teilnehmer<br />

- Geschlecht, Intelligenz, Einkommen, Ängstlichkeit, Sucht, Haustier,…,<br />

- alle Eigenschaften mit potentiellem (direktem oder indirektem) Einfluss auf die AV<br />

- Versuchsleiter<br />

- Geschlecht, Alter, Autorität, Status, Attraktivität, Strenge,…<br />

- Erwartungen bzgl. der Untersuchungsergebnisse…<br />

- Situation


- Lärm, Beleuchtung, Tageszeit, Jahreszeit, Konjunktur, Publikum<br />

- Messinstrument, Reaktivität der Messung, demand characteristics<br />

- Reihenfolge/Messwiederholung<br />

- Positionseffekte<br />

- Übungs‐, Erinnerungs‐, Ermüdungseffekte<br />

- Sensibilisierungseffekte<br />

7. <strong>Vorlesung</strong>: Kontrolltechniken<br />

Kontrolltechniken<br />

‐ Teilnehmer<br />

‐ Randomisierung<br />

‐ Parallelisierung<br />

‐ Versuchsleiter<br />

‐ Standardisierung<br />

‐ Automatisierung<br />

‐ VL‐Training<br />

‐ Doppelblindstudie<br />

‐ Situation<br />

‐ Konstanthaltung<br />

‐ Elimination<br />

‐ Kontrollfaktoren<br />

‐ Täuschung<br />

‐ Messwiederholung<br />

‐ Ausbalancieren<br />

Randomisierung<br />

‐ zufällige Zuweisung der Untersuchungseinheiten zu Bedingungen/Gruppen<br />

‐ Technik <strong>zur</strong> Kontrolle in der Person liegender, unveränderlicher Störvariablen<br />

‐ vorhandene Störvariablen werden nach Zufall auf die Gruppen verteilt<br />

‐ Ergebnis der Randomisierung:<br />

‐ Störvariablen sind nicht mit Bedingungszugehörigkeit konfundiert<br />

‐ Bedingungen/Gruppen sind bzgl. aller Variablen gleich (bis auf Zufallsschwankungen; Gruppe: N ≥ 30)<br />

‐ Definition Experiment: Wenn bzgl. einer UV randomisiert wird, dann ist die Untersuchung bzgl. dieser<br />

UV ein Experiment<br />

‐ Randomisierung & interne Validität<br />

‐ Interne Validität kann durch externe Faktoren möglicherweise bedroht sein � Randomisierung �<br />

gleiche WS externer Störeinflüsse in beiden Gruppen<br />

Randomisierung ≠ Zufallsstichprobe!<br />

‐ Zufallsstichprobe: zufällige Auswahl aus der Population<br />

‐ Jeder hat die gleiche Chance, ausgewählt zu werden<br />

‐ erhöht Ähnlichkeit von Stichprobe und Population<br />

‐ externe Validität<br />

‐ Randomisierung: zufällige Zuweisung bereits ausgewählter Probanden zu Bedingungen/Gruppen<br />

‐ Jeder hat die gleiche Chance, in jede Bedingung zu gelangen<br />

‐ erhöht Ähnlichkeit der verglichenen Bedingungen/Gruppen<br />

‐ Interne Validität<br />

Varianten der Randomisierung<br />

‐ Einfache Randomisierung<br />

‐ Einfache Randomisierung mit vs. ohne Zurücklegen<br />

‐ Blockrandomisierung<br />

‐ Blockrandomisierung mit ungleichen Gruppengrößen<br />

‐ Adaptive Randomisierung


Einfache Randomisierung<br />

‐ Beispiel: Experiment mit 2 Bedingungen<br />

‐ 1 SP (50 Personen); unterschiedliche Vorkenntnisse<br />

‐ 2 Bedingungen/Gruppen: EG (Training), KG (kein Training)<br />

‐ Randomisierung: zufällige Zuweisung der Personen in die Bedingungen (z.B. Münzwurf, Würfeln,<br />

computergenerierte Zufallszahlen, etc.)<br />

‐ � keine systematische Häufung von Störvariablen in einer Bedingung<br />

‐ � mögl. Problem: ungleiche Gruppengrößen<br />

Einfache Randomisierung mit vs. ohne Zurücklegen<br />

‐ Bsp wie oben<br />

‐ Randomisierung mit Zurücklegen<br />

‐ z.B. Münzwurf: Kopf EG; Zahl KG<br />

‐ alle Vpn haben gleiche WS, jeder derbBedingungen zugeordnet zu werden: Pr(Kopf) = konstant<br />

‐ kann zu ungleichen Gruppengrößen führen<br />

‐ Randomisierung ohne Zurücklegen<br />

‐ Vpn ziehen eine Losnummer aus einem Pool, der so groß ist wie die geplante SP (25x „EG“, 25x „KG“)<br />

‐ führt zu gleich großen Gruppen<br />

‐ Zuordnungs‐WS unterschiedlich zwischen Vpn (Bedingung der letzten VP ist festgelegt)<br />

Blockrandomisierung<br />

‐ Bsp wie oben<br />

‐ Randomisierung erfolgt so, dass innerhalb eines Blocks die Anzahl der Personen in jeder Gruppe<br />

ausgeglichen ist<br />

‐ z.B. Randomisierung in 10er‐Blöcken:<br />

‐ In jedem Block: 5 Personen EG & 5 Personen KG<br />

‐ � führt zu gleich großen Gruppen<br />

‐ � Zuordnungs‐WS unterschiedlich zwischen VP<br />

Blockrandomisierung mit ungleichen Gruppengrößen<br />

‐ Bsp wie oben � Zuordnung: 80% EG, 20% KG<br />

‐ Blockrandomisierung auch möglich bei Gruppen mit unterschiedlichen Größen<br />

‐ z.B. Randomisierung in 10er‐Blöcken:<br />

‐ In jedem Block: 8 Personen EG & 2 Personen KG<br />

‐ Kein Widerspruch <strong>zur</strong> Randomisierung: jede VP hat die gleiche Chance, in die EG zu kommen<br />

Adaptive Randomisierung<br />

‐ Änderung der Zuordnungs‐WS im Laufe der Studie<br />

‐ Kann zum Einsatz kommen, falls die anfängliche Randomisierung zu ungleichen Gruppengrößen führt<br />

‐ Versuch, im Verlauf der Studie dem Unterschied zwischen den Gruppen entgegenzuwirken<br />

‐ Vorteil: Vergleichbare Gruppengrößen bei der Beendigung der Studie<br />

‐ Nachteil: Validitätsgefährdung (Gruppen sind von der Eingangsreihenfolge her unterschiedlich<br />

zusammengesetzt; ungleiche Zuordnungs‐WS über die Zeit)<br />

‐ Bsp.: Experiment mit 2 Bedingungen<br />

‐ 1 SP (200 Personen)<br />

‐ 2 Bedingungen/Gruppen: EG (Training), KG (kein Training)<br />

‐ Studienbeginn: Zuordnung: 50% EG, 50% KG<br />

‐ Ziel: 100 Personen pro Gruppe<br />

‐ Nach 6 Monaten: 25 Personen in EG, 75 Personen in KG<br />

‐ � Adaptation der Zuordnungsquote: 75% EG, 25% KG<br />

Parallelisierung (Matching)<br />

‐ Vergleichbarkeit der Gruppen bzgl. einer bekannten Störvariable herstellen<br />

‐ Bei kleinen SP zuverlässiger als Randomisierung – aber nur bzgl. einer SV!<br />

‐ SV bei allen Teilnehmern des Experiments erfassen<br />

‐ Rangreihe bzgl. der SV bilden


‐ jeweils benachbarte Rangplätze werden per Zufall auf die Bedingungen aufgeteilt<br />

‐ Voraussetzungen:<br />

‐ reliable & valide Messbarkeit der zu kontrollierenden SV<br />

‐ Verfügbarkeit der gesamten SP <strong>zur</strong> Erfassung der SV vor der eigentlichen Untersuchung<br />

‐ theoretische und/oder empirische Begründung der Bedeutsamkeit der SV<br />

Standardisierung, Automatisierung, Versuchsleiter‐Training<br />

‐ Versuchsablauf standardisieren: Präzises und detailliertes Ablaufprotokoll festlegen<br />

‐ Systematische & unsystematische Störeinflüsse reduzieren, die durch Unterschiede im Ablauf<br />

entstehen können (z.B. unterschiedliche Erläuterungen/Instruktionen des VL)<br />

‐ Versuchsleiter trainieren: Einüben des Ablaufs (idealerweise anhand eines Ablaufprotokolls, s.o.)<br />

‐ Systematische & unsystematische Störeinflüsse reduzieren, die durch fehlerhafte Durchführung des<br />

Versuchs entstehen können<br />

‐ Versuchsablauf automatisieren: Ersetzen des VL durch z.B. Computer<br />

‐ Standardisierung<br />

‐ Elimination VL (z.B. Effekte von VL‐Erwartungen)<br />

Doppelblindstudie<br />

‐ Verblindung: Information über Versuchsbedingung vorenthalten<br />

‐ Verhindert systematische Effekte dieser Information (z.B. über Erwartungen der VP oder des VL)<br />

‐ 3 Varianten:<br />

‐ Einfache Verblindung: VP hat keine Kenntnis über die Versuchsbedingung, der er zugeordnet ist<br />

‐ Doppelte Verblindung: VP & VL haben keine Kenntnis über Versuchsbedingung<br />

‐ <strong>Dr</strong>eifache Verblindung: VP, VL & Auswerter haben keine Kenntnis über Versuchsbedingung<br />

Konstanthaltung<br />

‐ Ausprägung der Störvariable in allen Bedingungen gleichhalten<br />

‐ Verhindert systematische & unsystematische Störeinflüsse<br />

‐ z.B. Kontext: alle Versuchsbedingungen in gleicher Umgebung durchführen<br />

‐ z.B. Temperatur: identisch klimatisierte Laborräume<br />

‐ z.B. Instruktion: identische Wortwahl in allen Versuchsbedingungen<br />

Elimination<br />

‐ Einfluss der Störvariablen komplett verhindern<br />

‐ Verhindert systematische & unsystematische Störeinflüsse<br />

‐ z.B. Lärm: Schallisolierung<br />

‐ z.B. Licht: Fenster abdunkeln<br />

‐ z.B. Anwesenheit anderer Personen: individuelle Datenerhebung<br />

‐ (z.B. Versuchsleiter: Automatisierung)<br />

Kontrollfaktoren<br />

‐ Einbeziehen der SV in das Untersuchungsdesign als Kontrollfaktor<br />

‐ Effekte der UV & der SV können analysiert werden<br />

‐ z.B. UV Frustration: 2 Stufen (frustriert, nicht frustriert)<br />

‐ z.B. SV Tageszeit als Kontrollfaktor: 2 Stufen (vor vs. nach Mittag)<br />

‐ Untersuchung mit 4 Gruppen:<br />

‐ 1. frustriert & vor dem Mittagessen<br />

‐ 2. nicht frustriert & vor dem Mittagessen<br />

‐ 3. frustriert & nach dem Mittagessen<br />

‐ 4. nicht frustriert & nach dem Mittagessen<br />

‐ Unterschied 1 vs. 2 � Frustration; Unterschied 1 vs. 3 � Tageszeit<br />

‐ Nachteil: Aufwand (Benötigte SP‐Größe wächst mit Anzahl der Stufen der SV)


Täuschung<br />

‐ Fehlinformation über einzelne Aspekte des Versuchs<br />

‐ Verhindert systematische Effekte einzelner Aspekte der Situation: alle VP haben dieselbe Information<br />

‐ z.B. UV: Geschlecht des VL, Täuschung: UV verschweigen; „wir messen Kreativität“ � lenkt von UV ab<br />

‐ z.B. AV: Leistungstest, Täuschung: „Pilotversuch, Daten werden nicht gespeichert“ � reduziert<br />

Einfluss der Prüfungsängstlichkeit<br />

‐ besonders hilfreich bei demand characteristics: Aspekte der Situation, die (a) die wahren Hypothesen der<br />

Untersuchung verraten oder (b) falsche Hypothesen nahelegen<br />

‐ VP wollen VL „einen Gefallen tun“, indem sie der (wahren/vermuteten) Hypothese entsprechend<br />

reagieren � AV nicht valide, evtl. systematisch verfälscht<br />

‐ Problem: Frage der ethischen Vertretbarkeit von Täuschung<br />

Ausbalancieren<br />

‐ Reihenfolgeeffekte kontrollieren: alle möglichen Reihenfolgen realisieren; auf Effekte der Reihenfolge<br />

prüfen<br />

‐ Vermeiden von Positions‐ & Sequenzeffekten bei Messwiederholung (Lernen, Ermüdung, Carry‐Over‐Effekte)<br />

‐ z.B. Effekte von Lärm (UV) auf kognitive Leistungen (AV: Konzentrationstest)<br />

‐ Versuchsablauf A: (1) Test mit Lärm; (2) Test ohne Lärm<br />

‐ Ergebnis: Leistung (2) > Leistung (1) � Interpretation? Lerneffekt?<br />

‐ � Ausbalancieren: zusätzliche Versuchsbedingung B<br />

‐ Versuchsablauf B: (1) Test ohne Lärm; (2) Test mit Lärm<br />

‐ Nachteil: Aufwand<br />

‐ Bei k Versuchsbedingungen sind k! Reihenfolgen notwendig (2! = 2; 3! = 6; 4! = 24; …; 10! = 3.628.800)<br />

‐ Unvollständiges Ausbalancieren<br />

‐ Positionseffekte kontrollieren: alle möglichen Positionen (d.h. nur einen Teil der möglichen Reihenfolgen)<br />

realisieren; auf Effekte der Position prüfen<br />

‐ Vermeiden von Positionseffekten bei Wiederholungsmessung (z.B. letzte AV wird weniger sorgfältig erhoben)<br />

‐ Vorteil: geringerer Aufwand (bei k Versuchsbedingungen sind nur k Reihenfolgen notwendig)<br />

‐ Nachteil: keine Kontrolle von Sequenzeffekten (z.B. Gefährdung wenn AV2 (direkt) nach AV1 erhoben wird)<br />

8. ‐ 11. <strong>Vorlesung</strong>: Versuchspläne<br />

Notationsschema für Versuchspläne<br />

- O (Observation): Beobachtung, Messung einer oder mehrerer Maße;<br />

durchnummeriert bei mehrfachen Messungen (z.B. Messzeitpunkte,<br />

Gruppen)<br />

- X (Treatment, Intervention): kontrollierte Manipulation der UV<br />

- R (Randomisierung): zufällige Zuweisung der Untersuchungseinheiten<br />

zu Bedingungen (vor Untersuchung)<br />

- Zeitverlauf von links nach rechts<br />

- verschiedene Gruppen sind zeilenweise untereinander notiert, z.B. oben EG & unten KG<br />

Nicht‐Experimentelle Versuchspläne<br />

- Charakteristika<br />

- „nur“ systematische Beobachtung einer/mehrererVariablen<br />

- keine Manipulation<br />

- keine randomisierte Zuweisung zu Bedingungen<br />

- Typische Versuchspläne


- One‐shot‐design<br />

- Korrelationsstudien<br />

- Einfache Gruppenvergleiche<br />

- Prä‐Post‐Vergleich<br />

- � z.B. deskriptive Untersuchungen, Umfrageforschung (univariat); Korrelationsforschung (bi‐ oder multivariat)<br />

- Interpretationsmöglichkeiten: Prüfung von Kausalhypothesen nicht möglich!<br />

One‐shot Design<br />

- Beobachtung einer AV an einer SP (mit/ohne Intervention)<br />

- „nur“ systematische Beobachtung einer Variablen; d.h. rein deskriptive Erhebung des Ist‐Zustands (z.B.<br />

Umfrageforschung)<br />

- nur 1 Variable (keine Unterscheidung UV/AV, keine Manipulation)<br />

- nur 1 Gruppe (keine Kontrollgruppe, keine Randomisierung)<br />

- z.B. Studienreform (X) & Messung Studierendenzufriedenheit (O); Spendenkampagne (X) & Messung<br />

Spendenaufkommen (O)<br />

- Interpretationsmöglichkeiten<br />

- beschreibende Aussagen über Häufigkeiten oder Merkmalsverteilungen zum Zeitpunkt der Messung<br />

- Effekt des Treatments nicht quantifizierbar (kein Vergleichswert)<br />

- Zusammenhang X & O kann nicht untersucht werden<br />

Korrelationsstudien<br />

- Beobachtung von 2 (mehreren) Variablen an einer SP<br />

- keine Kontrollgruppe; keine Randomisierung<br />

- keine Trennung von UV‐AV<br />

- Simultane Erhebung der Variablen; keine Manipulation (z.B. Geschäftserfolg & Extraversion)<br />

- mit theoretischer Trennung von UV‐AV<br />

- Simultane Erhebung der Variablen; keine Manipulation<br />

- aber: theoretisch angenommene Kausalrichtung (z.B. je extrovertierter, desto erfolgreicher)<br />

- mit „UV‐AV‐Sequenz“ (Ex‐post‐facto‐Studien)<br />

- Simultane Erhebung der Variablen; keine Manipulation<br />

- theoretisch angenommene Kausalrichtung<br />

- Erhebung zeitlich <strong>zur</strong>ückliegender „UV“ (z.B. UV: Extraversion im frühen Erwachsenenalter; AV:<br />

Geschäftserfolg heute)<br />

- Interpretationsmöglichkeiten<br />

- Aussagen über Zusammenhang möglich<br />

- Aussagen über Kausalität nicht möglich<br />

Einfacher Gruppenvergleich<br />

- Beobachtung einer AV an 2 (durch kategoriale UV definierten) SP/Gruppen<br />

- keine Manipulation, keine Randomisierung, UV‐AV‐Sequenz<br />

- z.B. UV Geschlecht, AV Aggression; Ergebnis: Geschlechtsunterschied<br />

- Problem: Was ist für den Unterschied verantwortlich? („A sex difference finding is a question, not an answer“)<br />

- Interpretationsmöglichkeiten:<br />

- Aussagen über Zusammenhang Gruppe (UV) & AV<br />

- Aussagen über Kausalität nicht möglich<br />

Prä‐Post‐Vergleich („vorexperimentelle Anordnung“)<br />

- Beobachtung einer AV in einer SP vor & nach einer Intervention<br />

- keine Kontrollgruppe, keine zufällige Zuordnung<br />

- z.B. Studierendenbefragung vor und nach einer Studienreform<br />

- Probleme: alle personengebundenen & zeitgebundenen Störvariablen<br />

- Interpretationsmöglichkeiten<br />

- Aussagen über Zusammenhang Intervention & AV<br />

- Aussagen über Kausalität nicht möglich


Quasi‐experimentelle Versuchspläne<br />

- Charakteristika:<br />

- Trennung UV/AV<br />

- systematische Beobachtung der AV<br />

- gezielte Manipulation der UV<br />

- keine randomisierte Zuweisung der VP zu den Bedingungen<br />

- Typische Versuchspläne:<br />

- Nicht‐äquivalenter Kontrollgruppenplan<br />

- Regressions‐Diskontinuitäts‐Analyse<br />

- Interpretationsmöglichkeiten<br />

- Aussagen über Zusammenhang UV & AV<br />

- Aussagen über Kausalität nur eingeschränkt möglich<br />

- nur verwenden, wenn Experiment nicht durchführbar<br />

Problem von Quasi‐Experimenten<br />

- Experiment: alle möglichen/denkbaren SV sind durch Randomisierung kontrolliert � UV ist Ursache<br />

- Quasi‐Experiment: alle möglichen/denkbaren SV können systematisch mit Bedingung (d.h. mit UV) konfundiert<br />

sein � UV & SV als mögliche Ursache<br />

Nicht‐äquivalenter Kontrollgruppenplan<br />

- Vorher‐Nachher‐Messung in 2 Bedingungen (mit Intervention)<br />

- Trennung & Sequenz UV‐AV, Kontrollgruppe, Manipulation<br />

- keine zufällige Zuordnung<br />

- � Vortest notwendig <strong>zur</strong> Korrektur der Vorher‐Unterschiede<br />

- � weit verbreiteter Versuchsplan, wenn Randomisierung nicht möglich<br />

- Interpretationsmöglichkeiten<br />

- Aussagen über Zusammenhang UV & AV<br />

- Aussagen über Kausalität eingeschränkt möglich (z.B. mögliche Gefährdung durch Selektions‐Reifungs‐<br />

Wechselwirkung)<br />

- Zentrales Problem bei Veränderungsmessung (Vorher‐Nachher‐Messung): Unterschiede im Ausgangsniveau<br />

- z.B. Wirksamkeit eines 6‐monatigen Marathon‐Training<br />

- Person X läuft Marathon in 4:00; verbessert sich um 1h<br />

- Person Y läuft Marathon in 2:30; verbessert sich um 15min<br />

- Trainingsgewinn bei Person Y „schlechter“ als bei X? Wirkung des Trainings?<br />

- Interpretationsmöglichkeiten<br />

- Veränderungen im Bezug zum Ausgangsniveau beurteilen<br />

- z.B. Größe der Veränderung an Ausgangsniveau relativieren: prozentuale Veränderung statt Differenz<br />

Regressions‐Diskontinuitäts‐Analyse (RDA)<br />

- Variante des nicht‐äquivalenten Kontrollgruppenplans<br />

- Aufteilung danach, ob Kriteriumswert (cutoff) auf einer kontinuierlichen<br />

Zuweisungsvariablen über‐ oder unterschritten wird � Unterschied zwischen EG & KG (bewusst<br />

herbeigeführt)<br />

- Effekt liegt vor, wenn die Regressionsgerade diskontinuierlich verläuft (sich die<br />

Korrelation verändert)<br />

- Bsp: Zusammenhang Elterneinkommen & Gesundheitszustand Kind<br />

- Vortest: Gesundheitszustand Kinder & Einkommen der Eltern<br />

- Vorhersage Gesundheit; Einkommen als Prädiktor: Regressionsgerade kontinuierlich<br />

- Intervention: Kinder unterhalb einer Einkommensgrenze � 4 Wochen Ferienlager mit<br />

ausgewogener Ernährung & ‐training<br />

- Nachtest: Gesundheitszustand Kinder<br />

- Vorhersage Nachtest: Gesundheit mit Einkommen als Prädiktor:<br />

- Regressionsgerade zeigt deutlichen Knick am Cut‐off‐Wert (Einkommensgrenze)<br />

- Test: unterschiedliche Regressionsgewichte


Experimentelle Versuchspläne<br />

- Charakteristika:<br />

- Trennung & Sequenz UV‐AV<br />

- systematische Beobachtung der AV<br />

- gezielte Manipulation der UV(n)<br />

- randomisierte Zuweisung zu den Bedingungen<br />

- Typische Versuchspläne:<br />

- Labor‐ vs. Feldexperiment<br />

- Randomisierter Kontrollgruppenplan mit/ohne Vortest<br />

- Interpretationsmöglichkeiten<br />

- Aussagen über Zusammenhang UV & AV<br />

- Aussagen über Kausalität<br />

Labor‐ & Feldexperiment<br />

- Bsp: Steigt die Hilfsbereitschaft unter positiver Stimmung?<br />

- Laborexperiment<br />

- Beobachtung einer AV bei randomisierter Zuweisung zu Bedingungen der UV in „künstlicher“ Umgebung<br />

- Sind Probanden eher bereit, noch einen zweiten FB auszufüllen, wenn man ihnen zuvor fröhliche Musik<br />

vorgespielt hat?<br />

- Umgebung kontrollierbar � höhere interne Validität<br />

- Feldexperiment<br />

- Beobachtung einer AV bei randomisierter Zuweisung zu Bedingungen der UV in der „natürlichen“ Umgebung<br />

- Sind Leute eher bereit, jemanden am Kopierer vorzulassen, wenn sie zuvor dort 2 Euro gefunden haben?<br />

- Umgebung „natürlicher“ � u.U. höhere externe Validität<br />

Verschiedene Arten von Kontrollgruppen<br />

- Kontrollgruppe erhält…<br />

- keine Behandlung/Intervention<br />

- Placebo‐Behandlung/Intervention<br />

- etablierte Standard‐Behandlung/Intervention<br />

- Wartelistenplatz: Behandlung erfolgt nach der Studie<br />

- � je nach Fragestellung andere Typen von Kontrollgruppen sinnvoll<br />

Kontrollgruppenplan ohne Vortest<br />

- Beobachtung der AV nach Randomisierung & Manipulation der UV<br />

- Trennung und Sequenz UV‐AV<br />

- systematische Beobachtung der AV<br />

- gezielte Manipulation der UV(n)<br />

- randomisierte Zuweisung zu den Bedingungen<br />

- z.B. Wirksamkeit des Marathon‐Trainings nach zufälliger Zuweisung<br />

- Häufiges Design; oft mehrstufige Varianten<br />

- Statt An‐/Abwesenheit des Treatments/Trainings (X) auch Vergleich verschiedener Treatments/<br />

Treatmentabstufungen<br />

- Interpretationsmöglichkeiten<br />

- Aussagen über Zusammenhang UV & AV<br />

- Aussagen über Kausalität<br />

- Varianten:<br />

- 2 Treatments, keine KG<br />

- z.B. neues Treatment im Vergleich zu Standardtreatment, das gut gegen KG abgesichert<br />

- z.B. unterschiedliche Ausprägungen des Treatments<br />

- 2 Treatments & eine KG<br />

- z.B. 2 inhaltliche Varianten des neuen Treatments vs. KG<br />

- z.B. unterschiedlich starke Ausprägungen des Treatments vs. KG


Kontrollgruppenplan mit Vortest<br />

- Beobachtung der AV vor & nach Randomisierung & Manipulation der UV<br />

- vorher bestehende Unterschiede zwischen den Gruppen prüfbar; reduziert<br />

Fehlervarianz (erhöht statistische Validität)<br />

- Problem: Sensitivierung, Übungseffekte; durch Vortest (potentielle Gefährdung interne bzw.<br />

Konstruktvalidität); abhängig von Messmethode � Kontrolle des Vortest‐Effekts<br />

- Interpretationsmöglichkeiten<br />

- Aussagen über Zusammenhang UV & AV<br />

- Aussagen über Kausalität<br />

- Varianten:<br />

- Prä‐Post‐Messungen bei randomisierter Zuordnung & 2 unterschiedlichen Treatments<br />

- 2 Treatments und eine KG<br />

Solomons Vier‐Gruppen‐Plan<br />

- Kombination der beiden elementaren Versuchspläne<br />

- Vorteile<br />

- Analyse möglicher Effekte des Vortests auf AV & Wechselwirkung zwischen Vortest & Treatment<br />

- Repliziert Effekt des Treatments (O2>O1, O2>O4, O5>O6, O5>O3)<br />

- Nachteile<br />

- komplizierte Auswertung & Interpretation; großer Aufwand<br />

- � Im Zweifelsfall: einfacheren Kontrollgruppenplan ohne Vortest<br />

Mehrfaktorielle Versuchspläne<br />

- Faktorielles (2x2‐) Design<br />

- Alle möglichen Kombinationen der (beiden 2‐fach gestuften) Faktoren sind realisiert<br />

- Bsp: Lernen<br />

- UV A: Lernhäufigkeit (A1: hoch vs. A2: niedrig)<br />

- UV B: Lerndauer (B1: lang vs. B2: kurz)<br />

- 2x2‐Design: 4 Versuchsbedingungen als Kombination von A & B:<br />

- A1B1: hohe Lernhäufigkeit, lange Lerndauer<br />

- A1B2: hohe Lernhäufigkeit, kurze Lerndauer<br />

- A2B1: niedrige Lernhäufigkeit, lange Lerndauer<br />

- A2B2: niedrige Lernhäufigkeit, kurze Lerndauer<br />

Faktorielle Designs<br />

- Alle möglichen Kombinationen der Faktoren sind realisiert<br />

- Vorteile:<br />

- Effizienter als eine Durchführung jeweils einzelner Experimente für jeden der Faktoren<br />

- Untersuchung von Interaktionseffekten möglich<br />

- Haupteffekt: Wirkung eines Faktors A unabhängig von den Stufen des anderen Faktors<br />

- Bsp: Frustration erzeugt bei allen Personengruppen Aggression<br />

- Interaktion: Wechselwirkung zwischen 2 Faktoren; Wirkung eines Faktors A hängt von Ausprägung des Faktors<br />

B ab<br />

- Bsp: Frustration erzeugt nur bei Männern Aggression (nicht bei Frauen)<br />

Beispiel Interaktionseffekte<br />

- Untersuchung zum Einfluss von Alkohol (UV1) & Kaffee (UV2)<br />

auf die Reaktionszeit (AV)


Interaktionsarten<br />

- Keine Interaktion<br />

- Ordinale Interaktion<br />

- Hybride Interaktion<br />

- Disordinale Interaktion<br />

Interaktionen & Interpretation<br />

- Bei vorliegenden (statistisch signifikanten) Interaktionen sind die Haupteffekte teilweise oder vollständig<br />

schwer zu interpretieren<br />

- Ordinale Interaktion oft unproblematisch: Haupteffekte bleiben interpretierbar<br />

- Interaktion: Alkohol verlangsamt die Reaktionen stärker, wenn kein Kaffee getrunken wurde, als wenn Kaffee<br />

getrunken wurde<br />

- Haupteffekt: Alkohol verlangsamt die Reaktionen<br />

- Haupteffekt: Kaffee beschleunigt die Reaktionen<br />

- Hybride & disordinale Interaktionen problematisch: Haupteffekte nicht interpretierbar<br />

- Interaktion: Alkohol verlangsamt Reaktionen, wenn kein Kaffee getrunken wurde; beschleunigt, wenn Kaffee<br />

getrunken wurde<br />

- Interpretation Haupteffekt: Alkohol verlangsamt die Reaktionen?<br />

Typen von Faktoren bei faktoriellen Designs<br />

- Behandlungs‐ bzw. Treatment‐Faktoren<br />

- Versuchsfaktoren<br />

- Blockfaktoren<br />

- Fixed‐ vs. Random‐Faktoren<br />

- Personenfaktor<br />

- Gruppenfaktor<br />

Treatment‐Faktoren<br />

- aktive Manipulation & Randomisierung � jedes Experiment hat mind. einen Treatment‐Faktor<br />

- Faktorstufen bestehen aus unterschiedlichen Reizen, Instruktionen, Behandlungen oder Situationen<br />

- Faktorstufen stellen die vom VL hergestellten Operationalisierungen der Ausprägungen der UV dar<br />

- Untersuchungseinheiten werden in einem experimentellen Design den Faktorstufen zufällig zugewiesen<br />

- Beispiele:<br />

- Experiment <strong>zur</strong> F‐A‐Hypothese, 2‐stufiger Treatment‐Faktor Frustration (VP wird frustriert/nicht frustriert)<br />

- Experiment zum Gedächtnis für Wörter, 3‐stufiger Treatment‐Faktor; Instruktion (Vokale zählen/einprägen/<br />

bildlich vorstellen)


Versuchsfaktoren<br />

- variiert innerhalb der Untersuchungseinheiten (Personen) � Messwiederholung<br />

- Jede Untersuchungseinheit wird unter allen Stufen des Versuchsfaktors (wiederholt) beobachtet<br />

- ein Versuchsfaktor führt immer implizit einen Personenfaktor P ein<br />

- Somit kann Mittelwert & eine Streuung (Varianz) pro Person ermittelt & in der Analyse berücksichtigt werden<br />

- Beispiele:<br />

- Experiment <strong>zur</strong> F‐A‐Hypothese, 2‐stufiger Versuchsfaktor Aggressions‐AV<br />

(Emotions‐Fragebogen, Mimik/Gesichtsausdruck)<br />

- Experiment zum Gedächtnis für Wörter, 4‐stufiger Versuchsfaktor<br />

Messwiederholung (Gedächtnistest nach 5 Min., 1h, 1d, 1w)<br />

- Einfaktorieller Messwiederholungsplanmit 3 Stufen (s. Bild)<br />

Blockfaktoren<br />

- Untersuchungseinheiten werden nach bestimmten Kriterien zu „Blöcken“ zusammengefasst, die die Stufen<br />

des Faktors bilden<br />

- quasiexperimentelle Faktoren: Zuweisung zu den Faktorstufen nicht zufällig, sondern durch bereits<br />

bestehende Eigenschaften<br />

- Realisierung der UV in Quasiexperimenten oder als Kontrollfaktoren in Experimenten (vgl. Stratifizierung)<br />

- Blockfaktoren, die mit der AV kovariieren, erhöhen Power <strong>zur</strong> Entdeckung der Effekte anderer<br />

interessierender UV, da sie Varianz binden & so die Fehlervarianz verringern<br />

- Bsp: Lebensalter ([0‐15), [15‐30), [30‐45), …), Bildungsniveau (z.B. Anzahl der Bildungsjahre), Soziale Schicht,<br />

Intelligenz (z.B. IQ in gruppierten Werten)<br />

Fester vs. zufälliger Faktor (Fixed vs. random)<br />

- Fixed‐ oder fester Faktor:<br />

- Faktorstufen sind theoretisch oder empirisch begründete Realisierungen der UV (oder sind Realisierungen<br />

einer UV mit wenigen Abstufungen)<br />

- Random‐ oder zufälliger Faktor:<br />

- Faktorstufen stellen eine Zufallsauswahl aus allen denkbaren Faktorstufen dar<br />

- sollen eine „Generalisierung“ auf die Population der möglichen Faktorstufen ermöglichen<br />

- � Fixed‐ & Random‐Faktoren werden in der statistischen Theorie unterschiedlich behandelt<br />

- � Im Allgemeinen wird ein Modell mit festen Faktoren ermittelt<br />

Personenfaktor<br />

- Stufen sind die Personen/Untersuchungseinheiten (meist Zufallsfaktor)<br />

Gruppenfaktor<br />

- Kontrollfaktor, wenn ganze Gruppen von Personen untersucht werden<br />

- Bsp.: wenn (z.B. aus praktischen oder ökonomischen Gründen) nur ganze Gruppen von Personen<br />

(Untersuchungseinheiten) untersucht werden können<br />

- Classroom‐Experiment: Effekte der Gruppe? (Faktorieller Plan, randomisierte<br />

Zuweisung innerhalb der Gruppen)<br />

- Evaluation von Bildungsprogrammen: Effekte der Schule?<br />

(Hierarchischer Plan: Gruppenfaktor Schule genestet in UV A)<br />

Kombinationsmöglichkeiten der Faktoren<br />

- Oft interessieren nicht nur eine UV, sondern die Wirkung mehrerer UV (z.B. als Kontrollfaktoren) & ggf. deren<br />

Interaktionen � Kombination mehrere Faktoren in einer Untersuchung<br />

- Gekreuzte Faktoren: Faktorielle Versuchspläne<br />

- Genestete Faktoren: Hierarchische Versuchspläne<br />

- Komplexe Designs<br />

- Quadratische Designs, (Griechisch‐)Lateinische Quadrate


Faktorielle Pläne: Gekreuzte Faktoren<br />

- Kreuzrelation A x B von 2 Faktoren = Kombination jeder Faktorstufe von A mit jeder Stufe<br />

von Faktor B<br />

- Vorteil: Interaktionen können untersucht werden<br />

- Versuchsplan hat (J = Anzahl Faktorstufen von A)*(K = Anzahl Faktorstufen von B) Zellen<br />

- Prinzipiell beliebig viele Faktoren faktoriell kombinierbar<br />

- z.B. A x B x C‐Design: Haupteffekte A, B, C & Interaktionen A x B, A x C, B x C, A x B x C<br />

Faktorielle vs. Hierarchische Pläne<br />

- Nur selten werden alle Hypothesen eines mehrfaktoriellen Plans geprüft (bzw. die Hypothesen überhaupt<br />

aufgestellt)<br />

- insbesondere werden selten alle Interaktionseffekte eines mehrfaktoriellen Designs untersucht<br />

- d.h. Vorteile faktorieller Designs (Testen von Interaktionen) werden oft nicht ausgenutzt<br />

- Nachteile faktorieller Designs: besonders bei vielen Stufen & Faktoren: hoher Bedarf an VP, hoher Aufwand<br />

(zeitlich, monetär, etc.)<br />

- � Lösungsmöglichkeit: Hierarchische Pläne<br />

Hierarchische Pläne: Genestete Faktoren<br />

- Nestrelation B(A) = je mehrere Stufen des Faktors B werden mit genau einer Stufe des<br />

Faktors A kombiniert<br />

- Voraussetzung: Anzahl der Stufen des Faktors B unter allen Stufen des Faktors A gleich<br />

- Beispiel: Untersuchung der Wirksamkeit von Unterrichtsmethoden<br />

- Nestrelation B(A): Je 2 Klassen (Faktor B) werden mit je einer Unterrichtsmethode (Faktor A) kombiniert<br />

- Vorteil: weniger Aufwand<br />

- geringere Anzahl an Treatmentkombinationen muss realisiert werden: jede einzelne Stufe eines Faktors B tritt<br />

nur unter jeweils einer Stufe des anderen Faktors A auf<br />

- Nachteil: Interaktionseffekte sind nicht prüfbar<br />

- Gruppenfaktoren sind oft genistete Faktoren<br />

- Beispiel für hierarchische Pläne:<br />

- Faktor A: Unterrichtsformen (Treatment‐Faktor)<br />

- Faktor B: Schulklassen (Gruppenfaktor, genestet in A)<br />

- Faktor C: Schulbücher (Treatment‐Faktor, genestet in B)<br />

Gemischte Pläne<br />

- Kombination hierarchischer & faktorieller Pläne � Kreuz‐ & Nestrelationen in einem Versuchsplan<br />

- Beispiel:<br />

- Faktor A: Unterrichtsformen<br />

- Faktor B: Schulbücher<br />

- Faktor C: Geschlecht (Blockfaktor) � C1 = weiblich / C2 = männlich<br />

- Die vorgegeben hierarchischen Kombinationen der Faktoren A & B werden mit<br />

allen Stufen des Faktors C faktoriell kombiniert<br />

Komplexe Versuchspläne<br />

- Ein Versuchsplan wird bestimmt durch<br />

- Anzahl der Faktoren<br />

- Art der Faktoren<br />

- Anzahl der Faktorstufen pro Faktor<br />

- Art der Relationen zwischen den Faktoren (Kreuz, Nest)<br />

- Diese Merkmale können prinzipiell beliebig variiert werden � beliebig komplexe Versuchspläne<br />

Beispiele für komplexe Versuchspläne<br />

- 1) Faktorieller Plan mit 3 Treatmentfaktoren A x B x C (3x4x2)<br />

- z.B. Untersuchung der Wirksamkeit von Therapieformen<br />

- A: Art der Psychotherapie (VT, GT, PA)<br />

- B: Dauer der Behandlung (10, 20, 50, 80 Std.)<br />

- C: Geschlecht des Therapeuten


- Zelle = Treatment<br />

- Prüfbare Effekte: A, B, C, AxB, AxC, BxC, AxBxC<br />

- 2) Hierarchischer dreifaktorieller Plan B(A) x C mit 6(3)x2 Zellen<br />

- z.B.: Untersuchung der Wirkung eines Unterrichtsprogramms<br />

- A = Unterrichtsprogramm (Treatment‐Faktor)<br />

- B = Schulklasse (in Faktor A genesteter Gruppenfaktor)<br />

- C = Geschlecht der Schüler (Blockfaktor)<br />

- Prüfbare Effekte: A, B, C, AxC, BxC<br />

- 3) Zweifaktorieller Plan A x B mit einem Messwiederholungsfaktor B & einem Treatmentfaktor A<br />

- z.B.: Untersuchung des Einflusses der Enkodierung auf Vergessen<br />

- A: Enkodierung (Auswendiglernen vs. bildlich vorstellen)<br />

- B: Messwiederholung (nach 0, 5, 10, 20 Minuten)<br />

- Prüfbare Effekte: A, B, AxB<br />

Quadratische Pläne<br />

- Versuchspläne mit zwei‐ oder mehrfaktoriellen Designs, wobei jeder Faktor p Stufen aufweist<br />

- Bei 2 Faktoren sind somit p 2 Untersuchungsgruppen notwendig<br />

Lateinisches Quadrat<br />

- mit identischem Aufwand (identischer Gruppenzahl) lassen sich auch dreifaktorielle Designs durchführen �<br />

lateinische Quadrate<br />

- Vorteile: geringerer Aufwand (weniger Gruppen, d.h. geringere Gesamt‐SP‐Größe)<br />

- Nachteile: nur Haupteffekte, Annahme: keine Interaktionen<br />

- Interaktion zwischen Faktoren A & B sind nicht definiert & somit nicht testbar<br />

(obwohl paarweise alle Kombinationen realisiert sind)<br />

- Haupteffekte können nur interpretiert werden, wenn davon ausgegangen werden kann, dass<br />

Interaktionseffekte vernachlässigbar sind (theoretische Vorannahme)<br />

Griechisch‐lateinische Quadrate<br />

- Anordnung für 4 Faktoren mit identischem Aufwand (identischer Gruppenzahl) wie lateinische Quadrate<br />

- Voraussetzung: orthogonale lateinische Quadrate<br />

- Orthogonale lateinische Quadrate: jede Kombination kommt gleich häufig vor<br />

- Nicht‐orthogonale lateinische Quadrate: Kombinationen treten mit unterschiedlicher<br />

Häufigkeit auf (Bsp.: A1B2 dreimal, A2B1 gar nicht)<br />

- Vorteile:<br />

- Haupteffekte ausbalanciert (paarweise: jede Stufe A & jede Stufe B)<br />

- (viel) weniger SP<br />

- Beispiel: 4 Faktoren, jeweils 4 Stufen<br />

- 44 = 256 Gruppen nach faktoriellem Design<br />

- 16 Gruppen nach griechisch‐lateinischem Quadrat<br />

- Nachteile:<br />

- Nur Haupteffekte prüfbar<br />

- Abwesenheit von Interaktionseffekten vorausgesetzt (nicht überprüfbar)<br />

Lateinische Quadrate und Reihenfolgeeffekte<br />

- Ziel: Kontrolle der Stimulusreihenfolge<br />

- Oft werden mehrere Stimuli nacheinander dargeboten<br />

- Gefahr von Reihenfolge‐Effekten<br />

- Lösungsansatz 1: Permutation der Stimuli<br />

- Ausbalancieren durch Permutation (jede mögliche Reihenfolge wird realisiert)<br />

- Nachteil des Ausbalancierens: großer Aufwand<br />

- Wird die AV in k verschiedenen Bedingungen erhoben, so müssen k! verschiedene Reihenfolgen realisiert<br />

werden: 2! = 2; 3! = 6; 4! = 24; 5! = 120; 10! = 3.628.800<br />

- Lösungsansatz 2: Lateinisches Quadrat<br />

- Kontrolle von Positionseffekten (jeder Stimulus an jeder Position)<br />

- Keine Kontrolle von Sequenzeffekten (B immer nach A)


Korrelative Untersuchungen:<br />

- Ziel: Untersuchung von Zusammenhängen, Prüfen von Zusammenhangshypothesen<br />

- Korrelation vs. Kausalität<br />

- Querschnitt vs. Längsschnitt<br />

- Cross‐lagged panel<br />

- Pfadanalyse<br />

- Lineare Strukturgleichungsmodelle<br />

Korrelation vs. Kausalität<br />

- Auswahl möglicher Kausalmodelle bei Korrelation zwischen 2 Variablen X & Y<br />

- Kausalmodelle nicht vereinbar mit Nullkorrelation zwischen X & Y<br />

- Korrelative Studien können u.U. Kausalhypothese widerlegen (Nullkorrelation)<br />

- Problem: Teststärke<br />

Querschnitt vs. Längsschnitt<br />

- Querschnitt: gleichzeitige Erhebung aller Variablen � beide Kausalrichtungen möglich<br />

- Längsschnitt: Erhebung zu unterschiedlichen Zeitpunkten � nur eine Kausalrichtung<br />

möglich (später erhobenes Merkmal Y kann früher erhobenes Merkmal X nicht<br />

beeinflusst haben) � mögliche Kausalrichtungen können ausgeschlossen werden<br />

Cross‐lagged panel<br />

- Längsschnittuntersuchung zum Vergleich zweier Kausalmodelle<br />

- Hypothese A: Bildung (B) beeinflusst Einkommen (E)<br />

- Hypothese B: Einkommen (E) beeinflusst Bildung (B)<br />

- Hypothese A: B(25) � E(50)<br />

- Hypothese B: E(25) � B(50)<br />

- Kausalwirkung: Zusammenhang zwischen B & E wächst mit der Zeit<br />

Pfadanalyse<br />

- Grundidee: Partialkorrelationen <strong>zur</strong> Bewertung von Kausalmodellen<br />

- Allgemeines Verfahren <strong>zur</strong> Analyse komplexer Kausalmodelle<br />

Lineare Strukturgleichungsmodelle (structural equation models, SEM)<br />

- Erweiterung um latente Variablen (oval) & ihre Korrelationen<br />

- � komplexe Kausalmodelle mit latenten Variablen & Korrelationen<br />

Populationsbeschreibende Untersuchungen:<br />

- Ziel: Beschreibung der Population, Schätzung von Populationsparametern<br />

- Repräsentativität<br />

- Zufallsstichprobe<br />

- Geschichtete (stratifizierte) Stichprobe<br />

- Klumpenstichprobe<br />

- Mehrstufige Stichprobenverfahren<br />

Repräsentativität (Güte der Schätzung)<br />

- Ziel populationsbeschreibender Untersuchungen: möglichst genaue Schätzung eines Populationsparameters<br />

- Bsp.: Anteil der Raucher in der dt. Bevölkerung; Mittelwert der Körpergröße; Varianz des Jahreseinkommens<br />

- Problem: Vollerhebung der Population meist nicht möglich<br />

- � Ausweg: möglichst „repräsentative“ SP<br />

- Güte der Schätzung: Zielparameter soll in SP möglichst genauso groß sein wie in Population<br />

- möglichst „typische“ SP ziehen, die sich nicht in relevanten Merkmalen von Population unterscheidet<br />

- Problem: Welches sind die relevanten Merkmale?<br />

- „Repräsentativität“ � Verzerrungsfreiheit der Schätzun<br />

- Größe der SP allein nicht ausschlaggebend für Güte der Schätzung: bei verzerrter Auswahl hilft auch große SP<br />

nicht (Bsp.: Umfrage <strong>zur</strong> US‐Präsidentschaftswahl 1936: Roosevelt vs. Landon)


Zufallsstichprobe<br />

- Zufällige Ziehung aus der Population<br />

- Jedes Element der Population hat gleiche Chancen, in SP aufgenommen zu werden<br />

- Jede der möglichen SP (mögliche Kombinationen aus n Elementen) ist gleich wahrscheinlich<br />

- Achtung: Zufallsstichprobe ist NICHT<br />

- die zufällige Zuweisung von VP zu Bedingungen<br />

- die Befragung „zufällig“ ausgewählter Passanten auf der Straße<br />

- SP von Studierenden, die gerade Zeit & Lust haben<br />

- Probleme:<br />

- vollständige Liste praktisch nie vorhanden/erstellbar<br />

- Gefahr von Verzerrungen besteht auch nach SP‐Ziehung (z.B. zufällig gezogene Probanden können/wollen<br />

nicht teilnehmen)<br />

Geschichtete (stratifizierte) Stichprobe<br />

- Zufallsstichproben aus Teilpopulationen<br />

- P wird geteilt anhand eines oder mehrerer wichtiger Merkmale (z.B. Schulabschluss); Zufallsstichprobe aus<br />

jedem Teil von P<br />

- meist soziodemographische Merkmale (Alter, Geschlecht, Bildung, Einkommen etc.); idealerweise hoch<br />

korreliert mit Zielmerkmal<br />

- Güte der Schätzung abhängig von Stichprobenanteil jeder Schicht<br />

- proportional geschichtet: Anteil in SP = Anteil in P<br />

- � alle Elemente in P haben weiterhin gleiche Chancen, in SP zu kommen; beste Wahl bei gleicher Streuung<br />

des Merkmals in den Schichten<br />

- disproportional geschichtet: Anteil in SP ≠ Anteil in P<br />

- � evtl. Verzerrungen können korrigiert werden durch Gewichtung der Kennwerte der einzelnen Schichten mit<br />

deren Anteil in P<br />

- � kann bei ungleicher Streuung bessere Schätzung liefern (Berechnung optimalen SP‐Umfangs)<br />

Klumpenstichprobe<br />

- Zufallsstichprobe von Klumpen, Vollerhebung<br />

- P besteht aus natürlichen Gruppen (Klumpen, z.B. Schüler: Schulen, Klassen; Patienten: Krankenhäuser)<br />

- eine Zufallsauswahl von Klumpen wird vollständig untersucht<br />

- einfacher als Zufallsstichprobe: nicht Liste aller Personen, sondern nur aller Klumpen wird benötigt<br />

- Güte der Schätzung abhängig von Homogenität der Klumpen bzgl. Zielmerkmal<br />

- Schätzung schlechter, wenn Zielmerkmal zwischen Klumpen variiert<br />

- Schätzung besser, wenn Klumpen sich untereinander ähnlich sind<br />

- Heterogenität innerhalb der Klumpen erhöht Güte der Schätzung (z.B. Gesamtschulen vs. Gymnasien)<br />

Mehrstufige Stichprobenverfahren<br />

- Kombination verschiedener Auswahlmethoden<br />

- Bsp. 1: erst Klumpen‐SP, dann aus jedem Klumpen eine Zufallsstichprobe<br />

- Beispiel: Durchschnittliche Verweildauer im Krankenhaus<br />

- einige Krankenhäuser zufällig auswählen<br />

- je eine Zufallsstichprobe der Patienten eines Krankenhauses<br />

- Bsp. 2: geschichtete Stichprobe: erst Schichtenbildung, dann daraus Zufallsstichprobe<br />

- Beispiel: Anteil der Wähler, die für Kandidat X stimmen<br />

- Bevölkerung nach Alter, Geschlecht, Bildung einteilen<br />

- aus jedem Teil eine Zufallsstichprobe ziehen<br />

Zusammenfassung Populationsbeschreibende Untersuchungen<br />

- „Repräsentativität“ der Stichprobe (Güte der Schätzung): Ausmaß, in dem Zielmerkmal in SP gleich dem in P<br />

- Zufallsstichprobe: Zufällige Ziehung aus Population; gleiche WS für jedes Element<br />

- Geschichtete (stratifizierte) Stichprobe: Einteilung der Population in Schichten; dann Zufallsstichprobe aus<br />

Elementen jeder Schicht<br />

- Klumpenstichprobe: Zufallsstichprobe von Klumpen; Vollerhebung der Klumpen<br />

- Mehrstufige Stichprobenverfahren: stufenweise Kombination von Methoden

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!