10.07.2015 Aufrufe

Skript Evaluationsmethoden von der Angelika N. - Seelensammler

Skript Evaluationsmethoden von der Angelika N. - Seelensammler

Skript Evaluationsmethoden von der Angelika N. - Seelensammler

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Evaluationsmethoden</strong>Lengenfel<strong>der</strong> SoSe 2009Utilization-focused Evaluation Patton, M.Q.• Sehr starker Focus auf die Beteiligtengruppe(n)• Developmental Evaluation: Evaluatoren müssen aktiv an <strong>der</strong> Evaluations-Nutzung arbeiten - undihren Unabhängigkeitsstatus aufgeben• Ziel: Entscheidungsfindung, Meinungsklärung, Identifizierung <strong>von</strong> Verbesserungspotentialen• Intended use bei intended users wird erreicht durch:- Overcoming staff fear- Asking the right questions- Being situationally responsive as an expert evaluator- Reection and evaluation- Being an advocate for evaluationBeitrag zur Evaluationsforschung:• Pragmatischer Ansatz - Gut ist was wirkt• Rollenwechsel beim Evaluator• Eval-Nutzen ist: Summativ, formativ und Wissensgenerierungweiter AnsätzeThe Four Levels / Kirkpatrick Erstes Konzept für die Systematisierung <strong>der</strong> anfallenden Evaluationsinformationen.Aus Trainingsevaluation. Theorie weniger wichtig als direkte Umsetzbarkeit - Daher wenig Anerkennung <strong>von</strong> <strong>der</strong>Community. Vier Ebenen <strong>der</strong> Zuordnung <strong>von</strong> Evaluationsergebnissen: Eb1 Reaktionsebene, Eb2 Lernerfolg, Eb3Verhalten und Eb4 En<strong>der</strong>gebnis.Empowerment Evaluation / Fetterman Unterstützung <strong>der</strong> Evaluationsbeteiligten zur Selbstevaluation.Evaluationsstarthilfe, die für die Beteiligten Kompetenzen aufbauen sollen, den Prozess zukünftig alleine zu leiten.(Empowerment = Befähigung; Hilfe zur Selbsthilfe).Ansätze im Vergleich• Einsatzgebiet unterschiedlich - je nach Fragestellung und Anfor<strong>der</strong>ungen• Wissenschaftlicher und Erkenntnistheoretischer Hintergrund <strong>der</strong> Personenbestimmt Ansatz• Zugang zu Evaluation kann sehr unterschiedlich sein• Wissen um unterschiedliche, erfolgreiche Zugänge kann genutzt werden, umAnfor<strong>der</strong>ungen zu bestimmen und danach den geeigneten Ansatz zu wählen - <strong>der</strong>Hilfe und Struktur für die Planung gibt• Eigene Zuordnung zu Ansatz zeigt, dass das Vorgehen Überlegungen entspringt,die sich in die An<strong>der</strong>er einordnen.Teil III Planung und Gestaltung <strong>von</strong> EvaluationenAufgaben <strong>der</strong> Evaluations-PlanungÜblicher Evaluationsablauf1. Definition <strong>der</strong> zu evaluierenden Maßnahme2. Zielsetzung <strong>der</strong> Evaluation3. Planung des Evaluationsprojekts4. Datenerhebung und -auswertung5. Berichtlegung6. Bewertung und weitergehen<strong>der</strong> Nutzen► Projektmanagement• Informationsbeschaffung• Entwicklung eines vorläufigen Arbeitsplans• Zeit- und Kostenschätzung► Designfrage• Entwicklung eines Untersuchungsplans• Auswahl und Applikation spezifischer Datenerhebungsverfahren• Identifikation u. Überprüfung potentieller Störquellen11/23


<strong>Evaluationsmethoden</strong>Lengenfel<strong>der</strong> SoSe 2009► Auswertung• Entscheidung für bestimmte Maße <strong>der</strong> Effektstärke• Wahl eines spezifischen Auswertungsverfahrens• Qualitative VerfahrenProjektmanagementInformationsbeschaffung► Je nach Auftraggeber ist mehr o<strong>der</strong> weniger zu for<strong>der</strong>n.► Liste mit gewünschten Informationen erstellen und abarbeiten.► Informationsbeschaffung über unterschiedliche Quellen für möglichstvollständiges Ausgangsbild• Akten• persönliche Gespräche mit Auftraggeber• persönliche Gespräche mit Betroffenen/Beteiligten► Informationsbeschaffung auf unterschiedlichen Ebenen• Anfor<strong>der</strong>ungen und Aussagen des Auftraggebers• Restriktionen des Auftraggebers• Spezifische Eigenschaften u. Qualitäten des Eval-Objektes• Bisherige Evaluationen des AuftraggebersEntwicklung eines vorläufigen ArbeitsplansAufstellung <strong>der</strong> Posten auf Basis eines vorliegenden Arbeitsplans mit …► Zeitschätzung► Kostenschätzung► Personalschätzung• Anfor<strong>der</strong>ungen• Zeitvolumen• EntlohnungDilemmasituation:Wenn zu viele Ressourcen geplant sind, bekommt man das Projekt nicht. Wenn zuwenige Ressourcen, großes Risiko für die eigene Person/Firma. → Kosten für diePlanung selbst werden oft unterschätzt!Zeit- und KostenschätzungNotwendig sind …► Eigene, einzelnen Arbeitsschritte in <strong>der</strong> zeitlichen Abfolge► Entscheidungspunkte die vom Auftraggeber zu klären sind; Arbeiten, die vomArbeitgeber erbracht werden müssen + bis wann.► Aufwand pro Arbeitsschritt• Zeit• Ressource• PersonalZeitschätzungen Entwe<strong>der</strong> deterministisch (=Einzelwert) o<strong>der</strong> stochastisch(=Intervalle). Vorteil stochastisch: Schätzung für den Mind. und Max. AufwandMethoden/Techniken dazu sind …► Balkenplan► Quick-Look Plan► NetzplanEs gilt: Die richtige Methode, ist die, mit <strong>der</strong> die Planung gut abgebildet werden kannund sich auch nachträglich als richtig und ausreichend flexibel erwiesen hat.12/23


<strong>Evaluationsmethoden</strong>Lengenfel<strong>der</strong> SoSe 2009Exkurs: Naturalistische Evaluation► Keine experimentellen o<strong>der</strong> statistischen Kontrollen► Keine quantitativen Daten (wie Skalen, Auswertungen, etc.)► Ziel: Die Maßnahme und <strong>der</strong>en Auswirkungen soll unvoreingenommene und offene beschrieben,interpretiert und verstanden werden.► Naturalistische Evaluationen werden auch bezeichnet als:• Ethnographisch• Ideographisch• Interpretativ• HermeneutischFazit:Häufig partizipatorisch und formativ orientiert. Haben nicht den Anspruch wissenschaftlich fundiert zusein.Auswahl und Applikation spezifischer Datenerhebungsverfahren► Tests / Fragebögen Wünschenswert: Auf die Anfor<strong>der</strong>ungen hin konstruierteMessverfahren die den Testgütekriterien entsprechen - ist aber fast nie möglichzusätzlich zu den an<strong>der</strong>en Eval-Aufgaben. Problem <strong>der</strong> bestehenden Verfahren:• Geringe Än<strong>der</strong>ungssensitivität (wegen hoher Re-Test Reliabilitäten)• Meistens zu viele Items (=zu lange Bearbeitungszeit)• Konstrukte <strong>der</strong> Tests oft sehr spezifisch - in Eval allgemeiner notwendig• Zusammenhang Testwert $ Nutzen ist unbekannt► Beobachtung Überall dort sinnvoll, wo Aufwand bewältigbar und Eval-Kriterienbeobachtbar. Direkt wenn möglich immer besser als indirekte Messung. Aber:Zusammenhang UV $ AV dadurch nicht erhebbar► Interviews Zur Erhebung <strong>der</strong> subjektiven Wirkzusammenhänge und komplexerSysteme; aber sehr hoher Durchführungsaufwand. Interview soll geführt sind, umSubjektivität des Interviewers möglichst gering zu halten - vor allem wenn diesubjektiven Theorien <strong>der</strong> VPn das Messobjekt sind.Fazit:Wahl <strong>der</strong> Datenerhebungsmethoden nach inhaltlichen und strukturellen Kriterienfestgelegt. Oft gilt: Je exakter die Methode <strong>der</strong> Messung, desto geringer <strong>der</strong>Nutzen!Identifikation u. Überprüfung potentieller StörquellenBei Durchführung <strong>von</strong> Eval-Projekten zahlreiche Fehlerquellen durch Untersuchungim Feld. Häufige Störquellen sind:Reifung Verän<strong>der</strong>ungen in den AVs gehen auf natürliche und nicht den eigentlichen TreatmentEffekte zurück (Problem <strong>der</strong> internen Validität) - Kann nicht immer kontrolliert werden.Äquivalenzprobleme Zufällige Zuordnung <strong>der</strong> VPn zu Treatments nicht möglich (oft durchfreiwillige Teilnahme <strong>der</strong> VPn o<strong>der</strong> Problematik <strong>der</strong> Unterschiedlichkeit <strong>der</strong> Treatments); Keinezufälligen TreatmentanordnungenMortalität (statistisch) Problem des Ausscheidens <strong>von</strong> VPn (aus unterschiedlichen Gründen)Aufgaben für die EvaluatorInnen:Alle denkbaren Störeffekte möglichst ausschließen können, o<strong>der</strong> gering halten.Wegen quasiexperimenteller Untersuchungsbedingungen aber immer Störeinflüssevorhanden.→ Evaluations-Studien immer angreifbar!14/23


<strong>Evaluationsmethoden</strong>Lengenfel<strong>der</strong> SoSe 2009AuswertungVorab klären:► Inwieweit möchte Auftraggeber in die Planung <strong>der</strong> Auswertung einbezogenwerden bzw. informiert werden► Entscheidung für statistisches o<strong>der</strong>/und hermeneutisches Vorgehengeisteswissenschaftliches Verfahren → Person, die deutet, geht unvoreingenommen vor► Feste Stichprobengröße vs. sequentielles Vorgehen nach und nach Stichproben, bis sig. o<strong>der</strong>klar, dass sehr kleiner Effekt → weniger Kosten, aber dafür unübersichtlicherVorteil sequentiell: Erhebliche Reduktion des Erhebungsaufwands (bis zu ), daswirksamere Treatment wird weniger Leuten vorenthalten, die notwendige,vermehrten Vorüberlegungen im Planungsstadium zeichnen klareres Bild.Nachteil sequentiell: Kosten <strong>der</strong> Datenerhebung nicht kalkulierbar, Stichprobenwirken auf Auftraggeber manchmal zu klein.Entscheidung für bestimmte Maße <strong>der</strong> Effektstärke► Welche Ergebnisse werden erwartet und wie sind diese zu interpretieren?► Welche Referenz wird für Unterschied herangezogen?► Wie wird <strong>der</strong> Ausdruck signifikant verwendet?► Gruppenaussage vs. Aussage für Einzelperson lassen sich Gruppenaussagen auf Einzelpersonenanwenden? Bis jetzt ein klare Position zur Zulässigkeit, obwohl wir es ständig tun► In welcher Skalierung werden Ergebnisse ausgegeben?► Gibt es einen Unterschied und wie groß ist dieser? → Effektstärkemaße:• Zusammenhangsmaße: r, r 2 , R, R 2 ω, ω 2 , η, η 2• Unterschiedsmaße: Cohens d, Hedges g, ∆ Glass (Unterschied: durch welche Streuung dividiert wird)• Vergleichsmaß: Odds RatioFazit:Unterschiedlichkeit kann sehr unterschiedlich definiert werden, woraus sich auchunterschiedliche Interpretationen ergeben. Dieser Interpretationsspielraum sollapriori durch Festlegung des Unterschiedlichkeitsmaßes eingeschränkt werden.Wahl eines spezifischen Auswertungsverfahrens► Entwe<strong>der</strong> einfache Gruppenvergleiche mittels Effektstärken o<strong>der</strong> Analyse <strong>der</strong>Strukturen in den Daten► Strukturprüfung über multivariate Auswertungsmodelle: Spezialfälle desAllgemeinen Linearen Modell► Probleme:• Stichproben-, Populationsabhängig Ausgangsverteilung etw. linkssteil mit Ausreißern rechts → für Modellwird Normalverteilung angenommen (fitten) → sind diese Personen (Ausreißer) ein Spezifikum <strong>der</strong> Stichprobe?Bekomme ich die gleichen Daten bei Replikation wie<strong>der</strong>?• Interpretation nur deskriptiv aber nicht funktional möglich• Modell ist immer in Gesamtheit zu sehen - einzelne Teile immer im Zusammenhang mit demGanzenFazit:Nicht täuschen lassen vom Anschein <strong>der</strong> Multivariaten Verfahren. Oft eingesetzt umeiner Arbeit einen hohen, wissenschaftlichen Anstrich zu geben. Nur dort sinnvoll,wo Querschnitts- o<strong>der</strong> Längsschnittvergleiche angestellt werden. Modell müssensich bewähren!15/23


<strong>Evaluationsmethoden</strong>Lengenfel<strong>der</strong> SoSe 2009Qualitative Verfahren• Sammelbegriff für Verfahren, mit niedrigen Anfor<strong>der</strong>ungen an das Messniveau• Analysen auf Nominalskalen-Niveau• Hermeneutische Methoden• = Nicht-quantitativ: Subjektive Interpretationen, Verstehenserlebnisse• Hohen Auswertungsaufwand einplanen und kontrollieren ob Kompetenzvorhanden• Einsatz vor allem in Formativen EvaluationenKonfigurale Techniken Es werden Konfigurationen in den nominalskalierten Daten gesucht, weilquantitative Bewertung nicht möglich. Ergeben letztendlich Wenn-Dann Sätze → leichtverständliche, zugängliche Ergebnisse. Problem: Exponentiell steigende Anzahl möglicherKonfigurationen.Strukturierungshilfen Verfahren <strong>der</strong> Inhaltsanalyse, die über das Auszählen <strong>von</strong> Worthäufigkeitenhinausgehen. Anwendungsbereich: Offene Interviews in Bildungsevaluation, Therapieevaluation,etc. Erstellen <strong>von</strong> Strukturen aus qualitativen Datenerhebungen.Verstehen In vielen geisteswissenschaftlichen Bereichen das wissenschaftliche Vorgehen. InEvalforschung <strong>von</strong> untergeordneter Bedeutung. Öffentliche Akzeptanz rein verstehen<strong>der</strong> Eval-Methodik sehr gering → je<strong>der</strong> kann dann Experte sein.Fazit:Qualitative Verfahren bzw. qualitative Daten werden in je<strong>der</strong> Evaluation <strong>von</strong> Interesseund Nutzen sein. Alleinige Anwendung qualitativer Verfahren eher nur dort woan<strong>der</strong>e Zugänge nicht möglich. Qualitative Daten liefern oft den Rahmen, umquantitative Daten einordnen und präsentieren zu können.Fazit zur Evaluations-Planung► Je nach Ursprung des Auftrags (Projekt wird einem angeboten o<strong>der</strong> man bewirbtsich um ausgeschriebenes Projekt), startet das Projektmanagement anunterschiedlichem Ausgangspunkt.► Planungsdilemma: Je genauer die Planung desto aufwändiger und teurer, dafürmeist guter Plan. Je ungenauer <strong>der</strong> Plan, desto billiger, aber auch risikoreicherbezüglich Durchführbarkeit - nicht - vorhergesehene Probleme sind finanziellnicht abgedeckt.► Je größer Projekt, desto sinnvoller ist ein großes, erfahrenes, interdisziplinäresEvaluatoren-Team.► Ersten Projekte sollten nicht alleine geplant werden (Lehrgeld).► Methodik hängt <strong>von</strong> <strong>der</strong> Fragestellung ab: Mischung aus quantitativen undqualitativen Daten (mit Schwerpunkt quantitativ) ist üblich.Es gilt:Wenn <strong>der</strong> Plan konkret, genau und gut ist kann man sich in <strong>der</strong> Durchführung auf dieEinhaltung des Plans beschränken - ohne Nachkorrektur.GestaltungsaspekteFragen die zu klären sindEvaluationsziel Warum wird evaluiert?Evaluationsbereiche In welchem gesellschaftlichen Bereich wird evaluiert?Evalutionsnutzung Wie werden die Ergebnisse aufbereitet und verwendet?-------------------------- ---------------------------------------------------------------------------Evaluationsobjekt Wer / was wird evaluiert?Evalutionsmodell Wie wird evaluiert?Evaluationsort Wo wird evaluiert?16/23


<strong>Evaluationsmethoden</strong>Lengenfel<strong>der</strong> SoSe 2009EvaluationszieleWarum wird evaluiert?► Ziele sind fremdbestimmt - Fragestellung kommt <strong>von</strong> außen.► Welche Personen haben welche Ziele und welche Wünsche an dieEvaluationsergebnisse?► Ziele müssen oft erst erarbeitet werden (sehr wichtig für die Akzeptanz)► Ausarbeitung <strong>der</strong> Ziele = Teil des Auftrags (ähnlich wie Diagnostik)► Explizite und Implizite Ziele (nicht alle Ziele werden vom Auftraggeber explizitgemacht, aber am Projektende meist explizit gefor<strong>der</strong>t)Fazit:Evaluation benötigt neben <strong>der</strong> wissenschaftlichen Kompetenz ein sehr hohes Maß ankommunikativer Kompetenz (Mediation). Je sicherer man sich <strong>der</strong> tatsächlichenZiele sein kann, desto erfolgreicher wird die Evaluation sein.Kontrollzyklus• THEMA & ZIELE↓• Konkreten FRAGESTELLUNGEN↓• HYPOTHESEN↓• METHODE↓• DURCHFÜHRUNG↓• ERGEBNISSEN↓• INTERPRETATIONEN↓• ANTWORTEN AUF FRAGESTELLUNG↓• ZIELERREICHUNG ?Fazit:Sobald sich die Ziele än<strong>der</strong>n - än<strong>der</strong>t sich auch das Vorgehen (und umgekehrt!).Zielän<strong>der</strong>ungen sollten nach Möglichkeit vorhergesehen werden undEvaluationsplanung soll diese schon berücksichtigen.EvaluationsbereicheIn welchem gesellschaftlichen Bereich wird evaluiert?► Fast immer im praktischen Anwendungsfeld► Anwendungsfel<strong>der</strong> bedingen das pers. Auftreten des Evaluators.► Anwendungsfeld definiert:• Spielregeln• Arbeitsmöglichkeiten• Rechtliche RahmenbedingungenIn folgenden Bereichen ist Evaluationforschung zu finden:BildungssektorWirtschaftAgrar- u. VerkehrspolitikFamilien- u. SozialpolitikJustizvollzugBeschäftigungspolitikUmweltpolitikGesundheitswesenStädtebau- u. WohnungspolitikMilitärischer BereichFazit:Wo Interesse nach Wirksamkeit <strong>von</strong> Maßnahmen vorhanden ist und fast immer dortwo beschränkte Ressourcen auf eine Vielzahl <strong>von</strong> Optionen treffen wird evaluiert.17/23


<strong>Evaluationsmethoden</strong>Lengenfel<strong>der</strong> SoSe 2009Externe Evaluation Evaluationsplanung und/o<strong>der</strong> Auftrag erfolgt <strong>von</strong> externen, kompetentenEvaluatoren - Evaluatoren sind unabhängig vom konkreten Evaluationsbereich. Bringen oft neueSichtweisen ins Feld. Problem: Interesse an konkreten Maßnahmen meist eher gering undAbhängigkeiten <strong>von</strong> Auftraggeber, Wünsche <strong>der</strong> Evaluierten können oft nicht berücksichtigt werdeno<strong>der</strong> werden übersehen.inwiefern sind Ergebnisse auf Population übertragbarEvaluationsbericht1. Danksagung2. Genauere Beschreibung <strong>der</strong> untersuchten Problemstellung3. Ausführliche Beschreibung des Evaluationsgegenstands4. Genauere Beschreibung <strong>der</strong> Studie (Fragestellung, Durchführung, Ergebnisse, Empfehlung)5. Vergleich mit ähnlichen Evaluationsstudien (optional)6. Empfehlung für weiter Studien (optional)7. Zusammenfassung8. Literatur9. AnhängeFazit:Bericht ist abhängig <strong>von</strong> Projekt und entsprechend auszurichten.Teil IV Statistik für ErwachseneCohen (1990)Things I Have Learned (So Far)Some Things You Learn Aren't So Nur weil man etwas lernt - muss es nicht stimmen. Weil manetwas nicht lernt heißt nicht, dass es falsch ist.Less Is More Weniger ist mehr, außer bei <strong>der</strong> Stichprobengröße (→ Graduate Disease); AV : UV : n- siehe Gigerenzer (Take the Best); DezimalstellenSimple Is Better Diagramme statt/und Zahlen; Wer rechnet kennt seine Zahlen; Wenn <strong>der</strong>Rechenaufwand groß ist, ist die Planung gut; TallyingThe Fisherian Legacy Umgekehrte Fragestellungslogik, die sich wegen <strong>der</strong> eindeutigenEntscheidbarkeit schnell durchsetzte; Entscheidungsrelevanz aber für die PsychologischeForschung weniger wichtigThe Null Hypothesis Tests Us p α Werte sagen uns nichts über die Wahrscheinlichkeit <strong>der</strong> H0;Fisher vs. Neyman & Pearson; Nicht Signifikant ≠ Äquivalent; The Nil-Hypotheses is always false;Poweranalysen für eine bessere psychologische Forschung; Soft Psychology; A-priori Schätzung<strong>der</strong> Populationseffektstärke für StichprobengrößeThings take Time Wissenschaftliche Theorien brauchen manchmal sehr lange, bis sie Konventionsind (unabhängig <strong>von</strong> <strong>der</strong> Güte <strong>der</strong> Theorie)How To Use Statistics see next pageHow to Use Statistics► Deskriptiv (siehe EDA Exploratory Data Analysis) (Lengenfel<strong>der</strong>; solangedeskriptiv suchen, bis man etwas robustes findet, und das versuchen statistischabzusichern, Statistische Inferenz = Qualitätssicherung)► Bessere Forschungsplanung durch die notwendigenStichprobengrößenschätzungen, Effektstärkeschätzungen► Effektstärken statt pα-Werten► Konfidenzintervalle► Zutrauen wissenschaftliche Bewertungen abzugeben – Verantwortung nichtauf statistische Tests abwälzen► pα= .05 soll keine Klippe sein, son<strong>der</strong>n ein AnhaltspunktKonventionen:>.80 starker Effekt >.50 mittlerer Effekt >.20 schwacher Effekt19/23


<strong>Evaluationsmethoden</strong>Lengenfel<strong>der</strong> SoSe 2009Beispiel <strong>der</strong> AnwendungStatistisch … + Praktisch … + KlinischStatistische Signifikanz► Programm A ist besser als Programm BPraktische Signifikanz► Programm A ist besser als Programm B► mit einem Unterschied <strong>von</strong> d = :74,Klinische Signifikanz► Programm A ist besser als Programm B► mit einem Unterschied <strong>von</strong> d = :74,► <strong>von</strong> den 100 Probanden <strong>der</strong> Experimentalgruppe benötigten 34 Personenkeine Medikamente mehr bei Programm A im Unterschied zu 10 Personen <strong>von</strong>Programm BEffektstärken Umrechnungenx xd− 1 2d=r =SD 2 pooledd + 4d=2r1−r2Effektstärken und die APASeit 1994 APA Manual: … eine dringende Empfehlung Effektstärken in diewissenschaftliche Literatur und das Berichten <strong>von</strong> Ergebnissen zu übernehmen.Aber viele Studien zeigen, dass dieser Empfehlung nicht nachgekommen wurde.Seit 2001 APA Manual: … es ist fast immer notwendig Effektstärken zu berichten.Aber: Erst wenn die Herausgeber <strong>der</strong> Zeitschriften Effektstärken verlangen, werdensie Standard werden.Fazit:Effektstärken werden heute in fast allen Peer-Reviewten Zeitschriften gefor<strong>der</strong>t.Cumming & Finch (2005)Inference by EyeConfidence Intervals and How to Read Pictures of Data7 Regeln zum Lesen (5 für CI; 2 für SE Bars)1. Was repräsentieren die Mittelwerte und die Fehler Balken? Stellen die BalkenCIs o<strong>der</strong> SEs dar? Was ist das experimentelle Design?2. Zuerst eine substantielle Interpretation <strong>der</strong> Mittelwerte vornehmen3. Dann eine substantielle Interpretation <strong>der</strong> Balken vornehmen (Streubereich)4. Bei Vergleich zweier unabhängiger Mittelwerte*: p ≤ .05 wenn dieÜberschneidung im Verhältnis <strong>der</strong> 95% CIs ca. 50% beträgt o<strong>der</strong> weniger. BeiNull Überschneidung p ≤ .015. Bei abhängigen Daten: Interpretieren den Mittelwert <strong>der</strong> Differenzen und dieFehlerbalken dieses Mittelwerts. Vorsicht vor Fehlerbalken getrennterabhängiger Mittelwerte bei Messwie<strong>der</strong>holungen: Diese sind irrelevant fürInferenzaussagen6. Zu SE Balken: sind ca. ½ die Länge <strong>der</strong> 95% CIs und stellen ca. 68% CIs dar7. Zu SE Balken: Bei Vergleich zweier unabhängiger Mittelwerte: p ≤ .05 wennsich die Balken nicht überschneiden, Bei ca. doppeltem Abstand p ≤ .01* gilt bei n1 = n2 ≈ 10 und w1 : w2 nicht größer als 2.021/23


<strong>Evaluationsmethoden</strong>Lengenfel<strong>der</strong> SoSe 2009Paul:1. Gruppen (abh. o<strong>der</strong> unabh.?) → erst abh. Var. identifizieren, was wird dargestellt?2. Konfidenzintervall o<strong>der</strong> Error Bars????MW interpretieren (wer hat höheren / niedrigeren, ist besser / schlechter…)3. Interpretation des Bereichs des Konfidenzintervalls (Bereiche angeben)4. Inferenzprüfung per Augeunabhängige Gruppe + KI, wenn Überschneidung <strong>der</strong> KI ≤ 50% → hohe Wahrscheinlichkeit fürsig. am 5%-Level → keine Überschneidung → 1%-LevelKI (CI) = 2*SE → bei SE: keine Überschneidung → sig. 5%-LevelRosenthal, Rosnow & RubinBinomial Effect Size Display - Counternull ValuerR = *100250+R 50-R50-R 50+Rdcounternull= 2ESCounternulld r= 2 EScounternullobtained− ES2d=2 r d + 1nullcounternull=2r1+3r2Odds RatioTeil V Meta-AnalyseEinsatzgebiet <strong>der</strong> Meta-AnalyseDon't mix up with meta-evaluation!► Zur (besseren) Kumulierung <strong>von</strong> Wissen und Absicherung auch kleiner Effekte► Untersuchungseinheit = Studie► Aussagen möglich zu Effekthöhe & -stabilität, mo<strong>der</strong>ierende Variablen, etc.► Nur auf empirische Forschungsstudien anwendbar, die quantitative Ergebnisseliefern. Die Studien müssen konzeptuell vergleichbar sein (ähnliche AVs &UVs).► AVs: Diverse Merkmale des Untersuchungsdesigns und DAS Ergebnis► DAS Ergebnis = Effektstärke des Unterschieds Kontroll- vs.Experimentalgruppe► Ergebnisse werden mit adaptieren sonst üblichen statistischen Technikenbearbeitet (Mittelwerte, Standardfehler, Konvidenzintervalle, etc.)► Thematisches Einsatzgebiet: Unbeschränkt. Überall wo eine Vielzahl <strong>von</strong>Studien zu einem Effekt vorliegt.Meta-Analyse:= Analyse <strong>von</strong> Analysen. Alle Techniken und Methoden <strong>der</strong> quantitativenForschungssynthese.22/23


<strong>Evaluationsmethoden</strong>Lengenfel<strong>der</strong> SoSe 2009Entwicklung <strong>der</strong> Meta-AnalyseEysenck (1952): These: Psychotherapie hat keine zusätzliche positiveWirkung auf Patienten.bis Mitte 1970er: Hun<strong>der</strong>te Studien, die versuchten das Gegenteil zubeweisen - mit sehr unterschiedlichen Resultaten.Literatur-Reviews konnten die Debatte nicht eindeutigklären.Smith & Glass (1977): 375 Psychotherapiestudien; Treatment- KontrollUnterschied statistisch standardisiert undzusammengefasst → Psychotherapie IST effektiv: r =.32; erstmalige Verwendung des Ausdrucks Meta-Analysezeitgleich:Rosenthal & Rubin (1978):Schmidt & Hunter (1977):Ähnliche Studie zu interpersonal expectancy effect(Rosenthal Effekt)Ähnliche Studie zu Validität <strong>von</strong> Berufseinstellungs-TestsHauptrichtungen <strong>der</strong> Meta-AnalyseRosenthal (& Rubin) (Versuchsleitereffekt) Methode baut auf den Vorüberlegungen vielerAn<strong>der</strong>er auf (ab 1931); Effektstärke r (Fisher-Z Transformation.) und Irrtumswahrscheinlichkeiten pα<strong>der</strong> Studien werden für die MA verrechnetHunter, Schmidt & Jackson (ABO) keine Biaskorrektur <strong>der</strong> Effektstärken, aber werden aufverschiedene Error Quellen korrigiert (z.B. Stichproben, Min<strong>der</strong>ung durch schwache Reliabilität,etc.) und gehen so in MA einHedges & Olkin (StatistikerIn) Wird <strong>von</strong> vielen als DIE Standardmethode betrachtet (z. B. AntonKühberger); Studienergebnisse werden in Standardabweichungs Einheiten transformiert (g =korrigiert für Bias) → d; werden kombiniert, auf Homogenität geprüft, Abweichungen werden durchmo<strong>der</strong>ierende stetige o<strong>der</strong> diskrete Variablen erklärt.Fazit des Vergleichs:Johnson, Mullen und Salas (1995) verglichen die Methoden und kommen fürRosenthal und Hedges & Olkin zu sehr ähnlichen Ergebnissen. Schmidt und Hunter(1999) kommen bei Re-Berechnungen zu dem Schluss, dass sich Johnson, Mullenund Salas (1995) falsche Berechnungsformeln verwendet haben und die dreiMethoden bei korrekter Berechung zu sehr ähnlichen Ergebnisse gelangen (beisimulierten Vergleichen).Ablauf einer Meta-Analyse1. Konkretisierung <strong>der</strong> Fragestellung2. Suche und Sammlung <strong>der</strong> vorhandenen Studien3. Kodierung und Bewertung <strong>der</strong> Studien4. Analyse <strong>der</strong> Ergebnisse5. Interpretation <strong>der</strong> Ergebnisse bezüglich <strong>der</strong> FragestellungProbleme <strong>der</strong> Meta-Analyse► File Drawer Problem: Ladenhüter & Studienverfügbarkeit► Äpfel und Birnen Problem: Vergleichbarkeit <strong>der</strong> Studien (Spezifität vs.Generalisation)► Garbage In, Garbage OUT Problem: Studienauswahl nach methodischenKriterien► Nonindependent Effects Problem: (Un-)Abhängigkeit <strong>der</strong> Studien23/23

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!