21.01.2014 Aufrufe

Karteikarten

Karteikarten

Karteikarten

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Diagnostik: Gütekriterien<br />

Diagnostik: Gütekriterien<br />

Split-Half-Reliabilität<br />

Paralleltestreliabilität<br />

Diagnostik: Gütekriterien<br />

Diagnostik: Gütekriterien<br />

Definition: Reliabilität<br />

Wiederholungsreliabili<br />

tät<br />

Diagnostik: Gütekriterien<br />

Diagnostik: Gütekriterien<br />

Auswertungsobjektivi<br />

tät<br />

Interpretationsobjekti<br />

vität<br />

Diagnostik: Gütekriterien<br />

Diagnostik: Gütekriterien<br />

Definition:<br />

Objektivität<br />

Durchführungsobjekti<br />

vität


Diagnostik: Gütekriterien<br />

Gleichwertigkeit mehrerer<br />

gleichartiger Testformen, die<br />

unmittelbar nacheinander oder<br />

mit einigem zeitlichen<br />

Abstand bearbeitet werden.<br />

z.B. wichtig bei der<br />

Wiederholung einer<br />

Schulaufgabe.<br />

Diagnostik: Gütekriterien<br />

Eine erneute Messung nach einiger<br />

Zeit sollte das selbe Ergebnis liefern,<br />

wie die erste Messung.<br />

Notwendig ist allerdings, dass das<br />

Merkmal zeitlich stabil ist. Da<br />

Lernleistung nicht stabil ist<br />

(Übungseffekte) wird eine<br />

Wiederholung der Messung selten<br />

angewendet.<br />

Diagnostik: Gütekriterien<br />

Verschiedene Beurteiler interpretieren das gleiche<br />

Auswertungsergebnis gleich<br />

Diagnostik: Gütekriterien<br />

Aufgabenzusammenstellung wird<br />

halbiert und getrennt bewertet.<br />

Danach Zusammenhang der<br />

Testhälften berechnen.<br />

Keine zeitliche Stabilität des<br />

Merkmals notwendig, aber:<br />

Notwendig ist, dass der Test<br />

konsistent ist, also nicht nach<br />

Schwierigkeit gestaffelt.<br />

Diagnostik: Gütekriterien<br />

Lienert, 1967: Grad der Genauigkeit, mit dem der Test<br />

ein bestimmtes Persönlichkeits- oder<br />

Verhaltensmerkmal misst.<br />

Ein im Test beobachteter Wert setzt sich zusammen aus<br />

der Summe eines wahren Wertes (konstant) und eines<br />

Fehlerwertes (labil, kann an Gegenstand,<br />

Messinstrument oder Beurteiler liegen).<br />

Reliabilität ist ein formales Kriterium, es sagt nichts<br />

über den Inhalt aus.<br />

Reliabilität ist eine Voraussetzung für die Gültigkeit<br />

eines Messung.<br />

Diagnostik: Gütekriterien<br />

Ergebnis unabhängig vom Untersucher<br />

Aus gleichen Ergebnissen sollten gleiche diagnostische<br />

Schlüsse gezogen werden (erst hier findet Notengebung statt).<br />

Herstellung von Interpretationsobjektivität: Existenz von<br />

festen Regeln für diagnostische Schlussfolgerungen (z.B.<br />

Tabellen), Positive Bewertung ab der Hälfte der Punkte zu vier<br />

äquidistanten Klassen zusammenfassen<br />

Schwierigkeiten: Je unterschiedlicher die zu verarbeitenden<br />

informationen und je zahlreicher sie sind, desto schwieriger<br />

ist es, sie objektiv zu interpretieren (z.B. Frage nach dem<br />

Übertritt)<br />

Diagnostik: Gütekriterien<br />

Gleiche Bedingungen für alle Prüflinge.<br />

Situative Faktoren: Tageszeit, Hilfsmittel,<br />

Instruktion<br />

Personale Faktoren: Ermüdung, vorherige<br />

Beschäftigung, Prüfungsangst (nur schwer<br />

beeinflussbar)<br />

Herstellung von Durchführungsobjektivität:<br />

Vereinheitlichung der Aufgabenstellung,<br />

Gleichheit der Instruktionen<br />

Schwächen der traditionellen<br />

Leistungsbeurteilung bezieht sich meist<br />

auf mangelnde Auswertungsobjektivität<br />

Herstellung von Leistungsobjektivität:<br />

Beurteilungsverfahren mit festen Kriterien,<br />

Beurteilungsverfahren mti geschlossenen<br />

Antwortformen (Multiple-Choice)<br />

Diagnostik: Gütekriterien<br />

Lienert, 1967: Grad, in dem Ergebnisse<br />

unabhängig vom Untersucher sind.<br />

Ein Test ist vollkommen objektiv, wenn<br />

verschiedene Untersucher bei denselben<br />

Probanden zu gleichen Ergebnissen gelangen.<br />

Objektivität ist ein formales Kriterium, es sagt<br />

nichts über den Inhalt aus.<br />

Objektivität ist die notwendige Voraussetzung für<br />

die Zuverlässigkeit und Gültigkeit eines Messung.


Diagnostik: Gütekriterien<br />

Diagnostik: Gütekriterien<br />

Testfairness<br />

(Validität)<br />

Herstellung von<br />

Validität<br />

Diagnostik: Gütekriterien<br />

Diagnostik: Gütekriterien<br />

Empirische Validität<br />

Konstruktvalidität<br />

Diagnostik: Gütekriterien<br />

Diagnostik: Gütekriterien<br />

Definition: Validität<br />

Inhaltsvalidität<br />

Diagnostik: Gütekriterien<br />

Diagnostik: Gütekriterien<br />

Konsistenzanalyse<br />

(Reliabilität)<br />

Herstellung von<br />

Reliabilität


Diagnostik: Gütekriterien<br />

Übereinstimmung von Testinhalten und<br />

Unterrichtsinhalt<br />

Eindeutige Arbeitsanweisung und klar<br />

formulierte Aufgaben<br />

Operationalisierung der Lernziele (genaue<br />

Angaben über Inhaltsbeschreibung,<br />

angestrebtes Endverhalten, Maßstab, an dem<br />

es gemessen werden soll)<br />

Inhaltliche Analyse des Stoffes durch Lehrer<br />

Diagnostik: Gütekriterien<br />

Ein Konstrukt ist eine relativ stabile, theoretisch<br />

angenommene Eigenschaft, die nicht beobachtbar ist<br />

(Intelligenz, Angst). Deren Erfassung geschieht über<br />

Theorien, die festlegen, wodurch sich Konstrukte in der<br />

beobachtbaren Ebene zeigen. Das Instrument ist dann<br />

Konstruktvalide, wenn die tatsächlich gefundenen<br />

Beziehungen mit dem theoretischen Modell hohen<br />

Übereinstimmung zeigen.<br />

z.B. Angst messen durch Fragebogen mit Fragen:<br />

Reagieren intelligente Prüfungsängstliche anders als<br />

weniger intelligente, lassen sich körperliche<br />

Begleiterscheinungen nachweisen?<br />

Diagnostik: Gütekriterien<br />

Test repräsentiert das zu messende<br />

Merkmal optimal.<br />

Zentral in der Schule: Ein valider Test muss<br />

eine repräsentative Stichprobe derjenigen<br />

Unterrichtsinhalte umfassen, deren<br />

Kenntnisse es zu prüfen gilt. Vorher muss<br />

eine inhaltliche Analyse durchgeführt<br />

werden. (z.B. Rechenaufgabe mit Text:<br />

Keine hohen Anforderungen an<br />

Leseverständnis).<br />

Diagnostik: Gütekriterien<br />

Negativ auf Reliabilität wirken sich<br />

aus: Ungenauigkeit des<br />

Messintruments (Stichprobenfehler),<br />

Umgebungsfaktoren (Lärmpegel,<br />

Beleuchtung), Temporäre<br />

Veränderungen des Probanden<br />

(Krankheit, Müdigkeit), Ungenaue<br />

Durchführung und Auswertung<br />

(nicht eindeutige Arbeitsanweisung,<br />

unklare Aufgabenstellung)<br />

Diagnostik: Gütekriterien<br />

Keine Benachteiligung<br />

von Subgruppen:<br />

ausländische<br />

Testpersonen bei<br />

sprachgebundenen<br />

Intelligenztests<br />

Diagnostik: Gütekriterien<br />

Aus Ergebnissen kann Verhalten vorhergesagt werden.<br />

Unterscheide:<br />

Gleichzeitigkeitsvalidität: Wie weit stimmen Ergebnisse<br />

von Test A mit Ergebnissen von Test B überein, die<br />

beide das gleiche Wissensgebiet abprüfen. (Zwei<br />

Intelligenztest direkt nacheinander absolvieren)<br />

Vorhersagevalidität: Aus einem früheren Test zu einem<br />

Thema soll das Ergebnis eines späteren Tests zum<br />

gleichen Thema vorhergesagt werden. (Aus Abiturnote<br />

sollen Rückschlüsse über Examensnote gemacht<br />

werden)<br />

Diagnostik: Gütekriterien<br />

Lienert, 1967: Grad der Genaugikeit, mit dem<br />

ein Test dasjenige Persönlichkeitsmerkmal<br />

oder diejenigen Verhaltensweisen tatsächlich<br />

misst, die er messen soll oder vorgibt zu<br />

messen.<br />

Validität ist keine generelle Eigenschaft: Ein<br />

Test kann für einen bestimmten Zweck valide<br />

sein, für einen anderen nicht.<br />

Validität ist im Gegensatz zu Objektivität und<br />

Reliabilität ein inhaltliches Kriterium!<br />

Diagnostik: Gütekriterien<br />

Ein Test wird in seine einzelnen Items<br />

(Fragen, die die gleiche Fähigkeit messen)<br />

zerlegt und aus dem Zusammenhang<br />

zwischen Itemsbeantwortung wird auf<br />

Messgenauigkeit rückgeschlossen.<br />

Messinstrument muss dazu homogen sein<br />

(also dürfen keine unterschiedlichen<br />

Themen abgefragt werden).


Diagnostik: Fähigkeits- und Leistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Beispiel für<br />

Intelligenztest<br />

Definition:<br />

Schulleistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Leistungstests<br />

Intelligenztests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Begriff: Leistung<br />

Fähigkeitstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Begriff: Fähigkeit<br />

Begriff: Fertigkeit


Diagnostik: Fähigkeits- und Leistungstests<br />

Ingenkamp, 1997: Verfahren, mit<br />

deren Hilfe Ergebnisse geplanter<br />

Curricula orientierter<br />

Lernvorgänge möglichst objektiv,<br />

zuverlässig und gültig gemessen<br />

und durch Lehrende ausgewertet,<br />

interpretiert und für<br />

pädagogisches Handeln nutzbar<br />

gemacht werden können.<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

bestehen aus einzelnen Aufgaben aus verschiedenen<br />

Itemgruppen.<br />

Verbale oder Nonverbale Form<br />

Problem- oder Fragestellungen<br />

Fragen nach Gruppen geordnet, die im<br />

Schwierigkeitsgrad ansteigen.<br />

Inhalte von Intelligenztests gewöhnlich nicht in der<br />

Schule unterrichtet<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

HAWIK-R (Hamburg-Wechsler-Intelligenztest für Kinder):<br />

allgemein anerkannt, berechnet eher unterdurchschnittlichen<br />

IQ, wird im Zusammenhang mit Fragen wie Überweisung an<br />

Sonderschulen verwendet. Besteht aus 11 Tests:<br />

Verbalteil: Allgemeinwissen (Wie heißen die 4 Jahreszeiten),<br />

Allgemeines Verständnis (Warum hat jeder Mensch einen<br />

Namen), Rechnerisches Denken (Welche Zahl musst du durch<br />

7 teilen, um...), Gemeinsamkeiten finden (Schmetterling und<br />

Fliegen), Wortschatztest (Was ist Streik), Zahlen nachsprechen<br />

Handlungsteil: Zahlen-Symbol-Tests, Bilder ergänzen (Angabe<br />

fehlender Details), Bilder ordnen (nach Sinn), Mosaiktest<br />

(Geometrisches Muster soll zusammengesetzt werden),<br />

Figurenlegen (Zerschnittene Figur zusammensetzen)<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

messen die Unterrichtsziele eines<br />

bestimmten Kurses oder einer<br />

anderen Einheit des Curriculums.<br />

Messen und Bewerten Ergebnisse<br />

zurückliegender Lernerfahrungen.<br />

Inhalt ist in hohem Grade<br />

unterrichtsbezogen.<br />

Intelligenzstabilisierung im Alter von etwa 12 Jahren.<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

können breite oder spezielle<br />

intellektuelle Fähigkeiten umfassen<br />

(z.B. verbale oder mathematische<br />

Fähigkeiten, räumliche Auffassung,<br />

mechanisches Verständnis).<br />

Fähigkeitstest sind normbezogen.<br />

Wird verwendet, um Informationen<br />

zur Anleitung und Beratung eines<br />

Schülers zu erhalten.<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

bezieht sich auf<br />

bisherige Erfolge bei<br />

der Bewältigung von<br />

Aufgaben, beobachtbar,<br />

lässt auf Fähigkeit und<br />

Fertigkeit schließen<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

gegenwärtig<br />

verfügbares Potential,<br />

etwas zu leisten,<br />

nicht beobachtbar<br />

Technik, Erfahrung,<br />

Kenntnisse, durch<br />

Übung erworben


Diagnostik: Fähigkeits- und Leistungstests<br />

Konstruktionsschritte<br />

für standardisierte<br />

Schulleistungstests:<br />

4. Testdurchführung<br />

an einer kleinen<br />

Stichprobe (200-400)<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Konstruktionsschritte<br />

für standardisierte<br />

Schulleistungstests:<br />

2. Entwurf von<br />

Testitems (Aufgaben)<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Konstruktionsschritte<br />

für standardisierte<br />

Schulleistungstests:<br />

5. Aufgaben- und<br />

Testanalyse mit Daten<br />

der letzten Stichprobe<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Konstruktionsschritte<br />

für standardisierte<br />

Schulleistungstests:<br />

3. Vorerprobung an<br />

wenigen Fällen<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Konstruktion<br />

standardisierter<br />

Schulleistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Konstruktionsschritte<br />

für standardisierte<br />

Schulleistungstests:<br />

1. Analyse der<br />

Lehrpläne<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Unterscheidung von<br />

Schulleistungstests<br />

Definition:<br />

(Sozialnormorientierte<br />

r) Standardisierter<br />

Schulleistungstest


Diagnostik: Fähigkeits- und Leistungstests<br />

Ermittlung der Aufgabenschwierigkeit (oder<br />

Lösungswahrscheinlichkeit): Anordnung der Aufgaben nach<br />

ansteigender Schwierigkeit (Beginn: Eisbrecherfragen). bei<br />

normorientierten Tests soll Lösungswskt. ziwschen 0.2 und<br />

0.8 liegen.<br />

Distraktoranalyse (bei gebundenen Antwortformen): Wie oft<br />

werden Falschantworten angekreuzt? Distraktoren sollten<br />

zwischen 0.1 und 0.15 liegen.<br />

Trennschärfeberechnung: Wie gut trennt Aufgabe zwischen<br />

guten und schlechten Schülern? Korrelation zwischen Leistung<br />

bei einer Aufgabe und Leistung im Test sollte hoch sein.<br />

Berechnung der Verteilungskennwerte (Mittelwert, Streuung)<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Überprüfung der<br />

Verständlichkeit der<br />

Aufgabenformulierun<br />

g<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Überprüfung der<br />

Aufgaben- und<br />

Testlänge<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

nach allgemeinen Regeln (keine doppelten<br />

Verneinungen, nicht zu viele Lücken in Lückentexten,<br />

einfache Satzkonstruktion, eindeutige Formulierungen,<br />

keine verdeckten Hinweise auf Antworten)<br />

formale Gestaltung (gebundene und freie Antworten)<br />

Feststellung der zugelassenen Hilfmittel<br />

Konstruktion von 50-100% mehr Aufgaben, als nötig<br />

Beurteilung der Aufgaben durch Expertenranking<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Sicherung inhaltlicher Validität (Lehrpläne<br />

nach Lerhzielen analysieren)<br />

Erfassung der Lerngelegenheit durch Lehrer<br />

und Klassenunterlagen<br />

Erstellen einer Lehrzielmatrix (Suchschema,<br />

das das Auffinden geeigneter Aufgaben<br />

erleichtert). Auf welchem Anforderungsniveau<br />

sollen welche Inhalte eines Lehrziels erfasst<br />

werden?<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Lukesch: Ein wissenschaftliches<br />

Routineverfahren zur Feststellung des<br />

Kenntnisstandes in einem oder mehreren<br />

inhaltlich spezifizierten kognitiven<br />

Lehrzielbereiches. Dabei werden Aussagen<br />

über die Leistungshöhe aufgrund des<br />

Vergleiches mit den Leistungen einer für<br />

die jeweilige Altersstufe, Schulstufe oder<br />

Schulart repräsentativen Stichprobe<br />

getroffen.<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

1. Analyse der Lehrpläne<br />

2. Entwurf von Testitems (Aufgaben)<br />

3. Vorerprobung an wenigen Fällen<br />

4. Testdurchführung an einer kleinen<br />

Stichprobe (200-400)<br />

5. Aufgaben- und Testanalyse mit Daten<br />

der letzten Stichprobe<br />

6. Testvalidierung<br />

7. Testeichung an einer für den<br />

Anwendungsbereich repräsentativen<br />

Stichprobe<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

standardisiert oder<br />

nichtstandardisiert,<br />

bzw.<br />

bezugsgruppenorienti<br />

ert oder<br />

kriteriumsorientiert


Diagnostik: Fähigkeits- und Leistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Reliabilität<br />

standardisierter<br />

Schulleistungstests<br />

Validität<br />

standardisierter<br />

Schulleistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Nachteile von<br />

standardisierten<br />

Schulleistungstests<br />

Objektivität<br />

standardisierter<br />

Schulleistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Einsatzmöglichkeiten<br />

von Standardisierten<br />

Schulleistungstests<br />

Vorteile von<br />

standardisierten<br />

Schulleistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Konstruktionsschritte<br />

für standardisierte<br />

Schulleistungstests:<br />

6. Testvalidierung<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Konstruktionsschritte für<br />

standardisierte<br />

Schulleistungstests: 7.<br />

Testeichung an einer für<br />

den Anwendungsbereich<br />

repräsentativen<br />

Stichprobe


Diagnostik: Fähigkeits- und Leistungstests<br />

Inhaltsvalidität: Sicherung der curricularen Validität<br />

durch Analyse der Lehrpläne (allerdings nur<br />

annäherungsweise), individuelle Lerngelegenheit kann<br />

nicht berücksichtigt werden, Expertenranking bei<br />

Lehrplananalyse<br />

Empirische Validität: Vergleich der Ergebnisse aus<br />

Stichprobenerhebung mit Schulnoten<br />

(Gleichzeitigkeitsvaldidität), Erhebung der<br />

Vorhersagevalidität ergibt bessere Validität im Vergleich<br />

zu Noten<br />

Konstruktvalidität: auf Grund der hohen Objektivität<br />

und der Standardisierung und normierung sehr gut<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Durchführungsobjektivität: sehr gut, schriftlich<br />

fixierte, vorgegebene Instruktion, Beispiele und<br />

Übungsaufgaben, Vorgabe des<br />

Anwendungszeitraums, Beurteilerschulung<br />

Auswertungsobjektivität: maximal bei gebundenen<br />

Antwortformen, Kriterienkatalog bei freien<br />

Antwortformen notwendig<br />

Interpretationsobjektivität: sehr gut, klare<br />

Instruktionen bezüglich der Interpretation der<br />

Ergebnisse, Angabe der Objektivitätskoeffizienten<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

gute Erfüllung der Gütekriterien<br />

Normierung erlaubt Überprüfung des eigenen<br />

Benotungssystems<br />

Überprüfung des Leistungsstandes der Klasse und<br />

des eigenen Unterrichts<br />

gerechtere Selektion<br />

Hilfe bei Entdeckung individueller Schwächen<br />

überregionaler Vergleich<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Berechnung von Normwerten<br />

als Vergleichsgrundlage<br />

Problem: u.U. nicht<br />

repräsentative Stichprobe, da<br />

besonders motivierte und<br />

gute Klassen teilnehmen.<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

i.d.R. werden alle vier Arten<br />

der Reliabilitätsmessung<br />

berücksichtigt, Messung<br />

auf Basis der<br />

Stichprobenerhebung,<br />

Angabe der<br />

Reliabilitätskoeffizienten<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

bei mangelnder curricularer Validität unfairer Test<br />

negative motivationale<br />

soziale Folgen: Verlust der intrinsischen Motivation<br />

Erstarrung des Unterrichts, Verarmung der Lehrpläne<br />

häufig veraltet<br />

nicht für alle Unterrichtsfächer verfügbar<br />

klassenunabhängige Beurteilung<br />

unökonomisch<br />

kann zur Änderung der Bewertungsstrategie des Lehrers führen.<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Anwendung in Schulklasse: Vergleich<br />

des Leistungsstandes der Klasse mit<br />

den Stichproben, Überprüfung des<br />

eigenen Notensystems durch Vergleich<br />

Forschungsfragen: Überprüfung der<br />

Effektivität verschiedener<br />

Unterrichtsmethoden, der Wirksamkeit<br />

von verschiedenen Schulsystemen<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Überprüfung der empirischen<br />

Validität an kleineren<br />

Stichproben<br />

Überprüfung der<br />

Konstruktvalidität<br />

Berechnung der Relaibilität


Diagnostik: Fähigkeits- und Leistungstests<br />

Nachteile nichtstandardisierter<br />

Prüfungen gegenüber<br />

standardisierten<br />

Prüfungen<br />

Diagnostik: Erhebungsverfahren<br />

Definition:<br />

Beobachtung<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Verbesserungsmöglic<br />

hkeiten für<br />

Gütekriterien bei<br />

nichtstandardisierten<br />

Tests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Vorteile nichtstandardisierter<br />

Prüfungen gegenüber<br />

standardisierten<br />

Prüfungen<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Reliabilität nichtstandardisierter<br />

Schulleistungstests<br />

Validität nichtstandardisierter<br />

Schulleistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Formen schriftlicher<br />

Prüfungen<br />

Objektivität nichtstandardisierter<br />

Schulleistungstests


Diagnostik: Erhebungsverfahren<br />

Graumann, 1978: Die<br />

absichtliche,<br />

aufmerksame Art des<br />

Wahrnehmens, die ganz<br />

bestimmte Aspekte auf<br />

Kosten der Bestimmtheit<br />

von anderen betrachtet.<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

curriculare Validität und Lerngelegenheit wird<br />

berücksichtigt. bei std. SLTs ist curriculare<br />

Validität nicht immer gegeben, Lerngelegenheit<br />

kann nicht berücksichtigt werden.<br />

manche Formen der schriftlichen Prüfung wirken<br />

intrinsisch motiviert (z.B. freie Hausarbeit). std.<br />

SLTs sind wegen geschlossener Antwortformate<br />

und vorgegebenem Thema kaum motivierend.<br />

schriftliche Prüfungen erlauben detaillierte und<br />

umfassende Rückmelden für Prüfer. std. SLTs<br />

werden nur mit Schablone ausgewertet<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Inhaltsvalidität: Curriculare Validität und<br />

Lerngelegenheit berücksichtigt.<br />

Konstruktvalidität: Beeinflussung durch sachfremde<br />

Faktoren (Hadley, 1954: beliebte Schüler erhielten im<br />

Vergleich zu Unbeliebten 50\% bessere Noten, als<br />

angemessen wäre, und umgekehrt), Handschrift,<br />

Geschlecht, länderspezifische Zugehörigkeit<br />

Empirische Validität: Empfehlung der Grundschullehrer<br />

bestätigen sich zu 60\% (Sommer, 1983), kaum<br />

Zusammenhänge zwischen Noten und Berufserfolg<br />

(Althoff, 1986)<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Durchführungsobjektivität: auf Grund des<br />

Gruppenbezuges und des transsituativen Charakters<br />

relativ günstig, besser als bei mündlichen Prüfungen,<br />

schlechter als bei Tests (Standardisierung fehlt).<br />

Auswertungsobjektivität: z.T. mangelhaft (Williams,<br />

1933: Mathematikaufgabe von verschiedenen Lehrern<br />

mit bis zu 100 beurteilen lassen, schwankte zwischen<br />

16 und 96)<br />

Interpretationsobjektivität: beeinträchtigt (Starch, 1913:<br />

Abschlussarbeit in Mathe mit 130 Punkten,<br />

Bestehensgrenze variierte von Schule zu Schule<br />

zwischen 70 und 80 Punkten)<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Gütekriterien sind weniger gut erfüllt, als bei std.<br />

SLTs: v.a. bei freien Arbeiten Validitätsprobleme<br />

wegen mangelnder Auswertungskriterien,<br />

Vorwissen und dem klasseninternen<br />

Bezugssystem. std. SLTs erfüllen Gütekriterien<br />

sehr gut durch Standardisierung, Anonymisierung,<br />

Schablonenauswertung<br />

Objektivitäts- und Reliabilitätsüberprüfungen sind<br />

nur bei Abschlussprüfungen vorgesehen.<br />

bei freien Arbeiten mehr Zeitaufwand für Korrektur<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Durchführungsobjektivität: gleiche Hilfsmittel für alle Prüflinge,<br />

Individualisierung bei Prüfungsängstlichen<br />

Auswertungs- und Iterpretationsobjektivität: Kriterienkatalog einsetzen,<br />

getrennte Beurteilung durch Zweitprüfer, Entwicklung eines schulinternen<br />

Bezugssystems<br />

Wiederholungsreliabilität: Möglichkeit der Prüfungswiederholung einräumen<br />

Inhaltsvalidität: Experten-Ranking bei Fragen, Berücksichtigung der<br />

Lerngelegenheit<br />

empirische Validität: Überprüfung des Zusammenhangs mit anderen Kriterien<br />

(andere schriftliche Prüfungen, mündliche Prüfungen)<br />

Konstruktvalidität: Bewusstheit über Verzerrungseffekte, Transparenz der<br />

Anforderungen, Anonymisierung, mehrere Einzelprüfungen als eine einzelne<br />

Prüfungen.<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Wiederholungsreliabilität:<br />

Bewertung nur unzureichend<br />

stabil (Hartog 1936: 15<br />

Arbeiten in Geschichte von 15<br />

Prüfern bewertet, nach 12-19<br />

Monaten erneute Beurteilung:<br />

in der Hälfte der Fälle<br />

Beurteilung verändert)<br />

Diagnostik: Fähigkeits- und Leistungstests<br />

Klassisch (Aufsatz,<br />

freie Hausarbeit,<br />

Klassenarbeit), Tests<br />

(Satzergänzungen,<br />

Multiple-Choice, Ja-<br />

Nein)


Diagnostik: Beurteilung<br />

Diagnostik: Beurteilung<br />

Vorteile der<br />

Schulaufgabe<br />

gegenüber der<br />

mündlichen Prüfung<br />

Arten von<br />

Bezugsnormen<br />

Diagnostik: Erhebungsverfahren<br />

Diagnostik: Erhebungsverfahren<br />

Soziomatrix<br />

Soziogramm<br />

Diagnostik: Erhebungsverfahren<br />

Diagnostik: Erhebungsverfahren<br />

Definition:<br />

Soziometrie<br />

Dimensionen der<br />

klassischen Methode<br />

der Soziometrie<br />

Diagnostik: Erhebungsverfahren<br />

Diagnostik: Erhebungsverfahren<br />

Arten der<br />

Beobachtung<br />

Beispiel für<br />

standardisierte<br />

Beobachtungsform


Wechsel der Unterrichtsformen kann untersucht werden. Verhaltensphänomene können<br />

Diagnostik: Erhebungsverfahren<br />

Graphische Darstellung der Beziehungen in einer Gruppe, Beziehungen werden<br />

durch Pfeile symbolisiert. Es gibt folgende soziometrische Muster:<br />

Paare: zwei sich gegenseitig Wählende<br />

Dreiecke: drei sich gegenseitig Wählende<br />

Sterne: Einer wird von Mehrere sich untereinander wenig Wählenden vorgezogen<br />

Stars: Personen, die im Mittelpunkt des Sterns stehen<br />

Isolierte: Weder aktiv noch passiv<br />

Abgelehnte: nur ablehnende Wahlen erhalten<br />

Flanders-Interaction-Categories (FIAC, 1970): Analysiert verbales Schüler-, wie<br />

Lehrerverhalten. Unterscheidung zwischen Initiativen und Antworten<br />

Diagnostik: Erhebungsverfahren<br />

Lehrer, Antwort: 1. Akzeptiert Gefühle (Akzeptiert oder klärt eine Haltung oder den<br />

Gefühlston eines Schülers in nicht-bedrohlicher Weise)<br />

2. Lobt oder ermutigt (Kopfnicken, Mach weiter!)<br />

3. Akzeptiert oder verwendet Schülerideen (Klärung, Aufbau oder Weiterentwicklung von<br />

Schülerideen)<br />

4. Stellt Fragen (Basiert auf Lehrer-Ideen mit Absicht, dass Schüler antwortet)<br />

Lehrer, Initiative: 5. Doziert (Gibt Fakten oder Meinungen über Inhalt oder Vorgehen)<br />

6. Gibt Anweisungen (oder Befehle, von denen erwartet wird, dass Schüler sich daran halten)<br />

7. Kritisiert oder rechtfertigt Autorität (Ziel: Schülerverhaltensmuster von nicht-akzeptabel zu<br />

akzeptabel zu ändern)<br />

Schüler, Antwort: 8. Schüler-Rede Antwort (Schüler-Rede in Antwort auf den Lehrer)<br />

Schüler, Initiative: 9. Schüler-Rede Initiierung (Ausdruck eigener Ideen, Anregung eines neuen<br />

Themas)<br />

10. Stille oder Verwirrung (Pausen)<br />

Diagnostik: Beurteilung<br />

Soziale (interindividuelle)<br />

Bezugsnorm<br />

Individuelle (Intraindividuelle)<br />

Bezugsnorm<br />

Sachliche (Objektive,<br />

lernzielbezogene, Ideale)<br />

Bezugsnorm<br />

Vergessene: Nur Wählen, aber keine Wahl erhalten<br />

Probleme: Bekanntheitsgrad nötig, hängt von Gruppengröße ab,<br />

Ernsthaftigkeitscharakter muss vorhanden sein, 5 Wahlen als sinnvolle<br />

Begrenzung, Frage nach Antipathie kann diese stärker ins Gedächtnis rufen.<br />

Diagnostik: Erhebungsverfahren<br />

Friedrichs, 1973: Sympathie<br />

Antipathie: Mit wem würden Sie am liebsten...? Mit wem<br />

µuochten sie nicht gerne...?<br />

Kriterium: Arbeit, Urlaub, Wohnen, Diskussion, ...<br />

Einstellung<br />

Verhalten: Mit wem möchten Sie zusammenarbeiten? Mit wem<br />

haben sie zusammengearbeitet?<br />

Wahrnehmung: Wer wird sie ihrer Meinung nach wählen?<br />

Art der Wahlen: Nur positive, nur negative, beides, Anzahl der<br />

Wahlen, Rangfolge und Gewichtung<br />

Diagnostik: Beurteilung<br />

Schulaufgaben sind i.d.R. standardisiert, alle erhalten dieselben Aufgaben<br />

Beurteilung findet erst nach der Prüfungssituation statt, Lehrer kann Leistung in<br />

Ruhe mit seinem Maßstab vergleichen.<br />

Vorstellung von Schwierigkeitsgrad der Aufgabe durch Zahl der korrekten<br />

Lösungen<br />

Zuverlässigkeit einer Prüfung durch große Anzahl an Aufgaben gewährleistet.<br />

Schulaufgaben enthalten mehr Aufgaben als mündliche Prüfungen.<br />

Leistungsfremde Faktoren (Kleidung, Haltung, etc.) spielen bei schriftlichen<br />

Prüfungen keine Rolle.<br />

Schriftliche Prüfungen sind i.d.R. besser strukturiert, Prüfling kann sich besser<br />

zurechtfinden.<br />

Diagnostik: Erhebungsverfahren<br />

Gruppenmitglieder am<br />

vertikalen und horizontalen<br />

Rand abgetragen, Wähler<br />

auf der einen Seite,<br />

Gewählte auf der anderen.<br />

Enthält alle Daten, deshalb<br />

als Urliste nutzbar.<br />

Diagnostik: Erhebungsverfahren<br />

Bjernstedt, 1956: Die<br />

quantitative Untersuchung<br />

zwischenmenschlicher<br />

Beziehungen unter dem<br />

Aspekt der Bevorzugung,<br />

Gleichgültigkeit und<br />

Ablehnung in einer<br />

Wahlsituation.<br />

Diagnostik: Erhebungsverfahren<br />

naiv (ungerichtetes Zuschauen ohne klare Zielsetzung) vs. systematisch (Klärung des Ziels,<br />

des Zeitpunktes, der Methode)<br />

teilnehmend (Beobachter ist involviert in Geschehen und interagiert mit der Versuchsperson)<br />

vs. nicht-teilnehmend (Wahrung einer kritischen Distanz)<br />

offen (Versuchsperson weiß, dass sie beobachtet wird) vs. verdeckt (Versuchsperson weiß<br />

nicht, dass sie beobachtet wird)<br />

technisch vermittelt (Einsatz von Videokameras, Tonbändern) vs. technisch unvermittelt (ohne<br />

technische Hilfsmittel)<br />

kontinuierlich (Dauerbeobachtung) vs. diskontinuierlich (Zeitstichprobenpläne)<br />

Feldbeobachtung (Alltagssituation) vs. Laborbeobachtung (künstliche Situation)<br />

Fremdbeobachtung (durch andere Person) vs. Selbstbeobachtung (Tagebuch, Befragung)<br />

Fazit: Beste Ergebnisse mit systematischer, teilnehmender und verdeckter Beobachtung. In der<br />

Praxis meist naive, teilnehmende und diskontinuierliche Beobachtung.<br />

Auswertung: Alle 3 Sekunden Kodierung einer Verhaltensweise, Beobachtungseinheit zeitlich<br />

definiert. Aufeinanderfolgende Einheiten (3-8) werden in 10x10 Matrix eingetragen.


Diagnostik: Beurteilung<br />

Diagnostik: Beurteilung<br />

Verbesserungsmöglic<br />

hkeiten mündlicher<br />

Prüfungen<br />

Urteilsfehler:<br />

Ettikettierungs- oder<br />

Stigmatisierungsproz<br />

esse<br />

Diagnostik: Beurteilung<br />

Diagnostik: Beurteilung<br />

Arten mündlicher<br />

Prüfungen<br />

Kritik an mündlichen<br />

Prüfungen<br />

Diagnostik: Beurteilung<br />

Diagnostik: Beurteilung<br />

Sachliche (Objektive,<br />

lernzielbezogene,<br />

Ideale) Bezugsnorm<br />

Definition: Mündliche<br />

Prüfung<br />

Diagnostik: Beurteilung<br />

Diagnostik: Beurteilung<br />

Soziale<br />

(interindividuelle)<br />

Bezugsnorm<br />

Individuelle<br />

(Intraindividuelle)<br />

Bezugsnorm


Diagnostik: Beurteilung<br />

Beurteiler macht sich<br />

bestimmtes Bild von<br />

Probanden - Erwartungseffekt<br />

- Zuordnung zur einer<br />

negativen Kategorie (Der Apfel<br />

fällt nicht weit vom Stamm)<br />

Diagnostik: Beurteilung<br />

Durchführungsobjektivität: korrekter formaler Rahmen (pünktlicher Beginn,<br />

etc.), Auslosen der Prüfungsfragen, Reihenfolge der Fragen frei wählen lassen<br />

Auswertungs- und Interpretationsobjektivität: Kriterienkatalog, getrennte<br />

Beurteilung durch Zweitprüfer, schulinternes Bezugssystem<br />

Wiederholungsreliabilität: Prüfling freiwillig wiederholte Leistungskontrolle<br />

ermöglichen<br />

Paralleltest-Reliabilität: Einsatz von Zweitprüfer<br />

Inhaltsvalidität: Formulierung der Prüfungsfragen im Voraus, Berücksichtigung<br />

der Lerngelegenheiten<br />

empirische Vailidität: Überprüfung des Zusammenhangs mit anderen Kriterien<br />

Konstruktvalidität: nur mündlich Prüfen, wenn Sprache Gegenstand der Prüfung<br />

ist, Bewusstheit über Verzerrungseffekte, Transparenz der Anforderungen<br />

Sozialpsychologische Kritik: Beurteilungsfehler<br />

Diagnostik: Beurteilung<br />

Psychoanalytische Kritik: Angstauslöser bei Prüfungen<br />

Psychodiagnosische Kritik: Durchführungsobjektivität (mangelhaft, nicht alle<br />

Prüflinge bekommen die selben Fragen gestellt),<br />

Auswertungsobjektivität (Kriterien für richtig/falsch oft nur unzureichend<br />

definiert),<br />

Interpretationsobjektivität (großes Ausmaß an Nicht-Übereinstimmungen),<br />

Wiederholungsreliabilität (in der Schule nicht vorgesehen, Messinstrument nicht<br />

stabil),<br />

Paralleltestreliabiliät (Prüfen eines Prüflings durch 2 Prüfer kurx hintereinander,<br />

Birkel: Streuung von Note 1 bis 5),<br />

Inhaltsvalidität (Fragen sind i.d.R. nicht repräsentativ, aber curriculare Validität<br />

und Lerngelegenheit berücksichtigt),<br />

empirische Validität (Übereinstimmung zwischen mündlichen und schriftlichen<br />

Prüfungen nur 0.3),<br />

Konstruktvalidität (beeinträchtigt durch Interaktionseffekte: siehe<br />

Beurteilungsfehler)<br />

Diagnostik: Beurteilung<br />

Jäger, 2000:<br />

Leistungseinbringung eines<br />

Prüflings gegenüber einem<br />

Prüfer, wobie die Leistung<br />

durch mündliche<br />

Ausführungen des Kandidaten<br />

auf mündlich vorgegebene<br />

Fragen vermittelt werden.<br />

Diagnostik: Beurteilung<br />

Vergleich der aktuellen leistung eines Schülers mit<br />

seinen früheren Leistungen, z.B. pädagogische<br />

Zensuren<br />

Bewertung des individuellen Leistungsfortschritts<br />

legen variable, internale Attributionen nahe:<br />

Anstrengung<br />

Aufgabenorientierung wahrscheinlicher<br />

Betonung der förderdiagnostischen Funktion von<br />

Noten<br />

Diagnostik: Beurteilung<br />

Disputation: Prüfung im Rahmen einer Promotion<br />

Vortrag: freie Entwicklung, Präsentation eines<br />

Themas<br />

Abhören: Überprüfung, inwiefern ein Schüler<br />

etwas wiedergeben kann<br />

Arbeitsprobe: Vorstellen eines Themas, das Teil<br />

einer größeren Arbeit ist und vorher gedanklich<br />

vorgearbeitet wurde<br />

Gruppenprüfung<br />

Diagnostik: Beurteilung<br />

Vergleich der aktuellen Leistung des<br />

einzelnen Schülers mit einem vorher<br />

genau definiertem und den Schülern<br />

mitgeteilten Anforderungskatalog<br />

Rückmeldefunktion, Qualifikationsfunktion<br />

von Noten<br />

kriteriumsorientierte Leistungsbewertung<br />

vom Schulgesetzgeber vorgeschrieben<br />

Diagnostik: Beurteilung<br />

Vergleich der Leistung mit dem Leistungsdruchschnitt<br />

der Klasse, Normalverteilung im Mittel<br />

Betonung der Leistungs- und Fähigkeitsunterschiede<br />

der Schüler<br />

legen stabile, internale Attributionen nahe: Begabung<br />

Ego-Orientiert statt Aufgabenorientiert<br />

Betonung der Selektionsfunktion von Schulnoten<br />

normorientierte Leistungsbewertung


Diagnostik: Beurteilung<br />

Diagnostik: Beurteilung<br />

Funktion von Noten:<br />

Bericht und<br />

Information<br />

Funktion von Noten:<br />

Berechtigung<br />

Diagnostik: Beurteilung<br />

Diagnostik: Beurteilung<br />

Urteilsfehler:<br />

Pygmalion-Effekt<br />

Funktion von Noten:<br />

Kontrolle<br />

Diagnostik: Beurteilung<br />

Diagnostik: Beurteilung<br />

Urteilsfehler:<br />

Kontrasteffekt<br />

Urteilsfehler: Soziale<br />

Stereotype<br />

Diagnostik: Beurteilung<br />

Diagnostik: Beurteilung<br />

Urteilsfehler: Güteoder<br />

Mildefehler<br />

Urteilsfehler: Halo-<br />

Effekt


Diagnostik: Beurteilung<br />

Durch Nachweis eines<br />

bestimmten Kenntnisstandes<br />

sind für Schüler bestimmte<br />

Berechtigungen formaler Art<br />

gegeben<br />

(Hochschulberechtigung, NC,<br />

Latinum).<br />

Diagnostik: Beurteilung<br />

Für außenstehende Dritte<br />

die Aufgabe eines<br />

standardisierten<br />

Berichtes, sie sollen Eltern<br />

über Kenntnisstand ihrer<br />

Kinder informieren.<br />

Diagnostik: Beurteilung<br />

Kontrolle des erreichten<br />

Kenntnisstandes (Anforderungen<br />

des Lehrplans), Noten<br />

Entscheiden, ob Kenntnis für<br />

nächste Institution ausreicht. Für<br />

Schüler: Rückmeldung über die<br />

Erreichung des Lernziels. Für<br />

Lehrer: Überwachung seines<br />

Unterrichtserfolgs.<br />

Diagnostik: Beurteilung<br />

Beurteiler geht von<br />

Zusammengehörigkei<br />

t sozialer<br />

Sachverhalte aus<br />

(Jungen sind in Mathe<br />

besser als Mädchen)<br />

Diagnostik: Beurteilung<br />

ein Merkmal einer Person<br />

strahlt auf die Bewertung<br />

anderer Merkmale aus, obwohl<br />

diese nichts damit zu tun<br />

haben (Brille - klug - gute<br />

Leistung; gut in Mathe - gut in<br />

Physik; Hochsparche -<br />

Klugheit)<br />

Diagnostik: Beurteilung<br />

Bild, das man sich von eienr<br />

Person gebildet hat, bestimmt das<br />

Verhalten der Person und führt zu<br />

selbsterfüllenden Prophezeiungen<br />

(Schüler, die Lehrer als gut<br />

vorgestellt werden, zeigen<br />

tatsächlich Leistungszuwächse,<br />

weil sich Lehrer verstärkt um sie<br />

kümmert)<br />

Diagnostik: Beurteilung<br />

Leistung der zuvor<br />

beobachteten Person nimmt<br />

Einfluss auf Beurteilung der<br />

folgenden Person (nach sehr<br />

guter Prüfung erscheint die<br />

folgende Prüfung im<br />

Vergleich um so schlechter)<br />

Diagnostik: Beurteilung<br />

Probanden, die den<br />

Beurteiler kennen,<br />

werden besser<br />

beurteilt.


Diagnostik: Beurteilung<br />

Diagnostik: Beurteilung<br />

Funktion von Noten:<br />

Motivation<br />

Funktion von Noten:<br />

Disziplinierung<br />

Diagnostik: Beurteilung<br />

Diagnostik: Beurteilung<br />

Funktion von Noten:<br />

Auslese<br />

Funktion von Noten:<br />

Rückmeldung und<br />

Steuerung im<br />

Lernprozess


Diagnostik: Beurteilung<br />

Nicht ordnungsgemäßes<br />

Verhalten wird durch<br />

schlechte Noten bestraft.<br />

Aber: Verletzt Validität,<br />

da Verhalten statt<br />

Leistung gemessen wird.<br />

Diagnostik: Beurteilung<br />

Anreiz zu positiven<br />

Leistungsverhalten (Operantes<br />

Konditionieren: Positive<br />

Verstärker (Lob), Negative<br />

Verstärker (schlechte noten,<br />

Tadel, vermeiden). Aber:<br />

Extrinsische Motivation.<br />

Diagnostik: Beurteilung<br />

Rückmeldung an Schüler und Lehrer<br />

hinsichtlich des bisher erreichten<br />

Kenntnisstandes. Zu erreichender<br />

Soll-Wert und vorhandener Ist-Wert<br />

werden in Beziehung gesetzt. Für<br />

Lehrer: Überprüfung des<br />

Unterrichtskonzepts auf Effektivität,<br />

Erkennen von Über- und<br />

Unterforderung von Schülern.<br />

Diagnostik: Beurteilung<br />

Leistungsprinzip unserer<br />

Gesellschaft. Kritik: Auslese ist<br />

eine der wichtigsten und eine der<br />

pädagogisch fragwürdigsten<br />

Funktionen der Schule bzw. der<br />

Noten. Es entsteht ein<br />

Existenzkampf und Konkurrenz<br />

unter den Schülern. Lehrer als<br />

Verwalter von Lebensschicksalen.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!