Karteikarten

Diagnostik: Gütekriterien 


Split-Half-Reliabilität 

Paralleltestreliabilität 



Definition: Reliabilität 

Wiederholungsreliabili 

tät 



Auswertungsobjektivi 

tät 

Interpretationsobjekti 

vität 



Definition: 

Objektivität 

Durchführungsobjekti 

vität


Gleichwertigkeit mehrerer 

gleichartiger Testformen, die 

unmittelbar nacheinander oder 

mit einigem zeitlichen 

Abstand bearbeitet werden. 

z.B. wichtig bei der 

Wiederholung einer 

Schulaufgabe. 


Eine erneute Messung nach einiger 

Zeit sollte das selbe Ergebnis liefern, 

wie die erste Messung. 

Notwendig ist allerdings, dass das 

Merkmal zeitlich stabil ist. Da 

Lernleistung nicht stabil ist 

(Übungseffekte) wird eine 

Wiederholung der Messung selten 

angewendet. 


Verschiedene Beurteiler interpretieren das gleiche 

Auswertungsergebnis gleich 


Aufgabenzusammenstellung wird 

halbiert und getrennt bewertet. 

Danach Zusammenhang der 

Testhälften berechnen. 

Keine zeitliche Stabilität des 

Merkmals notwendig, aber: 

Notwendig ist, dass der Test 

konsistent ist, also nicht nach 

Schwierigkeit gestaffelt. 


Lienert, 1967: Grad der Genauigkeit, mit dem der Test 

ein bestimmtes Persönlichkeits- oder 

Verhaltensmerkmal misst. 

Ein im Test beobachteter Wert setzt sich zusammen aus 

der Summe eines wahren Wertes (konstant) und eines 

Fehlerwertes (labil, kann an Gegenstand, 

Messinstrument oder Beurteiler liegen). 

Reliabilität ist ein formales Kriterium, es sagt nichts 

über den Inhalt aus. 

Reliabilität ist eine Voraussetzung für die Gültigkeit 

eines Messung. 


Ergebnis unabhängig vom Untersucher 

Aus gleichen Ergebnissen sollten gleiche diagnostische 

Schlüsse gezogen werden (erst hier findet Notengebung statt). 

Herstellung von Interpretationsobjektivität: Existenz von 

festen Regeln für diagnostische Schlussfolgerungen (z.B. 

Tabellen), Positive Bewertung ab der Hälfte der Punkte zu vier 

äquidistanten Klassen zusammenfassen 

Schwierigkeiten: Je unterschiedlicher die zu verarbeitenden 

informationen und je zahlreicher sie sind, desto schwieriger 

ist es, sie objektiv zu interpretieren (z.B. Frage nach dem 

Übertritt) 


Gleiche Bedingungen für alle Prüflinge. 

Situative Faktoren: Tageszeit, Hilfsmittel, 

Instruktion 

Personale Faktoren: Ermüdung, vorherige 

Beschäftigung, Prüfungsangst (nur schwer 

beeinflussbar) 

Herstellung von Durchführungsobjektivität: 

Vereinheitlichung der Aufgabenstellung, 

Gleichheit der Instruktionen 

Schwächen der traditionellen 

Leistungsbeurteilung bezieht sich meist 

auf mangelnde Auswertungsobjektivität 

Herstellung von Leistungsobjektivität: 

Beurteilungsverfahren mit festen Kriterien, 

Beurteilungsverfahren mti geschlossenen 

Antwortformen (Multiple-Choice) 


Lienert, 1967: Grad, in dem Ergebnisse 

unabhängig vom Untersucher sind. 

Ein Test ist vollkommen objektiv, wenn 

verschiedene Untersucher bei denselben 

Probanden zu gleichen Ergebnissen gelangen. 

Objektivität ist ein formales Kriterium, es sagt 

nichts über den Inhalt aus. 

Objektivität ist die notwendige Voraussetzung für 

die Zuverlässigkeit und Gültigkeit eines Messung.



Testfairness 

(Validität) 

Herstellung von 

Validität 



Empirische Validität 

Konstruktvalidität 



Definition: Validität 

Inhaltsvalidität 



Konsistenzanalyse 

(Reliabilität) 

Herstellung von 

Reliabilität


Übereinstimmung von Testinhalten und 

Unterrichtsinhalt 

Eindeutige Arbeitsanweisung und klar 

formulierte Aufgaben 

Operationalisierung der Lernziele (genaue 

Angaben über Inhaltsbeschreibung, 

angestrebtes Endverhalten, Maßstab, an dem 

es gemessen werden soll) 

Inhaltliche Analyse des Stoffes durch Lehrer 


Ein Konstrukt ist eine relativ stabile, theoretisch 

angenommene Eigenschaft, die nicht beobachtbar ist 

(Intelligenz, Angst). Deren Erfassung geschieht über 

Theorien, die festlegen, wodurch sich Konstrukte in der 

beobachtbaren Ebene zeigen. Das Instrument ist dann 

Konstruktvalide, wenn die tatsächlich gefundenen 

Beziehungen mit dem theoretischen Modell hohen 

Übereinstimmung zeigen. 

z.B. Angst messen durch Fragebogen mit Fragen: 

Reagieren intelligente Prüfungsängstliche anders als 

weniger intelligente, lassen sich körperliche 

Begleiterscheinungen nachweisen? 


Test repräsentiert das zu messende 

Merkmal optimal. 

Zentral in der Schule: Ein valider Test muss 

eine repräsentative Stichprobe derjenigen 

Unterrichtsinhalte umfassen, deren 

Kenntnisse es zu prüfen gilt. Vorher muss 

eine inhaltliche Analyse durchgeführt 

werden. (z.B. Rechenaufgabe mit Text: 

Keine hohen Anforderungen an 

Leseverständnis). 


Negativ auf Reliabilität wirken sich 

aus: Ungenauigkeit des 

Messintruments (Stichprobenfehler), 

Umgebungsfaktoren (Lärmpegel, 

Beleuchtung), Temporäre 

Veränderungen des Probanden 

(Krankheit, Müdigkeit), Ungenaue 

Durchführung und Auswertung 

(nicht eindeutige Arbeitsanweisung, 

unklare Aufgabenstellung) 


Keine Benachteiligung 

von Subgruppen: 

ausländische 

Testpersonen bei 

sprachgebundenen 

Intelligenztests 


Aus Ergebnissen kann Verhalten vorhergesagt werden. 

Unterscheide: 

Gleichzeitigkeitsvalidität: Wie weit stimmen Ergebnisse 

von Test A mit Ergebnissen von Test B überein, die 

beide das gleiche Wissensgebiet abprüfen. (Zwei 

Intelligenztest direkt nacheinander absolvieren) 

Vorhersagevalidität: Aus einem früheren Test zu einem 

Thema soll das Ergebnis eines späteren Tests zum 

gleichen Thema vorhergesagt werden. (Aus Abiturnote 

sollen Rückschlüsse über Examensnote gemacht 

werden) 


Lienert, 1967: Grad der Genaugikeit, mit dem 

ein Test dasjenige Persönlichkeitsmerkmal 

oder diejenigen Verhaltensweisen tatsächlich 

misst, die er messen soll oder vorgibt zu 

messen. 

Validität ist keine generelle Eigenschaft: Ein 

Test kann für einen bestimmten Zweck valide 

sein, für einen anderen nicht. 

Validität ist im Gegensatz zu Objektivität und 

Reliabilität ein inhaltliches Kriterium! 


Ein Test wird in seine einzelnen Items 

(Fragen, die die gleiche Fähigkeit messen) 

zerlegt und aus dem Zusammenhang 

zwischen Itemsbeantwortung wird auf 

Messgenauigkeit rückgeschlossen. 

Messinstrument muss dazu homogen sein 

(also dürfen keine unterschiedlichen 

Themen abgefragt werden).

Diagnostik: Fähigkeits- und Leistungstests 


Beispiel für 

Intelligenztest 

Definition: 

Schulleistungstests 



Leistungstests 

Intelligenztests 



Begriff: Leistung 

Fähigkeitstests 



Begriff: Fähigkeit 

Begriff: Fertigkeit


Ingenkamp, 1997: Verfahren, mit 

deren Hilfe Ergebnisse geplanter 

Curricula orientierter 

Lernvorgänge möglichst objektiv, 

zuverlässig und gültig gemessen 

und durch Lehrende ausgewertet, 

interpretiert und für 

pädagogisches Handeln nutzbar 

gemacht werden können. 


bestehen aus einzelnen Aufgaben aus verschiedenen 

Itemgruppen. 

Verbale oder Nonverbale Form 

Problem- oder Fragestellungen 

Fragen nach Gruppen geordnet, die im 

Schwierigkeitsgrad ansteigen. 

Inhalte von Intelligenztests gewöhnlich nicht in der 

Schule unterrichtet 


HAWIK-R (Hamburg-Wechsler-Intelligenztest für Kinder): 

allgemein anerkannt, berechnet eher unterdurchschnittlichen 

IQ, wird im Zusammenhang mit Fragen wie Überweisung an 

Sonderschulen verwendet. Besteht aus 11 Tests: 

Verbalteil: Allgemeinwissen (Wie heißen die 4 Jahreszeiten), 

Allgemeines Verständnis (Warum hat jeder Mensch einen 

Namen), Rechnerisches Denken (Welche Zahl musst du durch 

7 teilen, um...), Gemeinsamkeiten finden (Schmetterling und 

Fliegen), Wortschatztest (Was ist Streik), Zahlen nachsprechen 

Handlungsteil: Zahlen-Symbol-Tests, Bilder ergänzen (Angabe 

fehlender Details), Bilder ordnen (nach Sinn), Mosaiktest 

(Geometrisches Muster soll zusammengesetzt werden), 

Figurenlegen (Zerschnittene Figur zusammensetzen) 


messen die Unterrichtsziele eines 

bestimmten Kurses oder einer 

anderen Einheit des Curriculums. 

Messen und Bewerten Ergebnisse 

zurückliegender Lernerfahrungen. 

Inhalt ist in hohem Grade 

unterrichtsbezogen. 

Intelligenzstabilisierung im Alter von etwa 12 Jahren. 


können breite oder spezielle 

intellektuelle Fähigkeiten umfassen 

(z.B. verbale oder mathematische 

Fähigkeiten, räumliche Auffassung, 

mechanisches Verständnis). 

Fähigkeitstest sind normbezogen. 

Wird verwendet, um Informationen 

zur Anleitung und Beratung eines 

Schülers zu erhalten. 



bezieht sich auf 

bisherige Erfolge bei 

der Bewältigung von 

Aufgaben, beobachtbar, 

lässt auf Fähigkeit und 

Fertigkeit schließen 


gegenwärtig 

verfügbares Potential, 

etwas zu leisten, 

nicht beobachtbar 

Technik, Erfahrung, 

Kenntnisse, durch 

Übung erworben


Konstruktionsschritte 

für standardisierte 

Schulleistungstests: 

4. Testdurchführung 

an einer kleinen 

Stichprobe (200-400) 





2. Entwurf von 

Testitems (Aufgaben) 





5. Aufgaben- und 

Testanalyse mit Daten 

der letzten Stichprobe 





3. Vorerprobung an 

wenigen Fällen 


Konstruktion 

standardisierter 






1. Analyse der 

Lehrpläne 



Unterscheidung von 


Definition: 

(Sozialnormorientierte 

r) Standardisierter 

Schulleistungstest


Ermittlung der Aufgabenschwierigkeit (oder 

Lösungswahrscheinlichkeit): Anordnung der Aufgaben nach 

ansteigender Schwierigkeit (Beginn: Eisbrecherfragen). bei 

normorientierten Tests soll Lösungswskt. ziwschen 0.2 und 

0.8 liegen. 

Distraktoranalyse (bei gebundenen Antwortformen): Wie oft 

werden Falschantworten angekreuzt? Distraktoren sollten 

zwischen 0.1 und 0.15 liegen. 

Trennschärfeberechnung: Wie gut trennt Aufgabe zwischen 

guten und schlechten Schülern? Korrelation zwischen Leistung 

bei einer Aufgabe und Leistung im Test sollte hoch sein. 

Berechnung der Verteilungskennwerte (Mittelwert, Streuung) 


Überprüfung der 

Verständlichkeit der 

Aufgabenformulierun 

g 



Aufgaben- und 

Testlänge 


nach allgemeinen Regeln (keine doppelten 

Verneinungen, nicht zu viele Lücken in Lückentexten, 

einfache Satzkonstruktion, eindeutige Formulierungen, 

keine verdeckten Hinweise auf Antworten) 

formale Gestaltung (gebundene und freie Antworten) 

Feststellung der zugelassenen Hilfmittel 

Konstruktion von 50-100% mehr Aufgaben, als nötig 

Beurteilung der Aufgaben durch Expertenranking 


Sicherung inhaltlicher Validität (Lehrpläne 

nach Lerhzielen analysieren) 

Erfassung der Lerngelegenheit durch Lehrer 

und Klassenunterlagen 

Erstellen einer Lehrzielmatrix (Suchschema, 

das das Auffinden geeigneter Aufgaben 

erleichtert). Auf welchem Anforderungsniveau 

sollen welche Inhalte eines Lehrziels erfasst 

werden? 


Lukesch: Ein wissenschaftliches 

Routineverfahren zur Feststellung des 

Kenntnisstandes in einem oder mehreren 

inhaltlich spezifizierten kognitiven 

Lehrzielbereiches. Dabei werden Aussagen 

über die Leistungshöhe aufgrund des 

Vergleiches mit den Leistungen einer für 

die jeweilige Altersstufe, Schulstufe oder 

Schulart repräsentativen Stichprobe 

getroffen. 


1. Analyse der Lehrpläne 

2. Entwurf von Testitems (Aufgaben) 

3. Vorerprobung an wenigen Fällen 

4. Testdurchführung an einer kleinen 

Stichprobe (200-400) 

5. Aufgaben- und Testanalyse mit Daten 

der letzten Stichprobe 

6. Testvalidierung 

7. Testeichung an einer für den 

Anwendungsbereich repräsentativen 

Stichprobe 


standardisiert oder 

nichtstandardisiert, 

bzw. 

bezugsgruppenorienti 

ert oder 

kriteriumsorientiert



Reliabilität 



Validität 





Nachteile von 

standardisierten 


Objektivität 





Einsatzmöglichkeiten 

von Standardisierten 


Vorteile von 







6. Testvalidierung 


Konstruktionsschritte für 

standardisierte 

Schulleistungstests: 7. 

Testeichung an einer für 

den Anwendungsbereich 

repräsentativen 

Stichprobe


Inhaltsvalidität: Sicherung der curricularen Validität 

durch Analyse der Lehrpläne (allerdings nur 

annäherungsweise), individuelle Lerngelegenheit kann 

nicht berücksichtigt werden, Expertenranking bei 

Lehrplananalyse 

Empirische Validität: Vergleich der Ergebnisse aus 

Stichprobenerhebung mit Schulnoten 

(Gleichzeitigkeitsvaldidität), Erhebung der 

Vorhersagevalidität ergibt bessere Validität im Vergleich 

zu Noten 

Konstruktvalidität: auf Grund der hohen Objektivität 

und der Standardisierung und normierung sehr gut 


Durchführungsobjektivität: sehr gut, schriftlich 

fixierte, vorgegebene Instruktion, Beispiele und 

Übungsaufgaben, Vorgabe des 

Anwendungszeitraums, Beurteilerschulung 

Auswertungsobjektivität: maximal bei gebundenen 

Antwortformen, Kriterienkatalog bei freien 

Antwortformen notwendig 

Interpretationsobjektivität: sehr gut, klare 

Instruktionen bezüglich der Interpretation der 

Ergebnisse, Angabe der Objektivitätskoeffizienten 


gute Erfüllung der Gütekriterien 

Normierung erlaubt Überprüfung des eigenen 

Benotungssystems 

Überprüfung des Leistungsstandes der Klasse und 

des eigenen Unterrichts 

gerechtere Selektion 

Hilfe bei Entdeckung individueller Schwächen 

überregionaler Vergleich 


Berechnung von Normwerten 

als Vergleichsgrundlage 

Problem: u.U. nicht 

repräsentative Stichprobe, da 

besonders motivierte und 

gute Klassen teilnehmen. 


i.d.R. werden alle vier Arten 

der Reliabilitätsmessung 

berücksichtigt, Messung 

auf Basis der 

Stichprobenerhebung, 

Angabe der 

Reliabilitätskoeffizienten 


bei mangelnder curricularer Validität unfairer Test 

negative motivationale 

soziale Folgen: Verlust der intrinsischen Motivation 

Erstarrung des Unterrichts, Verarmung der Lehrpläne 

häufig veraltet 

nicht für alle Unterrichtsfächer verfügbar 

klassenunabhängige Beurteilung 

unökonomisch 

kann zur Änderung der Bewertungsstrategie des Lehrers führen. 


Anwendung in Schulklasse: Vergleich 

des Leistungsstandes der Klasse mit 

den Stichproben, Überprüfung des 

eigenen Notensystems durch Vergleich 

Forschungsfragen: Überprüfung der 

Effektivität verschiedener 

Unterrichtsmethoden, der Wirksamkeit 

von verschiedenen Schulsystemen 


Überprüfung der empirischen 

Validität an kleineren 

Stichproben 


Konstruktvalidität 

Berechnung der Relaibilität


Nachteile nichtstandardisierter 

Prüfungen gegenüber 


Prüfungen 

Diagnostik: Erhebungsverfahren 

Definition: 

Beobachtung 


Verbesserungsmöglic 

hkeiten für 

Gütekriterien bei 

nichtstandardisierten 

Tests 


Vorteile nichtstandardisierter 

Prüfungen gegenüber 


Prüfungen 



Reliabilität nichtstandardisierter 


Validität nichtstandardisierter 




Formen schriftlicher 

Prüfungen 

Objektivität nichtstandardisierter 

Schulleistungstests


Graumann, 1978: Die 

absichtliche, 

aufmerksame Art des 

Wahrnehmens, die ganz 

bestimmte Aspekte auf 

Kosten der Bestimmtheit 

von anderen betrachtet. 


curriculare Validität und Lerngelegenheit wird 

berücksichtigt. bei std. SLTs ist curriculare 

Validität nicht immer gegeben, Lerngelegenheit 

kann nicht berücksichtigt werden. 

manche Formen der schriftlichen Prüfung wirken 

intrinsisch motiviert (z.B. freie Hausarbeit). std. 

SLTs sind wegen geschlossener Antwortformate 

und vorgegebenem Thema kaum motivierend. 

schriftliche Prüfungen erlauben detaillierte und 

umfassende Rückmelden für Prüfer. std. SLTs 

werden nur mit Schablone ausgewertet 


Inhaltsvalidität: Curriculare Validität und 

Lerngelegenheit berücksichtigt. 

Konstruktvalidität: Beeinflussung durch sachfremde 

Faktoren (Hadley, 1954: beliebte Schüler erhielten im 

Vergleich zu Unbeliebten 50\% bessere Noten, als 

angemessen wäre, und umgekehrt), Handschrift, 

Geschlecht, länderspezifische Zugehörigkeit 

Empirische Validität: Empfehlung der Grundschullehrer 

bestätigen sich zu 60\% (Sommer, 1983), kaum 

Zusammenhänge zwischen Noten und Berufserfolg 

(Althoff, 1986) 


Durchführungsobjektivität: auf Grund des 

Gruppenbezuges und des transsituativen Charakters 

relativ günstig, besser als bei mündlichen Prüfungen, 

schlechter als bei Tests (Standardisierung fehlt). 

Auswertungsobjektivität: z.T. mangelhaft (Williams, 

1933: Mathematikaufgabe von verschiedenen Lehrern 

mit bis zu 100 beurteilen lassen, schwankte zwischen 

16 und 96) 

Interpretationsobjektivität: beeinträchtigt (Starch, 1913: 

Abschlussarbeit in Mathe mit 130 Punkten, 

Bestehensgrenze variierte von Schule zu Schule 

zwischen 70 und 80 Punkten) 


Gütekriterien sind weniger gut erfüllt, als bei std. 

SLTs: v.a. bei freien Arbeiten Validitätsprobleme 

wegen mangelnder Auswertungskriterien, 

Vorwissen und dem klasseninternen 

Bezugssystem. std. SLTs erfüllen Gütekriterien 

sehr gut durch Standardisierung, Anonymisierung, 

Schablonenauswertung 

Objektivitäts- und Reliabilitätsüberprüfungen sind 

nur bei Abschlussprüfungen vorgesehen. 

bei freien Arbeiten mehr Zeitaufwand für Korrektur 


Durchführungsobjektivität: gleiche Hilfsmittel für alle Prüflinge, 

Individualisierung bei Prüfungsängstlichen 

Auswertungs- und Iterpretationsobjektivität: Kriterienkatalog einsetzen, 

getrennte Beurteilung durch Zweitprüfer, Entwicklung eines schulinternen 

Bezugssystems 

Wiederholungsreliabilität: Möglichkeit der Prüfungswiederholung einräumen 

Inhaltsvalidität: Experten-Ranking bei Fragen, Berücksichtigung der 

Lerngelegenheit 

empirische Validität: Überprüfung des Zusammenhangs mit anderen Kriterien 

(andere schriftliche Prüfungen, mündliche Prüfungen) 

Konstruktvalidität: Bewusstheit über Verzerrungseffekte, Transparenz der 

Anforderungen, Anonymisierung, mehrere Einzelprüfungen als eine einzelne 

Prüfungen. 


Wiederholungsreliabilität: 

Bewertung nur unzureichend 

stabil (Hartog 1936: 15 

Arbeiten in Geschichte von 15 

Prüfern bewertet, nach 12-19 

Monaten erneute Beurteilung: 

in der Hälfte der Fälle 

Beurteilung verändert) 


Klassisch (Aufsatz, 

freie Hausarbeit, 

Klassenarbeit), Tests 

(Satzergänzungen, 

Multiple-Choice, Ja- 

Nein)

Diagnostik: Beurteilung 


Vorteile der 

Schulaufgabe 

gegenüber der 

mündlichen Prüfung 

Arten von 

Bezugsnormen 



Soziomatrix 

Soziogramm 



Definition: 

Soziometrie 

Dimensionen der 

klassischen Methode 

der Soziometrie 



Arten der 

Beobachtung 

Beispiel für 

standardisierte 

Beobachtungsform

Wechsel der Unterrichtsformen kann untersucht werden. Verhaltensphänomene können 


Graphische Darstellung der Beziehungen in einer Gruppe, Beziehungen werden 

durch Pfeile symbolisiert. Es gibt folgende soziometrische Muster: 

Paare: zwei sich gegenseitig Wählende 

Dreiecke: drei sich gegenseitig Wählende 

Sterne: Einer wird von Mehrere sich untereinander wenig Wählenden vorgezogen 

Stars: Personen, die im Mittelpunkt des Sterns stehen 

Isolierte: Weder aktiv noch passiv 

Abgelehnte: nur ablehnende Wahlen erhalten 

Flanders-Interaction-Categories (FIAC, 1970): Analysiert verbales Schüler-, wie 

Lehrerverhalten. Unterscheidung zwischen Initiativen und Antworten 


Lehrer, Antwort: 1. Akzeptiert Gefühle (Akzeptiert oder klärt eine Haltung oder den 

Gefühlston eines Schülers in nicht-bedrohlicher Weise) 

2. Lobt oder ermutigt (Kopfnicken, Mach weiter!) 

3. Akzeptiert oder verwendet Schülerideen (Klärung, Aufbau oder Weiterentwicklung von 

Schülerideen) 

4. Stellt Fragen (Basiert auf Lehrer-Ideen mit Absicht, dass Schüler antwortet) 

Lehrer, Initiative: 5. Doziert (Gibt Fakten oder Meinungen über Inhalt oder Vorgehen) 

6. Gibt Anweisungen (oder Befehle, von denen erwartet wird, dass Schüler sich daran halten) 

7. Kritisiert oder rechtfertigt Autorität (Ziel: Schülerverhaltensmuster von nicht-akzeptabel zu 

akzeptabel zu ändern) 

Schüler, Antwort: 8. Schüler-Rede Antwort (Schüler-Rede in Antwort auf den Lehrer) 

Schüler, Initiative: 9. Schüler-Rede Initiierung (Ausdruck eigener Ideen, Anregung eines neuen 

Themas) 

10. Stille oder Verwirrung (Pausen) 


Soziale (interindividuelle) 

Bezugsnorm 

Individuelle (Intraindividuelle) 

Bezugsnorm 

Sachliche (Objektive, 

lernzielbezogene, Ideale) 

Bezugsnorm 

Vergessene: Nur Wählen, aber keine Wahl erhalten 

Probleme: Bekanntheitsgrad nötig, hängt von Gruppengröße ab, 

Ernsthaftigkeitscharakter muss vorhanden sein, 5 Wahlen als sinnvolle 

Begrenzung, Frage nach Antipathie kann diese stärker ins Gedächtnis rufen. 


Friedrichs, 1973: Sympathie 

Antipathie: Mit wem würden Sie am liebsten...? Mit wem 

µuochten sie nicht gerne...? 

Kriterium: Arbeit, Urlaub, Wohnen, Diskussion, ... 

Einstellung 

Verhalten: Mit wem möchten Sie zusammenarbeiten? Mit wem 

haben sie zusammengearbeitet? 

Wahrnehmung: Wer wird sie ihrer Meinung nach wählen? 

Art der Wahlen: Nur positive, nur negative, beides, Anzahl der 

Wahlen, Rangfolge und Gewichtung 


Schulaufgaben sind i.d.R. standardisiert, alle erhalten dieselben Aufgaben 

Beurteilung findet erst nach der Prüfungssituation statt, Lehrer kann Leistung in 

Ruhe mit seinem Maßstab vergleichen. 

Vorstellung von Schwierigkeitsgrad der Aufgabe durch Zahl der korrekten 

Lösungen 

Zuverlässigkeit einer Prüfung durch große Anzahl an Aufgaben gewährleistet. 

Schulaufgaben enthalten mehr Aufgaben als mündliche Prüfungen. 

Leistungsfremde Faktoren (Kleidung, Haltung, etc.) spielen bei schriftlichen 

Prüfungen keine Rolle. 

Schriftliche Prüfungen sind i.d.R. besser strukturiert, Prüfling kann sich besser 

zurechtfinden. 


Gruppenmitglieder am 

vertikalen und horizontalen 

Rand abgetragen, Wähler 

auf der einen Seite, 

Gewählte auf der anderen. 

Enthält alle Daten, deshalb 

als Urliste nutzbar. 


Bjernstedt, 1956: Die 

quantitative Untersuchung 

zwischenmenschlicher 

Beziehungen unter dem 

Aspekt der Bevorzugung, 

Gleichgültigkeit und 

Ablehnung in einer 

Wahlsituation. 


naiv (ungerichtetes Zuschauen ohne klare Zielsetzung) vs. systematisch (Klärung des Ziels, 

des Zeitpunktes, der Methode) 

teilnehmend (Beobachter ist involviert in Geschehen und interagiert mit der Versuchsperson) 

vs. nicht-teilnehmend (Wahrung einer kritischen Distanz) 

offen (Versuchsperson weiß, dass sie beobachtet wird) vs. verdeckt (Versuchsperson weiß 

nicht, dass sie beobachtet wird) 

technisch vermittelt (Einsatz von Videokameras, Tonbändern) vs. technisch unvermittelt (ohne 

technische Hilfsmittel) 

kontinuierlich (Dauerbeobachtung) vs. diskontinuierlich (Zeitstichprobenpläne) 

Feldbeobachtung (Alltagssituation) vs. Laborbeobachtung (künstliche Situation) 

Fremdbeobachtung (durch andere Person) vs. Selbstbeobachtung (Tagebuch, Befragung) 

Fazit: Beste Ergebnisse mit systematischer, teilnehmender und verdeckter Beobachtung. In der 

Praxis meist naive, teilnehmende und diskontinuierliche Beobachtung. 

Auswertung: Alle 3 Sekunden Kodierung einer Verhaltensweise, Beobachtungseinheit zeitlich 

definiert. Aufeinanderfolgende Einheiten (3-8) werden in 10x10 Matrix eingetragen.



Verbesserungsmöglic 

hkeiten mündlicher 

Prüfungen 

Urteilsfehler: 

Ettikettierungs- oder 

Stigmatisierungsproz 

esse 



Arten mündlicher 

Prüfungen 

Kritik an mündlichen 

Prüfungen 



Sachliche (Objektive, 

lernzielbezogene, 

Ideale) Bezugsnorm 

Definition: Mündliche 

Prüfung 



Soziale 

(interindividuelle) 

Bezugsnorm 

Individuelle 

(Intraindividuelle) 

Bezugsnorm


Beurteiler macht sich 

bestimmtes Bild von 

Probanden - Erwartungseffekt 

- Zuordnung zur einer 

negativen Kategorie (Der Apfel 

fällt nicht weit vom Stamm) 


Durchführungsobjektivität: korrekter formaler Rahmen (pünktlicher Beginn, 

etc.), Auslosen der Prüfungsfragen, Reihenfolge der Fragen frei wählen lassen 

Auswertungs- und Interpretationsobjektivität: Kriterienkatalog, getrennte 

Beurteilung durch Zweitprüfer, schulinternes Bezugssystem 

Wiederholungsreliabilität: Prüfling freiwillig wiederholte Leistungskontrolle 

ermöglichen 

Paralleltest-Reliabilität: Einsatz von Zweitprüfer 

Inhaltsvalidität: Formulierung der Prüfungsfragen im Voraus, Berücksichtigung 

der Lerngelegenheiten 

empirische Vailidität: Überprüfung des Zusammenhangs mit anderen Kriterien 

Konstruktvalidität: nur mündlich Prüfen, wenn Sprache Gegenstand der Prüfung 

ist, Bewusstheit über Verzerrungseffekte, Transparenz der Anforderungen 

Sozialpsychologische Kritik: Beurteilungsfehler 


Psychoanalytische Kritik: Angstauslöser bei Prüfungen 

Psychodiagnosische Kritik: Durchführungsobjektivität (mangelhaft, nicht alle 

Prüflinge bekommen die selben Fragen gestellt), 

Auswertungsobjektivität (Kriterien für richtig/falsch oft nur unzureichend 

definiert), 

Interpretationsobjektivität (großes Ausmaß an Nicht-Übereinstimmungen), 

Wiederholungsreliabilität (in der Schule nicht vorgesehen, Messinstrument nicht 

stabil), 

Paralleltestreliabiliät (Prüfen eines Prüflings durch 2 Prüfer kurx hintereinander, 

Birkel: Streuung von Note 1 bis 5), 

Inhaltsvalidität (Fragen sind i.d.R. nicht repräsentativ, aber curriculare Validität 

und Lerngelegenheit berücksichtigt), 

empirische Validität (Übereinstimmung zwischen mündlichen und schriftlichen 

Prüfungen nur 0.3), 

Konstruktvalidität (beeinträchtigt durch Interaktionseffekte: siehe 

Beurteilungsfehler) 


Jäger, 2000: 

Leistungseinbringung eines 

Prüflings gegenüber einem 

Prüfer, wobie die Leistung 

durch mündliche 

Ausführungen des Kandidaten 

auf mündlich vorgegebene 

Fragen vermittelt werden. 


Vergleich der aktuellen leistung eines Schülers mit 

seinen früheren Leistungen, z.B. pädagogische 

Zensuren 

Bewertung des individuellen Leistungsfortschritts 

legen variable, internale Attributionen nahe: 

Anstrengung 

Aufgabenorientierung wahrscheinlicher 

Betonung der förderdiagnostischen Funktion von 

Noten 


Disputation: Prüfung im Rahmen einer Promotion 

Vortrag: freie Entwicklung, Präsentation eines 

Themas 

Abhören: Überprüfung, inwiefern ein Schüler 

etwas wiedergeben kann 

Arbeitsprobe: Vorstellen eines Themas, das Teil 

einer größeren Arbeit ist und vorher gedanklich 

vorgearbeitet wurde 

Gruppenprüfung 


Vergleich der aktuellen Leistung des 

einzelnen Schülers mit einem vorher 

genau definiertem und den Schülern 

mitgeteilten Anforderungskatalog 

Rückmeldefunktion, Qualifikationsfunktion 

von Noten 

kriteriumsorientierte Leistungsbewertung 

vom Schulgesetzgeber vorgeschrieben 


Vergleich der Leistung mit dem Leistungsdruchschnitt 

der Klasse, Normalverteilung im Mittel 

Betonung der Leistungs- und Fähigkeitsunterschiede 

der Schüler 

legen stabile, internale Attributionen nahe: Begabung 

Ego-Orientiert statt Aufgabenorientiert 

Betonung der Selektionsfunktion von Schulnoten 

normorientierte Leistungsbewertung



Funktion von Noten: 

Bericht und 

Information 


Berechtigung 




Pygmalion-Effekt 


Kontrolle 




Kontrasteffekt 

Urteilsfehler: Soziale 

Stereotype 



Urteilsfehler: Güteoder 

Mildefehler 

Urteilsfehler: Halo- 

Effekt


Durch Nachweis eines 

bestimmten Kenntnisstandes 

sind für Schüler bestimmte 

Berechtigungen formaler Art 

gegeben 

(Hochschulberechtigung, NC, 

Latinum). 


Für außenstehende Dritte 

die Aufgabe eines 


Berichtes, sie sollen Eltern 

über Kenntnisstand ihrer 

Kinder informieren. 


Kontrolle des erreichten 

Kenntnisstandes (Anforderungen 

des Lehrplans), Noten 

Entscheiden, ob Kenntnis für 

nächste Institution ausreicht. Für 

Schüler: Rückmeldung über die 

Erreichung des Lernziels. Für 

Lehrer: Überwachung seines 

Unterrichtserfolgs. 


Beurteiler geht von 

Zusammengehörigkei 

t sozialer 

Sachverhalte aus 

(Jungen sind in Mathe 

besser als Mädchen) 


ein Merkmal einer Person 

strahlt auf die Bewertung 

anderer Merkmale aus, obwohl 

diese nichts damit zu tun 

haben (Brille - klug - gute 

Leistung; gut in Mathe - gut in 

Physik; Hochsparche - 

Klugheit) 


Bild, das man sich von eienr 

Person gebildet hat, bestimmt das 

Verhalten der Person und führt zu 

selbsterfüllenden Prophezeiungen 

(Schüler, die Lehrer als gut 

vorgestellt werden, zeigen 

tatsächlich Leistungszuwächse, 

weil sich Lehrer verstärkt um sie 

kümmert) 


Leistung der zuvor 

beobachteten Person nimmt 

Einfluss auf Beurteilung der 

folgenden Person (nach sehr 

guter Prüfung erscheint die 

folgende Prüfung im 

Vergleich um so schlechter) 


Probanden, die den 

Beurteiler kennen, 

werden besser 

beurteilt.




Motivation 


Disziplinierung 




Auslese 


Rückmeldung und 

Steuerung im 

Lernprozess


Nicht ordnungsgemäßes 

Verhalten wird durch 

schlechte Noten bestraft. 

Aber: Verletzt Validität, 

da Verhalten statt 

Leistung gemessen wird. 


Anreiz zu positiven 

Leistungsverhalten (Operantes 

Konditionieren: Positive 

Verstärker (Lob), Negative 

Verstärker (schlechte noten, 

Tadel, vermeiden). Aber: 

Extrinsische Motivation. 


Rückmeldung an Schüler und Lehrer 

hinsichtlich des bisher erreichten 

Kenntnisstandes. Zu erreichender 

Soll-Wert und vorhandener Ist-Wert 

werden in Beziehung gesetzt. Für 

Lehrer: Überprüfung des 

Unterrichtskonzepts auf Effektivität, 

Erkennen von Über- und 

Unterforderung von Schülern. 


Leistungsprinzip unserer 

Gesellschaft. Kritik: Auslese ist 

eine der wichtigsten und eine der 

pädagogisch fragwürdigsten 

Funktionen der Schule bzw. der 

Noten. Es entsteht ein 

Existenzkampf und Konkurrenz 

unter den Schülern. Lehrer als 

Verwalter von Lebensschicksalen.

Karteikarten

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?