Kompendium Leistungsmessung - KaVauBe

Inhalt: 

Kurt Vogelsberger 

Kompendium Leistungsmessung 

Leistungsmessung in Schule und Unterricht 

Ein Arbeitstext 

Leistungsmessung Leistungsbeurteilung Schülerbeurteilung 

Leistungsmessung (Definition): Begriff Leistung, Begriff Messung 

Normorientierte und kriteriumsorientierte Leistungsmessung 

Testgütekriterien: Objektivität, Reliabilität, Validität 

Aufgabenanalyse: Schwierigkeitsgrad und Trennschärfe 

Punkteverteilung in Noten transformieren (Prozentrangverfahren, Standardabweichung) 

Übungsbeispiel zur Standardabweichung 

Tipps und Hinweise 

Noten im Bereich „andere Leistungsnachweise“ 

Festsetzung der Zeugnisnote 

Exkurs zu Klassenarbeiten 

Exkurs zu Notengebung und Verwaltungsgericht 

Empfehlungen zur Weiterarbeit 

Seite 1 von 18

Machen Sie sich den Unterschied und die hierarchische Struktur dieser drei Begriffe klar: Eine Leistung messen ist weniger 

als sie beurteilen, Schülerinnen und Schüler beurteilen ist mehr als nur deren Leistungen würdigen. 

Leistungsmessung ist das Quantifizieren einer erbrachten Leistung in Zahlenwerte, es werden z. B. 14 von 20 maximal 

möglichen Punkten vergeben. 

Leistungsbeurteilung ist das Inwertsetzen der Messergebnisse mit Blick auf einen bestimmten Wertmaßstab (Norm) bzw. 

den Probanden selbst (zur Verdeutlichung: Können Sie sich vorstellen, dass Sie identische Messergebnisse, z. B. obige 14 

von 20 Punkten, bei zwei verschiedenen Schülerinnen und Schülern völlig unterschiedlich kommentieren und einschätzen?). 

Schülerbeurteilung umfasst die Einschätzung der Gesamtpersönlichkeit, die neben der Leistung eine Vielzahl weiterer 

Faktoren beinhaltet, z. B. 

Nennen Sie Kriterien, Aspekte, …, die bei der Einschätzung und Beurteilung einer Persönlichkeit neben der Leistung eine Rolle spielen! 

Leistungsmessung 

Versucht man, sich diesen Begriff und seine Bedeutung zu vergegenwärtigen, so wären wohl die beiden Begriffskomponenten 

„Leistung― und „Messung― zu besichtigen: 

Zur Leistung 

Der Begriff „Leistung― wird in der Gesellschaft, in der Arbeitswelt, in der Wissenschaft, … in sehr vielen unterschiedlichen 

Bedeutungen und Sinngebungen verwendet. Leistung in der Schule ist Fortschreiten im Lernprozess, ist aber auch Stand des 

Lernerfolgs zu einem bestimmten Zeitpunkt. 

Schulische Leistung umfasst also zwei Aspekte: 

Leistung als Ergebnis einer Tätigkeit, als „status quo― (statisch) 

Leistung als Vorgang des Tätigseins, als Fortschreiten im Lernprozess (dynamisch) 

In den meisten Schulordnungen dürften wohl als Definition von Leistung Formulierungen wie „ ... Schülerleistungen sind als 

Schritte und Resultate im Lernprozess zu sehen― zu finden sein, mithin ist für die Bewertung von Schülerleistungen die Berücksichtigung 

beider Aspekte in Auftrag gegeben. 

Wenn Sie einen Test in traditioneller Form durchführen, so eruieren und bewerten Sie in der Regel vorrangig die statische 

Leistungskomponente, d. h. den momentanen Ist-Zustand der Probanden. Wo und wie können Sie die Komponente „Schritte 

im Lernprozess― erfassen? 

Nennen Sie Formen der Leistungsüberprüfung, welche den dynamischen Aspekt in den Blick nehmen, also die Qualität beim Fortschreiten im Lernprozess: 

Zu berücksichtigen ist, dass es eine Vielzahl von Faktoren gibt, welche die Leistung einer Schülerin oder eines Schülers determinieren, 

die aber gar nicht in ihr oder ihm selbst liegen, von den Probanden also kaum beeinflusst werden können. Die 

Leistung hängt z. B. ab 

von schülerspezifischen Faktoren (Intelligenz, Motivation, Gesundheit, Geschlecht, momentane Befindlichkeit, Verhältnis 

zur Lerngruppe, Verhältnis zur Lehrkraft, ...); 

von der Lehrkraft (Geschlecht, Persönlichkeit, Engagement, Unterrichtsgestaltung, Erwartungshaltungen, Verhältnis zu 

den Schülerinnen und Schülern, Verhältnis zur Lerngruppe, ...); 

vom Stoff (Interesse, fachspezifische Neigungen, vorhandene Kompetenzen, bereits aufsummierte Defizite, ...); 

von äußeren Bedingungen (Arbeitsbedingungen, Klassenstärke, Schulweg, Differenzierung, ...); 

Seite 2 von 18

vom sozialen Umfeld (Bildungsstand und Beruf der Eltern, Leistungserwartungen, Größe und Struktur der Familie, sozialer 

Rangplatz in der Lerngruppe, ...). 

usf. 

Versuchen Sie im Bewusstsein dessen, 

die äußeren Lernvoraussetzungen für alle Schülerinnen und Schüler möglichst vergleichbar zu gestalten und Fremdfaktoren 

auszuschalten oder wenigstens zu reduzieren, 

reflektieren Sie die Ergebnisse der Leistungsmessung kritisch und vermeiden Sie vorschnelle Schlussfolgerungen (Leistungsdefizite 

werden zu oft voreilig ausschließlich den Probanden zugeschrieben). 

Vor diesem Hintergrund und auch mit Blick auf die vielfältigen Mess- und Beurteilungsfehler (vor denen auch die beste Lehrkraft 

nicht gefeit ist) ist es schlichtweg falsch, ja hanebüchen, Zeugnisnoten etc. von der zweiten Dezimale des Notendurchschnitts 

abhängig zu machen! 

Zur Messung 

Beim „Messen― will man Informationen über den Ausprägungsgrad eines bestimmten Merkmals (hier: die Leistung) erhalten. 

Um die Exaktheit der Aussage zu erhöhen, versucht man, die Beobachtungen zu quantifizieren, also Zahlen zuzuordnen. 

Lehrkräfte machen nun sehr oft (unbewusst) den Fehler, ihre Kenntnisse und Erfahrungen im Umgang mit Zahlen auf ihre 

Notenziffern und die (angeblich) sich dahinter verbergende Leistung zu übertragen: 

Sachverhalt 

in der „Sprache― der Zahlen 

2 < 3 

5 − 4 = 2 − 1 

(5 + 4 + 3) ∶ 3 = 4 

2 ∙ 2 = 4 

wird projiziert auf „Leistung― Einschätzung 

Der Proband mit der Note 2 ist besser als der Proband 

mit der Note 3 

Der Leistungsunterschied zwischen 4 und 5 entspricht 

dem zwischen 1 und 2 

Wenn ein Proband in drei Klassenarbeiten die Noten 

5, 4 und 3 erzielte, so entspricht dies insgesamt 

einer ausreichenden, also einer mit 4 zu bewertenden 

Leistung 

Der Proband mit der Note 2 ist doppelt so gut wie 

der mit der Note 4 

mag ja hoffentlich stimmen 

ist äußerst fragwürdig 

ist mehr als fragwürdig 

ist äußerst fragwürdig 

Solche Identifikationen und Operationen (also z. B. die Durchschnittsbildung aus mehreren Noten zwecks Ermittlung einer 

Gesamtnote) sind aber nur dann legitim, wenn die Messung bestimmten Qualitätsanforderungen genügt (für die Spezialisten: 

mindestens Intervallskalen-Niveau); sie sind weitestgehend falsch und unsinnig, wenn die Messungen nur Rangplatz- 

Niveau (Ordinal-Niveau) haben (und dies ist – leider – meist der Fall!). 

Fazit: Sie müssen bei den Bewertungsstrategien und Ihrer Notengebung einige Anstrengungen unternehmen 

und bestimmte Qualitätsanforderungen erfüllen, um ein hinreichendes Messniveau zu erreichen. 

Kleiner Exkurs zu den Messniveaus 

Nominalskala – Ordinalskala – Intervallskala – Verhältnisskala 

 

Nominalskala = Zahlen als Namen (z. B. Rückennummern beim Sport) 

Ordinalskala = Zahlen als Rang-/Platz-Ziffern (wobei zwischen den Rangplätzen sehr unterschiedliche Differenzen 

bestehen können) 

Intervallskala = äquidistante Einteilung, also überall gleiche Unterschiede (z. B. Temperaturskala) 

Verhältnisskala = auch die Quotienten sind gleich (z. B. ist bei einem Metermaß 2 m doppelt so lang wie 1 m, im 

Unterschied zu z. B. der Temperaturskala, wo 20 C nicht „doppelt so warm― ist wie 10 C) 

Das folgende, offenkundig leichte Beispiel soll diese Problematik nochmals verdeutlichen. Drei 100-Meter-Läufer führen zwei 

Läufe durch mit folgenden Ergebnissen: 

1. Lauf 2. Lauf 

Zeit Rangplatz Zeit Rangplatz 

Läufer A 11,3 2. 10,4 1. 

Läufer B 10,4 1. 10,6 3. 

Läufer C 12,1 3. 10,5 2. 

Welchen Läufer setzen Sie in der Gesamtwertung auf welchen Platz, und mit welcher Begründung? 

Seite 3 von 18

Entscheiden Sie, welchen Läufer Sie in der Gesamtwertung beider Läufe auf den ersten Platz setzen und begründen Sie Ihre Entscheidung! 

Was haben Sie entschieden? Sie könnten jeden Läufer auf den ersten Platz setzen, mit durchaus griffigen Argumenten: Läufer A hat die besten Plätze erreicht, Läufer B jedoch die beste Zeitsumme, Läufer C hat die größte 

Leistungssteigerung. 

Selbst bei einem so offenkundig einfachen Sachverhalt und absolut objektiven Messungen hat man also schon Schwierigkeiten, 

aus zwei Durchläufen eine Gesamtwertung vorzunehmen. Um wie viel schwieriger ist dies dann bei einem so komplexen 

Merkmal wie „Leistung―? Und das bei vielen „Disziplinen―, also dem „Verwursteln― mehrerer Klassenarbeiten oder gar vieler 

Noten aus Leistungsnachweisen unterschiedlichster Couleur. 

Nochmals: 

Wenn Sie nicht einiges tun, um Ihre Leistungsmessung auf ein akzeptables Niveau zu heben, dann haben Ihre Noten nur 

Rangplatzniveau (d. h. Sie vergeben im Prinzip die Platzziffern 1 bis 6), und Sie kommen in der Regel zu sehr fehlerhaften 

Ergebnissen, wenn Sie aus solchen Noten Durchschnitte bilden. 

Messen, das wissen Sie, können Sie nur mit einem Maßstab, einer „Messlatte―, Sie brauchen ein Bezugssystem, eine Norm, 

um z. B. Ihre Rohpunktwerte in Noten transformieren zu können. Es gibt drei verschiedene „klassische― Normen, nämlich die 

intersubjektive Norm (Leistung in Bezug auf die Klasse, die Testgruppe) 

objektive Norm (Leistung in Bezug auf das Lernziel, den Sachanspruch) 

intrasubjektive Norm (Leistung in Bezug auf die Vorleistung, in der Pädagogik auch bekannt als „pädagogische Zensur―) 

Anmerkung: der Begriff „objektiv― ist hier gemeint im Sinne von Objekt, Sache; die objektive Norm 

ist also a priori keineswegs objektiver als die anderen. 

Genau genommen gibt es noch weitere „Normen―, nämlich jene „selbstgestrickten― Maßstäbe und Strategien, die Lehrkräfte 

landauf landab praktizieren, um ihre „Rohpunkte― in Noten zu transferieren. Ob sie diesen Namen [Norm] verdienen, 

sei dahingestellt; meist ist dies nicht der Fall! 

Die Schulordnung des Landes Rheinland-Pfalz drückt die „Normierung― in § 53 [1] in einer seit Jahrzehnten unverändert 

gebliebenen Formulierung wie folgt aus: 

„Leistungen werden nach dem Grad des Erreichens von Lernanforderungen beurteilt. Die Beurteilung berücksichtigt den 

individuellen Lernfortschritt der Schülerinnen und Schüler, ihre Leistungsbereitschaft und auch die Lerngruppe, in der 

die Leistung erbracht wird.― 

( = objektive Norm, = intrasubjektive Norm, = intersubjektive Norm) 

Den Lehrkräften ist also aufgegeben, bei ihrer Leistungsbeurteilung alle drei Normen zu berücksichtigen, in erster Linie jedoch 

die objektive. 

In der klassischen Testtheorie (synonym: normorientierte Leistungsmessung), die im Zuge des Vergleichs von Individuen 

z. B. nach dem Kriterium „Intelligenz―, also aus der differenziellen Psychologie, entstanden ist, wurden Instrumentarien, 

Begriffe und Quantifizierungen entwickelt, die heute zum Standard einer jeden Messung komplexer Merkmale gehören und 

deren Beachtung auch Lehrkräften hilft, die Messqualität ihrer Tests deutlich zu verbessern. Auch für die neuere Theorie der 

kriteriumsorientierten Leistungsmessung gelten die dort entwickelten begrifflichen Konzepte, nicht jedoch deren Quantifizierungen. 

Diese beiden „Säulen― und die unterschiedlichen Ansätze sind in einer Tabelle auf der folgenden Seite gegenübergestellt und 

spezifiziert. 

Bei der normorientierten Leistungsmessung geht es darum, eine faktisch gegebene Rangordnung herauszufinden. Dass sie 

vorhanden ist, ist ein Postulat: Es entspricht der „allgemeinen Lebenserfahrung―, dass, will man einer Gruppe von Menschen 

einen Sachverhalt nahebringen, sich bei diesen qualitativ und quantitativ Unterschiede einstellen in der Beherrschung der 

Inhalte. Schneiden bei einen einschlägigen Test alle Probanden gleich ab oder gibt es nur wenig Unterschiede, dann ist 

dieses Vorhaben des Herausfindens und möglichst treffenden Abbildens der faktisch vorhanden Rangordnung gescheitert. 

Deshalb ist es ein Anliegen, eine möglichst große Streuung zu erzielen. 

Bei der kriteriumsorientierten Leistungsmessung ist es völlig im Sinne der Lehrkraft, wenn möglichst viele Schülerinnen und 

Schüler ein möglichst optimales Ergebnis erzielen, im Idealfall also alle die Höchstnote. Ein solches Ergebnis wäre bei der 

normorientierten Leistungsmessung völlig daneben (weil ohne jedes Ranking). Gerade das müsste ja eigentlich das Ziel 

einer jeden Lehrkraft und erfolgreichen Unterrichts sein. Sollte es jedoch tatsächlich einmal passieren oder auch nur annähernd, 

dann vermuteten Lehrerinnen und Lehrer sofort mit nicht rechten Dingen zugehendes Ungemach (weil sie eben 

intuitiv wissen und unterstellen, dass sich Unterschiede einstellen müssen). 

Normorientierte Leistungsmessung 

(Klassische Testtheorie) 

Kriteriumsorientierte Leistungsmessung 

Seite 4 von 18

Durchschnittsergebnis als Bezugssystem 

(Realnorm, intersubjektive Norm) 

Herkunft aus der differenziellen Psychologie 

Es existiert eine aktuelle faktische Rangordnung, die 

herauszufinden ist; es gilt also, die Unterschiede zwischen 

den Individuen treffend zu erfassen und sie 

entsprechend zu ordnen (Rangplätze) 

Axiom: Es gibt diese Unterschiede 

Das einzelne Messergebnis erhält erst dann einen Sinn, 

wenn es mit den Ergebnissen anderer Individuen verglichen 

wird (populationsabhängig) 

Dazu ist die Verschiedenartigkeit, die Streuung der 

Messergebnisse unabdingbar 

(Maß: Varianz, Standardabweichung) 

„Normalverteilung― (symmetrische Glockenkurve) gilt 

als hinreichendes Kriterium für das „Intervallskalenniveau― 

der Messergebnisse, das die Durchschnittsbildung 

legitimiert 

Es werden daher erhebliche Anstrengungen unternommen, 

das Testergebnis normalverteilt werden zu 

lassen: 

Testanalyse, Aufgabenanalyse 

Testanalyse: 

Reliabilität / Validität / Objektivität 

Aufgabenanalyse: 

Schwierigkeitsindex / Trennschärfe 

... sind Begriffe, die in der klassischen Testtheorie 

entwickelt wurden, … 

z. B. gelten hier für den Schwierigkeitsindex die 

Grenzen 0,2

Testgütekriterien: Objektivität, Validität, Reliabilität 

Objektivität 

= Unabhängigkeit vom Tester 

Für den Schulalltag ist die strenge Anwendung des Grundsatzes, den Test von einer zweiten Lehrkraft beurteilen zu lassen, 

die dann zu gleichen Ergebnissen kommen müsste, nicht praktikabel. 

Dennoch gibt es eine Vielzahl von Maßnahmen, die zur Verbesserung der Objektivität beitragen können, z. B. 

Sorgen Sie für möglichst gleiche Bedingungen für alle Schülerinnen und Schülern 

variieren Sie die Aufgabenstellungen/Darstellungen (Lernkanäle); gleiche Vorgaben bei der Vorbereitung; einheitliche 

Zeitgrenzen; gleiche Arbeitsmaterialien; gehen Sie vor der Bearbeitung alle Fragen/Aufgaben mit den Schülerinnen und 

Schülern durch; schreiben Sie die Reihenfolge der Bearbeitung nicht vor; keine subjektiven Hilfen während der Bearbeitung; 

... 

Korrigieren und bewerten Sie den Test bei allen Schülerinnen und Schülern möglichst einheitlich 

keine unterschiedliche Interpretation gleicher Fehler bei guten/schlechten Schülerinnen und Schülern (am besten: Namen 

verdeckt); korrigieren Sie aufgabenweise, nicht schülerweise, und machen Sie sich Notizen über Lösungsitems und 

Fehler und ihre Bewertung, damit Sie bei allen Probanden gleich verfahren; bringen Sie individuelle Kommentare an (intrasubjektive 

Norm); ... 

Validität 

= Was? – d. h. misst der Test tatsächlich das, was er zu messen vorgibt? 

Stellen Sie sicher, dass Sie in Ihrem Test vorrangig das und nur das abfragen, was Gegenstand des Unterrichts war, nicht 

nur inhaltlich, sondern auch in Bezug auf die Lernzielniveaus. Ihr Unterricht und der dazugehörende Test müssen einen 

möglichst engen Zusammenhang aufweisen. 

In der Literatur wird vorgeschlagen [in der Praxis aber wohl eher selten umgesetzt], sich anhand einer „Lernzielmatrix― 

einen möglichst exakten Überblick darüber zu verschaffen, welche Inhalte auf welchen Niveaus realisiert wurden ... 

Lernzielstufen 

Inhalte Reproduktion Reorganisation Transfer Kreativität 

Inhalt 1 

Inhalt 2 

etc. ... 

... und sodann anhand dieser Übersicht eine repräsentative Auswahl zu treffen, welche Inhalte auf welchem Niveau im Test 

abgefragt werden. 

Also: Auf jeden Fall sollten Sie sicherstellen, dass Ihr Test in Bezug auf Lerninhalte und Lernzielstufen repräsentativ ist und 

eine möglichst enge Korrelation zum Unterricht aufweist (Zusammenhang mit: Operationalisierung der Lernziele, d. h., wenn 

Sie Ihre Lernziele operationalisieren, dann haben Sie z. B. bereits über Beurteilungsmaßstäbe nachgedacht). Dies ist sehr 

schwierig, da Sie notwendigerweise eine Auswahl treffen müssen. Stellen Sie sich vor, Sie fragen nur einen Teilbereich ab, 

in dem ein sonst eher inkompetenter Proband sich recht gut auskennt – er wird gut abschneiden; oder ein Proband beherrscht 

95% des Stoffes sehr gut, es werden aber vorrangig jene 5% examiniert, die er nicht beherrscht – er wird schlecht 

abschneiden, ganz im Widerspruch zu seinen Kompetenzen. 

Zur Validität trägt zudem bei: 

Vermeiden Sie durch entsprechende Aufgabenstellungen und Gewichtung der Fehler, dass sich Vorleistungen der Schülerin 

bzw. des Schülers über Gebühr auswirken, z. B.: 

Rechenfehler, denn Sie wollen u. U. ja nicht die Rechenfertigkeit prüfen; 

Rechtschreibkategorien, die nicht aktuell Gegenstand des Rechtschreibunterrichts waren; 

 

 

Vermeiden Sie komplexe Aufgabenstrukturen, wo z. B. die Beantwortung des zweiten Teils die richtige Lösung des ersten 

Teils voraussetzt. 

Seite 6 von 18

Legen Sie die Punktwerte entsprechend dem tatsächlichen Schwierigkeitsgrad der Aufgaben fest (der tatsächliche 

Schwierigkeitsgrad resultiert erst im Nachhinein aus dem Testergebnis, nicht der Voreinschätzung der Lehrkraft). 

Formulieren Sie Fragen und Aufgaben so, wie sie auch im Unterricht formuliert wurden (das klingt banal, ist aber häufig 

Ursache für sachfremde Verständnisschwierigkeiten der Lernenden). 

Bemessen Sie den zeitlichen Ansatz für die Testdurchführung so, dass die Mehrzahl der Schülerinnen und Schüler (über 

80%) den Test in der zur Verfügung stehenden Zeit zu Ende bringen kann. 

Reliabilität 

= Wie genau misst der Test, was er zu messen vorgibt? 

Bei der normorientierten Leistungsmessung soll der Test die tatsächlich vorhandene Rangordnung möglichst genau abbilden. 

Er ist dann reliabel, wenn die Rangordnung aus dem Test der tatsächlich vorhandenen entspricht. Da man diese nicht 

kennt, muss man sich anderer Hilfsmittel bedienen, die Korrelation zwischen Testergebnis und Realität zu ermitteln. Grundsätzlich 

versucht man, die Unabhängigkeit vom speziellen Test zu belegen; wenn Sie also einen zweiten (gleich oder ähnlich) 

zum selben Sachverhalt/Lerninhalt durchführen, müssen sich logischerweise einigermaßen identische Resultate ergeben. 

Das Verfahren der Testwiederholung oder die Durchführung eines zweiten Tests (Test-Retest, Paralleltest) ist in der Schule 

kaum praktikabel. 

Was Sie jedoch stets – mit doch recht aussagekräftigen Ergebnissen – realisieren sollten, ist die Prüfung nach der „Split- 

Half-Reliabilität―: 

Teilen Sie die Aufgaben nach Belieben in zwei Hälften und ermitteln Sie die Punktwerte aller Schülerinnen und Schüler aus 

den beiden Testhälften. Wenn der Test reliabel ist, muss jeder Proband in beiden Testhälften (in etwa) denselben Rangplatz 

haben. 

Machen Sie sich die simple, aber überzeugende Logik des Verfahrens klar: 

Der schlechte Proband (schlecht im Sinne „Leistung im Rahmen der aktuellen Unterrichtseinheit―) muss bei Ihrem Test auf 

einem hinteren, der gute Proband auf einem vorderen Rangplatz landen, und dies gilt nicht nur für den Gesamttest, sondern 

auch für hinreichend repräsentative Teilmengen! 

Ist es denkbar, dass der schlechte Proband bei einigen Aufgaben insgesamt besser abschneidet als der gute? Wenn Ihr Test 

reliabel ist, also die tatsächlich vorhandene Rangordnung hinreichend abbildet, wohl kaum! Auch wenn Sie z. B. den Test in 

eine leichte und eine schwierige Hälfte einteilen – der gute Proband muss bei beiden „Paketen― besser abschneiden als der 

schlechtere. 

Aufgabenanalyse 

Schwierigkeitsgrad und Trennschärfe 

Schwierigkeitsgrad 

gibt an, wie viel Prozent der Schülerinnen und Schüler eine Aufgabe richtig gelöst haben 

Die Bewertung einer Aufgabe in Punkten muss sich konsequent an ihrem Schwierigkeitsgrad orientieren. Leichte Aufgaben 

erhalten wenig, schwere Aufgaben viele Punkte. 

Es ist oft geübte Praxis, den Punktwert einer Aufgabe im Vorhinein festzulegen. Damit entscheidet die Voreinschätzung der 

Lehrkraft (die unzutreffend sein kann, mitunter gar erheblich!), was schwer oder leicht ist. Diese Entscheidung kann aber 

eigentlich nur von den Schülerinnen und Schülern und vom Testergebnis selbst getroffen werden: Eine Aufgabe, die z. B. 

von nur wenigen Probanden gelöst wurde, war schwer, auch wenn die Lehrkraft sie als leicht einschätzte – und umgekehrt. 

Empfehlung: 

Legen Sie die Punktwerte der einzelnen Aufgaben erst bei der Korrektur fest. 

Damit haben Sie die Möglichkeit, sich konsequent am tatsächlichen Schwierigkeitsgrad zu orientieren. Zudem können Sie 

„unbrauchbare― Aufgaben (das sind jene mit zu hohem oder zu geringem Schwierigkeitsgrad, der zwischen 0,2 und 0,8 

liegen sollte – also: mindestens 20%, höchstens 80% der Schülerinnen und Schüler sollten eine Aufgabe gelöst haben) in 

ihren verfälschenden Auswirkungen abmildern, indem Sie sie mit niedriger Punktzahl bewerten oder sie als Zusatzaufgabe 

mit Zusatzpunkten aus der eigentlichen Bewertung herausnehmen. 

Damit die Schülerinnen und Schüler nach wie vor die Möglichkeit haben, sich bei der Bearbeitung am vss. Schwierigkeitsgrad 

zu orientieren, versehen Sie die Aufgaben mit einem entsprechenden Hinweis (z. B. leicht, mittel, schwer). 

Seite 7 von 18

Trennschärfe 

gibt an, inwieweit eine Aufgabe dazu beiträgt, schlechte von guten Schülerinnen und Schüler zu scheiden 

Die Betrachtung der Trennschärfe ist ein recht einfaches, aber probates Mittel, Rückschlüsse über die Qualität einer Aufgabe 

zu gewinnen. 

Teilen Sie die Schülerinnen und Schüler in die bessere (Obergruppe) und die schlechtere (Untergruppe) Hälfte (z. B. anhand 

der bisherigen Leistungen – was allerdings nicht ganz unproblematisch ist, warum?). 

Zählen Sie dann aus, wie viele Schülerinnen und Schüler aus der Obergruppe bzw. der Untergruppe die Aufgabe gelöst 

haben. Die Zahl der richtigen Lösungen in der Obergruppe muss über jener der Untergruppe liegen. 

Auch hierin steckt eine simple Logik: 

Wenn eine Aufgabe von den „schlechteren― (s. o.) Probanden besser gelöst wurde als von den besseren, dann steckt in ihr 

den Wurm drin (und dieser Wurm nagt an der Qualität Ihres Tests)! 

Sollten Sie bei der Lektüre bis zu dieser Stelle zu dem Schluss gekommen sein, dass Leistungsmessung ein sehr schwieriges 

Feld ist: 

Sie haben recht! 

Es ist sogar noch schwieriger, als Sie denken. Aber: Die Tragweite Ihrer Notengebung für die Schülerinnen und Schüler und 

die Auswirkungen auf Ihren gesamten Unterricht lassen es mehr als sinnvoll erscheinen, sich hierin eine hinreichende Kompetenz 

zu erwerben und Mühe walten zu lassen. 

Und jetzt ein kleines Übungsbeispiel, das Ihnen zeigen soll, wie einfach Schwierigkeitsgrad und Trennschärfe zu überblicken 

sind, wenn man nur eine geeignete Darstellung wählt: 

Schüler/in Aufgabe 1 Aufgabe 2 Aufgabe 3 Aufgabe 4 Aufgabe 5 

Obergruppe Hans 

Bernd 

Christel 

Mario 

Michaela 

Stephanie 

Untergruppe David 

Helmut 

Nicole 

Sandra 

Uwe 

= richtig gelöst 

Ermitteln Sie den Schwierigkeitsgrad einer jeden Aufgabe und beurteilen Sie die Trennschärfe. 

Welche Zusammenhang besteht zwischen beiden? 

Seite 8 von 18

Die durchschnittliche Abweichung (Beträge ohne Berücksichtigung des Vorzeichens) ergibt sich aus 

4∙0+5∙1+4∙2+3∙3+2∙4+3∙5+1∙6+0∙7 

22 

≈ 2,3 

Ordnen Sie jetzt dem Punktdurchschnitt eine (mittlere) Note – z. B. 3,5 – zu (das ist in diesem Verfahren zugleich die einzige 

subjektive Setzung) und ermitteln Sie von da aus in Schritten von jeweils 2,3 Punkten nach oben und unten die weiteren 

Notengrenzen. 

Am einfachsten geht das, indem Sie von der Note 3,5 aus jeweils 1: 2,3 ≈ 0,43 (2,3 Punkte sind 1 Notenstufe, also ist 1 

Punkt 0,43 Notenstufen) addieren bzw. subtrahieren (Maximum 6,0 und Minimum 1,0). Das sieht in unserem Beispiel dann 

so aus: 

Note 6,0 

=6 

6,0 

=6 

5,7 

=6 

5,2 

=5 

4,8 

=5 

4,4 

=4 

… +0,43 

3,9 3,5 

=4 =4 

Punkte 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 

Anzahl || | | ||| || |||| ||| | || | | | 

Wenn Sie – hoffentlich – zu dem Ergebnis kommen, dass das gar nicht so schwierig und aufwändig ist, können wir das Rechenexempel 

geringfügig erweitern und tatsächlich die Standardabweichung verwenden: 

Quadrieren Sie die Abweichungen vom Punktdurchschnitt und berechnen Sie dann die durchschnittliche quadratische Abweichung, 

also 

Quadratische 

Abweichung 

−0,43 

49 36 25 16 9 4 1 0 1 4 9 16 25 36 49 

Punkte 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 

Anzahl || | | ||| || |||| ||| | || | | | 

… 

3,1 

=3 

2,6 

=3 

Die durchschnittliche quadratische Abweichung ergibt sich aus 4∙0+5∙1+4∙4+3∙9+2∙16+3∙25+1∙36 

22 

2,2 

=2 

≈ 8,68 

Die Standardabweichung ist die Wurzel daraus, also

In der Literatur finden Sie weitere Skalierungs-Modelle wie „T-Wert-Skala―, „Stanine-Skala―, „Z-Wert-Skala― etc.. Die können 

Sie getrost vergessen; sie fußen ausnahmslos auf der Standardabweichung, die Zahlen werden lediglich transformiert in 

andere. 

Übungsbeispiel zur Standardabweichung 

Erstellen Sie eine Notenverteilung mit Hilfe der Standardabweichung 

Maximale Punktzahl: 25, Anzahl der Schülerinnen und Schüler: 31 

Punktspiegel 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 

| || | || ||| | ||| | | |||| | || |||| | | | || 

0 0 1 0 2 1 2 0 3 1 3 1 1 4 1 2 4 1 0 1 0 1 2 0 0 0 

Punktdurchschnitt 12,1 

(12,064…) 

Tragen Sie die quadratischen Abweichungen vom Punktdurchschnitt ein (gerundet auf 1 Dezimale): 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 

146,4 123,2 102,0 82,8 65,6 50,4 37,2 26,0 16,8 9,6 4,4 1,2 0,0 0,8 3,6 8,4 15,2 24,0 34,8 47,6 62,4 79,2 98,0 118,8 141,6 166,4 

| || | || ||| | ||| | | |||| | || |||| | | | || 

Berechnen Sie den Durchschnitt der 

quadratischen Abweichungen: 

1∙102,0+2∙65,6+⋯+1∙79,2+2∙98,0 

Die Wurzel daraus ergibt als Standardabweichung: SD 5,3 

Ordnen Sie dem Punktdurchschnitt eine Note zu, nämlich 3,5 

31 

≈ 863,6 

31 

≈ 27,9 

und berechnen Sie alle Notenwerte (ohne zusätzlichen Streckungsfaktor), und markieren Sie die Notengrenzen: 

12,1 Punkt entsprechen der Note 3,5; 12,0 Punkte (gerundet) ebenfalls; zu 3,5 werden jeweils 1 

≈ 0,189 addiert bzw. subtrahiert (und auf 1 Notendezimale 

gerundet): 

5,8 5,6 5,4 5,2 5,0 4,8 4,6 4,4 4,3 4,1 3,9 3,7 3,5 3,3 3,1 2,9 2,7 2,6 2,4 2,2 2,0 1,8 1,6 1,4 1,2 1,0 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 

| || | || ||| | ||| | | |||| | || |||| | | | || 

Zur Lösung dieser Aufgabe kann das auf der Homepage eingestellte Excel-Tabellenblatt genutzt werden, aber es hilft zum 

Verständnis, wenn man das einmal „von Hand― durchgeführt hat. 

5,3 

Seite 12 von 18

Nachstehend noch einige Tipps und Hinweise 

Planen Sie Ihre Klassenarbeiten oder schriftlichen Überprüfungen langfristig in Ihrem Arbeitsplan (gleichmäßige Verteilung 

auf das Schuljahr gemäß Vorgaben Ihrer Schulordnung), geben Sie den Schülerinnen und Schülern den Termin 

rechtzeitig bekannt (i. d. R. wohl mindestens eine Woche vorher). 

Beachten Sie unbedingt die verbindlichen Auflagen der Schulordnung, z. B. (SchO RLP) maximal eine Arbeit pro Schultag, 

maximal drei pro Woche, mindestens 2 Unterrichtswochen zwischen Rückgabe und nächster Arbeit, ...... 

Stellen Sie die äußeren Bedingungen sicher, insbesondere Raum- und Zeitfrage (evtl. weitere Stunden von Kollegen), 

sorgen Sie dafür, dass alle Schülerinnen und Schüler über die gleichen Hilfsmittel verfügen. Bemessen Sie den Zeitansatz 

insgesamt so, dass keine Hektik entsteht, dass hinreichend Zeit bleibt für die Vorbesprechung, ... 

Es soll Lehrkräfte geben, die bei einer schriftlichen Überprüfung (RLP: Zeitlimit 30 Minuten) oder einem schriftlichen Abfragen 

der Hausaufgabe (RLP: Zeitlimit 15 Minuten) die Probanden nach 30 resp. 15 Minuten fragen, ob sie noch länger 

schreiben wollen (natürlich wollen sie): Das ist eine ganz linke Tour! 

Klassenarbeiten zwecks Verhinderung des Spickens in großen Sälen zu schreiben, halte ich für schlecht, m. E. sollten die 

Arbeiten in vertrauter Umgebung stattfinden, um zusätzlichen Stress zu vermeiden. 

Stellen Sie die Klassenarbeit besser in zwei Testversionen in zwei Gruppen, unterbinden Sie das Spicken konsequent, warum? 

Es soll Lehrkräfte geben, die glauben, bei Ihnen könnten die Schülerinnen und Schüler nicht spicken; seien Sie sicher: 

das ist ein Irrtum. Es soll auch solche geben, die eine gewissen „Spickrate― von vornherein einkalkulieren und glauben, 

während der Arbeit Klassenarbeiten korrigieren oder Zeitung lesen zu können. 

Könnten Sie sich vorstellen, den Probanden die Verwendung eines limitierten Spickzettels zu gestatten – und die Erstellung 

eines Spickzettels gar kultivieren – als Strategie zur Wiederholung und besseren Einprägung?) 

Vergegenwärtigen Sie sich, welche Maßnahmen bei Täuschungsversuchen oder Beihilfe dazu pädagogisch sinnvoll und 

legitim sind. 

Nochmals: Geben Sie während der Bearbeitung keine individuellen Hilfen. Wenn Sie feststellen, dass ein Hinweis vonnöten 

wäre, unterbrechen Sie und geben ihn einheitlich allen Probanden. 

Verwenden Sie bei der Korrektur einheitliche, den Schülerinnen und Schülern nach und nach vertraute Korrektursymbole 

(Abstimmung darüber in der Fachkonferenz?), bringen Sie individuelle Kommentare/Erläuterungen an (intrasubjektive 

Norm). 

Die Rückgabe der Arbeit erfolgt in „angemessener― Frist. Für mich ist das, aus lernpsychologischen Erwägungen und 

Gründen der Kontinuität im Lernprozess, in der Regel die folgende Stunde (vielleicht Ausnahme: Aufsatz in Deutsch). 

Gestalten Sie die Besprechung der Arbeit so, dass möglichst sowohl schlechte wie auch gute Schülerinnen und Schüler 

einen Lernzuwachs erfahren. Die einheitliche Besprechung im Frontalunterricht ist in diesem Sinne sicherlich keine gute 

Lösung. 

Informieren Sie die Schülerinnen und Schüler über die Bewertungsmaßstäbe, die Sie bei den einzelnen Aufgaben wie 

auch insgesamt (Punkteverteilung) angewandt haben, geben Sie den Notenspiegel bekannt. 

Stehen Sie Fragen/Einwendungen der Probanden aufgeschlossen und wohlwollend gegenüber (oder gehören Sie zu den 

Lehrkräften, die grundsätzlich keine Fehler machen?). 

Seite 13 von 18

Die folgenden Ausführungen sind bezogen auf die Bestimmungen der Schulordnung des Landes Rheinland-Pfalz. Ich gehe 

jedoch davon aus, dass gleiche oder ähnliche Sachverhalte und Festlegungen auch in anderen Schulordnungen zu finden 

sind. 

Noten im Bereich „andere Leistungsnachweise― 

Hierzu rechnen sämtliche Leistungsnachweise außerhalb der Klassenarbeiten (in Fächern ohne Klassenarbeiten also alle). 

Gemäß Schulordnung ist hier „eine Vielfalt von mündlichen, schriftlichen und praktischen Arbeitsformen― zu Grunde zu legen, 

als da z. B. sind: 

schriftliches Abfragen der Hausaufgaben Mündlicher Vortrag 

schriftliche Überprüfung (nur in Fächern ohne Klassenarbeiten) Unterrichtsprotokolle 

mündliches Abfragen der Hausaufgaben schriftliche Ausarbeitungen 

mündliche Überprüfung Hausaufgaben 

Beiträge zum Unterrichtsgespräch praktische Übungen 

Diskussionsbeiträge 

...................................................................................................................... 

...................................................................................................................... 

Beachten Sie: 

Die Festlegungen der Schulordnung zu den schriftlichen Leistungsnachweisen und die Verwaltungsvorschrift über die Zahl 

der benoteten Klassenarbeiten antizipieren eindeutig, dass andere schriftliche Leistungsnachweise außer den dort definierten 

nicht legitimiert sind! 

Die Leistungsbeurteilung erfolgt 

punktuell oder 

epochal 

(Anmerkung: mein Beitrag zur „Epochalnote― auf meiner Homepage sei zur Lektüre empfohlen) 

Die „Gesamtnote für andere Leistungsnachweise―, die Sie zwecks Festsetzung der Zeugnisnote bilden, muss durch eine 

hinreichende Anzahl von Einzelnoten begründet sein (wie viele sind das?). 

„Echte― mündliche Noten müssen enthalten sein, es ist also nicht möglich, sich nur ausschließlich auf schriftliche Formen zu 

beschränken. 

Denken Sie unbedingt daran: 

Mündliche Noten und Epochalnoten müssen den Schülerinnen und Schülern fristgerecht bekannt gegeben werden, andernfalls 

(so die Rechtsprechung) gelten sie als nicht erteilt. 

Die Festsetzung der Zeugnisnote 

ist ausführlich in der Schulordnung geregelt (siehe dort) 

Für RLP gilt: Sie wird arithmetisch (also 50 : 50) gebildet aus 

der Gesamtnote für Klassenarbeiten (entfällt bei Fächern ohne Klassenarbeiten) 

der Gesamtnote für andere Leistungsnachweise 

(wurde nur eine Klassenarbeit geschrieben, ist diese geringer als 50 % zu gewichten) 

Und: 

Sämtliche Einzelnoten, auch die der Klassenarbeiten, können (begründet!) verschieden gewichtet werden. 

Für das Jahreszeugnis gelten die Noten des gesamten Schuljahres unter stärkerer Berücksichtigung der Leistungen des 

2. Halbjahres (Achtung: wird oft gelesen und verstanden als „Gewichtung― und mathematisch interpretiert und umgesetzt; 

gedacht ist aber wohl eher an ein pädagogisches Konstrukt). Für die Ermittlung der Jahresnote dürfen nicht die 

Halbjahres-Note oder die beiden Gesamtnoten, mit denen sie gebildet wurde, herangezogen werden. 

Seite 14 von 18

In der folgenden Übersicht ist die Bildung der Zeugnisnote nochmals dargestellt: 

Abbildung: „Bildung der Zeugnisnote― 

Klassenarbeiten 

über das Schuljahr möglichst gleichmäßig verteilt 

Anzahl: vorgeschrieben 

Andere Leistungsnachweise 

~ Beiträge zum Unterrichtsgespräch 

~ Diskussionsbeiträge 

~ Mündlicher Vortrag 

~ Mündliche Überprüfung 

~ Hausaufgaben 

~ Schriftliches Abfragen der Hausaufgaben 

~ Mündliches Abfragen der Hausaufgaben 

~ Unterrichtsprotokolle 

~ Schriftliche Ausarbeitungen 

~ Praktische Übungen 

~ Schriftliche Überprüfung 

(nur in Fächern ohne Klassenarbeiten) 

Anzahl: hinreichend = ? 

(ggf. gewichteter) Durchschnitt (ggf. gewichteter) Durchschnitt 

Gesamtnote 

Entscheidungshilfen 

Noten-Tendenzzeichen 

Tendenz insgesamt 

Intrasubjektiva 

Leistungsbereitschaft 

Rechnerischer Durchschnitt 50:50 *) 

Zeugnisnote 

Entscheidungshilfen ** 

Tendenz der Gesamtnoten 

Gesamteindruck 

Gesamtnote 

*) 

außer wenn nur 1 Klassenarbeit, dann 

50 

**) 

nur erforderlich, wenn die Differenz der 

Gesamtnoten ungerade 

Achtung: 

Die gelegentlich geübte Praxis, Tendenzzeichen der Einzelnoten vor der Durchschnittsbildung mit Dezimalwerten zu berücksichtigen 

(also 4 + zählt als 3,75 und 4 − zählt als 4,25 etc.), ist nicht zulässig, denn damit wird das in der Schulordnung 

definierte und vorgeschriebene 6-stufige Notenspektrum de facto auf ein 16-stufiges System erweitert. Zwar sind Tendenzzeichen 

bei Einzelnoten gestattet, jedoch müssen die Durchschnitte mit den glatten Noten gebildet, die Tendenzzeichen 

dürfen erst bei der Festsetzung der Gesamtnoten (als Entscheidungshilfe) berücksichtigt werden. 

Bedenken Sie: 

Zeugnisnoten erteilen ist nicht zu verstehen als eine Tätigkeit mit Taschenrechner, sondern ist eine pädagogisch 

determinierte Handlung! 

Seite 15 von 18

Exkurs zu 

Klassenarbeiten 

Es versteht sich, dass einschlägige Bestimmungen der Schulordnung einzuhalten sind. Dazu gehören z. B. Vorgaben bezüglich 

der Anzahl der Klassenarbeiten (bzw. schriftlichen Überprüfungen) 

der Optionen und der Auflagen des Abweichens von vorgegebenen Anzahlen 

eventuell statthafter „Ersatzhandlungen― (andere Formen der Leistungsüberprüfung) 

der Altersgemäßheit von Umfang und zeitlicher Dauer 

der Möglichkeit von Gemeinschaftsarbeiten 

der Durchführung von Vergleichsarbeiten 

der Bewertung von Rechtschreib- und Zeichensetzungsleistungen 

Nochmals der Hinweis: 

Es ist nicht zulässig, die Leistungsfeststellungen auf ausschließlich schriftliche Formen zu beschränken, vielmehr ist eine 

Vielfalt von schriftlichen, mündlichen und praktischen Arbeitsformen zu Grunde zu legen. 

Seite 16 von 18

Exkurs zu 

Notengebung und Verwaltungsgericht 

In der kritischen Auseinandersetzung mit der Bewertungspraxis wird oft die „abenteuerliche Vielfalt― der Bewertungsmaßstäbe 

der Lehrkräfte bemängelt, als Beleg werden extrem abweichende Bewertungen ein- und derselben Arbeit herangezogen. 

Auch wenn manche Kritik durchaus gerechtfertigt erscheint, wird dabei oft übersehen, dass 

Leistungsfeststellung und -beurteilung durch die pädagogische Verantwortung und die Freiheit der Lehrkraft bestimmt ist 

(so das Schulgesetz), 

sie eine höchst individuelle, „unvertretbare― Angelegenheit ist, die zudem aus den situativen Bedingungen (Einmaligkeit, 

Unwiederholbarkeit, ...) heraus determiniert ist, 

jeder Lehrkraft ein Beurteilungsspielraum eingeräumt ist, innerhalb dessen sie in eigener Verantwortung nach bestem 

Wissen und Gewissen entscheidet, 

„Leistung― ein sehr komplexes Merkmal ist, das zudem nur in Verbindung mit dem Unterrichtsgeschehen, den Schwerpunkten 

und Zielsetzungen definiert werden kann. 

Aus diesen Gründen ist eine gewisse „Vielfalt― durchaus normal und legitim. 

Verwaltungsgerichte akzeptieren (jedenfalls z. Zt. noch) die diesbezügliche alleinige Kompetenz der Lehrkräfte und sehen 

sich nicht berechtigt, via Gutachter oder Sachverständigen z. B. einen Deutschaufsatz ein zweites Mal zu korrigieren und die 

eigene Bewertung an Stelle derjenigen der Lehrkraft zu setzen. 

Also: Ihr Urteil, Ihre Entscheidung wird nicht dadurch falsch, dass ein anderer Beurteiler zu einem abweichenden Ergebnis 

kommt. 

Leistungs- und Eignungsbeurteilungen sind nur beschränkt gerichtlich nachprüfbar, nämlich daraufhin 

ob das vorgeschriebene Verfahren eingehalten wurde 

(z. B. Auflagen und Bestimmungen der SchO, KO etc.) 

ob allgemeingültige Bewertungsgrundsätze verletzt wurden 

(z. B. gleiche Bedingungen für alle Schülerinnen und Schüler, z. B. mehrmalige Anwendung desselben Kriteriums, z. B. 

mehrmalige Ausschöpfung des pädagogischen Freiraums) 

ob nicht von falschen Tatsachen ausgegangen wurde 

(Noten verwechselt, falsche Berechnungen von Durchschnittsnoten etc.) 

ob nicht sachfremde Erwägungen eine Rolle spielten 

(z. B. Voreingenommenheit, wesentlich ungleiche Leistungen werden willkürlich gleich bewertet oder umgekehrt) 

Übrigens: 

Selbstverständlich müssen Sie ggf. Ihre Bewertungs- und Beurteilungsgrundsätze offen legen. Dies gilt insbesondere auch 

gegenüber der Schulleitung, der in Ausnahmefällen, möglichst mit Ihrem Einverständnis, ansonsten im Benehmen mit der 

Klassenkonferenz, die Note einer Klassenarbeit abzuändern befugt ist. 

Auch im Zusammenhang mit der Bildung der Zeugnisnote haben Sie Ihre Beurteilungsgrundlagen auf Verlangen offen zu 

legen. 

Seite 17 von 18

Empfehlungen zur Weiterarbeit 

Der vorliegende Arbeitstext bietet nur einen ersten praxisorientierten Einstieg in das Thema. Sie müssen kontinuierlich an 

der Erweiterung und Vertiefung Ihrer diesbezüglichen Kompetenzen arbeiten, und zwar sowohl durch ergänzende Literaturstudien 

als auch in der praktischen Anwendung. 

Insbesondere sollten Sie sich intensiv mit folgenden Themenbereichen auseinander setzen: 

den ggf. fachspezifischen Besonderheiten in Ihren Fächern 

besonders in den musisch-künstlerischen und den praktisch und experimentell orientierten Fächern wie Musik, Bildende 

Kunst, Werken, Naturwissenschaften (z. B. Wahlpflichtfach Math/Nat) und Sport sowie den speziellen Anliegen im Fach 

Deutsch (Aufsatzbeurteilung) und den Fremdsprachen; 

der Notengebung im Bereich der anderen Leistungsnachweise 

besonders mit der Praxis der punktuellen mündlichen Noten (mündliches Abfragen der Hausaufgaben, mündliche Überprüfung, 

mündlicher Vortrag, Beiträge zum Unterrichtsgespräch, Diskussionsbeiträge, .....) und der Epochalnoten; 

und denken Sie daran: in Fächern mit mehreren Klassenarbeiten muss die Anzahl solcher Noten erheblich über jener der 

Klassenarbeiten liegen, weil sonst die Note aus z. B. einer mündlichen Überprüfung gleiches oder gar höheres Gewicht 

bekommt wie die Note aus einer Klassenarbeit; 

den Beurteilungsfehlern, ihren Ursachen und den Möglichkeiten ihrer Reduzierung, 

nehmen Sie also nicht für sich in Anspruch, keine Fehler zu machen, sondern setzen Sie sich konstruktiv mit der unbestreitbaren 

Tatsache auseinander, dass jedem Beurteiler mehr unbewusst denn bewusst Fehler unterlaufen, die sein Urteil 

nachhaltig verfälschen können; der erste Schritt in diese Richtung muss sein, dass Sie sich mögliche Fehlerquellen 

bewusst machen, z. B. 

sind Sie sicher, dass Sie nicht Schülerinnen und Schüler, die Sie gut kennen oder zu denen Sie ein besonders gutes 

Verhältnis haben, toleranter und besser bewerten als andere (Mildeeffekt, generosity error), und jene, zu denen Sie 

ein gestörtes Verhältnis haben, strenger und weniger tolerant beurteilen? 

sind Sie sicher, dass Ihre positive oder negative Erwartungshaltung und die Beharrungstendenzen Ihr Urteil nicht 

nachhaltig beeinflussen? 

sind Sie sicher, dass Sie nicht („Hof-Effekt― oder „Halo-Effekt―) Eindrücke aus anderen Bereichen auf die aktuelle 

Überprüfung projizieren (z. B. „ … hat bisher nur schlechte Ergebnisse produziert, also wird's diesmal auch so sein―, 

oder „ … ist undiszipliniert und unaufmerksam, also muss die Leistung entsprechend sein―, oder „ … ist in Mathe 

schlecht, also auch in Physik― ....)? 

neigen Sie nicht auch dazu, bei der Durchsicht von Arbeiten die ersten strenger zu bewerten als die letzten (Reihungseffekt)? 

neigen Sie nicht auch dazu (z. T. als Resultat Ihrer Unsicherheit), Extremwerte und -beurteilungen zu vermeiden 

(Fehler der zentralen Tendenz)? 

benutzen Sie nicht Tendenzzeichen als „Trostpflaster― für die Schülerinnen und Schüler, oder als Hintertür, weil sie 

sich scheuen, die schlechtere Note zu geben? 

ist die Höchstnote bei Ihnen sehr selten und die Wahrscheinlichkeit, sie zu erreichen, sehr viel geringer als die 

schlechteste Note „ungenügend―? 

etc. 

den verschiedenen Möglichkeiten der Aufgabenkonstruktion von „offenen Aufgaben― bis hin zu „geschlossenen―, 

ihren Vor- und Nachteilen und den Korrekturproblemen (z. B. Single-Choice, Multiple-Choice, Ergänzungsaufgabe, Assoziationsaufgabe, 

Substitutionsaufgabe, Zuordnungsaufgabe, Freie-Antwort-Aufgabe, .......) 

der Sonderheit der Note „ungenügend― 

die Note „ungenügend― unterscheidet sich in der Notendefinition von der Note „mangelhaft― einzig dadurch, dass die 

Behebbarkeit der Mängel in absehbarer Zeit negiert wird; diese Feststellung ist jedoch ein höchst individuelles, probandenspezifisches 

Faktum und kann sich nicht aus einer linearen Staffelung ergeben; in Folge ist diese Bewertung eigentlich 

aus dem linearen Notenspektrum herauszunehmen, das bei „mangelhaft― enden müsste; sodann wären die mit 

„mangelhaft― bewerteten Schülerinnen und Schüler zu beurteilen, ob die Note auf „ungenügend― gesetzt werden muss 

den veränderten Bedingungen der Leistungsmessung und –beurteilung in einer veränderten Lernwelt und vor dem Hintergrund 

eines erweiterten Lernbegriffs (nicht nur inhaltlich-fachliches Lernen, sondern auch Erwerb von Sozial- und Methodenkompetenz) 

Hierzu empfehle ich Ihnen als Lektüre das Heft 3/1995 der Zeitschrift „Pädagogik― (dort insbesondere den Aufsatz von Alfred Bendler) 

sowie das Jahresheft 1996 des Friedrich-Verlages zum Thema „Prüfen und Beurteilen — zwischen Fördern und Zensieren―. 

Seite 18 von 18

Kompendium Leistungsmessung - KaVauBe

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?