17.07.2013 Aufrufe

Kompendium Leistungsmessung - KaVauBe

Kompendium Leistungsmessung - KaVauBe

Kompendium Leistungsmessung - KaVauBe

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Inhalt:<br />

Kurt Vogelsberger<br />

<strong>Kompendium</strong> <strong>Leistungsmessung</strong><br />

<strong>Leistungsmessung</strong> in Schule und Unterricht<br />

Ein Arbeitstext<br />

<strong>Leistungsmessung</strong> Leistungsbeurteilung Schülerbeurteilung<br />

<strong>Leistungsmessung</strong> (Definition): Begriff Leistung, Begriff Messung<br />

Normorientierte und kriteriumsorientierte <strong>Leistungsmessung</strong><br />

Testgütekriterien: Objektivität, Reliabilität, Validität<br />

Aufgabenanalyse: Schwierigkeitsgrad und Trennschärfe<br />

Punkteverteilung in Noten transformieren (Prozentrangverfahren, Standardabweichung)<br />

Übungsbeispiel zur Standardabweichung<br />

Tipps und Hinweise<br />

Noten im Bereich „andere Leistungsnachweise“<br />

Festsetzung der Zeugnisnote<br />

Exkurs zu Klassenarbeiten<br />

Exkurs zu Notengebung und Verwaltungsgericht<br />

Empfehlungen zur Weiterarbeit<br />

Seite 1 von 18


Machen Sie sich den Unterschied und die hierarchische Struktur dieser drei Begriffe klar: Eine Leistung messen ist weniger<br />

als sie beurteilen, Schülerinnen und Schüler beurteilen ist mehr als nur deren Leistungen würdigen.<br />

<strong>Leistungsmessung</strong> ist das Quantifizieren einer erbrachten Leistung in Zahlenwerte, es werden z. B. 14 von 20 maximal<br />

möglichen Punkten vergeben.<br />

Leistungsbeurteilung ist das Inwertsetzen der Messergebnisse mit Blick auf einen bestimmten Wertmaßstab (Norm) bzw.<br />

den Probanden selbst (zur Verdeutlichung: Können Sie sich vorstellen, dass Sie identische Messergebnisse, z. B. obige 14<br />

von 20 Punkten, bei zwei verschiedenen Schülerinnen und Schülern völlig unterschiedlich kommentieren und einschätzen?).<br />

Schülerbeurteilung umfasst die Einschätzung der Gesamtpersönlichkeit, die neben der Leistung eine Vielzahl weiterer<br />

Faktoren beinhaltet, z. B.<br />

Nennen Sie Kriterien, Aspekte, …, die bei der Einschätzung und Beurteilung einer Persönlichkeit neben der Leistung eine Rolle spielen!<br />

<strong>Leistungsmessung</strong><br />

Versucht man, sich diesen Begriff und seine Bedeutung zu vergegenwärtigen, so wären wohl die beiden Begriffskomponenten<br />

„Leistung― und „Messung― zu besichtigen:<br />

Zur Leistung<br />

Der Begriff „Leistung― wird in der Gesellschaft, in der Arbeitswelt, in der Wissenschaft, … in sehr vielen unterschiedlichen<br />

Bedeutungen und Sinngebungen verwendet. Leistung in der Schule ist Fortschreiten im Lernprozess, ist aber auch Stand des<br />

Lernerfolgs zu einem bestimmten Zeitpunkt.<br />

Schulische Leistung umfasst also zwei Aspekte:<br />

Leistung als Ergebnis einer Tätigkeit, als „status quo― (statisch)<br />

Leistung als Vorgang des Tätigseins, als Fortschreiten im Lernprozess (dynamisch)<br />

In den meisten Schulordnungen dürften wohl als Definition von Leistung Formulierungen wie „ ... Schülerleistungen sind als<br />

Schritte und Resultate im Lernprozess zu sehen― zu finden sein, mithin ist für die Bewertung von Schülerleistungen die Berücksichtigung<br />

beider Aspekte in Auftrag gegeben.<br />

Wenn Sie einen Test in traditioneller Form durchführen, so eruieren und bewerten Sie in der Regel vorrangig die statische<br />

Leistungskomponente, d. h. den momentanen Ist-Zustand der Probanden. Wo und wie können Sie die Komponente „Schritte<br />

im Lernprozess― erfassen?<br />

Nennen Sie Formen der Leistungsüberprüfung, welche den dynamischen Aspekt in den Blick nehmen, also die Qualität beim Fortschreiten im Lernprozess:<br />

Zu berücksichtigen ist, dass es eine Vielzahl von Faktoren gibt, welche die Leistung einer Schülerin oder eines Schülers determinieren,<br />

die aber gar nicht in ihr oder ihm selbst liegen, von den Probanden also kaum beeinflusst werden können. Die<br />

Leistung hängt z. B. ab<br />

von schülerspezifischen Faktoren (Intelligenz, Motivation, Gesundheit, Geschlecht, momentane Befindlichkeit, Verhältnis<br />

zur Lerngruppe, Verhältnis zur Lehrkraft, ...);<br />

von der Lehrkraft (Geschlecht, Persönlichkeit, Engagement, Unterrichtsgestaltung, Erwartungshaltungen, Verhältnis zu<br />

den Schülerinnen und Schülern, Verhältnis zur Lerngruppe, ...);<br />

vom Stoff (Interesse, fachspezifische Neigungen, vorhandene Kompetenzen, bereits aufsummierte Defizite, ...);<br />

von äußeren Bedingungen (Arbeitsbedingungen, Klassenstärke, Schulweg, Differenzierung, ...);<br />

Seite 2 von 18


vom sozialen Umfeld (Bildungsstand und Beruf der Eltern, Leistungserwartungen, Größe und Struktur der Familie, sozialer<br />

Rangplatz in der Lerngruppe, ...).<br />

usf.<br />

Versuchen Sie im Bewusstsein dessen,<br />

die äußeren Lernvoraussetzungen für alle Schülerinnen und Schüler möglichst vergleichbar zu gestalten und Fremdfaktoren<br />

auszuschalten oder wenigstens zu reduzieren,<br />

reflektieren Sie die Ergebnisse der <strong>Leistungsmessung</strong> kritisch und vermeiden Sie vorschnelle Schlussfolgerungen (Leistungsdefizite<br />

werden zu oft voreilig ausschließlich den Probanden zugeschrieben).<br />

Vor diesem Hintergrund und auch mit Blick auf die vielfältigen Mess- und Beurteilungsfehler (vor denen auch die beste Lehrkraft<br />

nicht gefeit ist) ist es schlichtweg falsch, ja hanebüchen, Zeugnisnoten etc. von der zweiten Dezimale des Notendurchschnitts<br />

abhängig zu machen!<br />

Zur Messung<br />

Beim „Messen― will man Informationen über den Ausprägungsgrad eines bestimmten Merkmals (hier: die Leistung) erhalten.<br />

Um die Exaktheit der Aussage zu erhöhen, versucht man, die Beobachtungen zu quantifizieren, also Zahlen zuzuordnen.<br />

Lehrkräfte machen nun sehr oft (unbewusst) den Fehler, ihre Kenntnisse und Erfahrungen im Umgang mit Zahlen auf ihre<br />

Notenziffern und die (angeblich) sich dahinter verbergende Leistung zu übertragen:<br />

Sachverhalt<br />

in der „Sprache― der Zahlen<br />

2 < 3<br />

5 − 4 = 2 − 1<br />

(5 + 4 + 3) ∶ 3 = 4<br />

2 ∙ 2 = 4<br />

wird projiziert auf „Leistung― Einschätzung<br />

Der Proband mit der Note 2 ist besser als der Proband<br />

mit der Note 3<br />

Der Leistungsunterschied zwischen 4 und 5 entspricht<br />

dem zwischen 1 und 2<br />

Wenn ein Proband in drei Klassenarbeiten die Noten<br />

5, 4 und 3 erzielte, so entspricht dies insgesamt<br />

einer ausreichenden, also einer mit 4 zu bewertenden<br />

Leistung<br />

Der Proband mit der Note 2 ist doppelt so gut wie<br />

der mit der Note 4<br />

mag ja hoffentlich stimmen<br />

ist äußerst fragwürdig<br />

ist mehr als fragwürdig<br />

ist äußerst fragwürdig<br />

Solche Identifikationen und Operationen (also z. B. die Durchschnittsbildung aus mehreren Noten zwecks Ermittlung einer<br />

Gesamtnote) sind aber nur dann legitim, wenn die Messung bestimmten Qualitätsanforderungen genügt (für die Spezialisten:<br />

mindestens Intervallskalen-Niveau); sie sind weitestgehend falsch und unsinnig, wenn die Messungen nur Rangplatz-<br />

Niveau (Ordinal-Niveau) haben (und dies ist – leider – meist der Fall!).<br />

Fazit: Sie müssen bei den Bewertungsstrategien und Ihrer Notengebung einige Anstrengungen unternehmen<br />

und bestimmte Qualitätsanforderungen erfüllen, um ein hinreichendes Messniveau zu erreichen.<br />

Kleiner Exkurs zu den Messniveaus<br />

Nominalskala – Ordinalskala – Intervallskala – Verhältnisskala<br />

<br />

Nominalskala = Zahlen als Namen (z. B. Rückennummern beim Sport)<br />

Ordinalskala = Zahlen als Rang-/Platz-Ziffern (wobei zwischen den Rangplätzen sehr unterschiedliche Differenzen<br />

bestehen können)<br />

Intervallskala = äquidistante Einteilung, also überall gleiche Unterschiede (z. B. Temperaturskala)<br />

Verhältnisskala = auch die Quotienten sind gleich (z. B. ist bei einem Metermaß 2 m doppelt so lang wie 1 m, im<br />

Unterschied zu z. B. der Temperaturskala, wo 20 C nicht „doppelt so warm― ist wie 10 C)<br />

Das folgende, offenkundig leichte Beispiel soll diese Problematik nochmals verdeutlichen. Drei 100-Meter-Läufer führen zwei<br />

Läufe durch mit folgenden Ergebnissen:<br />

1. Lauf 2. Lauf<br />

Zeit Rangplatz Zeit Rangplatz<br />

Läufer A 11,3 2. 10,4 1.<br />

Läufer B 10,4 1. 10,6 3.<br />

Läufer C 12,1 3. 10,5 2.<br />

Welchen Läufer setzen Sie in der Gesamtwertung auf welchen Platz, und mit welcher Begründung?<br />

Seite 3 von 18


Entscheiden Sie, welchen Läufer Sie in der Gesamtwertung beider Läufe auf den ersten Platz setzen und begründen Sie Ihre Entscheidung!<br />

Was haben Sie entschieden? Sie könnten jeden Läufer auf den ersten Platz setzen, mit durchaus griffigen Argumenten: Läufer A hat die besten Plätze erreicht, Läufer B jedoch die beste Zeitsumme, Läufer C hat die größte<br />

Leistungssteigerung.<br />

Selbst bei einem so offenkundig einfachen Sachverhalt und absolut objektiven Messungen hat man also schon Schwierigkeiten,<br />

aus zwei Durchläufen eine Gesamtwertung vorzunehmen. Um wie viel schwieriger ist dies dann bei einem so komplexen<br />

Merkmal wie „Leistung―? Und das bei vielen „Disziplinen―, also dem „Verwursteln― mehrerer Klassenarbeiten oder gar vieler<br />

Noten aus Leistungsnachweisen unterschiedlichster Couleur.<br />

Nochmals:<br />

Wenn Sie nicht einiges tun, um Ihre <strong>Leistungsmessung</strong> auf ein akzeptables Niveau zu heben, dann haben Ihre Noten nur<br />

Rangplatzniveau (d. h. Sie vergeben im Prinzip die Platzziffern 1 bis 6), und Sie kommen in der Regel zu sehr fehlerhaften<br />

Ergebnissen, wenn Sie aus solchen Noten Durchschnitte bilden.<br />

Messen, das wissen Sie, können Sie nur mit einem Maßstab, einer „Messlatte―, Sie brauchen ein Bezugssystem, eine Norm,<br />

um z. B. Ihre Rohpunktwerte in Noten transformieren zu können. Es gibt drei verschiedene „klassische― Normen, nämlich die<br />

intersubjektive Norm (Leistung in Bezug auf die Klasse, die Testgruppe)<br />

objektive Norm (Leistung in Bezug auf das Lernziel, den Sachanspruch)<br />

intrasubjektive Norm (Leistung in Bezug auf die Vorleistung, in der Pädagogik auch bekannt als „pädagogische Zensur―)<br />

Anmerkung: der Begriff „objektiv― ist hier gemeint im Sinne von Objekt, Sache; die objektive Norm<br />

ist also a priori keineswegs objektiver als die anderen.<br />

Genau genommen gibt es noch weitere „Normen―, nämlich jene „selbstgestrickten― Maßstäbe und Strategien, die Lehrkräfte<br />

landauf landab praktizieren, um ihre „Rohpunkte― in Noten zu transferieren. Ob sie diesen Namen [Norm] verdienen,<br />

sei dahingestellt; meist ist dies nicht der Fall!<br />

Die Schulordnung des Landes Rheinland-Pfalz drückt die „Normierung― in § 53 [1] in einer seit Jahrzehnten unverändert<br />

gebliebenen Formulierung wie folgt aus:<br />

„Leistungen werden nach dem Grad des Erreichens von Lernanforderungen beurteilt. Die Beurteilung berücksichtigt den<br />

individuellen Lernfortschritt der Schülerinnen und Schüler, ihre Leistungsbereitschaft und auch die Lerngruppe, in der<br />

die Leistung erbracht wird.―<br />

( = objektive Norm, = intrasubjektive Norm, = intersubjektive Norm)<br />

Den Lehrkräften ist also aufgegeben, bei ihrer Leistungsbeurteilung alle drei Normen zu berücksichtigen, in erster Linie jedoch<br />

die objektive.<br />

In der klassischen Testtheorie (synonym: normorientierte <strong>Leistungsmessung</strong>), die im Zuge des Vergleichs von Individuen<br />

z. B. nach dem Kriterium „Intelligenz―, also aus der differenziellen Psychologie, entstanden ist, wurden Instrumentarien,<br />

Begriffe und Quantifizierungen entwickelt, die heute zum Standard einer jeden Messung komplexer Merkmale gehören und<br />

deren Beachtung auch Lehrkräften hilft, die Messqualität ihrer Tests deutlich zu verbessern. Auch für die neuere Theorie der<br />

kriteriumsorientierten <strong>Leistungsmessung</strong> gelten die dort entwickelten begrifflichen Konzepte, nicht jedoch deren Quantifizierungen.<br />

Diese beiden „Säulen― und die unterschiedlichen Ansätze sind in einer Tabelle auf der folgenden Seite gegenübergestellt und<br />

spezifiziert.<br />

Bei der normorientierten <strong>Leistungsmessung</strong> geht es darum, eine faktisch gegebene Rangordnung herauszufinden. Dass sie<br />

vorhanden ist, ist ein Postulat: Es entspricht der „allgemeinen Lebenserfahrung―, dass, will man einer Gruppe von Menschen<br />

einen Sachverhalt nahebringen, sich bei diesen qualitativ und quantitativ Unterschiede einstellen in der Beherrschung der<br />

Inhalte. Schneiden bei einen einschlägigen Test alle Probanden gleich ab oder gibt es nur wenig Unterschiede, dann ist<br />

dieses Vorhaben des Herausfindens und möglichst treffenden Abbildens der faktisch vorhanden Rangordnung gescheitert.<br />

Deshalb ist es ein Anliegen, eine möglichst große Streuung zu erzielen.<br />

Bei der kriteriumsorientierten <strong>Leistungsmessung</strong> ist es völlig im Sinne der Lehrkraft, wenn möglichst viele Schülerinnen und<br />

Schüler ein möglichst optimales Ergebnis erzielen, im Idealfall also alle die Höchstnote. Ein solches Ergebnis wäre bei der<br />

normorientierten <strong>Leistungsmessung</strong> völlig daneben (weil ohne jedes Ranking). Gerade das müsste ja eigentlich das Ziel<br />

einer jeden Lehrkraft und erfolgreichen Unterrichts sein. Sollte es jedoch tatsächlich einmal passieren oder auch nur annähernd,<br />

dann vermuteten Lehrerinnen und Lehrer sofort mit nicht rechten Dingen zugehendes Ungemach (weil sie eben<br />

intuitiv wissen und unterstellen, dass sich Unterschiede einstellen müssen).<br />

Normorientierte <strong>Leistungsmessung</strong><br />

(Klassische Testtheorie)<br />

Kriteriumsorientierte <strong>Leistungsmessung</strong><br />

Seite 4 von 18


Durchschnittsergebnis als Bezugssystem<br />

(Realnorm, intersubjektive Norm)<br />

Herkunft aus der differenziellen Psychologie<br />

Es existiert eine aktuelle faktische Rangordnung, die<br />

herauszufinden ist; es gilt also, die Unterschiede zwischen<br />

den Individuen treffend zu erfassen und sie<br />

entsprechend zu ordnen (Rangplätze)<br />

Axiom: Es gibt diese Unterschiede<br />

Das einzelne Messergebnis erhält erst dann einen Sinn,<br />

wenn es mit den Ergebnissen anderer Individuen verglichen<br />

wird (populationsabhängig)<br />

Dazu ist die Verschiedenartigkeit, die Streuung der<br />

Messergebnisse unabdingbar<br />

(Maß: Varianz, Standardabweichung)<br />

„Normalverteilung― (symmetrische Glockenkurve) gilt<br />

als hinreichendes Kriterium für das „Intervallskalenniveau―<br />

der Messergebnisse, das die Durchschnittsbildung<br />

legitimiert<br />

Es werden daher erhebliche Anstrengungen unternommen,<br />

das Testergebnis normalverteilt werden zu<br />

lassen:<br />

Testanalyse, Aufgabenanalyse<br />

Testanalyse:<br />

Reliabilität / Validität / Objektivität<br />

Aufgabenanalyse:<br />

Schwierigkeitsindex / Trennschärfe<br />

... sind Begriffe, die in der klassischen Testtheorie<br />

entwickelt wurden, …<br />

z. B. gelten hier für den Schwierigkeitsindex die<br />

Grenzen 0,2


Testgütekriterien: Objektivität, Validität, Reliabilität<br />

Objektivität<br />

= Unabhängigkeit vom Tester<br />

Für den Schulalltag ist die strenge Anwendung des Grundsatzes, den Test von einer zweiten Lehrkraft beurteilen zu lassen,<br />

die dann zu gleichen Ergebnissen kommen müsste, nicht praktikabel.<br />

Dennoch gibt es eine Vielzahl von Maßnahmen, die zur Verbesserung der Objektivität beitragen können, z. B.<br />

Sorgen Sie für möglichst gleiche Bedingungen für alle Schülerinnen und Schülern<br />

variieren Sie die Aufgabenstellungen/Darstellungen (Lernkanäle); gleiche Vorgaben bei der Vorbereitung; einheitliche<br />

Zeitgrenzen; gleiche Arbeitsmaterialien; gehen Sie vor der Bearbeitung alle Fragen/Aufgaben mit den Schülerinnen und<br />

Schülern durch; schreiben Sie die Reihenfolge der Bearbeitung nicht vor; keine subjektiven Hilfen während der Bearbeitung;<br />

...<br />

Korrigieren und bewerten Sie den Test bei allen Schülerinnen und Schülern möglichst einheitlich<br />

keine unterschiedliche Interpretation gleicher Fehler bei guten/schlechten Schülerinnen und Schülern (am besten: Namen<br />

verdeckt); korrigieren Sie aufgabenweise, nicht schülerweise, und machen Sie sich Notizen über Lösungsitems und<br />

Fehler und ihre Bewertung, damit Sie bei allen Probanden gleich verfahren; bringen Sie individuelle Kommentare an (intrasubjektive<br />

Norm); ...<br />

Validität<br />

= Was? – d. h. misst der Test tatsächlich das, was er zu messen vorgibt?<br />

Stellen Sie sicher, dass Sie in Ihrem Test vorrangig das und nur das abfragen, was Gegenstand des Unterrichts war, nicht<br />

nur inhaltlich, sondern auch in Bezug auf die Lernzielniveaus. Ihr Unterricht und der dazugehörende Test müssen einen<br />

möglichst engen Zusammenhang aufweisen.<br />

In der Literatur wird vorgeschlagen [in der Praxis aber wohl eher selten umgesetzt], sich anhand einer „Lernzielmatrix―<br />

einen möglichst exakten Überblick darüber zu verschaffen, welche Inhalte auf welchen Niveaus realisiert wurden ...<br />

Lernzielstufen <br />

Inhalte Reproduktion Reorganisation Transfer Kreativität<br />

Inhalt 1 <br />

Inhalt 2 <br />

etc. ...<br />

... und sodann anhand dieser Übersicht eine repräsentative Auswahl zu treffen, welche Inhalte auf welchem Niveau im Test<br />

abgefragt werden.<br />

Also: Auf jeden Fall sollten Sie sicherstellen, dass Ihr Test in Bezug auf Lerninhalte und Lernzielstufen repräsentativ ist und<br />

eine möglichst enge Korrelation zum Unterricht aufweist (Zusammenhang mit: Operationalisierung der Lernziele, d. h., wenn<br />

Sie Ihre Lernziele operationalisieren, dann haben Sie z. B. bereits über Beurteilungsmaßstäbe nachgedacht). Dies ist sehr<br />

schwierig, da Sie notwendigerweise eine Auswahl treffen müssen. Stellen Sie sich vor, Sie fragen nur einen Teilbereich ab,<br />

in dem ein sonst eher inkompetenter Proband sich recht gut auskennt – er wird gut abschneiden; oder ein Proband beherrscht<br />

95% des Stoffes sehr gut, es werden aber vorrangig jene 5% examiniert, die er nicht beherrscht – er wird schlecht<br />

abschneiden, ganz im Widerspruch zu seinen Kompetenzen.<br />

Zur Validität trägt zudem bei:<br />

Vermeiden Sie durch entsprechende Aufgabenstellungen und Gewichtung der Fehler, dass sich Vorleistungen der Schülerin<br />

bzw. des Schülers über Gebühr auswirken, z. B.:<br />

Rechenfehler, denn Sie wollen u. U. ja nicht die Rechenfertigkeit prüfen;<br />

Rechtschreibkategorien, die nicht aktuell Gegenstand des Rechtschreibunterrichts waren;<br />

<br />

<br />

Vermeiden Sie komplexe Aufgabenstrukturen, wo z. B. die Beantwortung des zweiten Teils die richtige Lösung des ersten<br />

Teils voraussetzt.<br />

Seite 6 von 18


Legen Sie die Punktwerte entsprechend dem tatsächlichen Schwierigkeitsgrad der Aufgaben fest (der tatsächliche<br />

Schwierigkeitsgrad resultiert erst im Nachhinein aus dem Testergebnis, nicht der Voreinschätzung der Lehrkraft).<br />

Formulieren Sie Fragen und Aufgaben so, wie sie auch im Unterricht formuliert wurden (das klingt banal, ist aber häufig<br />

Ursache für sachfremde Verständnisschwierigkeiten der Lernenden).<br />

Bemessen Sie den zeitlichen Ansatz für die Testdurchführung so, dass die Mehrzahl der Schülerinnen und Schüler (über<br />

80%) den Test in der zur Verfügung stehenden Zeit zu Ende bringen kann.<br />

Reliabilität<br />

= Wie genau misst der Test, was er zu messen vorgibt?<br />

Bei der normorientierten <strong>Leistungsmessung</strong> soll der Test die tatsächlich vorhandene Rangordnung möglichst genau abbilden.<br />

Er ist dann reliabel, wenn die Rangordnung aus dem Test der tatsächlich vorhandenen entspricht. Da man diese nicht<br />

kennt, muss man sich anderer Hilfsmittel bedienen, die Korrelation zwischen Testergebnis und Realität zu ermitteln. Grundsätzlich<br />

versucht man, die Unabhängigkeit vom speziellen Test zu belegen; wenn Sie also einen zweiten (gleich oder ähnlich)<br />

zum selben Sachverhalt/Lerninhalt durchführen, müssen sich logischerweise einigermaßen identische Resultate ergeben.<br />

Das Verfahren der Testwiederholung oder die Durchführung eines zweiten Tests (Test-Retest, Paralleltest) ist in der Schule<br />

kaum praktikabel.<br />

Was Sie jedoch stets – mit doch recht aussagekräftigen Ergebnissen – realisieren sollten, ist die Prüfung nach der „Split-<br />

Half-Reliabilität―:<br />

Teilen Sie die Aufgaben nach Belieben in zwei Hälften und ermitteln Sie die Punktwerte aller Schülerinnen und Schüler aus<br />

den beiden Testhälften. Wenn der Test reliabel ist, muss jeder Proband in beiden Testhälften (in etwa) denselben Rangplatz<br />

haben.<br />

Machen Sie sich die simple, aber überzeugende Logik des Verfahrens klar:<br />

Der schlechte Proband (schlecht im Sinne „Leistung im Rahmen der aktuellen Unterrichtseinheit―) muss bei Ihrem Test auf<br />

einem hinteren, der gute Proband auf einem vorderen Rangplatz landen, und dies gilt nicht nur für den Gesamttest, sondern<br />

auch für hinreichend repräsentative Teilmengen!<br />

Ist es denkbar, dass der schlechte Proband bei einigen Aufgaben insgesamt besser abschneidet als der gute? Wenn Ihr Test<br />

reliabel ist, also die tatsächlich vorhandene Rangordnung hinreichend abbildet, wohl kaum! Auch wenn Sie z. B. den Test in<br />

eine leichte und eine schwierige Hälfte einteilen – der gute Proband muss bei beiden „Paketen― besser abschneiden als der<br />

schlechtere.<br />

Aufgabenanalyse<br />

Schwierigkeitsgrad und Trennschärfe<br />

Schwierigkeitsgrad<br />

gibt an, wie viel Prozent der Schülerinnen und Schüler eine Aufgabe richtig gelöst haben<br />

Die Bewertung einer Aufgabe in Punkten muss sich konsequent an ihrem Schwierigkeitsgrad orientieren. Leichte Aufgaben<br />

erhalten wenig, schwere Aufgaben viele Punkte.<br />

Es ist oft geübte Praxis, den Punktwert einer Aufgabe im Vorhinein festzulegen. Damit entscheidet die Voreinschätzung der<br />

Lehrkraft (die unzutreffend sein kann, mitunter gar erheblich!), was schwer oder leicht ist. Diese Entscheidung kann aber<br />

eigentlich nur von den Schülerinnen und Schülern und vom Testergebnis selbst getroffen werden: Eine Aufgabe, die z. B.<br />

von nur wenigen Probanden gelöst wurde, war schwer, auch wenn die Lehrkraft sie als leicht einschätzte – und umgekehrt.<br />

Empfehlung:<br />

Legen Sie die Punktwerte der einzelnen Aufgaben erst bei der Korrektur fest.<br />

Damit haben Sie die Möglichkeit, sich konsequent am tatsächlichen Schwierigkeitsgrad zu orientieren. Zudem können Sie<br />

„unbrauchbare― Aufgaben (das sind jene mit zu hohem oder zu geringem Schwierigkeitsgrad, der zwischen 0,2 und 0,8<br />

liegen sollte – also: mindestens 20%, höchstens 80% der Schülerinnen und Schüler sollten eine Aufgabe gelöst haben) in<br />

ihren verfälschenden Auswirkungen abmildern, indem Sie sie mit niedriger Punktzahl bewerten oder sie als Zusatzaufgabe<br />

mit Zusatzpunkten aus der eigentlichen Bewertung herausnehmen.<br />

Damit die Schülerinnen und Schüler nach wie vor die Möglichkeit haben, sich bei der Bearbeitung am vss. Schwierigkeitsgrad<br />

zu orientieren, versehen Sie die Aufgaben mit einem entsprechenden Hinweis (z. B. leicht, mittel, schwer).<br />

Seite 7 von 18


Trennschärfe<br />

gibt an, inwieweit eine Aufgabe dazu beiträgt, schlechte von guten Schülerinnen und Schüler zu scheiden<br />

Die Betrachtung der Trennschärfe ist ein recht einfaches, aber probates Mittel, Rückschlüsse über die Qualität einer Aufgabe<br />

zu gewinnen.<br />

Teilen Sie die Schülerinnen und Schüler in die bessere (Obergruppe) und die schlechtere (Untergruppe) Hälfte (z. B. anhand<br />

der bisherigen Leistungen – was allerdings nicht ganz unproblematisch ist, warum?).<br />

Zählen Sie dann aus, wie viele Schülerinnen und Schüler aus der Obergruppe bzw. der Untergruppe die Aufgabe gelöst<br />

haben. Die Zahl der richtigen Lösungen in der Obergruppe muss über jener der Untergruppe liegen.<br />

Auch hierin steckt eine simple Logik:<br />

Wenn eine Aufgabe von den „schlechteren― (s. o.) Probanden besser gelöst wurde als von den besseren, dann steckt in ihr<br />

den Wurm drin (und dieser Wurm nagt an der Qualität Ihres Tests)!<br />

Sollten Sie bei der Lektüre bis zu dieser Stelle zu dem Schluss gekommen sein, dass <strong>Leistungsmessung</strong> ein sehr schwieriges<br />

Feld ist:<br />

Sie haben recht!<br />

Es ist sogar noch schwieriger, als Sie denken. Aber: Die Tragweite Ihrer Notengebung für die Schülerinnen und Schüler und<br />

die Auswirkungen auf Ihren gesamten Unterricht lassen es mehr als sinnvoll erscheinen, sich hierin eine hinreichende Kompetenz<br />

zu erwerben und Mühe walten zu lassen.<br />

Und jetzt ein kleines Übungsbeispiel, das Ihnen zeigen soll, wie einfach Schwierigkeitsgrad und Trennschärfe zu überblicken<br />

sind, wenn man nur eine geeignete Darstellung wählt:<br />

Schüler/in Aufgabe 1 Aufgabe 2 Aufgabe 3 Aufgabe 4 Aufgabe 5<br />

Obergruppe Hans <br />

Bernd <br />

Christel <br />

Mario <br />

Michaela <br />

Stephanie <br />

Untergruppe David <br />

Helmut <br />

Nicole <br />

Sandra <br />

Uwe <br />

= richtig gelöst<br />

Ermitteln Sie den Schwierigkeitsgrad einer jeden Aufgabe und beurteilen Sie die Trennschärfe.<br />

Welche Zusammenhang besteht zwischen beiden?<br />

Seite 8 von 18


Die durchschnittliche Abweichung (Beträge ohne Berücksichtigung des Vorzeichens) ergibt sich aus<br />

4∙0+5∙1+4∙2+3∙3+2∙4+3∙5+1∙6+0∙7<br />

22<br />

≈ 2,3<br />

Ordnen Sie jetzt dem Punktdurchschnitt eine (mittlere) Note – z. B. 3,5 – zu (das ist in diesem Verfahren zugleich die einzige<br />

subjektive Setzung) und ermitteln Sie von da aus in Schritten von jeweils 2,3 Punkten nach oben und unten die weiteren<br />

Notengrenzen.<br />

Am einfachsten geht das, indem Sie von der Note 3,5 aus jeweils 1: 2,3 ≈ 0,43 (2,3 Punkte sind 1 Notenstufe, also ist 1<br />

Punkt 0,43 Notenstufen) addieren bzw. subtrahieren (Maximum 6,0 und Minimum 1,0). Das sieht in unserem Beispiel dann<br />

so aus:<br />

Note 6,0<br />

=6<br />

6,0<br />

=6<br />

5,7<br />

=6<br />

5,2<br />

=5<br />

4,8<br />

=5<br />

4,4<br />

=4<br />

… +0,43<br />

3,9 3,5<br />

=4 =4<br />

Punkte 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14<br />

Anzahl || | | ||| || |||| ||| | || | | |<br />

Wenn Sie – hoffentlich – zu dem Ergebnis kommen, dass das gar nicht so schwierig und aufwändig ist, können wir das Rechenexempel<br />

geringfügig erweitern und tatsächlich die Standardabweichung verwenden:<br />

Quadrieren Sie die Abweichungen vom Punktdurchschnitt und berechnen Sie dann die durchschnittliche quadratische Abweichung,<br />

also<br />

Quadratische<br />

Abweichung<br />

−0,43<br />

49 36 25 16 9 4 1 0 1 4 9 16 25 36 49<br />

Punkte 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14<br />

Anzahl || | | ||| || |||| ||| | || | | |<br />

…<br />

3,1<br />

=3<br />

2,6<br />

=3<br />

Die durchschnittliche quadratische Abweichung ergibt sich aus 4∙0+5∙1+4∙4+3∙9+2∙16+3∙25+1∙36<br />

22<br />

2,2<br />

=2<br />

≈ 8,68<br />

Die Standardabweichung ist die Wurzel daraus, also


In der Literatur finden Sie weitere Skalierungs-Modelle wie „T-Wert-Skala―, „Stanine-Skala―, „Z-Wert-Skala― etc.. Die können<br />

Sie getrost vergessen; sie fußen ausnahmslos auf der Standardabweichung, die Zahlen werden lediglich transformiert in<br />

andere.<br />

Übungsbeispiel zur Standardabweichung<br />

Erstellen Sie eine Notenverteilung mit Hilfe der Standardabweichung<br />

Maximale Punktzahl: 25, Anzahl der Schülerinnen und Schüler: 31<br />

Punktspiegel<br />

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />

| || | || ||| | ||| | | |||| | || |||| | | | ||<br />

0 0 1 0 2 1 2 0 3 1 3 1 1 4 1 2 4 1 0 1 0 1 2 0 0 0<br />

Punktdurchschnitt 12,1<br />

(12,064…)<br />

Tragen Sie die quadratischen Abweichungen vom Punktdurchschnitt ein (gerundet auf 1 Dezimale):<br />

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />

146,4 123,2 102,0 82,8 65,6 50,4 37,2 26,0 16,8 9,6 4,4 1,2 0,0 0,8 3,6 8,4 15,2 24,0 34,8 47,6 62,4 79,2 98,0 118,8 141,6 166,4<br />

| || | || ||| | ||| | | |||| | || |||| | | | ||<br />

Berechnen Sie den Durchschnitt der<br />

quadratischen Abweichungen:<br />

1∙102,0+2∙65,6+⋯+1∙79,2+2∙98,0<br />

Die Wurzel daraus ergibt als Standardabweichung: SD 5,3<br />

Ordnen Sie dem Punktdurchschnitt eine Note zu, nämlich 3,5<br />

31<br />

≈ 863,6<br />

31<br />

≈ 27,9<br />

und berechnen Sie alle Notenwerte (ohne zusätzlichen Streckungsfaktor), und markieren Sie die Notengrenzen:<br />

12,1 Punkt entsprechen der Note 3,5; 12,0 Punkte (gerundet) ebenfalls; zu 3,5 werden jeweils 1<br />

≈ 0,189 addiert bzw. subtrahiert (und auf 1 Notendezimale<br />

gerundet):<br />

5,8 5,6 5,4 5,2 5,0 4,8 4,6 4,4 4,3 4,1 3,9 3,7 3,5 3,3 3,1 2,9 2,7 2,6 2,4 2,2 2,0 1,8 1,6 1,4 1,2 1,0<br />

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />

| || | || ||| | ||| | | |||| | || |||| | | | ||<br />

Zur Lösung dieser Aufgabe kann das auf der Homepage eingestellte Excel-Tabellenblatt genutzt werden, aber es hilft zum<br />

Verständnis, wenn man das einmal „von Hand― durchgeführt hat.<br />

5,3<br />

Seite 12 von 18


Nachstehend noch einige Tipps und Hinweise<br />

Planen Sie Ihre Klassenarbeiten oder schriftlichen Überprüfungen langfristig in Ihrem Arbeitsplan (gleichmäßige Verteilung<br />

auf das Schuljahr gemäß Vorgaben Ihrer Schulordnung), geben Sie den Schülerinnen und Schülern den Termin<br />

rechtzeitig bekannt (i. d. R. wohl mindestens eine Woche vorher).<br />

Beachten Sie unbedingt die verbindlichen Auflagen der Schulordnung, z. B. (SchO RLP) maximal eine Arbeit pro Schultag,<br />

maximal drei pro Woche, mindestens 2 Unterrichtswochen zwischen Rückgabe und nächster Arbeit, ......<br />

Stellen Sie die äußeren Bedingungen sicher, insbesondere Raum- und Zeitfrage (evtl. weitere Stunden von Kollegen),<br />

sorgen Sie dafür, dass alle Schülerinnen und Schüler über die gleichen Hilfsmittel verfügen. Bemessen Sie den Zeitansatz<br />

insgesamt so, dass keine Hektik entsteht, dass hinreichend Zeit bleibt für die Vorbesprechung, ...<br />

Es soll Lehrkräfte geben, die bei einer schriftlichen Überprüfung (RLP: Zeitlimit 30 Minuten) oder einem schriftlichen Abfragen<br />

der Hausaufgabe (RLP: Zeitlimit 15 Minuten) die Probanden nach 30 resp. 15 Minuten fragen, ob sie noch länger<br />

schreiben wollen (natürlich wollen sie): Das ist eine ganz linke Tour!<br />

Klassenarbeiten zwecks Verhinderung des Spickens in großen Sälen zu schreiben, halte ich für schlecht, m. E. sollten die<br />

Arbeiten in vertrauter Umgebung stattfinden, um zusätzlichen Stress zu vermeiden.<br />

Stellen Sie die Klassenarbeit besser in zwei Testversionen in zwei Gruppen, unterbinden Sie das Spicken konsequent, warum?<br />

Es soll Lehrkräfte geben, die glauben, bei Ihnen könnten die Schülerinnen und Schüler nicht spicken; seien Sie sicher:<br />

das ist ein Irrtum. Es soll auch solche geben, die eine gewissen „Spickrate― von vornherein einkalkulieren und glauben,<br />

während der Arbeit Klassenarbeiten korrigieren oder Zeitung lesen zu können.<br />

Könnten Sie sich vorstellen, den Probanden die Verwendung eines limitierten Spickzettels zu gestatten – und die Erstellung<br />

eines Spickzettels gar kultivieren – als Strategie zur Wiederholung und besseren Einprägung?)<br />

Vergegenwärtigen Sie sich, welche Maßnahmen bei Täuschungsversuchen oder Beihilfe dazu pädagogisch sinnvoll und<br />

legitim sind.<br />

Nochmals: Geben Sie während der Bearbeitung keine individuellen Hilfen. Wenn Sie feststellen, dass ein Hinweis vonnöten<br />

wäre, unterbrechen Sie und geben ihn einheitlich allen Probanden.<br />

Verwenden Sie bei der Korrektur einheitliche, den Schülerinnen und Schülern nach und nach vertraute Korrektursymbole<br />

(Abstimmung darüber in der Fachkonferenz?), bringen Sie individuelle Kommentare/Erläuterungen an (intrasubjektive<br />

Norm).<br />

Die Rückgabe der Arbeit erfolgt in „angemessener― Frist. Für mich ist das, aus lernpsychologischen Erwägungen und<br />

Gründen der Kontinuität im Lernprozess, in der Regel die folgende Stunde (vielleicht Ausnahme: Aufsatz in Deutsch).<br />

Gestalten Sie die Besprechung der Arbeit so, dass möglichst sowohl schlechte wie auch gute Schülerinnen und Schüler<br />

einen Lernzuwachs erfahren. Die einheitliche Besprechung im Frontalunterricht ist in diesem Sinne sicherlich keine gute<br />

Lösung.<br />

Informieren Sie die Schülerinnen und Schüler über die Bewertungsmaßstäbe, die Sie bei den einzelnen Aufgaben wie<br />

auch insgesamt (Punkteverteilung) angewandt haben, geben Sie den Notenspiegel bekannt.<br />

Stehen Sie Fragen/Einwendungen der Probanden aufgeschlossen und wohlwollend gegenüber (oder gehören Sie zu den<br />

Lehrkräften, die grundsätzlich keine Fehler machen?).<br />

Seite 13 von 18


Die folgenden Ausführungen sind bezogen auf die Bestimmungen der Schulordnung des Landes Rheinland-Pfalz. Ich gehe<br />

jedoch davon aus, dass gleiche oder ähnliche Sachverhalte und Festlegungen auch in anderen Schulordnungen zu finden<br />

sind.<br />

Noten im Bereich „andere Leistungsnachweise―<br />

Hierzu rechnen sämtliche Leistungsnachweise außerhalb der Klassenarbeiten (in Fächern ohne Klassenarbeiten also alle).<br />

Gemäß Schulordnung ist hier „eine Vielfalt von mündlichen, schriftlichen und praktischen Arbeitsformen― zu Grunde zu legen,<br />

als da z. B. sind:<br />

schriftliches Abfragen der Hausaufgaben Mündlicher Vortrag<br />

schriftliche Überprüfung (nur in Fächern ohne Klassenarbeiten) Unterrichtsprotokolle<br />

mündliches Abfragen der Hausaufgaben schriftliche Ausarbeitungen<br />

mündliche Überprüfung Hausaufgaben<br />

Beiträge zum Unterrichtsgespräch praktische Übungen<br />

Diskussionsbeiträge<br />

......................................................................................................................<br />

......................................................................................................................<br />

Beachten Sie:<br />

Die Festlegungen der Schulordnung zu den schriftlichen Leistungsnachweisen und die Verwaltungsvorschrift über die Zahl<br />

der benoteten Klassenarbeiten antizipieren eindeutig, dass andere schriftliche Leistungsnachweise außer den dort definierten<br />

nicht legitimiert sind!<br />

Die Leistungsbeurteilung erfolgt<br />

punktuell oder<br />

epochal<br />

(Anmerkung: mein Beitrag zur „Epochalnote― auf meiner Homepage sei zur Lektüre empfohlen)<br />

Die „Gesamtnote für andere Leistungsnachweise―, die Sie zwecks Festsetzung der Zeugnisnote bilden, muss durch eine<br />

hinreichende Anzahl von Einzelnoten begründet sein (wie viele sind das?).<br />

„Echte― mündliche Noten müssen enthalten sein, es ist also nicht möglich, sich nur ausschließlich auf schriftliche Formen zu<br />

beschränken.<br />

Denken Sie unbedingt daran:<br />

Mündliche Noten und Epochalnoten müssen den Schülerinnen und Schülern fristgerecht bekannt gegeben werden, andernfalls<br />

(so die Rechtsprechung) gelten sie als nicht erteilt.<br />

Die Festsetzung der Zeugnisnote<br />

ist ausführlich in der Schulordnung geregelt (siehe dort)<br />

Für RLP gilt: Sie wird arithmetisch (also 50 : 50) gebildet aus<br />

der Gesamtnote für Klassenarbeiten (entfällt bei Fächern ohne Klassenarbeiten)<br />

der Gesamtnote für andere Leistungsnachweise<br />

(wurde nur eine Klassenarbeit geschrieben, ist diese geringer als 50 % zu gewichten)<br />

Und:<br />

Sämtliche Einzelnoten, auch die der Klassenarbeiten, können (begründet!) verschieden gewichtet werden.<br />

Für das Jahreszeugnis gelten die Noten des gesamten Schuljahres unter stärkerer Berücksichtigung der Leistungen des<br />

2. Halbjahres (Achtung: wird oft gelesen und verstanden als „Gewichtung― und mathematisch interpretiert und umgesetzt;<br />

gedacht ist aber wohl eher an ein pädagogisches Konstrukt). Für die Ermittlung der Jahresnote dürfen nicht die<br />

Halbjahres-Note oder die beiden Gesamtnoten, mit denen sie gebildet wurde, herangezogen werden.<br />

Seite 14 von 18


In der folgenden Übersicht ist die Bildung der Zeugnisnote nochmals dargestellt:<br />

Abbildung: „Bildung der Zeugnisnote―<br />

Klassenarbeiten<br />

über das Schuljahr möglichst gleichmäßig verteilt<br />

Anzahl: vorgeschrieben<br />

Andere Leistungsnachweise<br />

~ Beiträge zum Unterrichtsgespräch<br />

~ Diskussionsbeiträge<br />

~ Mündlicher Vortrag<br />

~ Mündliche Überprüfung<br />

~ Hausaufgaben<br />

~ Schriftliches Abfragen der Hausaufgaben<br />

~ Mündliches Abfragen der Hausaufgaben<br />

~ Unterrichtsprotokolle<br />

~ Schriftliche Ausarbeitungen<br />

~ Praktische Übungen<br />

~ Schriftliche Überprüfung<br />

(nur in Fächern ohne Klassenarbeiten)<br />

Anzahl: hinreichend = ?<br />

(ggf. gewichteter) Durchschnitt (ggf. gewichteter) Durchschnitt<br />

Gesamtnote<br />

Entscheidungshilfen<br />

Noten-Tendenzzeichen<br />

Tendenz insgesamt<br />

Intrasubjektiva<br />

Leistungsbereitschaft<br />

Rechnerischer Durchschnitt 50:50 *)<br />

Zeugnisnote<br />

Entscheidungshilfen **<br />

Tendenz der Gesamtnoten<br />

Gesamteindruck<br />

Gesamtnote<br />

*)<br />

außer wenn nur 1 Klassenarbeit, dann<br />

50<br />

**)<br />

nur erforderlich, wenn die Differenz der<br />

Gesamtnoten ungerade<br />

Achtung:<br />

Die gelegentlich geübte Praxis, Tendenzzeichen der Einzelnoten vor der Durchschnittsbildung mit Dezimalwerten zu berücksichtigen<br />

(also 4 + zählt als 3,75 und 4 − zählt als 4,25 etc.), ist nicht zulässig, denn damit wird das in der Schulordnung<br />

definierte und vorgeschriebene 6-stufige Notenspektrum de facto auf ein 16-stufiges System erweitert. Zwar sind Tendenzzeichen<br />

bei Einzelnoten gestattet, jedoch müssen die Durchschnitte mit den glatten Noten gebildet, die Tendenzzeichen<br />

dürfen erst bei der Festsetzung der Gesamtnoten (als Entscheidungshilfe) berücksichtigt werden.<br />

Bedenken Sie:<br />

Zeugnisnoten erteilen ist nicht zu verstehen als eine Tätigkeit mit Taschenrechner, sondern ist eine pädagogisch<br />

determinierte Handlung!<br />

Seite 15 von 18


Exkurs zu<br />

Klassenarbeiten<br />

Es versteht sich, dass einschlägige Bestimmungen der Schulordnung einzuhalten sind. Dazu gehören z. B. Vorgaben bezüglich<br />

der Anzahl der Klassenarbeiten (bzw. schriftlichen Überprüfungen)<br />

der Optionen und der Auflagen des Abweichens von vorgegebenen Anzahlen<br />

eventuell statthafter „Ersatzhandlungen― (andere Formen der Leistungsüberprüfung)<br />

der Altersgemäßheit von Umfang und zeitlicher Dauer<br />

der Möglichkeit von Gemeinschaftsarbeiten<br />

der Durchführung von Vergleichsarbeiten<br />

der Bewertung von Rechtschreib- und Zeichensetzungsleistungen<br />

Nochmals der Hinweis:<br />

Es ist nicht zulässig, die Leistungsfeststellungen auf ausschließlich schriftliche Formen zu beschränken, vielmehr ist eine<br />

Vielfalt von schriftlichen, mündlichen und praktischen Arbeitsformen zu Grunde zu legen.<br />

Seite 16 von 18


Exkurs zu<br />

Notengebung und Verwaltungsgericht<br />

In der kritischen Auseinandersetzung mit der Bewertungspraxis wird oft die „abenteuerliche Vielfalt― der Bewertungsmaßstäbe<br />

der Lehrkräfte bemängelt, als Beleg werden extrem abweichende Bewertungen ein- und derselben Arbeit herangezogen.<br />

Auch wenn manche Kritik durchaus gerechtfertigt erscheint, wird dabei oft übersehen, dass<br />

Leistungsfeststellung und -beurteilung durch die pädagogische Verantwortung und die Freiheit der Lehrkraft bestimmt ist<br />

(so das Schulgesetz),<br />

sie eine höchst individuelle, „unvertretbare― Angelegenheit ist, die zudem aus den situativen Bedingungen (Einmaligkeit,<br />

Unwiederholbarkeit, ...) heraus determiniert ist,<br />

jeder Lehrkraft ein Beurteilungsspielraum eingeräumt ist, innerhalb dessen sie in eigener Verantwortung nach bestem<br />

Wissen und Gewissen entscheidet,<br />

„Leistung― ein sehr komplexes Merkmal ist, das zudem nur in Verbindung mit dem Unterrichtsgeschehen, den Schwerpunkten<br />

und Zielsetzungen definiert werden kann.<br />

Aus diesen Gründen ist eine gewisse „Vielfalt― durchaus normal und legitim.<br />

Verwaltungsgerichte akzeptieren (jedenfalls z. Zt. noch) die diesbezügliche alleinige Kompetenz der Lehrkräfte und sehen<br />

sich nicht berechtigt, via Gutachter oder Sachverständigen z. B. einen Deutschaufsatz ein zweites Mal zu korrigieren und die<br />

eigene Bewertung an Stelle derjenigen der Lehrkraft zu setzen.<br />

Also: Ihr Urteil, Ihre Entscheidung wird nicht dadurch falsch, dass ein anderer Beurteiler zu einem abweichenden Ergebnis<br />

kommt.<br />

Leistungs- und Eignungsbeurteilungen sind nur beschränkt gerichtlich nachprüfbar, nämlich daraufhin<br />

ob das vorgeschriebene Verfahren eingehalten wurde<br />

(z. B. Auflagen und Bestimmungen der SchO, KO etc.)<br />

ob allgemeingültige Bewertungsgrundsätze verletzt wurden<br />

(z. B. gleiche Bedingungen für alle Schülerinnen und Schüler, z. B. mehrmalige Anwendung desselben Kriteriums, z. B.<br />

mehrmalige Ausschöpfung des pädagogischen Freiraums)<br />

ob nicht von falschen Tatsachen ausgegangen wurde<br />

(Noten verwechselt, falsche Berechnungen von Durchschnittsnoten etc.)<br />

ob nicht sachfremde Erwägungen eine Rolle spielten<br />

(z. B. Voreingenommenheit, wesentlich ungleiche Leistungen werden willkürlich gleich bewertet oder umgekehrt)<br />

Übrigens:<br />

Selbstverständlich müssen Sie ggf. Ihre Bewertungs- und Beurteilungsgrundsätze offen legen. Dies gilt insbesondere auch<br />

gegenüber der Schulleitung, der in Ausnahmefällen, möglichst mit Ihrem Einverständnis, ansonsten im Benehmen mit der<br />

Klassenkonferenz, die Note einer Klassenarbeit abzuändern befugt ist.<br />

Auch im Zusammenhang mit der Bildung der Zeugnisnote haben Sie Ihre Beurteilungsgrundlagen auf Verlangen offen zu<br />

legen.<br />

Seite 17 von 18


Empfehlungen zur Weiterarbeit<br />

Der vorliegende Arbeitstext bietet nur einen ersten praxisorientierten Einstieg in das Thema. Sie müssen kontinuierlich an<br />

der Erweiterung und Vertiefung Ihrer diesbezüglichen Kompetenzen arbeiten, und zwar sowohl durch ergänzende Literaturstudien<br />

als auch in der praktischen Anwendung.<br />

Insbesondere sollten Sie sich intensiv mit folgenden Themenbereichen auseinander setzen:<br />

den ggf. fachspezifischen Besonderheiten in Ihren Fächern<br />

besonders in den musisch-künstlerischen und den praktisch und experimentell orientierten Fächern wie Musik, Bildende<br />

Kunst, Werken, Naturwissenschaften (z. B. Wahlpflichtfach Math/Nat) und Sport sowie den speziellen Anliegen im Fach<br />

Deutsch (Aufsatzbeurteilung) und den Fremdsprachen;<br />

der Notengebung im Bereich der anderen Leistungsnachweise<br />

besonders mit der Praxis der punktuellen mündlichen Noten (mündliches Abfragen der Hausaufgaben, mündliche Überprüfung,<br />

mündlicher Vortrag, Beiträge zum Unterrichtsgespräch, Diskussionsbeiträge, .....) und der Epochalnoten;<br />

und denken Sie daran: in Fächern mit mehreren Klassenarbeiten muss die Anzahl solcher Noten erheblich über jener der<br />

Klassenarbeiten liegen, weil sonst die Note aus z. B. einer mündlichen Überprüfung gleiches oder gar höheres Gewicht<br />

bekommt wie die Note aus einer Klassenarbeit;<br />

den Beurteilungsfehlern, ihren Ursachen und den Möglichkeiten ihrer Reduzierung,<br />

nehmen Sie also nicht für sich in Anspruch, keine Fehler zu machen, sondern setzen Sie sich konstruktiv mit der unbestreitbaren<br />

Tatsache auseinander, dass jedem Beurteiler mehr unbewusst denn bewusst Fehler unterlaufen, die sein Urteil<br />

nachhaltig verfälschen können; der erste Schritt in diese Richtung muss sein, dass Sie sich mögliche Fehlerquellen<br />

bewusst machen, z. B.<br />

sind Sie sicher, dass Sie nicht Schülerinnen und Schüler, die Sie gut kennen oder zu denen Sie ein besonders gutes<br />

Verhältnis haben, toleranter und besser bewerten als andere (Mildeeffekt, generosity error), und jene, zu denen Sie<br />

ein gestörtes Verhältnis haben, strenger und weniger tolerant beurteilen?<br />

sind Sie sicher, dass Ihre positive oder negative Erwartungshaltung und die Beharrungstendenzen Ihr Urteil nicht<br />

nachhaltig beeinflussen?<br />

sind Sie sicher, dass Sie nicht („Hof-Effekt― oder „Halo-Effekt―) Eindrücke aus anderen Bereichen auf die aktuelle<br />

Überprüfung projizieren (z. B. „ … hat bisher nur schlechte Ergebnisse produziert, also wird's diesmal auch so sein―,<br />

oder „ … ist undiszipliniert und unaufmerksam, also muss die Leistung entsprechend sein―, oder „ … ist in Mathe<br />

schlecht, also auch in Physik― ....)?<br />

neigen Sie nicht auch dazu, bei der Durchsicht von Arbeiten die ersten strenger zu bewerten als die letzten (Reihungseffekt)?<br />

neigen Sie nicht auch dazu (z. T. als Resultat Ihrer Unsicherheit), Extremwerte und -beurteilungen zu vermeiden<br />

(Fehler der zentralen Tendenz)?<br />

benutzen Sie nicht Tendenzzeichen als „Trostpflaster― für die Schülerinnen und Schüler, oder als Hintertür, weil sie<br />

sich scheuen, die schlechtere Note zu geben?<br />

ist die Höchstnote bei Ihnen sehr selten und die Wahrscheinlichkeit, sie zu erreichen, sehr viel geringer als die<br />

schlechteste Note „ungenügend―?<br />

etc.<br />

den verschiedenen Möglichkeiten der Aufgabenkonstruktion von „offenen Aufgaben― bis hin zu „geschlossenen―,<br />

ihren Vor- und Nachteilen und den Korrekturproblemen (z. B. Single-Choice, Multiple-Choice, Ergänzungsaufgabe, Assoziationsaufgabe,<br />

Substitutionsaufgabe, Zuordnungsaufgabe, Freie-Antwort-Aufgabe, .......)<br />

der Sonderheit der Note „ungenügend―<br />

die Note „ungenügend― unterscheidet sich in der Notendefinition von der Note „mangelhaft― einzig dadurch, dass die<br />

Behebbarkeit der Mängel in absehbarer Zeit negiert wird; diese Feststellung ist jedoch ein höchst individuelles, probandenspezifisches<br />

Faktum und kann sich nicht aus einer linearen Staffelung ergeben; in Folge ist diese Bewertung eigentlich<br />

aus dem linearen Notenspektrum herauszunehmen, das bei „mangelhaft― enden müsste; sodann wären die mit<br />

„mangelhaft― bewerteten Schülerinnen und Schüler zu beurteilen, ob die Note auf „ungenügend― gesetzt werden muss<br />

den veränderten Bedingungen der <strong>Leistungsmessung</strong> und –beurteilung in einer veränderten Lernwelt und vor dem Hintergrund<br />

eines erweiterten Lernbegriffs (nicht nur inhaltlich-fachliches Lernen, sondern auch Erwerb von Sozial- und Methodenkompetenz)<br />

Hierzu empfehle ich Ihnen als Lektüre das Heft 3/1995 der Zeitschrift „Pädagogik― (dort insbesondere den Aufsatz von Alfred Bendler)<br />

sowie das Jahresheft 1996 des Friedrich-Verlages zum Thema „Prüfen und Beurteilen — zwischen Fördern und Zensieren―.<br />

Seite 18 von 18

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!