Kompendium Leistungsmessung - KaVauBe
Kompendium Leistungsmessung - KaVauBe
Kompendium Leistungsmessung - KaVauBe
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Inhalt:<br />
Kurt Vogelsberger<br />
<strong>Kompendium</strong> <strong>Leistungsmessung</strong><br />
<strong>Leistungsmessung</strong> in Schule und Unterricht<br />
Ein Arbeitstext<br />
<strong>Leistungsmessung</strong> Leistungsbeurteilung Schülerbeurteilung<br />
<strong>Leistungsmessung</strong> (Definition): Begriff Leistung, Begriff Messung<br />
Normorientierte und kriteriumsorientierte <strong>Leistungsmessung</strong><br />
Testgütekriterien: Objektivität, Reliabilität, Validität<br />
Aufgabenanalyse: Schwierigkeitsgrad und Trennschärfe<br />
Punkteverteilung in Noten transformieren (Prozentrangverfahren, Standardabweichung)<br />
Übungsbeispiel zur Standardabweichung<br />
Tipps und Hinweise<br />
Noten im Bereich „andere Leistungsnachweise“<br />
Festsetzung der Zeugnisnote<br />
Exkurs zu Klassenarbeiten<br />
Exkurs zu Notengebung und Verwaltungsgericht<br />
Empfehlungen zur Weiterarbeit<br />
Seite 1 von 18
Machen Sie sich den Unterschied und die hierarchische Struktur dieser drei Begriffe klar: Eine Leistung messen ist weniger<br />
als sie beurteilen, Schülerinnen und Schüler beurteilen ist mehr als nur deren Leistungen würdigen.<br />
<strong>Leistungsmessung</strong> ist das Quantifizieren einer erbrachten Leistung in Zahlenwerte, es werden z. B. 14 von 20 maximal<br />
möglichen Punkten vergeben.<br />
Leistungsbeurteilung ist das Inwertsetzen der Messergebnisse mit Blick auf einen bestimmten Wertmaßstab (Norm) bzw.<br />
den Probanden selbst (zur Verdeutlichung: Können Sie sich vorstellen, dass Sie identische Messergebnisse, z. B. obige 14<br />
von 20 Punkten, bei zwei verschiedenen Schülerinnen und Schülern völlig unterschiedlich kommentieren und einschätzen?).<br />
Schülerbeurteilung umfasst die Einschätzung der Gesamtpersönlichkeit, die neben der Leistung eine Vielzahl weiterer<br />
Faktoren beinhaltet, z. B.<br />
Nennen Sie Kriterien, Aspekte, …, die bei der Einschätzung und Beurteilung einer Persönlichkeit neben der Leistung eine Rolle spielen!<br />
<strong>Leistungsmessung</strong><br />
Versucht man, sich diesen Begriff und seine Bedeutung zu vergegenwärtigen, so wären wohl die beiden Begriffskomponenten<br />
„Leistung― und „Messung― zu besichtigen:<br />
Zur Leistung<br />
Der Begriff „Leistung― wird in der Gesellschaft, in der Arbeitswelt, in der Wissenschaft, … in sehr vielen unterschiedlichen<br />
Bedeutungen und Sinngebungen verwendet. Leistung in der Schule ist Fortschreiten im Lernprozess, ist aber auch Stand des<br />
Lernerfolgs zu einem bestimmten Zeitpunkt.<br />
Schulische Leistung umfasst also zwei Aspekte:<br />
Leistung als Ergebnis einer Tätigkeit, als „status quo― (statisch)<br />
Leistung als Vorgang des Tätigseins, als Fortschreiten im Lernprozess (dynamisch)<br />
In den meisten Schulordnungen dürften wohl als Definition von Leistung Formulierungen wie „ ... Schülerleistungen sind als<br />
Schritte und Resultate im Lernprozess zu sehen― zu finden sein, mithin ist für die Bewertung von Schülerleistungen die Berücksichtigung<br />
beider Aspekte in Auftrag gegeben.<br />
Wenn Sie einen Test in traditioneller Form durchführen, so eruieren und bewerten Sie in der Regel vorrangig die statische<br />
Leistungskomponente, d. h. den momentanen Ist-Zustand der Probanden. Wo und wie können Sie die Komponente „Schritte<br />
im Lernprozess― erfassen?<br />
Nennen Sie Formen der Leistungsüberprüfung, welche den dynamischen Aspekt in den Blick nehmen, also die Qualität beim Fortschreiten im Lernprozess:<br />
Zu berücksichtigen ist, dass es eine Vielzahl von Faktoren gibt, welche die Leistung einer Schülerin oder eines Schülers determinieren,<br />
die aber gar nicht in ihr oder ihm selbst liegen, von den Probanden also kaum beeinflusst werden können. Die<br />
Leistung hängt z. B. ab<br />
von schülerspezifischen Faktoren (Intelligenz, Motivation, Gesundheit, Geschlecht, momentane Befindlichkeit, Verhältnis<br />
zur Lerngruppe, Verhältnis zur Lehrkraft, ...);<br />
von der Lehrkraft (Geschlecht, Persönlichkeit, Engagement, Unterrichtsgestaltung, Erwartungshaltungen, Verhältnis zu<br />
den Schülerinnen und Schülern, Verhältnis zur Lerngruppe, ...);<br />
vom Stoff (Interesse, fachspezifische Neigungen, vorhandene Kompetenzen, bereits aufsummierte Defizite, ...);<br />
von äußeren Bedingungen (Arbeitsbedingungen, Klassenstärke, Schulweg, Differenzierung, ...);<br />
Seite 2 von 18
vom sozialen Umfeld (Bildungsstand und Beruf der Eltern, Leistungserwartungen, Größe und Struktur der Familie, sozialer<br />
Rangplatz in der Lerngruppe, ...).<br />
usf.<br />
Versuchen Sie im Bewusstsein dessen,<br />
die äußeren Lernvoraussetzungen für alle Schülerinnen und Schüler möglichst vergleichbar zu gestalten und Fremdfaktoren<br />
auszuschalten oder wenigstens zu reduzieren,<br />
reflektieren Sie die Ergebnisse der <strong>Leistungsmessung</strong> kritisch und vermeiden Sie vorschnelle Schlussfolgerungen (Leistungsdefizite<br />
werden zu oft voreilig ausschließlich den Probanden zugeschrieben).<br />
Vor diesem Hintergrund und auch mit Blick auf die vielfältigen Mess- und Beurteilungsfehler (vor denen auch die beste Lehrkraft<br />
nicht gefeit ist) ist es schlichtweg falsch, ja hanebüchen, Zeugnisnoten etc. von der zweiten Dezimale des Notendurchschnitts<br />
abhängig zu machen!<br />
Zur Messung<br />
Beim „Messen― will man Informationen über den Ausprägungsgrad eines bestimmten Merkmals (hier: die Leistung) erhalten.<br />
Um die Exaktheit der Aussage zu erhöhen, versucht man, die Beobachtungen zu quantifizieren, also Zahlen zuzuordnen.<br />
Lehrkräfte machen nun sehr oft (unbewusst) den Fehler, ihre Kenntnisse und Erfahrungen im Umgang mit Zahlen auf ihre<br />
Notenziffern und die (angeblich) sich dahinter verbergende Leistung zu übertragen:<br />
Sachverhalt<br />
in der „Sprache― der Zahlen<br />
2 < 3<br />
5 − 4 = 2 − 1<br />
(5 + 4 + 3) ∶ 3 = 4<br />
2 ∙ 2 = 4<br />
wird projiziert auf „Leistung― Einschätzung<br />
Der Proband mit der Note 2 ist besser als der Proband<br />
mit der Note 3<br />
Der Leistungsunterschied zwischen 4 und 5 entspricht<br />
dem zwischen 1 und 2<br />
Wenn ein Proband in drei Klassenarbeiten die Noten<br />
5, 4 und 3 erzielte, so entspricht dies insgesamt<br />
einer ausreichenden, also einer mit 4 zu bewertenden<br />
Leistung<br />
Der Proband mit der Note 2 ist doppelt so gut wie<br />
der mit der Note 4<br />
mag ja hoffentlich stimmen<br />
ist äußerst fragwürdig<br />
ist mehr als fragwürdig<br />
ist äußerst fragwürdig<br />
Solche Identifikationen und Operationen (also z. B. die Durchschnittsbildung aus mehreren Noten zwecks Ermittlung einer<br />
Gesamtnote) sind aber nur dann legitim, wenn die Messung bestimmten Qualitätsanforderungen genügt (für die Spezialisten:<br />
mindestens Intervallskalen-Niveau); sie sind weitestgehend falsch und unsinnig, wenn die Messungen nur Rangplatz-<br />
Niveau (Ordinal-Niveau) haben (und dies ist – leider – meist der Fall!).<br />
Fazit: Sie müssen bei den Bewertungsstrategien und Ihrer Notengebung einige Anstrengungen unternehmen<br />
und bestimmte Qualitätsanforderungen erfüllen, um ein hinreichendes Messniveau zu erreichen.<br />
Kleiner Exkurs zu den Messniveaus<br />
Nominalskala – Ordinalskala – Intervallskala – Verhältnisskala<br />
<br />
Nominalskala = Zahlen als Namen (z. B. Rückennummern beim Sport)<br />
Ordinalskala = Zahlen als Rang-/Platz-Ziffern (wobei zwischen den Rangplätzen sehr unterschiedliche Differenzen<br />
bestehen können)<br />
Intervallskala = äquidistante Einteilung, also überall gleiche Unterschiede (z. B. Temperaturskala)<br />
Verhältnisskala = auch die Quotienten sind gleich (z. B. ist bei einem Metermaß 2 m doppelt so lang wie 1 m, im<br />
Unterschied zu z. B. der Temperaturskala, wo 20 C nicht „doppelt so warm― ist wie 10 C)<br />
Das folgende, offenkundig leichte Beispiel soll diese Problematik nochmals verdeutlichen. Drei 100-Meter-Läufer führen zwei<br />
Läufe durch mit folgenden Ergebnissen:<br />
1. Lauf 2. Lauf<br />
Zeit Rangplatz Zeit Rangplatz<br />
Läufer A 11,3 2. 10,4 1.<br />
Läufer B 10,4 1. 10,6 3.<br />
Läufer C 12,1 3. 10,5 2.<br />
Welchen Läufer setzen Sie in der Gesamtwertung auf welchen Platz, und mit welcher Begründung?<br />
Seite 3 von 18
Entscheiden Sie, welchen Läufer Sie in der Gesamtwertung beider Läufe auf den ersten Platz setzen und begründen Sie Ihre Entscheidung!<br />
Was haben Sie entschieden? Sie könnten jeden Läufer auf den ersten Platz setzen, mit durchaus griffigen Argumenten: Läufer A hat die besten Plätze erreicht, Läufer B jedoch die beste Zeitsumme, Läufer C hat die größte<br />
Leistungssteigerung.<br />
Selbst bei einem so offenkundig einfachen Sachverhalt und absolut objektiven Messungen hat man also schon Schwierigkeiten,<br />
aus zwei Durchläufen eine Gesamtwertung vorzunehmen. Um wie viel schwieriger ist dies dann bei einem so komplexen<br />
Merkmal wie „Leistung―? Und das bei vielen „Disziplinen―, also dem „Verwursteln― mehrerer Klassenarbeiten oder gar vieler<br />
Noten aus Leistungsnachweisen unterschiedlichster Couleur.<br />
Nochmals:<br />
Wenn Sie nicht einiges tun, um Ihre <strong>Leistungsmessung</strong> auf ein akzeptables Niveau zu heben, dann haben Ihre Noten nur<br />
Rangplatzniveau (d. h. Sie vergeben im Prinzip die Platzziffern 1 bis 6), und Sie kommen in der Regel zu sehr fehlerhaften<br />
Ergebnissen, wenn Sie aus solchen Noten Durchschnitte bilden.<br />
Messen, das wissen Sie, können Sie nur mit einem Maßstab, einer „Messlatte―, Sie brauchen ein Bezugssystem, eine Norm,<br />
um z. B. Ihre Rohpunktwerte in Noten transformieren zu können. Es gibt drei verschiedene „klassische― Normen, nämlich die<br />
intersubjektive Norm (Leistung in Bezug auf die Klasse, die Testgruppe)<br />
objektive Norm (Leistung in Bezug auf das Lernziel, den Sachanspruch)<br />
intrasubjektive Norm (Leistung in Bezug auf die Vorleistung, in der Pädagogik auch bekannt als „pädagogische Zensur―)<br />
Anmerkung: der Begriff „objektiv― ist hier gemeint im Sinne von Objekt, Sache; die objektive Norm<br />
ist also a priori keineswegs objektiver als die anderen.<br />
Genau genommen gibt es noch weitere „Normen―, nämlich jene „selbstgestrickten― Maßstäbe und Strategien, die Lehrkräfte<br />
landauf landab praktizieren, um ihre „Rohpunkte― in Noten zu transferieren. Ob sie diesen Namen [Norm] verdienen,<br />
sei dahingestellt; meist ist dies nicht der Fall!<br />
Die Schulordnung des Landes Rheinland-Pfalz drückt die „Normierung― in § 53 [1] in einer seit Jahrzehnten unverändert<br />
gebliebenen Formulierung wie folgt aus:<br />
„Leistungen werden nach dem Grad des Erreichens von Lernanforderungen beurteilt. Die Beurteilung berücksichtigt den<br />
individuellen Lernfortschritt der Schülerinnen und Schüler, ihre Leistungsbereitschaft und auch die Lerngruppe, in der<br />
die Leistung erbracht wird.―<br />
( = objektive Norm, = intrasubjektive Norm, = intersubjektive Norm)<br />
Den Lehrkräften ist also aufgegeben, bei ihrer Leistungsbeurteilung alle drei Normen zu berücksichtigen, in erster Linie jedoch<br />
die objektive.<br />
In der klassischen Testtheorie (synonym: normorientierte <strong>Leistungsmessung</strong>), die im Zuge des Vergleichs von Individuen<br />
z. B. nach dem Kriterium „Intelligenz―, also aus der differenziellen Psychologie, entstanden ist, wurden Instrumentarien,<br />
Begriffe und Quantifizierungen entwickelt, die heute zum Standard einer jeden Messung komplexer Merkmale gehören und<br />
deren Beachtung auch Lehrkräften hilft, die Messqualität ihrer Tests deutlich zu verbessern. Auch für die neuere Theorie der<br />
kriteriumsorientierten <strong>Leistungsmessung</strong> gelten die dort entwickelten begrifflichen Konzepte, nicht jedoch deren Quantifizierungen.<br />
Diese beiden „Säulen― und die unterschiedlichen Ansätze sind in einer Tabelle auf der folgenden Seite gegenübergestellt und<br />
spezifiziert.<br />
Bei der normorientierten <strong>Leistungsmessung</strong> geht es darum, eine faktisch gegebene Rangordnung herauszufinden. Dass sie<br />
vorhanden ist, ist ein Postulat: Es entspricht der „allgemeinen Lebenserfahrung―, dass, will man einer Gruppe von Menschen<br />
einen Sachverhalt nahebringen, sich bei diesen qualitativ und quantitativ Unterschiede einstellen in der Beherrschung der<br />
Inhalte. Schneiden bei einen einschlägigen Test alle Probanden gleich ab oder gibt es nur wenig Unterschiede, dann ist<br />
dieses Vorhaben des Herausfindens und möglichst treffenden Abbildens der faktisch vorhanden Rangordnung gescheitert.<br />
Deshalb ist es ein Anliegen, eine möglichst große Streuung zu erzielen.<br />
Bei der kriteriumsorientierten <strong>Leistungsmessung</strong> ist es völlig im Sinne der Lehrkraft, wenn möglichst viele Schülerinnen und<br />
Schüler ein möglichst optimales Ergebnis erzielen, im Idealfall also alle die Höchstnote. Ein solches Ergebnis wäre bei der<br />
normorientierten <strong>Leistungsmessung</strong> völlig daneben (weil ohne jedes Ranking). Gerade das müsste ja eigentlich das Ziel<br />
einer jeden Lehrkraft und erfolgreichen Unterrichts sein. Sollte es jedoch tatsächlich einmal passieren oder auch nur annähernd,<br />
dann vermuteten Lehrerinnen und Lehrer sofort mit nicht rechten Dingen zugehendes Ungemach (weil sie eben<br />
intuitiv wissen und unterstellen, dass sich Unterschiede einstellen müssen).<br />
Normorientierte <strong>Leistungsmessung</strong><br />
(Klassische Testtheorie)<br />
Kriteriumsorientierte <strong>Leistungsmessung</strong><br />
Seite 4 von 18
Durchschnittsergebnis als Bezugssystem<br />
(Realnorm, intersubjektive Norm)<br />
Herkunft aus der differenziellen Psychologie<br />
Es existiert eine aktuelle faktische Rangordnung, die<br />
herauszufinden ist; es gilt also, die Unterschiede zwischen<br />
den Individuen treffend zu erfassen und sie<br />
entsprechend zu ordnen (Rangplätze)<br />
Axiom: Es gibt diese Unterschiede<br />
Das einzelne Messergebnis erhält erst dann einen Sinn,<br />
wenn es mit den Ergebnissen anderer Individuen verglichen<br />
wird (populationsabhängig)<br />
Dazu ist die Verschiedenartigkeit, die Streuung der<br />
Messergebnisse unabdingbar<br />
(Maß: Varianz, Standardabweichung)<br />
„Normalverteilung― (symmetrische Glockenkurve) gilt<br />
als hinreichendes Kriterium für das „Intervallskalenniveau―<br />
der Messergebnisse, das die Durchschnittsbildung<br />
legitimiert<br />
Es werden daher erhebliche Anstrengungen unternommen,<br />
das Testergebnis normalverteilt werden zu<br />
lassen:<br />
Testanalyse, Aufgabenanalyse<br />
Testanalyse:<br />
Reliabilität / Validität / Objektivität<br />
Aufgabenanalyse:<br />
Schwierigkeitsindex / Trennschärfe<br />
... sind Begriffe, die in der klassischen Testtheorie<br />
entwickelt wurden, …<br />
z. B. gelten hier für den Schwierigkeitsindex die<br />
Grenzen 0,2
Testgütekriterien: Objektivität, Validität, Reliabilität<br />
Objektivität<br />
= Unabhängigkeit vom Tester<br />
Für den Schulalltag ist die strenge Anwendung des Grundsatzes, den Test von einer zweiten Lehrkraft beurteilen zu lassen,<br />
die dann zu gleichen Ergebnissen kommen müsste, nicht praktikabel.<br />
Dennoch gibt es eine Vielzahl von Maßnahmen, die zur Verbesserung der Objektivität beitragen können, z. B.<br />
Sorgen Sie für möglichst gleiche Bedingungen für alle Schülerinnen und Schülern<br />
variieren Sie die Aufgabenstellungen/Darstellungen (Lernkanäle); gleiche Vorgaben bei der Vorbereitung; einheitliche<br />
Zeitgrenzen; gleiche Arbeitsmaterialien; gehen Sie vor der Bearbeitung alle Fragen/Aufgaben mit den Schülerinnen und<br />
Schülern durch; schreiben Sie die Reihenfolge der Bearbeitung nicht vor; keine subjektiven Hilfen während der Bearbeitung;<br />
...<br />
Korrigieren und bewerten Sie den Test bei allen Schülerinnen und Schülern möglichst einheitlich<br />
keine unterschiedliche Interpretation gleicher Fehler bei guten/schlechten Schülerinnen und Schülern (am besten: Namen<br />
verdeckt); korrigieren Sie aufgabenweise, nicht schülerweise, und machen Sie sich Notizen über Lösungsitems und<br />
Fehler und ihre Bewertung, damit Sie bei allen Probanden gleich verfahren; bringen Sie individuelle Kommentare an (intrasubjektive<br />
Norm); ...<br />
Validität<br />
= Was? – d. h. misst der Test tatsächlich das, was er zu messen vorgibt?<br />
Stellen Sie sicher, dass Sie in Ihrem Test vorrangig das und nur das abfragen, was Gegenstand des Unterrichts war, nicht<br />
nur inhaltlich, sondern auch in Bezug auf die Lernzielniveaus. Ihr Unterricht und der dazugehörende Test müssen einen<br />
möglichst engen Zusammenhang aufweisen.<br />
In der Literatur wird vorgeschlagen [in der Praxis aber wohl eher selten umgesetzt], sich anhand einer „Lernzielmatrix―<br />
einen möglichst exakten Überblick darüber zu verschaffen, welche Inhalte auf welchen Niveaus realisiert wurden ...<br />
Lernzielstufen <br />
Inhalte Reproduktion Reorganisation Transfer Kreativität<br />
Inhalt 1 <br />
Inhalt 2 <br />
etc. ...<br />
... und sodann anhand dieser Übersicht eine repräsentative Auswahl zu treffen, welche Inhalte auf welchem Niveau im Test<br />
abgefragt werden.<br />
Also: Auf jeden Fall sollten Sie sicherstellen, dass Ihr Test in Bezug auf Lerninhalte und Lernzielstufen repräsentativ ist und<br />
eine möglichst enge Korrelation zum Unterricht aufweist (Zusammenhang mit: Operationalisierung der Lernziele, d. h., wenn<br />
Sie Ihre Lernziele operationalisieren, dann haben Sie z. B. bereits über Beurteilungsmaßstäbe nachgedacht). Dies ist sehr<br />
schwierig, da Sie notwendigerweise eine Auswahl treffen müssen. Stellen Sie sich vor, Sie fragen nur einen Teilbereich ab,<br />
in dem ein sonst eher inkompetenter Proband sich recht gut auskennt – er wird gut abschneiden; oder ein Proband beherrscht<br />
95% des Stoffes sehr gut, es werden aber vorrangig jene 5% examiniert, die er nicht beherrscht – er wird schlecht<br />
abschneiden, ganz im Widerspruch zu seinen Kompetenzen.<br />
Zur Validität trägt zudem bei:<br />
Vermeiden Sie durch entsprechende Aufgabenstellungen und Gewichtung der Fehler, dass sich Vorleistungen der Schülerin<br />
bzw. des Schülers über Gebühr auswirken, z. B.:<br />
Rechenfehler, denn Sie wollen u. U. ja nicht die Rechenfertigkeit prüfen;<br />
Rechtschreibkategorien, die nicht aktuell Gegenstand des Rechtschreibunterrichts waren;<br />
<br />
<br />
Vermeiden Sie komplexe Aufgabenstrukturen, wo z. B. die Beantwortung des zweiten Teils die richtige Lösung des ersten<br />
Teils voraussetzt.<br />
Seite 6 von 18
Legen Sie die Punktwerte entsprechend dem tatsächlichen Schwierigkeitsgrad der Aufgaben fest (der tatsächliche<br />
Schwierigkeitsgrad resultiert erst im Nachhinein aus dem Testergebnis, nicht der Voreinschätzung der Lehrkraft).<br />
Formulieren Sie Fragen und Aufgaben so, wie sie auch im Unterricht formuliert wurden (das klingt banal, ist aber häufig<br />
Ursache für sachfremde Verständnisschwierigkeiten der Lernenden).<br />
Bemessen Sie den zeitlichen Ansatz für die Testdurchführung so, dass die Mehrzahl der Schülerinnen und Schüler (über<br />
80%) den Test in der zur Verfügung stehenden Zeit zu Ende bringen kann.<br />
Reliabilität<br />
= Wie genau misst der Test, was er zu messen vorgibt?<br />
Bei der normorientierten <strong>Leistungsmessung</strong> soll der Test die tatsächlich vorhandene Rangordnung möglichst genau abbilden.<br />
Er ist dann reliabel, wenn die Rangordnung aus dem Test der tatsächlich vorhandenen entspricht. Da man diese nicht<br />
kennt, muss man sich anderer Hilfsmittel bedienen, die Korrelation zwischen Testergebnis und Realität zu ermitteln. Grundsätzlich<br />
versucht man, die Unabhängigkeit vom speziellen Test zu belegen; wenn Sie also einen zweiten (gleich oder ähnlich)<br />
zum selben Sachverhalt/Lerninhalt durchführen, müssen sich logischerweise einigermaßen identische Resultate ergeben.<br />
Das Verfahren der Testwiederholung oder die Durchführung eines zweiten Tests (Test-Retest, Paralleltest) ist in der Schule<br />
kaum praktikabel.<br />
Was Sie jedoch stets – mit doch recht aussagekräftigen Ergebnissen – realisieren sollten, ist die Prüfung nach der „Split-<br />
Half-Reliabilität―:<br />
Teilen Sie die Aufgaben nach Belieben in zwei Hälften und ermitteln Sie die Punktwerte aller Schülerinnen und Schüler aus<br />
den beiden Testhälften. Wenn der Test reliabel ist, muss jeder Proband in beiden Testhälften (in etwa) denselben Rangplatz<br />
haben.<br />
Machen Sie sich die simple, aber überzeugende Logik des Verfahrens klar:<br />
Der schlechte Proband (schlecht im Sinne „Leistung im Rahmen der aktuellen Unterrichtseinheit―) muss bei Ihrem Test auf<br />
einem hinteren, der gute Proband auf einem vorderen Rangplatz landen, und dies gilt nicht nur für den Gesamttest, sondern<br />
auch für hinreichend repräsentative Teilmengen!<br />
Ist es denkbar, dass der schlechte Proband bei einigen Aufgaben insgesamt besser abschneidet als der gute? Wenn Ihr Test<br />
reliabel ist, also die tatsächlich vorhandene Rangordnung hinreichend abbildet, wohl kaum! Auch wenn Sie z. B. den Test in<br />
eine leichte und eine schwierige Hälfte einteilen – der gute Proband muss bei beiden „Paketen― besser abschneiden als der<br />
schlechtere.<br />
Aufgabenanalyse<br />
Schwierigkeitsgrad und Trennschärfe<br />
Schwierigkeitsgrad<br />
gibt an, wie viel Prozent der Schülerinnen und Schüler eine Aufgabe richtig gelöst haben<br />
Die Bewertung einer Aufgabe in Punkten muss sich konsequent an ihrem Schwierigkeitsgrad orientieren. Leichte Aufgaben<br />
erhalten wenig, schwere Aufgaben viele Punkte.<br />
Es ist oft geübte Praxis, den Punktwert einer Aufgabe im Vorhinein festzulegen. Damit entscheidet die Voreinschätzung der<br />
Lehrkraft (die unzutreffend sein kann, mitunter gar erheblich!), was schwer oder leicht ist. Diese Entscheidung kann aber<br />
eigentlich nur von den Schülerinnen und Schülern und vom Testergebnis selbst getroffen werden: Eine Aufgabe, die z. B.<br />
von nur wenigen Probanden gelöst wurde, war schwer, auch wenn die Lehrkraft sie als leicht einschätzte – und umgekehrt.<br />
Empfehlung:<br />
Legen Sie die Punktwerte der einzelnen Aufgaben erst bei der Korrektur fest.<br />
Damit haben Sie die Möglichkeit, sich konsequent am tatsächlichen Schwierigkeitsgrad zu orientieren. Zudem können Sie<br />
„unbrauchbare― Aufgaben (das sind jene mit zu hohem oder zu geringem Schwierigkeitsgrad, der zwischen 0,2 und 0,8<br />
liegen sollte – also: mindestens 20%, höchstens 80% der Schülerinnen und Schüler sollten eine Aufgabe gelöst haben) in<br />
ihren verfälschenden Auswirkungen abmildern, indem Sie sie mit niedriger Punktzahl bewerten oder sie als Zusatzaufgabe<br />
mit Zusatzpunkten aus der eigentlichen Bewertung herausnehmen.<br />
Damit die Schülerinnen und Schüler nach wie vor die Möglichkeit haben, sich bei der Bearbeitung am vss. Schwierigkeitsgrad<br />
zu orientieren, versehen Sie die Aufgaben mit einem entsprechenden Hinweis (z. B. leicht, mittel, schwer).<br />
Seite 7 von 18
Trennschärfe<br />
gibt an, inwieweit eine Aufgabe dazu beiträgt, schlechte von guten Schülerinnen und Schüler zu scheiden<br />
Die Betrachtung der Trennschärfe ist ein recht einfaches, aber probates Mittel, Rückschlüsse über die Qualität einer Aufgabe<br />
zu gewinnen.<br />
Teilen Sie die Schülerinnen und Schüler in die bessere (Obergruppe) und die schlechtere (Untergruppe) Hälfte (z. B. anhand<br />
der bisherigen Leistungen – was allerdings nicht ganz unproblematisch ist, warum?).<br />
Zählen Sie dann aus, wie viele Schülerinnen und Schüler aus der Obergruppe bzw. der Untergruppe die Aufgabe gelöst<br />
haben. Die Zahl der richtigen Lösungen in der Obergruppe muss über jener der Untergruppe liegen.<br />
Auch hierin steckt eine simple Logik:<br />
Wenn eine Aufgabe von den „schlechteren― (s. o.) Probanden besser gelöst wurde als von den besseren, dann steckt in ihr<br />
den Wurm drin (und dieser Wurm nagt an der Qualität Ihres Tests)!<br />
Sollten Sie bei der Lektüre bis zu dieser Stelle zu dem Schluss gekommen sein, dass <strong>Leistungsmessung</strong> ein sehr schwieriges<br />
Feld ist:<br />
Sie haben recht!<br />
Es ist sogar noch schwieriger, als Sie denken. Aber: Die Tragweite Ihrer Notengebung für die Schülerinnen und Schüler und<br />
die Auswirkungen auf Ihren gesamten Unterricht lassen es mehr als sinnvoll erscheinen, sich hierin eine hinreichende Kompetenz<br />
zu erwerben und Mühe walten zu lassen.<br />
Und jetzt ein kleines Übungsbeispiel, das Ihnen zeigen soll, wie einfach Schwierigkeitsgrad und Trennschärfe zu überblicken<br />
sind, wenn man nur eine geeignete Darstellung wählt:<br />
Schüler/in Aufgabe 1 Aufgabe 2 Aufgabe 3 Aufgabe 4 Aufgabe 5<br />
Obergruppe Hans <br />
Bernd <br />
Christel <br />
Mario <br />
Michaela <br />
Stephanie <br />
Untergruppe David <br />
Helmut <br />
Nicole <br />
Sandra <br />
Uwe <br />
= richtig gelöst<br />
Ermitteln Sie den Schwierigkeitsgrad einer jeden Aufgabe und beurteilen Sie die Trennschärfe.<br />
Welche Zusammenhang besteht zwischen beiden?<br />
Seite 8 von 18
Die durchschnittliche Abweichung (Beträge ohne Berücksichtigung des Vorzeichens) ergibt sich aus<br />
4∙0+5∙1+4∙2+3∙3+2∙4+3∙5+1∙6+0∙7<br />
22<br />
≈ 2,3<br />
Ordnen Sie jetzt dem Punktdurchschnitt eine (mittlere) Note – z. B. 3,5 – zu (das ist in diesem Verfahren zugleich die einzige<br />
subjektive Setzung) und ermitteln Sie von da aus in Schritten von jeweils 2,3 Punkten nach oben und unten die weiteren<br />
Notengrenzen.<br />
Am einfachsten geht das, indem Sie von der Note 3,5 aus jeweils 1: 2,3 ≈ 0,43 (2,3 Punkte sind 1 Notenstufe, also ist 1<br />
Punkt 0,43 Notenstufen) addieren bzw. subtrahieren (Maximum 6,0 und Minimum 1,0). Das sieht in unserem Beispiel dann<br />
so aus:<br />
Note 6,0<br />
=6<br />
6,0<br />
=6<br />
5,7<br />
=6<br />
5,2<br />
=5<br />
4,8<br />
=5<br />
4,4<br />
=4<br />
… +0,43<br />
3,9 3,5<br />
=4 =4<br />
Punkte 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14<br />
Anzahl || | | ||| || |||| ||| | || | | |<br />
Wenn Sie – hoffentlich – zu dem Ergebnis kommen, dass das gar nicht so schwierig und aufwändig ist, können wir das Rechenexempel<br />
geringfügig erweitern und tatsächlich die Standardabweichung verwenden:<br />
Quadrieren Sie die Abweichungen vom Punktdurchschnitt und berechnen Sie dann die durchschnittliche quadratische Abweichung,<br />
also<br />
Quadratische<br />
Abweichung<br />
−0,43<br />
49 36 25 16 9 4 1 0 1 4 9 16 25 36 49<br />
Punkte 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14<br />
Anzahl || | | ||| || |||| ||| | || | | |<br />
…<br />
3,1<br />
=3<br />
2,6<br />
=3<br />
Die durchschnittliche quadratische Abweichung ergibt sich aus 4∙0+5∙1+4∙4+3∙9+2∙16+3∙25+1∙36<br />
22<br />
2,2<br />
=2<br />
≈ 8,68<br />
Die Standardabweichung ist die Wurzel daraus, also
In der Literatur finden Sie weitere Skalierungs-Modelle wie „T-Wert-Skala―, „Stanine-Skala―, „Z-Wert-Skala― etc.. Die können<br />
Sie getrost vergessen; sie fußen ausnahmslos auf der Standardabweichung, die Zahlen werden lediglich transformiert in<br />
andere.<br />
Übungsbeispiel zur Standardabweichung<br />
Erstellen Sie eine Notenverteilung mit Hilfe der Standardabweichung<br />
Maximale Punktzahl: 25, Anzahl der Schülerinnen und Schüler: 31<br />
Punktspiegel<br />
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />
| || | || ||| | ||| | | |||| | || |||| | | | ||<br />
0 0 1 0 2 1 2 0 3 1 3 1 1 4 1 2 4 1 0 1 0 1 2 0 0 0<br />
Punktdurchschnitt 12,1<br />
(12,064…)<br />
Tragen Sie die quadratischen Abweichungen vom Punktdurchschnitt ein (gerundet auf 1 Dezimale):<br />
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />
146,4 123,2 102,0 82,8 65,6 50,4 37,2 26,0 16,8 9,6 4,4 1,2 0,0 0,8 3,6 8,4 15,2 24,0 34,8 47,6 62,4 79,2 98,0 118,8 141,6 166,4<br />
| || | || ||| | ||| | | |||| | || |||| | | | ||<br />
Berechnen Sie den Durchschnitt der<br />
quadratischen Abweichungen:<br />
1∙102,0+2∙65,6+⋯+1∙79,2+2∙98,0<br />
Die Wurzel daraus ergibt als Standardabweichung: SD 5,3<br />
Ordnen Sie dem Punktdurchschnitt eine Note zu, nämlich 3,5<br />
31<br />
≈ 863,6<br />
31<br />
≈ 27,9<br />
und berechnen Sie alle Notenwerte (ohne zusätzlichen Streckungsfaktor), und markieren Sie die Notengrenzen:<br />
12,1 Punkt entsprechen der Note 3,5; 12,0 Punkte (gerundet) ebenfalls; zu 3,5 werden jeweils 1<br />
≈ 0,189 addiert bzw. subtrahiert (und auf 1 Notendezimale<br />
gerundet):<br />
5,8 5,6 5,4 5,2 5,0 4,8 4,6 4,4 4,3 4,1 3,9 3,7 3,5 3,3 3,1 2,9 2,7 2,6 2,4 2,2 2,0 1,8 1,6 1,4 1,2 1,0<br />
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25<br />
| || | || ||| | ||| | | |||| | || |||| | | | ||<br />
Zur Lösung dieser Aufgabe kann das auf der Homepage eingestellte Excel-Tabellenblatt genutzt werden, aber es hilft zum<br />
Verständnis, wenn man das einmal „von Hand― durchgeführt hat.<br />
5,3<br />
Seite 12 von 18
Nachstehend noch einige Tipps und Hinweise<br />
Planen Sie Ihre Klassenarbeiten oder schriftlichen Überprüfungen langfristig in Ihrem Arbeitsplan (gleichmäßige Verteilung<br />
auf das Schuljahr gemäß Vorgaben Ihrer Schulordnung), geben Sie den Schülerinnen und Schülern den Termin<br />
rechtzeitig bekannt (i. d. R. wohl mindestens eine Woche vorher).<br />
Beachten Sie unbedingt die verbindlichen Auflagen der Schulordnung, z. B. (SchO RLP) maximal eine Arbeit pro Schultag,<br />
maximal drei pro Woche, mindestens 2 Unterrichtswochen zwischen Rückgabe und nächster Arbeit, ......<br />
Stellen Sie die äußeren Bedingungen sicher, insbesondere Raum- und Zeitfrage (evtl. weitere Stunden von Kollegen),<br />
sorgen Sie dafür, dass alle Schülerinnen und Schüler über die gleichen Hilfsmittel verfügen. Bemessen Sie den Zeitansatz<br />
insgesamt so, dass keine Hektik entsteht, dass hinreichend Zeit bleibt für die Vorbesprechung, ...<br />
Es soll Lehrkräfte geben, die bei einer schriftlichen Überprüfung (RLP: Zeitlimit 30 Minuten) oder einem schriftlichen Abfragen<br />
der Hausaufgabe (RLP: Zeitlimit 15 Minuten) die Probanden nach 30 resp. 15 Minuten fragen, ob sie noch länger<br />
schreiben wollen (natürlich wollen sie): Das ist eine ganz linke Tour!<br />
Klassenarbeiten zwecks Verhinderung des Spickens in großen Sälen zu schreiben, halte ich für schlecht, m. E. sollten die<br />
Arbeiten in vertrauter Umgebung stattfinden, um zusätzlichen Stress zu vermeiden.<br />
Stellen Sie die Klassenarbeit besser in zwei Testversionen in zwei Gruppen, unterbinden Sie das Spicken konsequent, warum?<br />
Es soll Lehrkräfte geben, die glauben, bei Ihnen könnten die Schülerinnen und Schüler nicht spicken; seien Sie sicher:<br />
das ist ein Irrtum. Es soll auch solche geben, die eine gewissen „Spickrate― von vornherein einkalkulieren und glauben,<br />
während der Arbeit Klassenarbeiten korrigieren oder Zeitung lesen zu können.<br />
Könnten Sie sich vorstellen, den Probanden die Verwendung eines limitierten Spickzettels zu gestatten – und die Erstellung<br />
eines Spickzettels gar kultivieren – als Strategie zur Wiederholung und besseren Einprägung?)<br />
Vergegenwärtigen Sie sich, welche Maßnahmen bei Täuschungsversuchen oder Beihilfe dazu pädagogisch sinnvoll und<br />
legitim sind.<br />
Nochmals: Geben Sie während der Bearbeitung keine individuellen Hilfen. Wenn Sie feststellen, dass ein Hinweis vonnöten<br />
wäre, unterbrechen Sie und geben ihn einheitlich allen Probanden.<br />
Verwenden Sie bei der Korrektur einheitliche, den Schülerinnen und Schülern nach und nach vertraute Korrektursymbole<br />
(Abstimmung darüber in der Fachkonferenz?), bringen Sie individuelle Kommentare/Erläuterungen an (intrasubjektive<br />
Norm).<br />
Die Rückgabe der Arbeit erfolgt in „angemessener― Frist. Für mich ist das, aus lernpsychologischen Erwägungen und<br />
Gründen der Kontinuität im Lernprozess, in der Regel die folgende Stunde (vielleicht Ausnahme: Aufsatz in Deutsch).<br />
Gestalten Sie die Besprechung der Arbeit so, dass möglichst sowohl schlechte wie auch gute Schülerinnen und Schüler<br />
einen Lernzuwachs erfahren. Die einheitliche Besprechung im Frontalunterricht ist in diesem Sinne sicherlich keine gute<br />
Lösung.<br />
Informieren Sie die Schülerinnen und Schüler über die Bewertungsmaßstäbe, die Sie bei den einzelnen Aufgaben wie<br />
auch insgesamt (Punkteverteilung) angewandt haben, geben Sie den Notenspiegel bekannt.<br />
Stehen Sie Fragen/Einwendungen der Probanden aufgeschlossen und wohlwollend gegenüber (oder gehören Sie zu den<br />
Lehrkräften, die grundsätzlich keine Fehler machen?).<br />
Seite 13 von 18
Die folgenden Ausführungen sind bezogen auf die Bestimmungen der Schulordnung des Landes Rheinland-Pfalz. Ich gehe<br />
jedoch davon aus, dass gleiche oder ähnliche Sachverhalte und Festlegungen auch in anderen Schulordnungen zu finden<br />
sind.<br />
Noten im Bereich „andere Leistungsnachweise―<br />
Hierzu rechnen sämtliche Leistungsnachweise außerhalb der Klassenarbeiten (in Fächern ohne Klassenarbeiten also alle).<br />
Gemäß Schulordnung ist hier „eine Vielfalt von mündlichen, schriftlichen und praktischen Arbeitsformen― zu Grunde zu legen,<br />
als da z. B. sind:<br />
schriftliches Abfragen der Hausaufgaben Mündlicher Vortrag<br />
schriftliche Überprüfung (nur in Fächern ohne Klassenarbeiten) Unterrichtsprotokolle<br />
mündliches Abfragen der Hausaufgaben schriftliche Ausarbeitungen<br />
mündliche Überprüfung Hausaufgaben<br />
Beiträge zum Unterrichtsgespräch praktische Übungen<br />
Diskussionsbeiträge<br />
......................................................................................................................<br />
......................................................................................................................<br />
Beachten Sie:<br />
Die Festlegungen der Schulordnung zu den schriftlichen Leistungsnachweisen und die Verwaltungsvorschrift über die Zahl<br />
der benoteten Klassenarbeiten antizipieren eindeutig, dass andere schriftliche Leistungsnachweise außer den dort definierten<br />
nicht legitimiert sind!<br />
Die Leistungsbeurteilung erfolgt<br />
punktuell oder<br />
epochal<br />
(Anmerkung: mein Beitrag zur „Epochalnote― auf meiner Homepage sei zur Lektüre empfohlen)<br />
Die „Gesamtnote für andere Leistungsnachweise―, die Sie zwecks Festsetzung der Zeugnisnote bilden, muss durch eine<br />
hinreichende Anzahl von Einzelnoten begründet sein (wie viele sind das?).<br />
„Echte― mündliche Noten müssen enthalten sein, es ist also nicht möglich, sich nur ausschließlich auf schriftliche Formen zu<br />
beschränken.<br />
Denken Sie unbedingt daran:<br />
Mündliche Noten und Epochalnoten müssen den Schülerinnen und Schülern fristgerecht bekannt gegeben werden, andernfalls<br />
(so die Rechtsprechung) gelten sie als nicht erteilt.<br />
Die Festsetzung der Zeugnisnote<br />
ist ausführlich in der Schulordnung geregelt (siehe dort)<br />
Für RLP gilt: Sie wird arithmetisch (also 50 : 50) gebildet aus<br />
der Gesamtnote für Klassenarbeiten (entfällt bei Fächern ohne Klassenarbeiten)<br />
der Gesamtnote für andere Leistungsnachweise<br />
(wurde nur eine Klassenarbeit geschrieben, ist diese geringer als 50 % zu gewichten)<br />
Und:<br />
Sämtliche Einzelnoten, auch die der Klassenarbeiten, können (begründet!) verschieden gewichtet werden.<br />
Für das Jahreszeugnis gelten die Noten des gesamten Schuljahres unter stärkerer Berücksichtigung der Leistungen des<br />
2. Halbjahres (Achtung: wird oft gelesen und verstanden als „Gewichtung― und mathematisch interpretiert und umgesetzt;<br />
gedacht ist aber wohl eher an ein pädagogisches Konstrukt). Für die Ermittlung der Jahresnote dürfen nicht die<br />
Halbjahres-Note oder die beiden Gesamtnoten, mit denen sie gebildet wurde, herangezogen werden.<br />
Seite 14 von 18
In der folgenden Übersicht ist die Bildung der Zeugnisnote nochmals dargestellt:<br />
Abbildung: „Bildung der Zeugnisnote―<br />
Klassenarbeiten<br />
über das Schuljahr möglichst gleichmäßig verteilt<br />
Anzahl: vorgeschrieben<br />
Andere Leistungsnachweise<br />
~ Beiträge zum Unterrichtsgespräch<br />
~ Diskussionsbeiträge<br />
~ Mündlicher Vortrag<br />
~ Mündliche Überprüfung<br />
~ Hausaufgaben<br />
~ Schriftliches Abfragen der Hausaufgaben<br />
~ Mündliches Abfragen der Hausaufgaben<br />
~ Unterrichtsprotokolle<br />
~ Schriftliche Ausarbeitungen<br />
~ Praktische Übungen<br />
~ Schriftliche Überprüfung<br />
(nur in Fächern ohne Klassenarbeiten)<br />
Anzahl: hinreichend = ?<br />
(ggf. gewichteter) Durchschnitt (ggf. gewichteter) Durchschnitt<br />
Gesamtnote<br />
Entscheidungshilfen<br />
Noten-Tendenzzeichen<br />
Tendenz insgesamt<br />
Intrasubjektiva<br />
Leistungsbereitschaft<br />
Rechnerischer Durchschnitt 50:50 *)<br />
Zeugnisnote<br />
Entscheidungshilfen **<br />
Tendenz der Gesamtnoten<br />
Gesamteindruck<br />
Gesamtnote<br />
*)<br />
außer wenn nur 1 Klassenarbeit, dann<br />
50<br />
**)<br />
nur erforderlich, wenn die Differenz der<br />
Gesamtnoten ungerade<br />
Achtung:<br />
Die gelegentlich geübte Praxis, Tendenzzeichen der Einzelnoten vor der Durchschnittsbildung mit Dezimalwerten zu berücksichtigen<br />
(also 4 + zählt als 3,75 und 4 − zählt als 4,25 etc.), ist nicht zulässig, denn damit wird das in der Schulordnung<br />
definierte und vorgeschriebene 6-stufige Notenspektrum de facto auf ein 16-stufiges System erweitert. Zwar sind Tendenzzeichen<br />
bei Einzelnoten gestattet, jedoch müssen die Durchschnitte mit den glatten Noten gebildet, die Tendenzzeichen<br />
dürfen erst bei der Festsetzung der Gesamtnoten (als Entscheidungshilfe) berücksichtigt werden.<br />
Bedenken Sie:<br />
Zeugnisnoten erteilen ist nicht zu verstehen als eine Tätigkeit mit Taschenrechner, sondern ist eine pädagogisch<br />
determinierte Handlung!<br />
Seite 15 von 18
Exkurs zu<br />
Klassenarbeiten<br />
Es versteht sich, dass einschlägige Bestimmungen der Schulordnung einzuhalten sind. Dazu gehören z. B. Vorgaben bezüglich<br />
der Anzahl der Klassenarbeiten (bzw. schriftlichen Überprüfungen)<br />
der Optionen und der Auflagen des Abweichens von vorgegebenen Anzahlen<br />
eventuell statthafter „Ersatzhandlungen― (andere Formen der Leistungsüberprüfung)<br />
der Altersgemäßheit von Umfang und zeitlicher Dauer<br />
der Möglichkeit von Gemeinschaftsarbeiten<br />
der Durchführung von Vergleichsarbeiten<br />
der Bewertung von Rechtschreib- und Zeichensetzungsleistungen<br />
Nochmals der Hinweis:<br />
Es ist nicht zulässig, die Leistungsfeststellungen auf ausschließlich schriftliche Formen zu beschränken, vielmehr ist eine<br />
Vielfalt von schriftlichen, mündlichen und praktischen Arbeitsformen zu Grunde zu legen.<br />
Seite 16 von 18
Exkurs zu<br />
Notengebung und Verwaltungsgericht<br />
In der kritischen Auseinandersetzung mit der Bewertungspraxis wird oft die „abenteuerliche Vielfalt― der Bewertungsmaßstäbe<br />
der Lehrkräfte bemängelt, als Beleg werden extrem abweichende Bewertungen ein- und derselben Arbeit herangezogen.<br />
Auch wenn manche Kritik durchaus gerechtfertigt erscheint, wird dabei oft übersehen, dass<br />
Leistungsfeststellung und -beurteilung durch die pädagogische Verantwortung und die Freiheit der Lehrkraft bestimmt ist<br />
(so das Schulgesetz),<br />
sie eine höchst individuelle, „unvertretbare― Angelegenheit ist, die zudem aus den situativen Bedingungen (Einmaligkeit,<br />
Unwiederholbarkeit, ...) heraus determiniert ist,<br />
jeder Lehrkraft ein Beurteilungsspielraum eingeräumt ist, innerhalb dessen sie in eigener Verantwortung nach bestem<br />
Wissen und Gewissen entscheidet,<br />
„Leistung― ein sehr komplexes Merkmal ist, das zudem nur in Verbindung mit dem Unterrichtsgeschehen, den Schwerpunkten<br />
und Zielsetzungen definiert werden kann.<br />
Aus diesen Gründen ist eine gewisse „Vielfalt― durchaus normal und legitim.<br />
Verwaltungsgerichte akzeptieren (jedenfalls z. Zt. noch) die diesbezügliche alleinige Kompetenz der Lehrkräfte und sehen<br />
sich nicht berechtigt, via Gutachter oder Sachverständigen z. B. einen Deutschaufsatz ein zweites Mal zu korrigieren und die<br />
eigene Bewertung an Stelle derjenigen der Lehrkraft zu setzen.<br />
Also: Ihr Urteil, Ihre Entscheidung wird nicht dadurch falsch, dass ein anderer Beurteiler zu einem abweichenden Ergebnis<br />
kommt.<br />
Leistungs- und Eignungsbeurteilungen sind nur beschränkt gerichtlich nachprüfbar, nämlich daraufhin<br />
ob das vorgeschriebene Verfahren eingehalten wurde<br />
(z. B. Auflagen und Bestimmungen der SchO, KO etc.)<br />
ob allgemeingültige Bewertungsgrundsätze verletzt wurden<br />
(z. B. gleiche Bedingungen für alle Schülerinnen und Schüler, z. B. mehrmalige Anwendung desselben Kriteriums, z. B.<br />
mehrmalige Ausschöpfung des pädagogischen Freiraums)<br />
ob nicht von falschen Tatsachen ausgegangen wurde<br />
(Noten verwechselt, falsche Berechnungen von Durchschnittsnoten etc.)<br />
ob nicht sachfremde Erwägungen eine Rolle spielten<br />
(z. B. Voreingenommenheit, wesentlich ungleiche Leistungen werden willkürlich gleich bewertet oder umgekehrt)<br />
Übrigens:<br />
Selbstverständlich müssen Sie ggf. Ihre Bewertungs- und Beurteilungsgrundsätze offen legen. Dies gilt insbesondere auch<br />
gegenüber der Schulleitung, der in Ausnahmefällen, möglichst mit Ihrem Einverständnis, ansonsten im Benehmen mit der<br />
Klassenkonferenz, die Note einer Klassenarbeit abzuändern befugt ist.<br />
Auch im Zusammenhang mit der Bildung der Zeugnisnote haben Sie Ihre Beurteilungsgrundlagen auf Verlangen offen zu<br />
legen.<br />
Seite 17 von 18
Empfehlungen zur Weiterarbeit<br />
Der vorliegende Arbeitstext bietet nur einen ersten praxisorientierten Einstieg in das Thema. Sie müssen kontinuierlich an<br />
der Erweiterung und Vertiefung Ihrer diesbezüglichen Kompetenzen arbeiten, und zwar sowohl durch ergänzende Literaturstudien<br />
als auch in der praktischen Anwendung.<br />
Insbesondere sollten Sie sich intensiv mit folgenden Themenbereichen auseinander setzen:<br />
den ggf. fachspezifischen Besonderheiten in Ihren Fächern<br />
besonders in den musisch-künstlerischen und den praktisch und experimentell orientierten Fächern wie Musik, Bildende<br />
Kunst, Werken, Naturwissenschaften (z. B. Wahlpflichtfach Math/Nat) und Sport sowie den speziellen Anliegen im Fach<br />
Deutsch (Aufsatzbeurteilung) und den Fremdsprachen;<br />
der Notengebung im Bereich der anderen Leistungsnachweise<br />
besonders mit der Praxis der punktuellen mündlichen Noten (mündliches Abfragen der Hausaufgaben, mündliche Überprüfung,<br />
mündlicher Vortrag, Beiträge zum Unterrichtsgespräch, Diskussionsbeiträge, .....) und der Epochalnoten;<br />
und denken Sie daran: in Fächern mit mehreren Klassenarbeiten muss die Anzahl solcher Noten erheblich über jener der<br />
Klassenarbeiten liegen, weil sonst die Note aus z. B. einer mündlichen Überprüfung gleiches oder gar höheres Gewicht<br />
bekommt wie die Note aus einer Klassenarbeit;<br />
den Beurteilungsfehlern, ihren Ursachen und den Möglichkeiten ihrer Reduzierung,<br />
nehmen Sie also nicht für sich in Anspruch, keine Fehler zu machen, sondern setzen Sie sich konstruktiv mit der unbestreitbaren<br />
Tatsache auseinander, dass jedem Beurteiler mehr unbewusst denn bewusst Fehler unterlaufen, die sein Urteil<br />
nachhaltig verfälschen können; der erste Schritt in diese Richtung muss sein, dass Sie sich mögliche Fehlerquellen<br />
bewusst machen, z. B.<br />
sind Sie sicher, dass Sie nicht Schülerinnen und Schüler, die Sie gut kennen oder zu denen Sie ein besonders gutes<br />
Verhältnis haben, toleranter und besser bewerten als andere (Mildeeffekt, generosity error), und jene, zu denen Sie<br />
ein gestörtes Verhältnis haben, strenger und weniger tolerant beurteilen?<br />
sind Sie sicher, dass Ihre positive oder negative Erwartungshaltung und die Beharrungstendenzen Ihr Urteil nicht<br />
nachhaltig beeinflussen?<br />
sind Sie sicher, dass Sie nicht („Hof-Effekt― oder „Halo-Effekt―) Eindrücke aus anderen Bereichen auf die aktuelle<br />
Überprüfung projizieren (z. B. „ … hat bisher nur schlechte Ergebnisse produziert, also wird's diesmal auch so sein―,<br />
oder „ … ist undiszipliniert und unaufmerksam, also muss die Leistung entsprechend sein―, oder „ … ist in Mathe<br />
schlecht, also auch in Physik― ....)?<br />
neigen Sie nicht auch dazu, bei der Durchsicht von Arbeiten die ersten strenger zu bewerten als die letzten (Reihungseffekt)?<br />
neigen Sie nicht auch dazu (z. T. als Resultat Ihrer Unsicherheit), Extremwerte und -beurteilungen zu vermeiden<br />
(Fehler der zentralen Tendenz)?<br />
benutzen Sie nicht Tendenzzeichen als „Trostpflaster― für die Schülerinnen und Schüler, oder als Hintertür, weil sie<br />
sich scheuen, die schlechtere Note zu geben?<br />
ist die Höchstnote bei Ihnen sehr selten und die Wahrscheinlichkeit, sie zu erreichen, sehr viel geringer als die<br />
schlechteste Note „ungenügend―?<br />
etc.<br />
den verschiedenen Möglichkeiten der Aufgabenkonstruktion von „offenen Aufgaben― bis hin zu „geschlossenen―,<br />
ihren Vor- und Nachteilen und den Korrekturproblemen (z. B. Single-Choice, Multiple-Choice, Ergänzungsaufgabe, Assoziationsaufgabe,<br />
Substitutionsaufgabe, Zuordnungsaufgabe, Freie-Antwort-Aufgabe, .......)<br />
der Sonderheit der Note „ungenügend―<br />
die Note „ungenügend― unterscheidet sich in der Notendefinition von der Note „mangelhaft― einzig dadurch, dass die<br />
Behebbarkeit der Mängel in absehbarer Zeit negiert wird; diese Feststellung ist jedoch ein höchst individuelles, probandenspezifisches<br />
Faktum und kann sich nicht aus einer linearen Staffelung ergeben; in Folge ist diese Bewertung eigentlich<br />
aus dem linearen Notenspektrum herauszunehmen, das bei „mangelhaft― enden müsste; sodann wären die mit<br />
„mangelhaft― bewerteten Schülerinnen und Schüler zu beurteilen, ob die Note auf „ungenügend― gesetzt werden muss<br />
den veränderten Bedingungen der <strong>Leistungsmessung</strong> und –beurteilung in einer veränderten Lernwelt und vor dem Hintergrund<br />
eines erweiterten Lernbegriffs (nicht nur inhaltlich-fachliches Lernen, sondern auch Erwerb von Sozial- und Methodenkompetenz)<br />
Hierzu empfehle ich Ihnen als Lektüre das Heft 3/1995 der Zeitschrift „Pädagogik― (dort insbesondere den Aufsatz von Alfred Bendler)<br />
sowie das Jahresheft 1996 des Friedrich-Verlages zum Thema „Prüfen und Beurteilen — zwischen Fördern und Zensieren―.<br />
Seite 18 von 18