14.09.2013 Views

Rekenen voor peuters - Toetswijzer

Rekenen voor peuters - Toetswijzer

Rekenen voor peuters - Toetswijzer

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

(gemiddeld 1% per afname), is het item fout gerekend. De analyses leverden uiteindelijk een itembank op<br />

waarin gegevens staan van 220 items: 10 die alleen in de eerste periode zijn afgenomen, 60 die alleen in<br />

de tweede periode zijn afgenomen en 150 die in beide perioden zijn afgenomen.<br />

Bij het beoordelen van de kwaliteit van de itembank is gelet op de modelpassing. Het programma waarmee<br />

het item respons model geschat is (Verhelst, Glas, en Verstralen, 1995) voert een aantal statistische<br />

toetsen uit op grond waarvan bepaald kan worden of het model een adequate beschrijving geeft van de<br />

data. Belangrijk zijn de zogenaamde itemgeoriënteerde S-toets en de overall R1c-toets. De S-toets is<br />

asymptotisch 2 verdeeld en is gebaseerd op de verschillen tussen de geobserveerde en verwachte<br />

proporties antwoorden in homogene scoregroepen. Een rechthoekige verdeling van p-waarden <strong>voor</strong> de<br />

S-toetsen in het interval [0,1] pleit <strong>voor</strong> passing van het model. De R1c-toets heeft dezelfde onderliggende<br />

rationale als de S-toets en wordt over het algemeen acceptabel bevonden indien de waarde van de<br />

toetsingsgrootheid niet groter is dan anderhalf keer het aantal vrijheidsgraden.<br />

De statistische toetsen lieten zien dat de prestaties van de kinderen op 202 items adequaat beschreven<br />

kunnen worden door het OPLM. Ten eerste bleek de verdeling van p-waarden <strong>voor</strong> de S-toetsen voldoende<br />

rechthoekig verdeeld 7 :<br />

0.--/---/---.1-----.2-----.3-----.4-----.5-----.6-----.7-----.8-----.9-----1<br />

11/ 10/ 13 25 23 23 16 16 15 21 11 17<br />

Ten tweede bleek de verhouding tussen de R1c-bijdrage en het aantal vrijheidsgraden acceptabel,<br />

R1c = 4618, df = 3130, p = .00. Bij 18 items was er sprake van ‘misfit’ of itembias. Er is op drie<br />

verschillende niveaus naar itembias gekeken. Ten eerste is een vergelijking gemaakt tussen de<br />

verschillende normgroepen, ten tweede tussen kinderen met al dan niet Nederlands als thuistaal en ten<br />

derde tussen jongens en meisjes. De 18 items met ernstige vormen van itembias of misfit zijn uit de<br />

itembank verwijderd. Het slagen van de kalibratie <strong>voor</strong> de overige 202 items betekent dat we met elke<br />

willekeurige selectie uit deze verzameling items de vaardigheid van een leerling kunnen schatten.<br />

De statistische toetsen wijzen op zichzelf al op heel wat evidentie <strong>voor</strong> de validiteit van het meetmodel.<br />

Het is daarnaast essentieel dat de itemparameters voldoende nauwkeurig geschat kunnen worden op basis<br />

van de beschikbare data. Het aantal waarnemingen per item varieert van 449 tot en met 1678, met een<br />

gemiddelde van 1022. Voor een model dat een hybride is tussen een 1- en een 2-parameter model lijkt de<br />

omvang van de steekproef meer dan voldoende (COTAN-richtlijn bij een 2-parametermodel: N > 400).<br />

Om de nauwkeurigheid van de itemparameterschattingen te boordelen kan de maat c gebruikt worden<br />

(Evers, Lucassen, Meijer & Sijtsma, 2010; p 40). Deze maat is als volgt gedefinieerd:<br />

c = SE( i) / SD()<br />

waarbij SE(i) de standaardfout van de schatting van de locatieparameters is (de enige parameter die<br />

geschat wordt in het OPLM) en waarbij SD() de standaarddeviatie van de vaardigheid in de totale<br />

kalibratiepopulatie is. Bij deze itembank zijn de volgende resultaten gevonden:<br />

gemiddeld minimaal maximaal<br />

c 0.032 0.015 0.111<br />

De nauwkeurigheid van de geschatte parameters is goed te noemen als we uitgaan van de criteria van<br />

Evers et al. (2010). Het gemiddelde ligt duidelijk onder 0.10 en de waarde van c is nergens groter dan 0.12.<br />

In paragraaf 4.3 over de normering van de uiteindelijke toetsen volgt meer over de eigenschappen van de<br />

items.<br />

7 Voor 1 item kon de S-toets niet uitgevoerd worden, omdat kinderen vergelijkbaar scoorden op dit item<br />

32

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!