Rekenen voor peuters - Toetswijzer

More documents

Recommendations

Info

(gemiddeld 1% per afname), is het item fout gerekend. De analyses leverden uiteindelijk een itembank op waarin gegevens staan van 220 items: 10 die alleen in de eerste periode zijn afgenomen, 60 die alleen in de tweede periode zijn afgenomen en 150 die in beide perioden zijn afgenomen. Bij het beoordelen van de kwaliteit van de itembank is gelet op de modelpassing. Het programma waarmee het item respons model geschat is (Verhelst, Glas, en Verstralen, 1995) voert een aantal statistische toetsen uit op grond waarvan bepaald kan worden of het model een adequate beschrijving geeft van de data. Belangrijk zijn de zogenaamde itemgeoriënteerde S-toets en de overall R1c-toets. De S-toets is asymptotisch 2 verdeeld en is gebaseerd op de verschillen tussen de geobserveerde en verwachte proporties antwoorden in homogene scoregroepen. Een rechthoekige verdeling van p-waarden voor de S-toetsen in het interval [0,1] pleit voor passing van het model. De R1c-toets heeft dezelfde onderliggende rationale als de S-toets en wordt over het algemeen acceptabel bevonden indien de waarde van de toetsingsgrootheid niet groter is dan anderhalf keer het aantal vrijheidsgraden. De statistische toetsen lieten zien dat de prestaties van de kinderen op 202 items adequaat beschreven kunnen worden door het OPLM. Ten eerste bleek de verdeling van p-waarden voor de S-toetsen voldoende rechthoekig verdeeld 7 : 0.--/---/---.1-----.2-----.3-----.4-----.5-----.6-----.7-----.8-----.9-----1 11/ 10/ 13 25 23 23 16 16 15 21 11 17 Ten tweede bleek de verhouding tussen de R1c-bijdrage en het aantal vrijheidsgraden acceptabel, R1c = 4618, df = 3130, p = .00. Bij 18 items was er sprake van ‘misfit’ of itembias. Er is op drie verschillende niveaus naar itembias gekeken. Ten eerste is een vergelijking gemaakt tussen de verschillende normgroepen, ten tweede tussen kinderen met al dan niet Nederlands als thuistaal en ten derde tussen jongens en meisjes. De 18 items met ernstige vormen van itembias of misfit zijn uit de itembank verwijderd. Het slagen van de kalibratie voor de overige 202 items betekent dat we met elke willekeurige selectie uit deze verzameling items de vaardigheid van een leerling kunnen schatten. De statistische toetsen wijzen op zichzelf al op heel wat evidentie voor de validiteit van het meetmodel. Het is daarnaast essentieel dat de itemparameters voldoende nauwkeurig geschat kunnen worden op basis van de beschikbare data. Het aantal waarnemingen per item varieert van 449 tot en met 1678, met een gemiddelde van 1022. Voor een model dat een hybride is tussen een 1- en een 2-parameter model lijkt de omvang van de steekproef meer dan voldoende (COTAN-richtlijn bij een 2-parametermodel: N > 400). Om de nauwkeurigheid van de itemparameterschattingen te boordelen kan de maat c gebruikt worden (Evers, Lucassen, Meijer & Sijtsma, 2010; p 40). Deze maat is als volgt gedefinieerd: c = SE( i) / SD() waarbij SE(i) de standaardfout van de schatting van de locatieparameters is (de enige parameter die geschat wordt in het OPLM) en waarbij SD() de standaarddeviatie van de vaardigheid in de totale kalibratiepopulatie is. Bij deze itembank zijn de volgende resultaten gevonden: gemiddeld minimaal maximaal c 0.032 0.015 0.111 De nauwkeurigheid van de geschatte parameters is goed te noemen als we uitgaan van de criteria van Evers et al. (2010). Het gemiddelde ligt duidelijk onder 0.10 en de waarde van c is nergens groter dan 0.12. In paragraaf 4.3 over de normering van de uiteindelijke toetsen volgt meer over de eigenschappen van de items. 7 Voor 1 item kon de S-toets niet uitgevoerd worden, omdat kinderen vergelijkbaar scoorden op dit item 32
Over de representativiteit van de steekproef van kinderen is tot nog toe niet gesproken. De reden hiervoor is dat representativiteit geen noodzakelijke voorwaarde is voor de ontwikkeling van een IRT gekalibreerde itembank. Binnen het raamwerk van de IRT zijn de itemparameterschattingen immers populatieonafhankelijk (zie ook paragraaf 2.4.2.2). De representativiteit van de steekproef ten opzichte van de populatie is wel van belang bij het schatten van de vaardigheidsverdelingen van de normgroepen. Daarom gaan we uitgebreid in op de representativiteit in de steekproef in de volgende paragraaf. 4.3 Schatten van de vaardigheidsverdelingen van de normgroepen Nadat de itembank is gemaakt, kunnen we de vaardigheidsverdeling van de normgroepen schatten op de onderliggende meetschaal. In dit geval is dat een algemene rekenvaardigheidsschaal voor peuters en kleuters. Bij het schatten van vaardigheidsverdelingen is een representatieve steekproef wel noodzakelijk, omdat deze schattingen niet populatieonafhankelijk zijn. De schattingen zijn overigens wel itemonafhankelijk, waardoor het geen probleem is dat de kinderen niet allemaal dezelfde items hebben gemaakt. Voor de normering van de toetsen kunnen we gebruikmaken van de gegevens die we ook gebruikt hebben bij de ontwikkeling van de itembank. We konden echter niet alle kinderen meenemen. Ten eerste waren de gegevens van de leerlingen uit groep 1 en groep 2 niet relevant, omdat deze voor de vaardigheidsverdeling van de peuters geen informatie bevatten. Ten tweede bleek de kalibratiesteekproef niet helemaal representatief te zijn voor wat betreft regionale spreiding en mate van verstedelijking. Bij vrijwel alle afnamemomenten was er op deze variabelen sprake van een significant verschil tussen de verdeling van kinderen in de steekproef en de verdeling die op grond van de gegevens van DUO verwacht mocht worden in de populatie. Daarom is besloten om voor de normering een subsample uit de kalibratiesteekproef te trekken. Tabel 4.1 laat zien hoeveel kinderen meegenomen zijn tijdens de kalibratie en tijdens de normering, waarbij we de subgroepen van groep 1 en groep 2 buiten beschouwing laten. Tabel 4.1 Aantal kinderen dat meegenomen is voor de kalibratie en normering Schooljaar Afnamemoment Normgroep Kalibratie Normering 2009/2010 Jan/feb peuters P1 en P2 722 626 2008/2009 Mei/juni peuters P1 en P2 985 885 2009/2010 Jan/feb groep 1 M1 784 0 2008/2009 Mei/juni groep 1 E1 913 0 2009/2010 Jan/feb groep 2 M2 1109 0 2008/2009 Mei/juni groep 2 E2 1011 0 Na de steekproeftrekking bleven er dus 1511 afnamegegevens over voor de normering van Rekenen voor peuters. Dit aantal is ruim voldoende om een aparte normering te maken voor jongere (P1) en oudere (P2) peuters. De kinderen in de steekproef zaten op 52 verschillende locaties van kinderdagverblijven en peuterspeelzalen in Nederland. De representativiteit van de subsample van kinderen is geëvalueerd in relatie tot de volgende achtergrondvariabelen: (1) regionale spreiding, (2) mate van verstedelijking, (3) sekse, (4) leeftijd en (5) thuistaal. 33
Page 1: Cito | Volgsysteem jonge kind Weten
Page 4 and 5: © Cito B.V. Arnhem (2011) Niets ui
Page 7: 1 Inleiding Deze wetenschappelijke
Page 10 and 11: 2.2 Doelgroep De toets Rekenen voor
Page 12 and 13: In de eerste generatie van de Cito
Page 14 and 15: Vervolgttraject Naar aannleiding va
Page 16 and 17: Deze vier traditionele voorwaarden
Page 18 and 19: peuterspeelzalen wordt regelmatig a
Page 20 and 21: dat steekproeven van kinderen uit d
Page 22 and 23: Formule (2.2) is geen beschrijving
Page 24 and 25: scoregrooepen. Elke groep bestaat u
Page 26 and 27: Toetsen op maat De rekenvaardigheid
Page 28 and 29: De doelen Rekenen zoals geformuleer
Page 30 and 31: worden. Daarnaast hebben wij het on
Page 32 and 33: lijst stonden in totaal ruim 6700 k
Page 36 and 37: Representativiteit naar regionale s
Page 38 and 39: Tabel 4.5 Frequentie van de leeftij
Page 40 and 41: Tevens zijn in tabel 4.8 enkele per
Page 43 and 44: 5 Betrouwbaarheid en meetnauwkeurig
Page 45: Figuur 5.1 geeft nog eens grafisch
Page 48 and 49: Equivalentie met eerdere toetsen Re
Page 50 and 51: Tabel 6.3 Gemiddelde inter-item-cor
Page 53 and 54: 8 Literatuur Bügel, K. & Sanders,
Page 55: Verhelst, N.D. & Kleintjes, F.G.M.
Page 58 and 59: © Stichting Cito Instituut voor To
Page 60 and 61: nauwkeurige vaardigheidsbepaling va
Page 62 and 63: toelaatbaar kan worden geacht een u
Page 64 and 65: gewogen score 80 60 40 20 0 getal m
Page 66 and 67: gewogen score 80 60 40 20 0 obs exp
Page 68 and 69: Indien die overschrijdingskans heel
Page 70 and 71: Tot hiertoe hebben we alleen de ver
Page 72 and 73: geclassificeerd in een van vier cat
Page 74 and 75: Appendix A: verwachte profielen Het
Page 76: Cito Amsterdamseweg 13 Postbus 1034

Rekenen voor peuters - Toetswijzer

Create successful ePaper yourself

Delete template?

Save as template?