Rekenen voor peuters - Toetswijzer

More documents

Recommendations

Info

nauwkeurige vaardigheidsbepaling van een zwakke leerling het beste uit zullen zijn met een toets die hoofdzakelijk meetkunde-items bevat, en voor een sterke leerling met een toets die vooral breuken-items bevat. Maar daaruit volgt niet dat meetkunde en breuken verschillende vaardigheden aanspreken. Ook de bevinding dat in een feitelijke itembank het onderscheid moeilijk – gemakkelijk goeddeels samenvalt met het onderscheid meetkunde – breuken hoeft niets te betekenen: het zou kunnen zijn dat dit samengaan wijst op een intrinsieke samenhang (‘breuken zijn op theoretische gronden moeilijker dan meetkunde-items’) of op een min of meer toevallige samenloop van omstandigheden: de constructeurs waren niet in staat om moeilijke meetkunde-items en gemakkelijke breuken-items te construeren. Maar deze vraag – hoe belangwekkend die in sommige contexten ook mag zijn – heeft niets te maken met de vraag of het beantwoorden van zulke items nu gestuurd wordt vanuit een enkele vaardigheid of vanuit twee verschillende vaardigheden. Het voorgaande is eigenlijk een parafrase van wat doorgaans met veel moeilijke woorden aan discussies wordt gevoerd in psychometrische kringen onder het hoofdje ‘Eigenschappen van meetmodellen’. Het is prettig als we met meetmodellen kunnen werken die zulke eigenschappen hebben, want die staan garant voor de eigenschap dat we verschillende leerlingen met verschillende toetsen kunnen testen en de resultaten toch op een zinvolle manier kunnen vergelijken. Maar tezelfdertijd ligt hier ook de kern van een groot misverstand: het Raschmodel en OPLM hebben die eigenschappen, maar dit impliceert geenszins dat het voldoende is testgegevens door een Raschprogramma of het OPLM programma te halen om in de praktijk van die eigenschappen verzekerd te zijn. Wat we moeten aantonen is dat het gebruikte meetmodel geldig (valide) is voor de item-antwoorden die ermee worden geanalyseerd. En dit aantonen is niet eenvoudig; eigenlijk zouden we kunnen zeggen dat het principieel onmogelijk is. Statistisch gezien heeft het gebruikte meetmodel de status van een nulhypothese, en het statistisch toetsen van een meetmodel is er dus eigenlijk op gericht tot een verwerping van die nulhypothese te komen. Dit is de logische status van de statistische procedures in experimenteel onderzoek. Bij het evidentie zoeken ten voordele van een gebruikt model wordt deze werkwijze omgekeerd, en men spreekt van toetsen voor ‘goodness-of-fit’. Als protagonist van een bepaald model heeft men er dus belang bij dat de toets niet significant uitvalt. Maar het niet-significant zijn van een zulk een statistische toets heeft niet dezelfde argumentatiekracht als een significantie in het experimenteel onderzoek. Dit is gemakkelijk in te zien door zich toetsen voor te stellen waarvan de analyse gebaseerd is op een triviaal klein aantal observaties: de kans dat die een statistisch significant resultaat opleveren is meestal heel erg klein, ook in gevallen waar het veronderstelde meetmodel in belangrijke mate fout is. In statistisch jargon heet het dan dat de statistische toets geen onderscheidend vermogen of ‘power’ heeft. Gegeven een bepaalde statistische procedure (bijvoorbeeld een t-toets om de hypothese van gelijkheid van twee gemiddelden te toetsen) is het opdrijven van de steekproefgrootte de belangrijkste manier om de power te vergroten. Maar bij het ontwerpen van toetsen voor goodness-of-fit speelt er meestal nog een andere kwestie. Het gebruikte meetmodel (bijvoorbeeld OPLM) is een complexe nulhypothese, en het heeft helemaal geen zin om te spreken over de statistische procedure om de houdbaarheid van het model te toetsen. Er zijn talloze toetsen te verzinnen en de nulhypothese (het meetmodel) kan op talloze manieren onwaar zijn. Voor sommige mankementen aan het model zullen bepaalde toetsprocedures veel power hebben, terwijl voor andere tekortkomingen andere procedures 4
meer zijn aangewezen. In het programma OPLM zijn standaard enkele toetsen voor goodnessof-fit ingebouwd, en deze toetsen hebben vooral een goed onderscheidend vermogen om te ontdekken of de discriminatieparameters wel goed zijn ingeschat. Maar voor sommige schendingen van het model hebben deze toetsen weinig of geen power. Hier is een voorbeeld: een paar jaar geleden is op het Cito de Interessetest gemaakt voor leerlingen van groep 8. Een standaardanalyse met OPLM op de vier deelschalen van de test (Techniek, Economie, Taal en Cultuur en Zorg en Welzijn) gaf een erg goede fit van het model te zien. Nader onderzoek om te achterhalen of de test op dezelfde manier kon worden gebruikt voor jongens en voor meisjes bracht duidelijk aan het licht dat dit niet het geval was. De procedure die werd gebruikt om dit aan het licht te brengen was een statistische toets voor goodness-of-fit die speciaal is ontworpen om verschillen in functioneren van het model in verschillende deelpopulaties (hier: jongens en meisjes) te ontdekken. Het voorbeeld kan een paar zaken duidelijk maken: uit de bespreking van het voorbeeld kunnen we niet opmaken hoe de testprocedure in elkaar steekt. Het is hier ook niet de plaats om dit te doen, want het betreft een puur statistisch probleem dat redelijk ingewikkeld is. Wat wel belangrijk is dat in de analyse van de Interessetest de statistische procedure is uitgevoerd voor jongens en meisjes, en niet, bijvoorbeeld, voor leerlingen die in de eerste zes maanden van het jaar zijn geboren tegenover leerlingen die in de laatste zes maanden zijn geboren. De reden hiervoor is dat er vooraf een vermoeden bestond dat er voor interesses wel eens een verschil zou kunnen zijn tussen jongens en meisjes, terwijl er geen duidelijke redenen zijn om aan te nemen dat de geboortemaand er iets toe doet. Meer algemeen betekent dit dat een doordacht gebruik van statistische procedures gestuurd dient te worden vanuit een inhoudelijk geïnspireerd vermoeden dat er wel eens iets mis zou kunnen zijn met het gebruikte meetmodel. In het voorbeeld van de Interessetest werd ervan uitgegaan dat de populatie waarvoor de test is bedoeld niet homogeen was in termen van het meetmodel: dezelfde test meet blijkbaar iets anders bij jongens dan bij meisjes. Maar er bestaat ook een heel andere klasse van veronderstellingen waarbij men ervan uitgaat dat de verzameling items in de toets niet homogeen is met betrekking tot het meetmodel. De profielanalyse die in de volgende sectie wordt uitgewerkt behoort tot deze klasse. Voor we aan de specifieke uitwerking beginnen wijden we enige aandacht aan het algemene probleem van niet homogene itemverzamelingen. In het algemeen zou men kunnen zeggen dat een gebrek aan homogeniteit van de itemverzameling een voorbeeld is van multidimensionaliteit. Daar is weinig tegen in te brengen tenzij dat het begrip multidimensionaliteit zelf niet duidelijk gedefinieerd is. Meestal denkt men aan een specifiek geval waarbij de bestudeerde itemverzameling uiteenvalt in twee of drie deelverzamelingen die op zichzelf wel door een unidimensionaal model (bijvoorbeeld OPLM) kunnen worden beschreven, maar er kunnen ook andere gevallen van multidimensionaliteit worden onderscheiden. Bovendien is het van belang bij multidimensionaliteit niet alleen te onderzoeken of er al dan niet sprake is van meer dan een dimensie, maar ook in welke mate de multidimensionaliteit afwijkt van de unidimensionaliteit. Bij de Eindtoets Basisonderwijs wordt voor de items Rekenen meestal een unidimensionaal model gebruikt, maar in de rapportage wordt een onderscheid gemaakt naar drie deeldomeinen: Getallen en Bewerkingen, Meten, Tijd en Geld en Breuken, Procenten Verhoudingen. Als de items uit deze drie deeldomeinen afzonderlijk met een unidimensionaal model worden geschat en naderhand wordt de correlatie tussen deze drie vaardigheden geschat, dan blijken alle correlaties groter te zijn dan 0.96. Dit betekent dat er evidentie is dat de drie vaardigheden niet samenvallen, maar tezelfdertijd dat de onderlinge correlatie dermate hoog is dat het 5
Page 1:
Cito | Volgsysteem jonge kind Weten
Page 4 and 5:
© Cito B.V. Arnhem (2011) Niets ui
Page 7:
1 Inleiding Deze wetenschappelijke
Page 10 and 11: 2.2 Doelgroep De toets Rekenen voor
Page 12 and 13: In de eerste generatie van de Cito
Page 14 and 15: Vervolgttraject Naar aannleiding va
Page 16 and 17: Deze vier traditionele voorwaarden
Page 18 and 19: peuterspeelzalen wordt regelmatig a
Page 20 and 21: dat steekproeven van kinderen uit d
Page 22 and 23: Formule (2.2) is geen beschrijving
Page 24 and 25: scoregrooepen. Elke groep bestaat u
Page 26 and 27: Toetsen op maat De rekenvaardigheid
Page 28 and 29: De doelen Rekenen zoals geformuleer
Page 30 and 31: worden. Daarnaast hebben wij het on
Page 32 and 33: lijst stonden in totaal ruim 6700 k
Page 34 and 35: (gemiddeld 1% per afname), is het i
Page 36 and 37: Representativiteit naar regionale s
Page 38 and 39: Tabel 4.5 Frequentie van de leeftij
Page 40 and 41: Tevens zijn in tabel 4.8 enkele per
Page 43 and 44: 5 Betrouwbaarheid en meetnauwkeurig
Page 45: Figuur 5.1 geeft nog eens grafisch
Page 48 and 49: Equivalentie met eerdere toetsen Re
Page 50 and 51: Tabel 6.3 Gemiddelde inter-item-cor
Page 53 and 54: 8 Literatuur Bügel, K. & Sanders,
Page 55: Verhelst, N.D. & Kleintjes, F.G.M.
Page 58 and 59: © Stichting Cito Instituut voor To
Page 62 and 63: toelaatbaar kan worden geacht een u
Page 64 and 65: gewogen score 80 60 40 20 0 getal m
Page 66 and 67: gewogen score 80 60 40 20 0 obs exp
Page 68 and 69: Indien die overschrijdingskans heel
Page 70 and 71: Tot hiertoe hebben we alleen de ver
Page 72 and 73: geclassificeerd in een van vier cat
Page 74 and 75: Appendix A: verwachte profielen Het
Page 76: Cito Amsterdamseweg 13 Postbus 1034
show all

Rekenen voor peuters - Toetswijzer

Create successful ePaper yourself

Delete template?

Save as template?