14.09.2013 Views

Rekenen voor peuters - Toetswijzer

Rekenen voor peuters - Toetswijzer

Rekenen voor peuters - Toetswijzer

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

nauwkeurige vaardigheidsbepaling van een zwakke leerling het beste uit zullen zijn met een<br />

toets die hoofdzakelijk meetkunde-items bevat, en <strong>voor</strong> een sterke leerling met een toets die<br />

<strong>voor</strong>al breuken-items bevat. Maar daaruit volgt niet dat meetkunde en breuken verschillende<br />

vaardigheden aanspreken. Ook de bevinding dat in een feitelijke itembank het onderscheid<br />

moeilijk – gemakkelijk goeddeels samenvalt met het onderscheid meetkunde – breuken hoeft<br />

niets te betekenen: het zou kunnen zijn dat dit samengaan wijst op een intrinsieke samenhang<br />

(‘breuken zijn op theoretische gronden moeilijker dan meetkunde-items’) of op een min of<br />

meer toevallige samenloop van omstandigheden: de constructeurs waren niet in staat om<br />

moeilijke meetkunde-items en gemakkelijke breuken-items te construeren. Maar deze vraag –<br />

hoe belangwekkend die in sommige contexten ook mag zijn – heeft niets te maken met de<br />

vraag of het beantwoorden van zulke items nu gestuurd wordt vanuit een enkele vaardigheid<br />

of vanuit twee verschillende vaardigheden.<br />

Het <strong>voor</strong>gaande is eigenlijk een parafrase van wat doorgaans met veel moeilijke woorden aan<br />

discussies wordt gevoerd in psychometrische kringen onder het hoofdje ‘Eigenschappen van<br />

meetmodellen’. Het is prettig als we met meetmodellen kunnen werken die zulke<br />

eigenschappen hebben, want die staan garant <strong>voor</strong> de eigenschap dat we verschillende<br />

leerlingen met verschillende toetsen kunnen testen en de resultaten toch op een zinvolle<br />

manier kunnen vergelijken. Maar tezelfdertijd ligt hier ook de kern van een groot<br />

misverstand: het Raschmodel en OPLM hebben die eigenschappen, maar dit impliceert<br />

geenszins dat het voldoende is testgegevens door een Raschprogramma of het OPLM<br />

programma te halen om in de praktijk van die eigenschappen verzekerd te zijn. Wat we<br />

moeten aantonen is dat het gebruikte meetmodel geldig (valide) is <strong>voor</strong> de item-antwoorden<br />

die ermee worden geanalyseerd. En dit aantonen is niet eenvoudig; eigenlijk zouden we<br />

kunnen zeggen dat het principieel onmogelijk is.<br />

Statistisch gezien heeft het gebruikte meetmodel de status van een nulhypothese, en het<br />

statistisch toetsen van een meetmodel is er dus eigenlijk op gericht tot een verwerping van die<br />

nulhypothese te komen. Dit is de logische status van de statistische procedures in<br />

experimenteel onderzoek. Bij het evidentie zoeken ten <strong>voor</strong>dele van een gebruikt model wordt<br />

deze werkwijze omgekeerd, en men spreekt van toetsen <strong>voor</strong> ‘goodness-of-fit’.<br />

Als protagonist van een bepaald model heeft men er dus belang bij dat de toets niet<br />

significant uitvalt. Maar het niet-significant zijn van een zulk een statistische toets heeft niet<br />

dezelfde argumentatiekracht als een significantie in het experimenteel onderzoek. Dit is<br />

gemakkelijk in te zien door zich toetsen <strong>voor</strong> te stellen waarvan de analyse gebaseerd is op<br />

een triviaal klein aantal observaties: de kans dat die een statistisch significant resultaat<br />

opleveren is meestal heel erg klein, ook in gevallen waar het veronderstelde meetmodel in<br />

belangrijke mate fout is. In statistisch jargon heet het dan dat de statistische toets geen<br />

onderscheidend vermogen of ‘power’ heeft.<br />

Gegeven een bepaalde statistische procedure (bij<strong>voor</strong>beeld een t-toets om de hypothese van<br />

gelijkheid van twee gemiddelden te toetsen) is het opdrijven van de steekproefgrootte de<br />

belangrijkste manier om de power te vergroten. Maar bij het ontwerpen van toetsen <strong>voor</strong><br />

goodness-of-fit speelt er meestal nog een andere kwestie.<br />

Het gebruikte meetmodel (bij<strong>voor</strong>beeld OPLM) is een complexe nulhypothese, en het heeft<br />

helemaal geen zin om te spreken over de statistische procedure om de houdbaarheid van het<br />

model te toetsen. Er zijn talloze toetsen te verzinnen en de nulhypothese (het meetmodel) kan<br />

op talloze manieren onwaar zijn. Voor sommige mankementen aan het model zullen bepaalde<br />

toetsprocedures veel power hebben, terwijl <strong>voor</strong> andere tekortkomingen andere procedures<br />

4

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!