COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Richtlijnen <strong>voor</strong> subgroepsgrootte bij continue normering met acht subgroepen<br />
Tests <strong>voor</strong> belangrijke* beslissingen op individueel niveau<br />
(bij<strong>voor</strong>beeld personeelsselectie, verwijzing naar speciaal on<strong>de</strong>rwijs,<br />
opname/ontslag kliniek, certificering).<br />
Tests <strong>voor</strong> relatief min<strong>de</strong>r belangrijke beslissingen op individueel niveau<br />
(bij<strong>voor</strong>beeld <strong>voor</strong>tgangscontrole, in het algemeen beschrijvend gebruik,<br />
zoals bij beroepskeuzebegeleiding, therapie-indicatie).<br />
Voor een uitgebrei<strong>de</strong> toelichting op <strong>de</strong> wijze waarop <strong>de</strong>ze richtlijnen<br />
tot stand zijn gekomen, wordt verwezen naar het on<strong>de</strong>rzoek <strong>van</strong><br />
Bechger e.a. (2009). Hier wordt slechts een korte toelichting<br />
gegeven. Voor <strong>de</strong> standaardfout <strong>van</strong> het gemid<strong>de</strong>l<strong>de</strong> zijn <strong>de</strong> waar<strong>de</strong>n<br />
berekend die bij <strong>de</strong> aantallen horen die als grenzen <strong>voor</strong> <strong>de</strong> kwalificaties<br />
‘onvoldoen<strong>de</strong>’, ‘voldoen<strong>de</strong>’ en ‘goed’ wor<strong>de</strong>n gebruikt bij normering<br />
op afzon<strong>de</strong>rlijke groepen, namelijk 400, 300 en 200 personen.<br />
Bij een standaard<strong>de</strong>viatie <strong>van</strong> 15 (zoals bij intelligentie<strong>tests</strong> gebruikelijk<br />
is) zijn <strong>de</strong> standaardfouten <strong>van</strong> het gemid<strong>de</strong>l<strong>de</strong> respectievelijk<br />
0.75, 0.87 en 1.06. Uitgaan<strong>de</strong> <strong>van</strong> <strong>de</strong> regressieaanpak bij continue<br />
normering kunnen vervolgens <strong>voor</strong> elk aantal sub groepen en <strong>voor</strong><br />
elke steekproefom<strong>van</strong>g <strong>de</strong> standaardfouten <strong>van</strong> het gemid<strong>de</strong>l<strong>de</strong> <strong>voor</strong><br />
elke subgroep wor<strong>de</strong>n berekend. Bij acht subgroepen (bij<strong>voor</strong>beeld<br />
<strong>de</strong> acht groepen in het basison<strong>de</strong>rwijs) en bij een grootte <strong>van</strong> 100<br />
personen per groep, zijn <strong>de</strong>ze in <strong>de</strong> groepen 4 en 5 gelijk aan circa<br />
.54, bij <strong>de</strong> groepen 3 en 6 aan .63, bij <strong>de</strong> groepen 2 en 7 aan .77<br />
en bij <strong>de</strong> groepen 1 en 8 aan .96. Bij klassieke normering en bij een<br />
groepsgrootte <strong>van</strong> 300 personen is <strong>de</strong> standaardfout gelijk aan .87<br />
in alle groepen. Wanneer bij continue normering over acht groepen<br />
elke groep uit 100 personen zou bestaan, zou <strong>de</strong> nauwkeurigheid in<br />
zes <strong>van</strong> <strong>de</strong> acht groepen dus verbeteren, en bij twee groepen verslechteren<br />
ten opzichte <strong>van</strong> klassieke normering. Hoewel dit laatste<br />
gegeven uiteraard onwenselijk is, is <strong>de</strong> mate <strong>van</strong> verslechtering<br />
beperkt en <strong>de</strong> ‘winst’ bij <strong>de</strong> mid<strong>de</strong>lste groepen groot. Daarom heeft<br />
<strong>de</strong> <strong>COTAN</strong> <strong>de</strong> richtlijn <strong>van</strong> 300 personen bij klassieke normering<br />
gelijk gesteld aan die <strong>van</strong> 100 personen bij continue normering (bij<br />
minimaal acht groepen). Op vergelijkbare wijze zijn <strong>de</strong> aantallen <strong>van</strong><br />
150 en 70 personen tot stand gekomen. Alleen bij <strong>de</strong> twee extreme<br />
groepen wordt <strong>de</strong> nauwkeurigheid dan iets slechter, maar bij <strong>de</strong><br />
an<strong>de</strong>re zes groepen beter, in vergelijking met respectievelijk 400<br />
en 200 personen bij klassieke normering.<br />
Bovenstaan<strong>de</strong> richtlijnen gel<strong>de</strong>n uitdrukkelijk als <strong>voor</strong>beeld, want<br />
een eerste beperking is dat <strong>de</strong> richtlijnen uitsluitend betrekking<br />
hebben op <strong>de</strong> situatie waarin acht subgroepen wor<strong>de</strong>n on<strong>de</strong>rschei<strong>de</strong>n.<br />
De twee<strong>de</strong> beperking betreft het feit dat in het <strong>voor</strong>beeld<br />
uitsluitend aandacht wordt geschonken aan <strong>de</strong> standaardfout <strong>van</strong><br />
het gemid<strong>de</strong>l<strong>de</strong> en dat an<strong>de</strong>re momenten <strong>van</strong> <strong>de</strong> ver<strong>de</strong>ling niet<br />
in het <strong>voor</strong>beeld zijn opgenomen. De <strong>de</strong>r<strong>de</strong> beperking is dat er in<br />
N ≥ 150<br />
100 ≤ N < 150<br />
N < 100<br />
N ≥ 100<br />
70 ≤ N < 100<br />
N < 70<br />
* Met belangrijke beslissingen wordt bedoeld: beslissingen die op basis <strong>van</strong> <strong>de</strong> <strong>tests</strong>cores wor<strong>de</strong>n genomen, die in principe,<br />
of op korte termijn, onomkeerbaar zijn, en die <strong>voor</strong> een belangrijk <strong>de</strong>el buiten <strong>de</strong> geteste persoon om wor<strong>de</strong>n genomen.<br />
goed<br />
voldoen<strong>de</strong><br />
onvoldoen<strong>de</strong><br />
goed<br />
voldoen<strong>de</strong><br />
onvoldoen<strong>de</strong><br />
het <strong>voor</strong>beeld <strong>van</strong> wordt uitgegaan dat aan <strong>de</strong> statistische <strong>voor</strong>on<strong>de</strong>rstellingen<br />
wordt voldaan. Wanneer er gebruik wordt gemaakt<br />
<strong>van</strong> continue normering, is het daarom aan <strong>de</strong> testauteur om in<br />
zijn specifieke situatie aan te tonen aan welk aantal in <strong>de</strong> klassieke<br />
normering <strong>de</strong> gebruikte steekproefom<strong>van</strong>g equivalent is. Merk<br />
op dat niet alleen moet wor<strong>de</strong>n aangetoond dat <strong>de</strong> standaardfout<br />
<strong>van</strong> het gemid<strong>de</strong>l<strong>de</strong> equivalent is, maar dat dit ook aangetoond<br />
moet wor<strong>de</strong>n <strong>voor</strong> an<strong>de</strong>re momenten <strong>van</strong> <strong>de</strong> ver<strong>de</strong>ling, zoals <strong>de</strong><br />
standaard <strong>de</strong>viatie. Als bij het bepalen <strong>van</strong> die equivalentie gebruik<br />
is gemaakt <strong>van</strong> <strong>voor</strong>on<strong>de</strong>rstellingen, dan moet wor<strong>de</strong>n aangegeven<br />
of aan die <strong>voor</strong>on<strong>de</strong>rstellingen is voldaan.<br />
Wanneer een test louter is bedoeld om uitspraken op groepsniveau<br />
mogelijk te maken, gel<strong>de</strong>n er an<strong>de</strong>re eisen <strong>voor</strong> <strong>van</strong> <strong>de</strong> steekproefgrootte,<br />
omdat <strong>de</strong> standaardfout <strong>van</strong> groepsgemid<strong>de</strong>l<strong>de</strong>n in het<br />
algemeen veel kleiner is dan die <strong>van</strong> individuele scores. Zo zou<br />
v olgens Angoff (1971) <strong>de</strong> spreiding <strong>van</strong> individuele scores bij toetsen<br />
<strong>voor</strong> schoolprestaties 2 tot 2.5 maal groter zijn dan <strong>de</strong> spreiding <strong>van</strong><br />
groepsgemid<strong>de</strong>l<strong>de</strong>n. Een combinatie <strong>van</strong> <strong>de</strong> regel <strong>voor</strong> individuele<br />
normen en dit gegeven leidt tot <strong>de</strong> beoor<strong>de</strong>lingsregel die in <strong>de</strong> tabel<br />
hieron<strong>de</strong>r staat.<br />
Tests <strong>voor</strong><br />
on<strong>de</strong>rzoek op<br />
groepsniveau.<br />
K ≥ 40<br />
30 ≤ K < 40<br />
K < 30<br />
goed<br />
voldoen<strong>de</strong><br />
onvoldoen<strong>de</strong><br />
Hierin is K het aantal groepen en moet elke groep uit minstens<br />
25 geteste personen bestaan. Voorbeel<strong>de</strong>n <strong>van</strong> dit type <strong>tests</strong> zijn:<br />
vragenlijsten <strong>voor</strong> schoolklimaat; arbeidstevre<strong>de</strong>nheid; arbeidsomstandighe<strong>de</strong>n<br />
en organisatiecultuur. Voor representativiteit en<br />
aanvullen<strong>de</strong> statistische informatie gel<strong>de</strong>n, mutatis mutandis,<br />
<strong>de</strong>zelf<strong>de</strong> eisen zoals geformuleerd in <strong>de</strong> vragen 4.3.b tot en met 4.7,<br />
tenzij an<strong>de</strong>rs is aangegeven.<br />
<strong>COTAN</strong> Beoor<strong>de</strong>lingssysteem <strong>voor</strong> <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong> 23