01.09.2013 Views

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Richtlijnen <strong>voor</strong> subgroepsgrootte bij continue normering met acht subgroepen<br />

Tests <strong>voor</strong> belangrijke* beslissingen op individueel niveau<br />

(bij<strong>voor</strong>beeld personeelsselectie, verwijzing naar speciaal on<strong>de</strong>rwijs,<br />

opname/ontslag kliniek, certificering).<br />

Tests <strong>voor</strong> relatief min<strong>de</strong>r belangrijke beslissingen op individueel niveau<br />

(bij<strong>voor</strong>beeld <strong>voor</strong>tgangscontrole, in het algemeen beschrijvend gebruik,<br />

zoals bij beroepskeuzebegeleiding, therapie-indicatie).<br />

Voor een uitgebrei<strong>de</strong> toelichting op <strong>de</strong> wijze waarop <strong>de</strong>ze richtlijnen<br />

tot stand zijn gekomen, wordt verwezen naar het on<strong>de</strong>rzoek <strong>van</strong><br />

Bechger e.a. (2009). Hier wordt slechts een korte toelichting<br />

gegeven. Voor <strong>de</strong> standaardfout <strong>van</strong> het gemid<strong>de</strong>l<strong>de</strong> zijn <strong>de</strong> waar<strong>de</strong>n<br />

berekend die bij <strong>de</strong> aantallen horen die als grenzen <strong>voor</strong> <strong>de</strong> kwalificaties<br />

‘onvoldoen<strong>de</strong>’, ‘voldoen<strong>de</strong>’ en ‘goed’ wor<strong>de</strong>n gebruikt bij normering<br />

op afzon<strong>de</strong>rlijke groepen, namelijk 400, 300 en 200 personen.<br />

Bij een standaard<strong>de</strong>viatie <strong>van</strong> 15 (zoals bij intelligentie<strong>tests</strong> gebruikelijk<br />

is) zijn <strong>de</strong> standaardfouten <strong>van</strong> het gemid<strong>de</strong>l<strong>de</strong> respectievelijk<br />

0.75, 0.87 en 1.06. Uitgaan<strong>de</strong> <strong>van</strong> <strong>de</strong> regressieaanpak bij continue<br />

normering kunnen vervolgens <strong>voor</strong> elk aantal sub groepen en <strong>voor</strong><br />

elke steekproefom<strong>van</strong>g <strong>de</strong> standaardfouten <strong>van</strong> het gemid<strong>de</strong>l<strong>de</strong> <strong>voor</strong><br />

elke subgroep wor<strong>de</strong>n berekend. Bij acht subgroepen (bij<strong>voor</strong>beeld<br />

<strong>de</strong> acht groepen in het basison<strong>de</strong>rwijs) en bij een grootte <strong>van</strong> 100<br />

personen per groep, zijn <strong>de</strong>ze in <strong>de</strong> groepen 4 en 5 gelijk aan circa<br />

.54, bij <strong>de</strong> groepen 3 en 6 aan .63, bij <strong>de</strong> groepen 2 en 7 aan .77<br />

en bij <strong>de</strong> groepen 1 en 8 aan .96. Bij klassieke normering en bij een<br />

groepsgrootte <strong>van</strong> 300 personen is <strong>de</strong> standaardfout gelijk aan .87<br />

in alle groepen. Wanneer bij continue normering over acht groepen<br />

elke groep uit 100 personen zou bestaan, zou <strong>de</strong> nauwkeurigheid in<br />

zes <strong>van</strong> <strong>de</strong> acht groepen dus verbeteren, en bij twee groepen verslechteren<br />

ten opzichte <strong>van</strong> klassieke normering. Hoewel dit laatste<br />

gegeven uiteraard onwenselijk is, is <strong>de</strong> mate <strong>van</strong> verslechtering<br />

beperkt en <strong>de</strong> ‘winst’ bij <strong>de</strong> mid<strong>de</strong>lste groepen groot. Daarom heeft<br />

<strong>de</strong> <strong>COTAN</strong> <strong>de</strong> richtlijn <strong>van</strong> 300 personen bij klassieke normering<br />

gelijk gesteld aan die <strong>van</strong> 100 personen bij continue normering (bij<br />

minimaal acht groepen). Op vergelijkbare wijze zijn <strong>de</strong> aantallen <strong>van</strong><br />

150 en 70 personen tot stand gekomen. Alleen bij <strong>de</strong> twee extreme<br />

groepen wordt <strong>de</strong> nauwkeurigheid dan iets slechter, maar bij <strong>de</strong><br />

an<strong>de</strong>re zes groepen beter, in vergelijking met respectievelijk 400<br />

en 200 personen bij klassieke normering.<br />

Bovenstaan<strong>de</strong> richtlijnen gel<strong>de</strong>n uitdrukkelijk als <strong>voor</strong>beeld, want<br />

een eerste beperking is dat <strong>de</strong> richtlijnen uitsluitend betrekking<br />

hebben op <strong>de</strong> situatie waarin acht subgroepen wor<strong>de</strong>n on<strong>de</strong>rschei<strong>de</strong>n.<br />

De twee<strong>de</strong> beperking betreft het feit dat in het <strong>voor</strong>beeld<br />

uitsluitend aandacht wordt geschonken aan <strong>de</strong> standaardfout <strong>van</strong><br />

het gemid<strong>de</strong>l<strong>de</strong> en dat an<strong>de</strong>re momenten <strong>van</strong> <strong>de</strong> ver<strong>de</strong>ling niet<br />

in het <strong>voor</strong>beeld zijn opgenomen. De <strong>de</strong>r<strong>de</strong> beperking is dat er in<br />

N ≥ 150<br />

100 ≤ N < 150<br />

N < 100<br />

N ≥ 100<br />

70 ≤ N < 100<br />

N < 70<br />

* Met belangrijke beslissingen wordt bedoeld: beslissingen die op basis <strong>van</strong> <strong>de</strong> <strong>tests</strong>cores wor<strong>de</strong>n genomen, die in principe,<br />

of op korte termijn, onomkeerbaar zijn, en die <strong>voor</strong> een belangrijk <strong>de</strong>el buiten <strong>de</strong> geteste persoon om wor<strong>de</strong>n genomen.<br />

goed<br />

voldoen<strong>de</strong><br />

onvoldoen<strong>de</strong><br />

goed<br />

voldoen<strong>de</strong><br />

onvoldoen<strong>de</strong><br />

het <strong>voor</strong>beeld <strong>van</strong> wordt uitgegaan dat aan <strong>de</strong> statistische <strong>voor</strong>on<strong>de</strong>rstellingen<br />

wordt voldaan. Wanneer er gebruik wordt gemaakt<br />

<strong>van</strong> continue normering, is het daarom aan <strong>de</strong> testauteur om in<br />

zijn specifieke situatie aan te tonen aan welk aantal in <strong>de</strong> klassieke<br />

normering <strong>de</strong> gebruikte steekproefom<strong>van</strong>g equivalent is. Merk<br />

op dat niet alleen moet wor<strong>de</strong>n aangetoond dat <strong>de</strong> standaardfout<br />

<strong>van</strong> het gemid<strong>de</strong>l<strong>de</strong> equivalent is, maar dat dit ook aangetoond<br />

moet wor<strong>de</strong>n <strong>voor</strong> an<strong>de</strong>re momenten <strong>van</strong> <strong>de</strong> ver<strong>de</strong>ling, zoals <strong>de</strong><br />

standaard <strong>de</strong>viatie. Als bij het bepalen <strong>van</strong> die equivalentie gebruik<br />

is gemaakt <strong>van</strong> <strong>voor</strong>on<strong>de</strong>rstellingen, dan moet wor<strong>de</strong>n aangegeven<br />

of aan die <strong>voor</strong>on<strong>de</strong>rstellingen is voldaan.<br />

Wanneer een test louter is bedoeld om uitspraken op groepsniveau<br />

mogelijk te maken, gel<strong>de</strong>n er an<strong>de</strong>re eisen <strong>voor</strong> <strong>van</strong> <strong>de</strong> steekproefgrootte,<br />

omdat <strong>de</strong> standaardfout <strong>van</strong> groepsgemid<strong>de</strong>l<strong>de</strong>n in het<br />

algemeen veel kleiner is dan die <strong>van</strong> individuele scores. Zo zou<br />

v olgens Angoff (1971) <strong>de</strong> spreiding <strong>van</strong> individuele scores bij toetsen<br />

<strong>voor</strong> schoolprestaties 2 tot 2.5 maal groter zijn dan <strong>de</strong> spreiding <strong>van</strong><br />

groepsgemid<strong>de</strong>l<strong>de</strong>n. Een combinatie <strong>van</strong> <strong>de</strong> regel <strong>voor</strong> individuele<br />

normen en dit gegeven leidt tot <strong>de</strong> beoor<strong>de</strong>lingsregel die in <strong>de</strong> tabel<br />

hieron<strong>de</strong>r staat.<br />

Tests <strong>voor</strong><br />

on<strong>de</strong>rzoek op<br />

groepsniveau.<br />

K ≥ 40<br />

30 ≤ K < 40<br />

K < 30<br />

goed<br />

voldoen<strong>de</strong><br />

onvoldoen<strong>de</strong><br />

Hierin is K het aantal groepen en moet elke groep uit minstens<br />

25 geteste personen bestaan. Voorbeel<strong>de</strong>n <strong>van</strong> dit type <strong>tests</strong> zijn:<br />

vragenlijsten <strong>voor</strong> schoolklimaat; arbeidstevre<strong>de</strong>nheid; arbeidsomstandighe<strong>de</strong>n<br />

en organisatiecultuur. Voor representativiteit en<br />

aanvullen<strong>de</strong> statistische informatie gel<strong>de</strong>n, mutatis mutandis,<br />

<strong>de</strong>zelf<strong>de</strong> eisen zoals geformuleerd in <strong>de</strong> vragen 4.3.b tot en met 4.7,<br />

tenzij an<strong>de</strong>rs is aangegeven.<br />

<strong>COTAN</strong> Beoor<strong>de</strong>lingssysteem <strong>voor</strong> <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong> 23

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!