COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Aanwijzingen bij vraag 4.9: “Zijn <strong>de</strong> procedures op grond<br />
waar<strong>van</strong> <strong>de</strong> grensscores zijn bepaald correct?”<br />
Om te kunnen beoor<strong>de</strong>len of <strong>de</strong> normen te legitimeren zijn, is het<br />
<strong>van</strong> belang dat <strong>de</strong> testauteur <strong>de</strong> gevolg<strong>de</strong> procedures nauwkeurig<br />
beschrijft. Bij het beoor<strong>de</strong>len <strong>van</strong> <strong>de</strong>ze vraag moet wor<strong>de</strong>n gecontroleerd<br />
of aan on<strong>de</strong>rstaan<strong>de</strong> aspecten is voldaan:<br />
• Zijn alle gevolg<strong>de</strong> stappen en beslissingen in overeenstemming<br />
met <strong>de</strong> in <strong>de</strong> metho<strong>de</strong> ge<strong>de</strong>finieer<strong>de</strong> <strong>de</strong>finities en procedures?<br />
• Zijn alle in <strong>de</strong> metho<strong>de</strong> ge<strong>de</strong>finieer<strong>de</strong> stappen constant<br />
gehou<strong>de</strong>n? Hieron<strong>de</strong>r vallen ook zaken als instructies,<br />
materialen en beschikbaar gestel<strong>de</strong> statistische informatie<br />
over prestatie-ver<strong>de</strong>lingen.<br />
Als aan een <strong>van</strong> bei<strong>de</strong> aspecten niet is voldaan, dan moet het oor<strong>de</strong>el<br />
‘onvoldoen<strong>de</strong>’ wor<strong>de</strong>n toegekend. Het oor<strong>de</strong>el ‘goed’ mag alleen<br />
wor<strong>de</strong>n toegekend als <strong>de</strong> testauteur beargumenteert waarom een<br />
bepaal<strong>de</strong> standaardbepalingsprocedure gekozen is, aangeeft hoe er<br />
tij<strong>de</strong>ns <strong>de</strong> standaardbepalingsprocedure is omgegaan met mogelijke<br />
inconsistenties in beoor<strong>de</strong>lingen, en als <strong>de</strong> gevolg<strong>de</strong> procedure<br />
voldoet aan bovengenoem<strong>de</strong> aspecten. In an<strong>de</strong>re gevallen is het<br />
oor<strong>de</strong>el ‘voldoen<strong>de</strong>’.<br />
Aanwijzingen bij vraag 4.10: “Zijn <strong>de</strong> beoor<strong>de</strong>laars naar<br />
behoren geselecteerd en getraind?”<br />
Omdat <strong>de</strong> beoor<strong>de</strong>laars een prominente rol spelen bij een standaardbepalingsmetho<strong>de</strong>,<br />
is het niet wenselijk om ie<strong>de</strong>r willekeurig persoon<br />
erbij te betrekken. De potentiële beoor<strong>de</strong>laars moeten ten minste<br />
kennis hebben <strong>van</strong> het domein waarop <strong>de</strong> test betrekking heeft en<br />
het is wenselijk dat <strong>de</strong> beoor<strong>de</strong>laar training heeft gevolgd over het<br />
beoor<strong>de</strong>len <strong>van</strong> (werk <strong>van</strong>) getesten. Daarnaast is het belangrijk dat<br />
elke beoor<strong>de</strong>laar <strong>de</strong> standaard bepalingsmetho<strong>de</strong> begrijpt die gevolgd<br />
gaat wor<strong>de</strong>n, zodat er geen verschillen in beoor<strong>de</strong>lingen kunnen<br />
optre<strong>de</strong>n doordat beoor<strong>de</strong>laars <strong>de</strong> metho<strong>de</strong> an<strong>de</strong>rs toepassen. Ook<br />
dit kan wor<strong>de</strong>n bevor<strong>de</strong>rd door een training aan te bie<strong>de</strong>n. Om te<br />
kunnen beoor <strong>de</strong>len of <strong>de</strong> testauteur <strong>de</strong> beoor<strong>de</strong>laars zorgvuldig<br />
heeft gekozen is een beschrijving <strong>van</strong> <strong>de</strong> selectieprocedure en <strong>de</strong><br />
aangebo<strong>de</strong>n trainingen aan <strong>de</strong> beoor<strong>de</strong>laars noodzakelijk.<br />
Criteriumgerichte interpretatie<br />
Grensscores kunnen op velerlei manieren empirisch wor<strong>de</strong>n on<strong>de</strong>rbouwd.<br />
Een gemeenschappelijk kenmerk is echter dat in al <strong>de</strong>ze<br />
gevallen niet alleen <strong>de</strong> <strong>tests</strong>cores <strong>van</strong> <strong>de</strong> getesten beschikbaar zijn,<br />
maar ook gegevens over het te <strong>voor</strong>spellen criterium en daarmee<br />
over <strong>de</strong> relatie test-criterium. In feite betreft dit on<strong>de</strong>rzoek naar <strong>de</strong><br />
criteriumvaliditeit, dat echter ook <strong>de</strong> functie heeft op empirische<br />
wijze een norm vast te stellen. In <strong>de</strong>ze laatste functie wordt dit<br />
on<strong>de</strong>rzoek hier beoor<strong>de</strong>eld. Enkele <strong>voor</strong>beel<strong>de</strong>n:<br />
• Op basis <strong>van</strong> on<strong>de</strong>rzoek waarin <strong>de</strong> relatie tussen <strong>tests</strong>cores en<br />
arbeidsprestaties is vastgesteld, kunnen bij personeelsselectie<br />
aftestgrenzen wor<strong>de</strong>n bepaald en/of verwachtingstabellen<br />
wor<strong>de</strong>n geconstrueerd.<br />
• In <strong>de</strong> klinische psychologie kunnen ROC-curves en sensitiviteitsen<br />
specificiteitswaar<strong>de</strong>n gebaseerd op <strong>de</strong> relatie tussen <strong>tests</strong>cores<br />
en onafhankelijk vastgestel<strong>de</strong> criteria wor<strong>de</strong>n gebruikt<br />
om <strong>de</strong> meest gunstige grensscores te bepalen.<br />
• Bij het toekennen <strong>van</strong> licenties of diploma’s kan <strong>de</strong> zak/slaaggrens<br />
wor<strong>de</strong>n bepaald door na te gaan bij welke <strong>tests</strong>core <strong>de</strong><br />
gunstigste verhouding bestaat tussen <strong>de</strong>elnemers die in <strong>de</strong><br />
praktijk succesvol en onsuccesvol blijken te zijn.<br />
Aanwijzingen bij basisvraag 4.11: “Rechtvaardigen <strong>de</strong><br />
on<strong>de</strong>rzoeks resultaten het gebruik <strong>van</strong> grensscores?”<br />
Wanneer grensscores empirisch wor<strong>de</strong>n on<strong>de</strong>rbouwd, zal <strong>de</strong> on<strong>de</strong>rzoeker<br />
het bewijs moeten leveren <strong>voor</strong> <strong>de</strong> bruikbaarheid <strong>van</strong> <strong>de</strong><br />
gekozen grensscore. In bij<strong>voor</strong>beeld een selectiesituatie kunnen dit<br />
gegevens zijn over <strong>de</strong> succesratio en in een klinische situatie over <strong>de</strong><br />
sensitiviteit en <strong>de</strong> specificiteit (zie ook <strong>de</strong> Aanwijzingen bij <strong>de</strong> vragen<br />
7.1 en 7.2). Voor <strong>de</strong> gewenste hoogte <strong>van</strong> <strong>de</strong>ze maten kunnen geen<br />
algemene aanwijzingen wor<strong>de</strong>n gegeven, niet alleen omdat ‘wat<br />
hoog of laag is’ per te <strong>voor</strong>spellen criterium kan verschillen, maar<br />
ook omdat <strong>de</strong> predictieresultaten wor<strong>de</strong>n beïnvloed door an<strong>de</strong>re<br />
variabelen zoals <strong>de</strong> ‘base-rate’ of <strong>de</strong> prevalentie. Het wordt daarom<br />
aan <strong>de</strong> expertise <strong>van</strong> <strong>de</strong> beoor<strong>de</strong>laar overgelaten <strong>de</strong> verschillen<strong>de</strong><br />
factoren tegen elkaar af te wegen en een oor<strong>de</strong>el te geven over <strong>de</strong><br />
hoogte <strong>van</strong> <strong>de</strong> gevon<strong>de</strong>n resultaten.<br />
Aanwijzingen bij vraag 4.12: “Is <strong>de</strong> on<strong>de</strong>rzoeksgroep in<br />
overeenstemming met het bedoel<strong>de</strong> gebruik?”<br />
Het on<strong>de</strong>rzoek waarin <strong>de</strong> grensscore wordt bepaald, moet betrekking<br />
hebben op <strong>de</strong> populatie waar<strong>voor</strong> <strong>de</strong> test wordt gebruikt.<br />
Wanneer <strong>de</strong> on<strong>de</strong>rzoeksgroep heterogener <strong>van</strong> samenstelling is<br />
dan <strong>de</strong> populatie waar<strong>voor</strong> <strong>de</strong> test zal wor<strong>de</strong>n gebruikt (en binnen<br />
welke populatie uitein<strong>de</strong>lijk beslissingen zullen wor<strong>de</strong>n genomen),<br />
zal dit niet alleen tot geflatteer<strong>de</strong> resultaten lei<strong>de</strong>n, maar mogelijk<br />
ook tot an<strong>de</strong>re grensscores, dan wanneer het on<strong>de</strong>rzoek wel bij <strong>de</strong><br />
juiste groep had plaatsgevon<strong>de</strong>n. Om een en an<strong>de</strong>r te kunnen<br />
beoor<strong>de</strong>len, moet <strong>de</strong> steekproef zijn beschreven met behulp <strong>van</strong><br />
mogelijk rele<strong>van</strong>te psychologische of <strong>de</strong>mografische variabelen.<br />
Aanwijzingen bij vraag 4.13: “Is <strong>de</strong> on<strong>de</strong>rzoeksgroep<br />
groot genoeg?”<br />
Grensscores zijn te beschouwen als ‘normale’ punten in een scorever<strong>de</strong>ling<br />
waaraan een bijzon<strong>de</strong>re betekenis wordt toegekend. Voor<br />
<strong>de</strong> nauwkeurigheid waarmee <strong>de</strong>ze punten wor<strong>de</strong>n vastgesteld, gel<strong>de</strong>n<br />
<strong>de</strong>zelf<strong>de</strong> eisen als die welke gel<strong>de</strong>n <strong>voor</strong> normtabellen (waarbij <strong>de</strong><br />
nauwkeurigheid <strong>voor</strong>namelijk wordt bepaald door <strong>de</strong> grootte <strong>van</strong> <strong>de</strong><br />
groep). Wel is het zo dat het bij <strong>de</strong> bepaling <strong>van</strong> een of meer<strong>de</strong>re<br />
grensscores slechts gaat om een beperkt aantal punten, terwijl bij<br />
normtabellen <strong>de</strong> nauwkeurigheid <strong>van</strong> <strong>de</strong> hele scorever<strong>de</strong>ling in het<br />
geding is. De eisen die gesteld wor<strong>de</strong>n aan <strong>de</strong> om<strong>van</strong>g <strong>van</strong> <strong>de</strong> on<strong>de</strong>rzoeksgroep<br />
kunnen daarom wor<strong>de</strong>n versoepeld ten opzicht <strong>van</strong> <strong>de</strong><br />
eisen zoals die gel<strong>de</strong>n <strong>voor</strong> normgerichte interpretatie (zie <strong>de</strong> aanwijzingen<br />
bij vraag 4.3.a). Er<strong>van</strong> uitgaand dat grensscores alleen<br />
wor<strong>de</strong>n bepaald in situaties waarin het gaat om ‘belangrijke beslissingen<br />
op individueel niveau’ (<strong>voor</strong> een omschrijving hier<strong>van</strong> zie <strong>de</strong><br />
aanwijzingen bij vraag 4.3.a), wordt een on<strong>de</strong>rzoeksgroep bestaan<strong>de</strong><br />
uit minstens 300 personen als ‘goed’, een groep bestaan<strong>de</strong> uit minstens<br />
200 personen als ‘voldoen<strong>de</strong>’ en een on<strong>de</strong>rzoeksgroep bestaan<strong>de</strong><br />
uit min<strong>de</strong>r dan 200 personen als ‘onvoldoen<strong>de</strong>’ beoor<strong>de</strong>eld.<br />
<strong>COTAN</strong> Beoor<strong>de</strong>lingssysteem <strong>voor</strong> <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong> 29