01.09.2013 Views

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Aanwijzingen bij vraag 4.9: “Zijn <strong>de</strong> procedures op grond<br />

waar<strong>van</strong> <strong>de</strong> grensscores zijn bepaald correct?”<br />

Om te kunnen beoor<strong>de</strong>len of <strong>de</strong> normen te legitimeren zijn, is het<br />

<strong>van</strong> belang dat <strong>de</strong> testauteur <strong>de</strong> gevolg<strong>de</strong> procedures nauwkeurig<br />

beschrijft. Bij het beoor<strong>de</strong>len <strong>van</strong> <strong>de</strong>ze vraag moet wor<strong>de</strong>n gecontroleerd<br />

of aan on<strong>de</strong>rstaan<strong>de</strong> aspecten is voldaan:<br />

• Zijn alle gevolg<strong>de</strong> stappen en beslissingen in overeenstemming<br />

met <strong>de</strong> in <strong>de</strong> metho<strong>de</strong> ge<strong>de</strong>finieer<strong>de</strong> <strong>de</strong>finities en procedures?<br />

• Zijn alle in <strong>de</strong> metho<strong>de</strong> ge<strong>de</strong>finieer<strong>de</strong> stappen constant<br />

gehou<strong>de</strong>n? Hieron<strong>de</strong>r vallen ook zaken als instructies,<br />

materialen en beschikbaar gestel<strong>de</strong> statistische informatie<br />

over prestatie-ver<strong>de</strong>lingen.<br />

Als aan een <strong>van</strong> bei<strong>de</strong> aspecten niet is voldaan, dan moet het oor<strong>de</strong>el<br />

‘onvoldoen<strong>de</strong>’ wor<strong>de</strong>n toegekend. Het oor<strong>de</strong>el ‘goed’ mag alleen<br />

wor<strong>de</strong>n toegekend als <strong>de</strong> testauteur beargumenteert waarom een<br />

bepaal<strong>de</strong> standaardbepalingsprocedure gekozen is, aangeeft hoe er<br />

tij<strong>de</strong>ns <strong>de</strong> standaardbepalingsprocedure is omgegaan met mogelijke<br />

inconsistenties in beoor<strong>de</strong>lingen, en als <strong>de</strong> gevolg<strong>de</strong> procedure<br />

voldoet aan bovengenoem<strong>de</strong> aspecten. In an<strong>de</strong>re gevallen is het<br />

oor<strong>de</strong>el ‘voldoen<strong>de</strong>’.<br />

Aanwijzingen bij vraag 4.10: “Zijn <strong>de</strong> beoor<strong>de</strong>laars naar<br />

behoren geselecteerd en getraind?”<br />

Omdat <strong>de</strong> beoor<strong>de</strong>laars een prominente rol spelen bij een standaardbepalingsmetho<strong>de</strong>,<br />

is het niet wenselijk om ie<strong>de</strong>r willekeurig persoon<br />

erbij te betrekken. De potentiële beoor<strong>de</strong>laars moeten ten minste<br />

kennis hebben <strong>van</strong> het domein waarop <strong>de</strong> test betrekking heeft en<br />

het is wenselijk dat <strong>de</strong> beoor<strong>de</strong>laar training heeft gevolgd over het<br />

beoor<strong>de</strong>len <strong>van</strong> (werk <strong>van</strong>) getesten. Daarnaast is het belangrijk dat<br />

elke beoor<strong>de</strong>laar <strong>de</strong> standaard bepalingsmetho<strong>de</strong> begrijpt die gevolgd<br />

gaat wor<strong>de</strong>n, zodat er geen verschillen in beoor<strong>de</strong>lingen kunnen<br />

optre<strong>de</strong>n doordat beoor<strong>de</strong>laars <strong>de</strong> metho<strong>de</strong> an<strong>de</strong>rs toepassen. Ook<br />

dit kan wor<strong>de</strong>n bevor<strong>de</strong>rd door een training aan te bie<strong>de</strong>n. Om te<br />

kunnen beoor <strong>de</strong>len of <strong>de</strong> testauteur <strong>de</strong> beoor<strong>de</strong>laars zorgvuldig<br />

heeft gekozen is een beschrijving <strong>van</strong> <strong>de</strong> selectieprocedure en <strong>de</strong><br />

aangebo<strong>de</strong>n trainingen aan <strong>de</strong> beoor<strong>de</strong>laars noodzakelijk.<br />

Criteriumgerichte interpretatie<br />

Grensscores kunnen op velerlei manieren empirisch wor<strong>de</strong>n on<strong>de</strong>rbouwd.<br />

Een gemeenschappelijk kenmerk is echter dat in al <strong>de</strong>ze<br />

gevallen niet alleen <strong>de</strong> <strong>tests</strong>cores <strong>van</strong> <strong>de</strong> getesten beschikbaar zijn,<br />

maar ook gegevens over het te <strong>voor</strong>spellen criterium en daarmee<br />

over <strong>de</strong> relatie test-criterium. In feite betreft dit on<strong>de</strong>rzoek naar <strong>de</strong><br />

criteriumvaliditeit, dat echter ook <strong>de</strong> functie heeft op empirische<br />

wijze een norm vast te stellen. In <strong>de</strong>ze laatste functie wordt dit<br />

on<strong>de</strong>rzoek hier beoor<strong>de</strong>eld. Enkele <strong>voor</strong>beel<strong>de</strong>n:<br />

• Op basis <strong>van</strong> on<strong>de</strong>rzoek waarin <strong>de</strong> relatie tussen <strong>tests</strong>cores en<br />

arbeidsprestaties is vastgesteld, kunnen bij personeelsselectie<br />

aftestgrenzen wor<strong>de</strong>n bepaald en/of verwachtingstabellen<br />

wor<strong>de</strong>n geconstrueerd.<br />

• In <strong>de</strong> klinische psychologie kunnen ROC-curves en sensitiviteitsen<br />

specificiteitswaar<strong>de</strong>n gebaseerd op <strong>de</strong> relatie tussen <strong>tests</strong>cores<br />

en onafhankelijk vastgestel<strong>de</strong> criteria wor<strong>de</strong>n gebruikt<br />

om <strong>de</strong> meest gunstige grensscores te bepalen.<br />

• Bij het toekennen <strong>van</strong> licenties of diploma’s kan <strong>de</strong> zak/slaaggrens<br />

wor<strong>de</strong>n bepaald door na te gaan bij welke <strong>tests</strong>core <strong>de</strong><br />

gunstigste verhouding bestaat tussen <strong>de</strong>elnemers die in <strong>de</strong><br />

praktijk succesvol en onsuccesvol blijken te zijn.<br />

Aanwijzingen bij basisvraag 4.11: “Rechtvaardigen <strong>de</strong><br />

on<strong>de</strong>rzoeks resultaten het gebruik <strong>van</strong> grensscores?”<br />

Wanneer grensscores empirisch wor<strong>de</strong>n on<strong>de</strong>rbouwd, zal <strong>de</strong> on<strong>de</strong>rzoeker<br />

het bewijs moeten leveren <strong>voor</strong> <strong>de</strong> bruikbaarheid <strong>van</strong> <strong>de</strong><br />

gekozen grensscore. In bij<strong>voor</strong>beeld een selectiesituatie kunnen dit<br />

gegevens zijn over <strong>de</strong> succesratio en in een klinische situatie over <strong>de</strong><br />

sensitiviteit en <strong>de</strong> specificiteit (zie ook <strong>de</strong> Aanwijzingen bij <strong>de</strong> vragen<br />

7.1 en 7.2). Voor <strong>de</strong> gewenste hoogte <strong>van</strong> <strong>de</strong>ze maten kunnen geen<br />

algemene aanwijzingen wor<strong>de</strong>n gegeven, niet alleen omdat ‘wat<br />

hoog of laag is’ per te <strong>voor</strong>spellen criterium kan verschillen, maar<br />

ook omdat <strong>de</strong> predictieresultaten wor<strong>de</strong>n beïnvloed door an<strong>de</strong>re<br />

variabelen zoals <strong>de</strong> ‘base-rate’ of <strong>de</strong> prevalentie. Het wordt daarom<br />

aan <strong>de</strong> expertise <strong>van</strong> <strong>de</strong> beoor<strong>de</strong>laar overgelaten <strong>de</strong> verschillen<strong>de</strong><br />

factoren tegen elkaar af te wegen en een oor<strong>de</strong>el te geven over <strong>de</strong><br />

hoogte <strong>van</strong> <strong>de</strong> gevon<strong>de</strong>n resultaten.<br />

Aanwijzingen bij vraag 4.12: “Is <strong>de</strong> on<strong>de</strong>rzoeksgroep in<br />

overeenstemming met het bedoel<strong>de</strong> gebruik?”<br />

Het on<strong>de</strong>rzoek waarin <strong>de</strong> grensscore wordt bepaald, moet betrekking<br />

hebben op <strong>de</strong> populatie waar<strong>voor</strong> <strong>de</strong> test wordt gebruikt.<br />

Wanneer <strong>de</strong> on<strong>de</strong>rzoeksgroep heterogener <strong>van</strong> samenstelling is<br />

dan <strong>de</strong> populatie waar<strong>voor</strong> <strong>de</strong> test zal wor<strong>de</strong>n gebruikt (en binnen<br />

welke populatie uitein<strong>de</strong>lijk beslissingen zullen wor<strong>de</strong>n genomen),<br />

zal dit niet alleen tot geflatteer<strong>de</strong> resultaten lei<strong>de</strong>n, maar mogelijk<br />

ook tot an<strong>de</strong>re grensscores, dan wanneer het on<strong>de</strong>rzoek wel bij <strong>de</strong><br />

juiste groep had plaatsgevon<strong>de</strong>n. Om een en an<strong>de</strong>r te kunnen<br />

beoor<strong>de</strong>len, moet <strong>de</strong> steekproef zijn beschreven met behulp <strong>van</strong><br />

mogelijk rele<strong>van</strong>te psychologische of <strong>de</strong>mografische variabelen.<br />

Aanwijzingen bij vraag 4.13: “Is <strong>de</strong> on<strong>de</strong>rzoeksgroep<br />

groot genoeg?”<br />

Grensscores zijn te beschouwen als ‘normale’ punten in een scorever<strong>de</strong>ling<br />

waaraan een bijzon<strong>de</strong>re betekenis wordt toegekend. Voor<br />

<strong>de</strong> nauwkeurigheid waarmee <strong>de</strong>ze punten wor<strong>de</strong>n vastgesteld, gel<strong>de</strong>n<br />

<strong>de</strong>zelf<strong>de</strong> eisen als die welke gel<strong>de</strong>n <strong>voor</strong> normtabellen (waarbij <strong>de</strong><br />

nauwkeurigheid <strong>voor</strong>namelijk wordt bepaald door <strong>de</strong> grootte <strong>van</strong> <strong>de</strong><br />

groep). Wel is het zo dat het bij <strong>de</strong> bepaling <strong>van</strong> een of meer<strong>de</strong>re<br />

grensscores slechts gaat om een beperkt aantal punten, terwijl bij<br />

normtabellen <strong>de</strong> nauwkeurigheid <strong>van</strong> <strong>de</strong> hele scorever<strong>de</strong>ling in het<br />

geding is. De eisen die gesteld wor<strong>de</strong>n aan <strong>de</strong> om<strong>van</strong>g <strong>van</strong> <strong>de</strong> on<strong>de</strong>rzoeksgroep<br />

kunnen daarom wor<strong>de</strong>n versoepeld ten opzicht <strong>van</strong> <strong>de</strong><br />

eisen zoals die gel<strong>de</strong>n <strong>voor</strong> normgerichte interpretatie (zie <strong>de</strong> aanwijzingen<br />

bij vraag 4.3.a). Er<strong>van</strong> uitgaand dat grensscores alleen<br />

wor<strong>de</strong>n bepaald in situaties waarin het gaat om ‘belangrijke beslissingen<br />

op individueel niveau’ (<strong>voor</strong> een omschrijving hier<strong>van</strong> zie <strong>de</strong><br />

aanwijzingen bij vraag 4.3.a), wordt een on<strong>de</strong>rzoeksgroep bestaan<strong>de</strong><br />

uit minstens 300 personen als ‘goed’, een groep bestaan<strong>de</strong> uit minstens<br />

200 personen als ‘voldoen<strong>de</strong>’ en een on<strong>de</strong>rzoeksgroep bestaan<strong>de</strong><br />

uit min<strong>de</strong>r dan 200 personen als ‘onvoldoen<strong>de</strong>’ beoor<strong>de</strong>eld.<br />

<strong>COTAN</strong> Beoor<strong>de</strong>lingssysteem <strong>voor</strong> <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong> 29

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!