01.09.2013 Views

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Het oor<strong>de</strong>el <strong>voor</strong> elk <strong>van</strong> <strong>de</strong>ze criteria kan ‘onvoldoen<strong>de</strong>’, ‘voldoen<strong>de</strong>’<br />

of ‘goed’ zijn. De schaalpunten op <strong>de</strong> vragen zijn 1, 2 en 3; <strong>de</strong>ze<br />

komen eveneens overeen met <strong>de</strong> betekenissen ‘onvoldoen<strong>de</strong>’,<br />

‘voldoen<strong>de</strong>’ of ‘goed’. Bij enkele basisvragen moet <strong>de</strong> score ‘1’<br />

wor<strong>de</strong>n geïnterpreteerd als ‘nee’, <strong>de</strong> score ‘2’ als ‘n.v.t.’ en <strong>de</strong> score<br />

‘3’ als ‘ja’. Een negatief oor<strong>de</strong>el op een basis(<strong>de</strong>el)vraag leidt direct<br />

tot het oor<strong>de</strong>el ‘onvoldoen<strong>de</strong>’ <strong>voor</strong> het betreffen<strong>de</strong> criterium.<br />

De inhoud <strong>van</strong> <strong>de</strong> vragen, <strong>de</strong> toelichtingen en <strong>de</strong> wegings<strong>voor</strong>schriften<br />

wor<strong>de</strong>n gegeven in <strong>de</strong> volgen<strong>de</strong> zeven hoofdstukken.<br />

Bij <strong>de</strong> wegings<strong>voor</strong>schriften <strong>van</strong> sommige criteria moeten somscores<br />

<strong>van</strong> vragen wor<strong>de</strong>n berekend.<br />

Het doel <strong>van</strong> <strong>de</strong> toelichtingen is een houvast te bie<strong>de</strong>n bij <strong>de</strong> beoor<strong>de</strong>ling<br />

en waar nodig <strong>de</strong> statistische of psychometrische beweegre<strong>de</strong>nen<br />

te verdui<strong>de</strong>lijken. De toelichtingen hebben uiteraard niet<br />

<strong>de</strong> pretentie een statistisch of psychometrisch leerboek te zijn. Bij<br />

ondui<strong>de</strong>lijkhe<strong>de</strong>n kan men <strong>de</strong> referenties of an<strong>de</strong>re literatuur op <strong>de</strong><br />

gebie<strong>de</strong>n <strong>van</strong> testconstructie en psychometrie raadplegen.<br />

De betekenis <strong>van</strong> <strong>de</strong> beoor<strong>de</strong>lingen<br />

Over het algemeen kan men stellen dat een ‘onvoldoen<strong>de</strong>’ <strong>voor</strong><br />

een criterium op twee manieren tot stand kan komen: óf omdat<br />

<strong>de</strong> gevraag<strong>de</strong> informatie afwezig is, óf omdat <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>de</strong><br />

wél aanwezige informatie negatief wordt beoor<strong>de</strong>eld. Zo kan een<br />

‘onvoldoen<strong>de</strong>’ <strong>voor</strong> <strong>de</strong> betrouwbaarheid <strong>van</strong> een test betekenen<br />

dat <strong>de</strong> betrouwbaarheid niet is on<strong>de</strong>rzocht óf dat <strong>de</strong>ze wel is on<strong>de</strong>rzocht,<br />

maar dat dit on<strong>de</strong>rzoek heeft aangetoond dat <strong>de</strong> test onvoldoen<strong>de</strong><br />

betrouwbaar is. Afwezigheid <strong>van</strong> on<strong>de</strong>rzoeksgegevens wordt<br />

dus op <strong>de</strong>zelf<strong>de</strong> wijze beoor<strong>de</strong>eld als wél beschikbare on<strong>de</strong>rzoeksgegevens<br />

die tot een negatief resultaat lei<strong>de</strong>n, omdat <strong>de</strong> <strong>COTAN</strong><br />

meent dat het aan <strong>de</strong> auteur is om on<strong>de</strong>rzoeksgegevens te verschaffen.<br />

Hiermee wor<strong>de</strong>n <strong>de</strong> wetenschappelijke mores gevolgd<br />

dat <strong>de</strong> bewijslast <strong>voor</strong> een uitspraak bij <strong>de</strong> on<strong>de</strong>rzoeker ligt. In<br />

het hierboven beschreven <strong>voor</strong>beeld betekent dit dat <strong>de</strong> test bij<br />

afwezigheid <strong>van</strong> gegevens als onvoldoen<strong>de</strong> betrouwbaar wordt<br />

gezien tot het tegen<strong>de</strong>el is aangetoond. Voor <strong>de</strong> testgebruiker kan<br />

het zinnig zijn on<strong>de</strong>rscheid te maken tussen <strong>de</strong>ze situaties, omdat<br />

hij bij<strong>voor</strong>beeld graag een nieuw veelbelovend instrument het<br />

<strong>voor</strong><strong>de</strong>el <strong>van</strong> <strong>de</strong> twijfel schenkt. Me<strong>de</strong> om dit on<strong>de</strong>rscheid mogelijk<br />

te maken, maar ook als extra informatiebron <strong>voor</strong> testauteur en<br />

testgebruiker, wordt bij ‘onvoldoen<strong>de</strong>s’ <strong>van</strong> <strong>tests</strong> die sinds 1992<br />

zijn beoor<strong>de</strong>eld, in het kort <strong>de</strong> re<strong>de</strong>n <strong>van</strong> <strong>de</strong> beoor<strong>de</strong>ling gegeven.<br />

Overigens wordt hierbij nog een keer benadrukt dat het <strong>de</strong> verantwoor<strong>de</strong>lijkheid<br />

<strong>van</strong> <strong>de</strong> testauteur is om te zijner tijd voldoen<strong>de</strong><br />

informatie te verschaffen. Daarbij zou het krediet dat gebruikers<br />

aan een onvoldoen<strong>de</strong> on<strong>de</strong>rbouwd instrument geven omgekeerd<br />

evenredig moeten zijn met <strong>de</strong> ou<strong>de</strong>rdom er<strong>van</strong>.<br />

Een twee<strong>de</strong> nuancering ten aanzien <strong>van</strong> <strong>de</strong> beoor<strong>de</strong>ling ‘onvoldoen<strong>de</strong>’<br />

is, dat een of meer ‘onvoldoen<strong>de</strong>s’ niet per se betekent dat een<br />

instrument onbruikbaar is. Zo kan een ‘onvoldoen<strong>de</strong>’ <strong>voor</strong> normen<br />

zijn gegeven omdat <strong>de</strong> representativiteit <strong>van</strong> <strong>de</strong> normgroep te wensen<br />

overlaat. De test kan echter zeer bruikbaar zijn als <strong>de</strong> gebruiker<br />

in staat is zelf geschikte normen te verzamelen. Ten aanzien <strong>van</strong><br />

betrouwbaarheid en validiteit gel<strong>de</strong>n soortgelijke overwegingen.<br />

Een of meer schalen of sub<strong>tests</strong> <strong>van</strong> een vragenlijst of test kunnen<br />

onvoldoen<strong>de</strong> betrouwbaar zijn; dit hoeft echter niet te betekenen<br />

dat <strong>de</strong> an<strong>de</strong>re schalen of sub<strong>tests</strong> of <strong>de</strong> totaalscore onbruikbaar zijn.<br />

Bij <strong>tests</strong> die wor<strong>de</strong>n gebruikt <strong>voor</strong> belangrijke beslissingen op individueel<br />

niveau wor<strong>de</strong>n hoge eisen gesteld aan <strong>de</strong> betrouwbaarheid<br />

(zie <strong>de</strong> toelichting bij criterium 5). Zo wordt <strong>de</strong> betrouwbaarheid<br />

<strong>van</strong> een <strong>de</strong>rgelijke test als ‘onvoldoen<strong>de</strong>’ beoor<strong>de</strong>eld als <strong>de</strong>ze lager<br />

is dan .80. Toch kan een <strong>de</strong>rgelijke test nuttige informatie opleveren,<br />

bij<strong>voor</strong>beeld in combinatie met an<strong>de</strong>re instrumenten. Omdat met<br />

dit <strong>beoor<strong>de</strong>lingssysteem</strong> slechts afzon<strong>de</strong>rlijke <strong>tests</strong> wor<strong>de</strong>n beoor<strong>de</strong>eld,<br />

kan met een <strong>de</strong>rgelijke wijze <strong>van</strong> gebruik geen rekening<br />

wor<strong>de</strong>n gehou<strong>de</strong>n. Ook is het binnen dit <strong>beoor<strong>de</strong>lingssysteem</strong><br />

mogelijk dat <strong>van</strong> <strong>de</strong>ze zelf<strong>de</strong> test met een ‘onvoldoen<strong>de</strong>’ <strong>voor</strong><br />

betrouwbaarheid, <strong>de</strong> begrips- of <strong>de</strong> criteriumvaliditeit als ‘voldoen<strong>de</strong>’<br />

of zelfs als ‘goed’ wordt beoor<strong>de</strong>eld, bij<strong>voor</strong>beeld omdat in selectiesituaties<br />

een validiteitscoëfficiënt <strong>van</strong> .40 als hoog wordt beoor<strong>de</strong>eld.<br />

Zelfs een test met een lage <strong>voor</strong>spellen<strong>de</strong> waar<strong>de</strong> kan in<br />

sommige gevallen nuttige informatie opleveren, afhankelijk <strong>van</strong><br />

bij<strong>voor</strong>beeld toevalskans, selectieratio en kosten-batenverhouding.<br />

Een <strong>de</strong>r<strong>de</strong> nuancering betreft <strong>de</strong> grenswaar<strong>de</strong>n die in het <strong>beoor<strong>de</strong>lingssysteem</strong><br />

wor<strong>de</strong>n genoemd en waaraan <strong>tests</strong> moeten voldoen<br />

om een zo groot mogelijke objectiviteit bij <strong>de</strong> beoor<strong>de</strong>ling te<br />

garan<strong>de</strong>ren. Zo wor<strong>de</strong>n bij <strong>de</strong> criteria Normen en Betrouwbaarheid<br />

specifieke steekproefgroottes respectievelijk hoogtes <strong>van</strong> betrouwbaarheidscoëfficiënten<br />

genoemd waaraan moet wor<strong>de</strong>n voldaan<br />

<strong>voor</strong> een ‘voldoen<strong>de</strong>’ of ‘goed’ beoor<strong>de</strong>ling en die als ankerpunt<br />

fungeren <strong>voor</strong> <strong>de</strong> beoor<strong>de</strong>laar. Voor <strong>de</strong>ze grenzen is echter geen<br />

sluiten<strong>de</strong> wetenschappelijke argumentatie te leveren: ze zijn gebaseerd<br />

op in het algemeen min of meer internationaal geaccepteer<strong>de</strong><br />

adviezen <strong>van</strong> <strong>voor</strong>aanstaan<strong>de</strong> <strong>de</strong>skundigen (zie <strong>de</strong> betreffen<strong>de</strong><br />

hoofdstukken <strong>voor</strong> referenties). Hiermee hangt samen dat in<br />

ie<strong>de</strong>r geval <strong>van</strong> waar<strong>de</strong>n die in <strong>de</strong> buurt <strong>van</strong> <strong>de</strong>ze grenzen liggen,<br />

nauwelijks is te beargumenteren waarom een bepaal<strong>de</strong> waar<strong>de</strong><br />

net wel, en een an<strong>de</strong>re waar<strong>de</strong> net niet ‘voldoen<strong>de</strong>’ of ‘goed’ is.<br />

Op <strong>de</strong>ze wijze kan echter beter wor<strong>de</strong>n gewaarborgd dat alle <strong>tests</strong><br />

in principe op <strong>de</strong>zelf<strong>de</strong> wijze wor<strong>de</strong>n beoor<strong>de</strong>eld.<br />

Met bovenstaan<strong>de</strong> opmerkingen is bedoeld dui<strong>de</strong>lijk te maken<br />

dat <strong>van</strong> <strong>de</strong> testgebruiker wordt verwacht dat hij met <strong>de</strong> in absolute<br />

termen gegeven beoor<strong>de</strong>lingen op <strong>de</strong> juiste wijze kan omgaan.<br />

Voor <strong>de</strong> <strong>de</strong>skundige testgebruiker heeft het oor<strong>de</strong>el ‘onvoldoen<strong>de</strong>’<br />

(<strong>voor</strong> welk criterium dan ook) <strong>voor</strong>al <strong>de</strong> functie <strong>van</strong> waarschuwingssignaal;<br />

in zo’n geval moet <strong>de</strong> testgebruiker, in overeenstemming<br />

met artikel 3.2.e <strong>van</strong> <strong>de</strong> Algemene Standaard Testgebruik<br />

(Ne<strong>de</strong>rlands Instituut <strong>van</strong> Psychologen, 2004), expliciet beargumenteren<br />

waarom hij het betreffen<strong>de</strong> instrument inzet. Voor <strong>de</strong><br />

min<strong>de</strong>r <strong>de</strong>skundige testgebruiker is <strong>de</strong> boodschap, <strong>voor</strong>al wanneer<br />

er meer<strong>de</strong>re onvoldoen<strong>de</strong>s <strong>voor</strong> een test <strong>voor</strong>komen: testgebruiker,<br />

gebruik <strong>de</strong>ze test niet!<br />

<strong>COTAN</strong> Beoor<strong>de</strong>lingssysteem <strong>voor</strong> <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong><br />

3

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!