COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
• Om<strong>van</strong>g <strong>van</strong> <strong>de</strong> steekproef<br />
De steekproef moet voldoen<strong>de</strong> groot zijn om te <strong>voor</strong>komen dat<br />
<strong>de</strong> itemparameters onnauwkeurig geschat wor<strong>de</strong>n. Er zijn hier<strong>voor</strong><br />
om twee re<strong>de</strong>nen geen eenduidige richtlijnen op te stellen.<br />
Ten eerste is <strong>de</strong> minimale benodig<strong>de</strong> grootte <strong>van</strong> <strong>de</strong> steekproef<br />
afhankelijk <strong>van</strong> het gekozen item-responsmo<strong>de</strong>l en ten twee<strong>de</strong><br />
wor<strong>de</strong>n er in <strong>de</strong> literatuur weinig aanwijzingen gegeven met<br />
betrekking tot <strong>de</strong> gewenste grootte <strong>van</strong> <strong>de</strong> steekproef. Het is<br />
vaak een kwestie <strong>van</strong> ‘ervaring’. In <strong>de</strong> literatuur wor<strong>de</strong>n nauwelijks<br />
richtlijnen genoemd <strong>voor</strong> <strong>de</strong> steekproefgrootte die nodig is<br />
bij <strong>de</strong> logistische mo<strong>de</strong>llen <strong>voor</strong> dichotome items. Op basis <strong>van</strong><br />
Parshall, Davey, Spray en Kalohn (1998) zijn <strong>de</strong> richtlijnen in<br />
on<strong>de</strong>rstaan<strong>de</strong> tabel opgesteld:<br />
Mo<strong>de</strong>l N<br />
3-parameter N > 700<br />
2-parameter N > 400<br />
1-parameter N > 200<br />
• Passing statistisch mo<strong>de</strong>l<br />
Alle statistische metho<strong>de</strong>n zijn gebaseerd op <strong>voor</strong>on<strong>de</strong>rstellingen<br />
(‘assumpties’) over ver<strong>de</strong>lingen <strong>van</strong> variabelen (bij<strong>voor</strong>beeld<br />
normaal) en relaties tussen variabelen (bij<strong>voor</strong>beeld lineair).<br />
Dit geldt bij<strong>voor</strong>beeld <strong>voor</strong> factormo<strong>de</strong>llen en item-responsmo<strong>de</strong>llen,<br />
maar ook <strong>voor</strong> <strong>de</strong> beken<strong>de</strong> product-momentcorrelatie.<br />
Allerlei uitspraken over <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong> die zijn gebaseerd<br />
op statistische berekeningen zijn alleen te vertrouwen als er <strong>voor</strong><br />
<strong>de</strong> betreffen<strong>de</strong> toepassing is aangetoond dat aan <strong>de</strong>ze <strong>voor</strong>on<strong>de</strong>rstellingen<br />
is voldaan. Het is ondoenlijk om hier aan te geven wat<br />
dit <strong>voor</strong> elke techniek inhoudt, maar <strong>van</strong> <strong>de</strong> testconstructeur mag<br />
wor<strong>de</strong>n verwacht dat hij <strong>de</strong> noodzakelijke informatie over mo<strong>de</strong>lpassing<br />
(goodnessoffit) in <strong>de</strong> handleiding <strong>van</strong> <strong>de</strong> test of vragenlijst<br />
rapporteert.<br />
Gegevens over <strong>de</strong> invariantie <strong>van</strong> <strong>de</strong> factorstructuur en<br />
mogelijke itembias bij verschillen<strong>de</strong> groepen<br />
Dit on<strong>de</strong>rzoek kan plaatsvin<strong>de</strong>n op basis <strong>van</strong> mo<strong>de</strong>llen en procedures<br />
die passen binnen <strong>de</strong> klassieke testtheorie of <strong>de</strong> item-<br />
responstheorie. Als er verschillen in factorstructuur zijn vastgesteld<br />
of als er itembias is aangetoond, moeten <strong>de</strong> conse quenties<br />
wor<strong>de</strong>n aangegeven (bij<strong>voor</strong>beeld een schatting <strong>van</strong> het effect<br />
op <strong>de</strong> totale <strong>tests</strong>core). Bijkomend <strong>voor</strong><strong>de</strong>el <strong>van</strong> on<strong>de</strong>rzoek naar<br />
itembias is dat het informatie oplevert over <strong>de</strong> mogelijke meerdimensionaliteit<br />
<strong>van</strong> het gemeten begrip.<br />
Gegevens over <strong>de</strong> convergente en <strong>de</strong> discriminante validiteit<br />
Bei<strong>de</strong> typen gegevens kunnen in één on<strong>de</strong>rzoek wor<strong>de</strong>n verkregen<br />
via <strong>de</strong> multi-trait-multi-method-bena<strong>de</strong>ring. Gegevens over <strong>de</strong><br />
convergente validiteit kunnen ook wor<strong>de</strong>n verkregen via correlatie<br />
met ‘soortgenoot’-<strong>tests</strong>. Gegevens over <strong>de</strong> discriminante validiteit<br />
zijn <strong>van</strong> belang om te kunnen uitsluiten dat niet ‘per ongeluk’ een<br />
an<strong>de</strong>r dan het bedoel<strong>de</strong> begrip wordt gemeten (meet men wel<br />
arbeidstevre<strong>de</strong>nheid en niet bij<strong>voor</strong>beeld negatieve affectiviteit;<br />
meet men wel rekenvaardigheid en niet <strong>voor</strong> een belangrijk <strong>de</strong>el<br />
taalvaardigheid?).<br />
Gegevens over verschillen tussen rele<strong>van</strong>te groepen<br />
Afhankelijk <strong>van</strong> <strong>de</strong> meetpretentie <strong>van</strong> een test en <strong>de</strong> kenmerken<br />
<strong>van</strong> bepaal<strong>de</strong> groepen kan men verschillen tussen <strong>de</strong>ze groepen<br />
verwachten. Zo is te verwachten dat leerlingen in basisgroep 8<br />
hoger zullen scoren op een toets <strong>voor</strong> rekenvaardigheid dan leerlingen<br />
in groep 6. Evenzo is het te verwachten dat kin<strong>de</strong>ren die<br />
zijn gediagnosticeerd als ADHD hoger zullen scoren op een test<br />
<strong>voor</strong> hyperactiviteit dan ‘normale’ kin<strong>de</strong>ren. Dergelijk groepsvergelijkend<br />
on<strong>de</strong>rzoek is belangrijk, omdat het een eerste aanwijzing<br />
kan geven dat <strong>de</strong> test groepen kan on<strong>de</strong>rschei<strong>de</strong>n zoals is bedoeld.<br />
Als er tegen <strong>de</strong> verwachting in geen verschillen zou<strong>de</strong>n blijken te<br />
zijn, zou het bovendien zeer onwaarschijnlijk zijn dat <strong>de</strong> test het<br />
bedoel<strong>de</strong> begrip meet. Het omgekeer<strong>de</strong> is echter niet waar: als er<br />
verschillen tussen rele<strong>van</strong>te groepen blijken te zijn, hoeft dit nog<br />
niet te betekenen dat <strong>de</strong> test nu werkelijk meet wat wordt<br />
bedoeld (<strong>de</strong> rekenvaardigheidstoets kan nog steeds taalvaardigheid<br />
meten en <strong>de</strong> test <strong>voor</strong> hyperactiviteit een of an<strong>de</strong>re vorm <strong>van</strong><br />
sociaal onwenselijk gedrag).<br />
Overige gegevens<br />
Dit kunnen bij<strong>voor</strong>beeld gegevens zijn over <strong>de</strong> criteriumvaliditeit die<br />
tevens informatie opleveren over <strong>de</strong> begripsvaliditeit.<br />
De vraag naar <strong>de</strong> totaalscore kan met een score ‘2’ wor<strong>de</strong>n beoor<strong>de</strong>eld,<br />
als er resultaten op ten minste twee <strong>van</strong> <strong>de</strong> bovengenoem<strong>de</strong><br />
typen on<strong>de</strong>rzoek wor<strong>de</strong>n gerapporteerd, als <strong>de</strong>ze uitkomsten in<br />
het algemeen <strong>de</strong> gewenste structuur on<strong>de</strong>rsteunen, en als <strong>de</strong>ze op<br />
zowel <strong>de</strong> interne als <strong>de</strong> externe structuur betrekking hebben. De<br />
score ‘3’ kan wor<strong>de</strong>n toegekend als resultaten op ten minste drie<br />
<strong>van</strong> <strong>de</strong> bovengenoem<strong>de</strong> typen on<strong>de</strong>rzoek wor<strong>de</strong>n gerapporteerd,<br />
<strong>de</strong>ze uitkomsten unaniem <strong>de</strong> gewenste structuur on<strong>de</strong>rsteunen,<br />
en op zowel <strong>de</strong> interne als <strong>de</strong> externe structuur betrekking hebben.<br />
Aanwijzingen bij vraag 6.3.a: “Zijn <strong>de</strong> procedures op basis<br />
waar<strong>van</strong> <strong>de</strong> begripsvaliditeitsgegevens zijn berekend correct?”<br />
De opzet <strong>van</strong> het on<strong>de</strong>rzoek en <strong>de</strong> gebruikte analysetechnieken<br />
moeten voldoen<strong>de</strong> dui<strong>de</strong>lijk zijn beschreven. Onvoldoen<strong>de</strong> informatie<br />
kan namelijk tot het oor<strong>de</strong>el ‘2’ of zelfs ‘1’ op <strong>de</strong>ze vraag lei<strong>de</strong>n.<br />
Gelet op <strong>de</strong> veelsoortigheid <strong>van</strong> dit type on<strong>de</strong>rzoek kunnen hier<br />
ver<strong>de</strong>r nauwelijks algemene aanwijzingen wor<strong>de</strong>n gegeven, behalve<br />
dat <strong>de</strong> grootte <strong>van</strong> <strong>de</strong> on<strong>de</strong>rzoeksgroep <strong>van</strong> belang is bij <strong>de</strong> waar<strong>de</strong>ring<br />
<strong>van</strong> <strong>de</strong> on<strong>de</strong>rzoeksresultaten. Enkele specifieke aandachtspunten<br />
hierbij zijn:<br />
• Wanneer <strong>de</strong> samenhang tussen items en (sub)test(s) wordt<br />
on<strong>de</strong>rzocht, moet wor<strong>de</strong>n gecorrigeerd <strong>voor</strong> het aan<strong>de</strong>el <strong>van</strong><br />
het item zelf in <strong>de</strong> (sub)<strong>tests</strong>core, omdat <strong>de</strong> bereken<strong>de</strong> waar<strong>de</strong>n<br />
<strong>COTAN</strong> Beoor<strong>de</strong>lingssysteem <strong>voor</strong> <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong><br />
41