01.09.2013 Views

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

• Om<strong>van</strong>g <strong>van</strong> <strong>de</strong> steekproef<br />

De steekproef moet voldoen<strong>de</strong> groot zijn om te <strong>voor</strong>komen dat<br />

<strong>de</strong> itemparameters onnauwkeurig geschat wor<strong>de</strong>n. Er zijn hier<strong>voor</strong><br />

om twee re<strong>de</strong>nen geen eenduidige richtlijnen op te stellen.<br />

Ten eerste is <strong>de</strong> minimale benodig<strong>de</strong> grootte <strong>van</strong> <strong>de</strong> steekproef<br />

afhankelijk <strong>van</strong> het gekozen item-responsmo<strong>de</strong>l en ten twee<strong>de</strong><br />

wor<strong>de</strong>n er in <strong>de</strong> literatuur weinig aanwijzingen gegeven met<br />

betrekking tot <strong>de</strong> gewenste grootte <strong>van</strong> <strong>de</strong> steekproef. Het is<br />

vaak een kwestie <strong>van</strong> ‘ervaring’. In <strong>de</strong> literatuur wor<strong>de</strong>n nauwelijks<br />

richtlijnen genoemd <strong>voor</strong> <strong>de</strong> steekproefgrootte die nodig is<br />

bij <strong>de</strong> logistische mo<strong>de</strong>llen <strong>voor</strong> dichotome items. Op basis <strong>van</strong><br />

Parshall, Davey, Spray en Kalohn (1998) zijn <strong>de</strong> richtlijnen in<br />

on<strong>de</strong>rstaan<strong>de</strong> tabel opgesteld:<br />

Mo<strong>de</strong>l N<br />

3-parameter N > 700<br />

2-parameter N > 400<br />

1-parameter N > 200<br />

• Passing statistisch mo<strong>de</strong>l<br />

Alle statistische metho<strong>de</strong>n zijn gebaseerd op <strong>voor</strong>on<strong>de</strong>rstellingen<br />

(‘assumpties’) over ver<strong>de</strong>lingen <strong>van</strong> variabelen (bij<strong>voor</strong>beeld<br />

normaal) en relaties tussen variabelen (bij<strong>voor</strong>beeld lineair).<br />

Dit geldt bij<strong>voor</strong>beeld <strong>voor</strong> factormo<strong>de</strong>llen en item-responsmo<strong>de</strong>llen,<br />

maar ook <strong>voor</strong> <strong>de</strong> beken<strong>de</strong> product-momentcorrelatie.<br />

Allerlei uitspraken over <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong> die zijn gebaseerd<br />

op statistische berekeningen zijn alleen te vertrouwen als er <strong>voor</strong><br />

<strong>de</strong> betreffen<strong>de</strong> toepassing is aangetoond dat aan <strong>de</strong>ze <strong>voor</strong>on<strong>de</strong>rstellingen<br />

is voldaan. Het is ondoenlijk om hier aan te geven wat<br />

dit <strong>voor</strong> elke techniek inhoudt, maar <strong>van</strong> <strong>de</strong> testconstructeur mag<br />

wor<strong>de</strong>n verwacht dat hij <strong>de</strong> noodzakelijke informatie over mo<strong>de</strong>lpassing<br />

(goodness­of­fit) in <strong>de</strong> handleiding <strong>van</strong> <strong>de</strong> test of vragenlijst<br />

rapporteert.<br />

Gegevens over <strong>de</strong> invariantie <strong>van</strong> <strong>de</strong> factorstructuur en<br />

mogelijke itembias bij verschillen<strong>de</strong> groepen<br />

Dit on<strong>de</strong>rzoek kan plaatsvin<strong>de</strong>n op basis <strong>van</strong> mo<strong>de</strong>llen en procedures<br />

die passen binnen <strong>de</strong> klassieke testtheorie of <strong>de</strong> item-<br />

responstheorie. Als er verschillen in factorstructuur zijn vastgesteld<br />

of als er itembias is aangetoond, moeten <strong>de</strong> conse quenties<br />

wor<strong>de</strong>n aangegeven (bij<strong>voor</strong>beeld een schatting <strong>van</strong> het effect<br />

op <strong>de</strong> totale <strong>tests</strong>core). Bijkomend <strong>voor</strong><strong>de</strong>el <strong>van</strong> on<strong>de</strong>rzoek naar<br />

itembias is dat het informatie oplevert over <strong>de</strong> mogelijke meerdimensionaliteit<br />

<strong>van</strong> het gemeten begrip.<br />

Gegevens over <strong>de</strong> convergente en <strong>de</strong> discriminante validiteit<br />

Bei<strong>de</strong> typen gegevens kunnen in één on<strong>de</strong>rzoek wor<strong>de</strong>n verkregen<br />

via <strong>de</strong> multi-trait-multi-method-bena<strong>de</strong>ring. Gegevens over <strong>de</strong><br />

convergente validiteit kunnen ook wor<strong>de</strong>n verkregen via correlatie<br />

met ‘soortgenoot’-<strong>tests</strong>. Gegevens over <strong>de</strong> discriminante validiteit<br />

zijn <strong>van</strong> belang om te kunnen uitsluiten dat niet ‘per ongeluk’ een<br />

an<strong>de</strong>r dan het bedoel<strong>de</strong> begrip wordt gemeten (meet men wel<br />

arbeidstevre<strong>de</strong>nheid en niet bij<strong>voor</strong>beeld negatieve affectiviteit;<br />

meet men wel rekenvaardigheid en niet <strong>voor</strong> een belangrijk <strong>de</strong>el<br />

taalvaardigheid?).<br />

Gegevens over verschillen tussen rele<strong>van</strong>te groepen<br />

Afhankelijk <strong>van</strong> <strong>de</strong> meetpretentie <strong>van</strong> een test en <strong>de</strong> kenmerken<br />

<strong>van</strong> bepaal<strong>de</strong> groepen kan men verschillen tussen <strong>de</strong>ze groepen<br />

verwachten. Zo is te verwachten dat leerlingen in basisgroep 8<br />

hoger zullen scoren op een toets <strong>voor</strong> rekenvaardigheid dan leerlingen<br />

in groep 6. Evenzo is het te verwachten dat kin<strong>de</strong>ren die<br />

zijn gediagnosticeerd als ADHD hoger zullen scoren op een test<br />

<strong>voor</strong> hyperactiviteit dan ‘normale’ kin<strong>de</strong>ren. Dergelijk groepsvergelijkend<br />

on<strong>de</strong>rzoek is belangrijk, omdat het een eerste aanwijzing<br />

kan geven dat <strong>de</strong> test groepen kan on<strong>de</strong>rschei<strong>de</strong>n zoals is bedoeld.<br />

Als er tegen <strong>de</strong> verwachting in geen verschillen zou<strong>de</strong>n blijken te<br />

zijn, zou het bovendien zeer onwaarschijnlijk zijn dat <strong>de</strong> test het<br />

bedoel<strong>de</strong> begrip meet. Het omgekeer<strong>de</strong> is echter niet waar: als er<br />

verschillen tussen rele<strong>van</strong>te groepen blijken te zijn, hoeft dit nog<br />

niet te betekenen dat <strong>de</strong> test nu werkelijk meet wat wordt<br />

bedoeld (<strong>de</strong> rekenvaardigheidstoets kan nog steeds taalvaardigheid<br />

meten en <strong>de</strong> test <strong>voor</strong> hyperactiviteit een of an<strong>de</strong>re vorm <strong>van</strong><br />

sociaal onwenselijk gedrag).<br />

Overige gegevens<br />

Dit kunnen bij<strong>voor</strong>beeld gegevens zijn over <strong>de</strong> criteriumvaliditeit die<br />

tevens informatie opleveren over <strong>de</strong> begripsvaliditeit.<br />

De vraag naar <strong>de</strong> totaalscore kan met een score ‘2’ wor<strong>de</strong>n beoor<strong>de</strong>eld,<br />

als er resultaten op ten minste twee <strong>van</strong> <strong>de</strong> bovengenoem<strong>de</strong><br />

typen on<strong>de</strong>rzoek wor<strong>de</strong>n gerapporteerd, als <strong>de</strong>ze uitkomsten in<br />

het algemeen <strong>de</strong> gewenste structuur on<strong>de</strong>rsteunen, en als <strong>de</strong>ze op<br />

zowel <strong>de</strong> interne als <strong>de</strong> externe structuur betrekking hebben. De<br />

score ‘3’ kan wor<strong>de</strong>n toegekend als resultaten op ten minste drie<br />

<strong>van</strong> <strong>de</strong> bovengenoem<strong>de</strong> typen on<strong>de</strong>rzoek wor<strong>de</strong>n gerapporteerd,<br />

<strong>de</strong>ze uitkomsten unaniem <strong>de</strong> gewenste structuur on<strong>de</strong>rsteunen,<br />

en op zowel <strong>de</strong> interne als <strong>de</strong> externe structuur betrekking hebben.<br />

Aanwijzingen bij vraag 6.3.a: “Zijn <strong>de</strong> procedures op basis<br />

waar<strong>van</strong> <strong>de</strong> begripsvaliditeitsgegevens zijn berekend correct?”<br />

De opzet <strong>van</strong> het on<strong>de</strong>rzoek en <strong>de</strong> gebruikte analysetechnieken<br />

moeten voldoen<strong>de</strong> dui<strong>de</strong>lijk zijn beschreven. Onvoldoen<strong>de</strong> informatie<br />

kan namelijk tot het oor<strong>de</strong>el ‘2’ of zelfs ‘1’ op <strong>de</strong>ze vraag lei<strong>de</strong>n.<br />

Gelet op <strong>de</strong> veelsoortigheid <strong>van</strong> dit type on<strong>de</strong>rzoek kunnen hier<br />

ver<strong>de</strong>r nauwelijks algemene aanwijzingen wor<strong>de</strong>n gegeven, behalve<br />

dat <strong>de</strong> grootte <strong>van</strong> <strong>de</strong> on<strong>de</strong>rzoeksgroep <strong>van</strong> belang is bij <strong>de</strong> waar<strong>de</strong>ring<br />

<strong>van</strong> <strong>de</strong> on<strong>de</strong>rzoeksresultaten. Enkele specifieke aandachtspunten<br />

hierbij zijn:<br />

• Wanneer <strong>de</strong> samenhang tussen items en (sub)test(s) wordt<br />

on<strong>de</strong>rzocht, moet wor<strong>de</strong>n gecorrigeerd <strong>voor</strong> het aan<strong>de</strong>el <strong>van</strong><br />

het item zelf in <strong>de</strong> (sub)<strong>tests</strong>core, omdat <strong>de</strong> bereken<strong>de</strong> waar<strong>de</strong>n<br />

<strong>COTAN</strong> Beoor<strong>de</strong>lingssysteem <strong>voor</strong> <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong><br />

41

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!