01.09.2013 Views

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

5 Betrouwbaarheid<br />

De klassieke testtheorie veron<strong>de</strong>rstelt dat een <strong>tests</strong>core (X) is<br />

opgebouwd uit een betrouwbaar <strong>de</strong>el, ook wel ware score of<br />

betrouwbare score (T) genoemd, en een <strong>de</strong>el dat te wijten is aan<br />

<strong>de</strong> invloed <strong>van</strong> toevallige meetfouten. Dit laatste <strong>de</strong>el wordt meetfout<br />

(E) genoemd. De <strong>tests</strong>core is <strong>de</strong> som <strong>van</strong> <strong>de</strong> betrouwbare score<br />

en <strong>de</strong> meetfout: X = T + E. Het zou i<strong>de</strong>aal zijn als alleen <strong>de</strong> betrouwbare<br />

score werd gemeten, maar <strong>de</strong> realiteit is dat <strong>tests</strong>cores ook uit<br />

meetfouten bestaan. Doel <strong>van</strong> betrouwbaarheidsanalyse is om <strong>de</strong><br />

invloed <strong>van</strong> meetfouten op <strong>de</strong> <strong>tests</strong>cores te schatten.<br />

De variantie <strong>van</strong> <strong>de</strong> <strong>tests</strong>cores in een groep <strong>van</strong> personen (S2) is X<br />

opgebouwd uit betrouwbare variantie (S2) en foutenvariantie (S2<br />

T E ),<br />

zodat S2 = S2 + S2.<br />

In zijn meest basale vorm geeft <strong>de</strong> foutenvariantie<br />

X T E<br />

<strong>de</strong> spreiding weer die het gevolg is <strong>van</strong> toevallige meetfouten,<br />

zodat <strong>de</strong> betrouwbare variantie alle systematische verschillen<br />

tussen respon<strong>de</strong>nten weergeeft. De paralleltestbetrouwbaarheid<br />

is <strong>de</strong> verhouding <strong>van</strong> <strong>de</strong>ze betrouwbare variantie en <strong>de</strong> variantie<br />

<strong>van</strong> <strong>de</strong> <strong>tests</strong>cores.<br />

Naast <strong>de</strong> interpretatie <strong>van</strong> meetfouten als toevallige scorecomponenten<br />

is er een an<strong>de</strong>re interpretatie die zegt dat meetfouten<br />

alle onbedoel<strong>de</strong> componenten <strong>van</strong> <strong>de</strong> <strong>tests</strong>core bevatten, om te<br />

beginnen <strong>de</strong> toevallige, maar vervolgens ook <strong>de</strong> onbedoel<strong>de</strong>,<br />

systematische componenten. De betrouwbare variantie geeft in<br />

dit geval <strong>de</strong> spreiding <strong>van</strong> <strong>de</strong> bedoel<strong>de</strong> scorecomponenten, en <strong>de</strong><br />

foutenvariantie <strong>de</strong> spreiding die het gevolg is <strong>van</strong> <strong>de</strong> onbedoel<strong>de</strong><br />

componenten, inclusief <strong>de</strong> toevallige meetfouten. Hier<strong>van</strong> wordt<br />

een schatting gekregen door gebruik te maken <strong>van</strong> technieken uit<br />

<strong>de</strong> generaliseerbaarheidstheorie, <strong>de</strong> item-responstheorie en <strong>de</strong><br />

structurele vergelijkingsmo<strong>de</strong>llen. In bei<strong>de</strong> gevallen is het belangrijk<br />

(maar niet altijd strikt noodzakelijk) hier<strong>voor</strong> speciaal verzamel<strong>de</strong><br />

gegevens te analyseren.<br />

Een <strong>voor</strong>beeld <strong>van</strong> een test waarmee niet alleen <strong>de</strong> bedoel<strong>de</strong> eigenschap<br />

maar ook een an<strong>de</strong>re eigenschap wordt gemeten, is een<br />

rekentest waar<strong>van</strong> <strong>de</strong> spreiding in <strong>de</strong> <strong>tests</strong>cores niet alleen <strong>van</strong><br />

rekenvaardigheid (bedoeld) afhankelijk is, maar ook <strong>van</strong> taalvaardigheid<br />

en toeval (bei<strong>de</strong> onbedoeld). De eerste vorm <strong>van</strong> betrouwbaarheid<br />

is gelijk aan <strong>de</strong> verhouding <strong>van</strong> <strong>de</strong> variantie als gevolg<br />

<strong>van</strong> verschillen tussen respon<strong>de</strong>nten in rekenvaardigheid en taalvaardigheid<br />

samen, en <strong>de</strong> variantie <strong>van</strong> <strong>de</strong> <strong>tests</strong>cores. De twee<strong>de</strong><br />

vorm is gelijk aan <strong>de</strong> verhouding <strong>van</strong> <strong>de</strong> variantie <strong>van</strong> alleen <strong>de</strong><br />

bedoel<strong>de</strong> rekenvaardigheid, en <strong>de</strong> variantie <strong>van</strong> <strong>de</strong> <strong>tests</strong>core.<br />

De bronnen <strong>van</strong> <strong>de</strong> foutenvariantie kunnen zeer verschillend zijn<br />

en hoeven niet alleen betrekking te hebben op onbedoel<strong>de</strong> psychologische<br />

eigenschappen, zoals <strong>de</strong> taalvaardigheid in het <strong>voor</strong>beeld.<br />

Een alternatieve mogelijkheid is dat men zich afvraagt in hoeverre<br />

een <strong>tests</strong>core herhaalbaar is over een bepaal<strong>de</strong> perio<strong>de</strong>. Zo kan<br />

‘stemming’ op hetzelf<strong>de</strong> tijdstip wor<strong>de</strong>n gemeten met twee, als<br />

parallelle instrumenten bedoel<strong>de</strong> vragenlijsten, en kan blijken dat<br />

<strong>de</strong> meting op dat tijdstip zeer betrouwbaar was. Ligt er tussen <strong>de</strong><br />

twee afnamen (<strong>van</strong> <strong>de</strong>zelf<strong>de</strong> test, en niet twee verschillen<strong>de</strong> testversies)<br />

echter een lange tussenpoos, dan kan blijken dat <strong>de</strong> corre-<br />

latie tussen <strong>de</strong> twee <strong>tests</strong>cores laag is. De conclusie is dan dat <strong>de</strong><br />

verschillen tussen respon<strong>de</strong>nten over een langere perio<strong>de</strong> zijn<br />

gemeten, maar <strong>voor</strong> een klein <strong>de</strong>el systematisch zijn. Dus is <strong>de</strong><br />

betrouwbaarheid – hier <strong>de</strong> test-hertestbetrouwbaarheid – te gering<br />

<strong>voor</strong> het generaliseren <strong>van</strong> <strong>de</strong> <strong>tests</strong>core over tijdsperio<strong>de</strong>s zoals in<br />

het on<strong>de</strong>rzoek betracht.<br />

De indices <strong>voor</strong> betrouwbaarheid met vermelding <strong>van</strong> <strong>de</strong> foutenbron<br />

maken het dus mogelijk over een <strong>voor</strong> een bepaald doel<br />

betrouwbare test te spreken. Met behulp <strong>van</strong> <strong>de</strong> traditionele<br />

betrouwbaarheidsmaten, zoals verwoord in vraag 5.2, wordt in<br />

feite <strong>de</strong> generaliseerbaarheid <strong>van</strong> scores over versies (<strong>de</strong> paralleltestbetrouwbaarheid;<br />

betrouwbaarheidsschattingen op basis <strong>van</strong><br />

inter-itemrelaties geven hier<strong>van</strong> een schatting, waarover straks<br />

meer), tijdstippen (<strong>de</strong> test-hertestbetrouwbaarheid) en beoor<strong>de</strong>laars<br />

(<strong>de</strong> interbeoor<strong>de</strong>laarsbetrouwbaarheid) vastgesteld. Uit <strong>de</strong>ze<br />

opsomming wordt dui<strong>de</strong>lijk – maar om misverstand te vermij<strong>de</strong>n<br />

wordt het nog eens gezegd – dat dé betrouwbaarheid <strong>van</strong> een<br />

test niet bestaat: we on<strong>de</strong>rschei<strong>de</strong>n vormen <strong>van</strong> betrouwbaarheid<br />

naar <strong>de</strong> aard <strong>van</strong> <strong>de</strong> variantiebron die in het betrouwbaarheidson<strong>de</strong>rzoek<br />

wordt geanalyseerd.<br />

Ook is het <strong>van</strong> belang te on<strong>de</strong>rkennen dat <strong>de</strong> uitkomsten <strong>van</strong> het<br />

betrouwbaarheidson<strong>de</strong>rzoek <strong>voor</strong> een bepaal<strong>de</strong> test afhankelijk zijn<br />

<strong>van</strong> <strong>de</strong> on<strong>de</strong>rzochte groep. Meet <strong>de</strong> test in twee groepen <strong>de</strong>zelf<strong>de</strong><br />

eigenschap, dan is <strong>de</strong> betrouwbaarheid het grootst in <strong>de</strong> groep met<br />

<strong>de</strong> grootste variantie in <strong>de</strong> <strong>tests</strong>cores. Meet <strong>de</strong> test echter in <strong>de</strong> ene<br />

groep alleen <strong>de</strong> bedoel<strong>de</strong> eigenschap en in <strong>de</strong> an<strong>de</strong>re groep behalve<br />

<strong>de</strong> bedoel<strong>de</strong> eigenschap ook nog een onbedoel<strong>de</strong> eigenschap – <strong>de</strong>nk<br />

aan het <strong>voor</strong>beeld met rekenvaardigheid en taalvaardigheid –, dan is<br />

<strong>de</strong> validiteit <strong>van</strong> <strong>de</strong> test in het geding, en is het af te ra<strong>de</strong>n <strong>de</strong> scores<br />

<strong>van</strong> personen uit <strong>de</strong> twee groepen met elkaar te vergelijken.<br />

Hoewel een test vaak uit meer dan één on<strong>de</strong>r<strong>de</strong>el (schalen, sub<strong>tests</strong>)<br />

bestaat, geeft <strong>de</strong> beoor<strong>de</strong>laar in het algemeen één beoor<strong>de</strong>ling <strong>voor</strong><br />

het criterium betrouwbaarheid, die een samenvatting geeft <strong>van</strong> <strong>de</strong><br />

resultaten op <strong>de</strong> verschillen<strong>de</strong> on<strong>de</strong>r<strong>de</strong>len. Dit is bij<strong>voor</strong>beeld het<br />

geval bij vragenlijsten die uit diverse schalen bestaan, zoals <strong>de</strong> BIT,<br />

<strong>de</strong> EPPS en <strong>de</strong> NPV, en bij <strong>tests</strong>eries die uit verschei<strong>de</strong>ne, in principe<br />

onafhankelijk af te nemen sub<strong>tests</strong> bestaan, zoals <strong>de</strong> DAT, <strong>de</strong> DVMH<br />

en <strong>de</strong> MCT­M. In <strong>de</strong>rgelijke gevallen geeft <strong>de</strong> laagste coëfficiënt <strong>de</strong><br />

doorslag in <strong>de</strong> beoor<strong>de</strong>ling. Wanneer het echter een dui<strong>de</strong>lijke<br />

negatieve uitzon<strong>de</strong>ring betreft (bij<strong>voor</strong>beeld: op één na alle sub<strong>tests</strong><br />

‘goed’ en één subtest ‘onvoldoen<strong>de</strong>’), mag <strong>de</strong> hogere beoor<strong>de</strong>ling<br />

wor<strong>de</strong>n aangehou<strong>de</strong>n (in dit <strong>voor</strong>beeld: ‘goed’), en kan als voetnoot<br />

bij <strong>de</strong> beoor<strong>de</strong>ling <strong>de</strong> uitzon<strong>de</strong>ring wor<strong>de</strong>n vermeld. Een an<strong>de</strong>re<br />

situatie kan ontstaan wanneer <strong>de</strong> scores op <strong>de</strong> sub<strong>tests</strong> wor<strong>de</strong>n<br />

gesommeerd tot een totaalscore, zoals bij sommige intelligentie<strong>tests</strong><br />

het geval is. Hierbij kunnen drie mogelijkhe<strong>de</strong>n wor<strong>de</strong>n on<strong>de</strong>rschei<strong>de</strong>n:<br />

• Als slechts <strong>de</strong> interpretatie <strong>van</strong> <strong>de</strong> totaalscore <strong>van</strong> belang is,<br />

hoeft uiteraard slechts <strong>de</strong> betrouwbaarheid <strong>van</strong> <strong>de</strong>ze score<br />

wor<strong>de</strong>n beoor<strong>de</strong>eld.<br />

• Als door <strong>de</strong> testauteur wordt aangegeven dat <strong>de</strong> totaalscore<br />

<strong>COTAN</strong> Beoor<strong>de</strong>lingssysteem <strong>voor</strong> <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong><br />

31

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!