COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
5 Betrouwbaarheid<br />
De klassieke testtheorie veron<strong>de</strong>rstelt dat een <strong>tests</strong>core (X) is<br />
opgebouwd uit een betrouwbaar <strong>de</strong>el, ook wel ware score of<br />
betrouwbare score (T) genoemd, en een <strong>de</strong>el dat te wijten is aan<br />
<strong>de</strong> invloed <strong>van</strong> toevallige meetfouten. Dit laatste <strong>de</strong>el wordt meetfout<br />
(E) genoemd. De <strong>tests</strong>core is <strong>de</strong> som <strong>van</strong> <strong>de</strong> betrouwbare score<br />
en <strong>de</strong> meetfout: X = T + E. Het zou i<strong>de</strong>aal zijn als alleen <strong>de</strong> betrouwbare<br />
score werd gemeten, maar <strong>de</strong> realiteit is dat <strong>tests</strong>cores ook uit<br />
meetfouten bestaan. Doel <strong>van</strong> betrouwbaarheidsanalyse is om <strong>de</strong><br />
invloed <strong>van</strong> meetfouten op <strong>de</strong> <strong>tests</strong>cores te schatten.<br />
De variantie <strong>van</strong> <strong>de</strong> <strong>tests</strong>cores in een groep <strong>van</strong> personen (S2) is X<br />
opgebouwd uit betrouwbare variantie (S2) en foutenvariantie (S2<br />
T E ),<br />
zodat S2 = S2 + S2.<br />
In zijn meest basale vorm geeft <strong>de</strong> foutenvariantie<br />
X T E<br />
<strong>de</strong> spreiding weer die het gevolg is <strong>van</strong> toevallige meetfouten,<br />
zodat <strong>de</strong> betrouwbare variantie alle systematische verschillen<br />
tussen respon<strong>de</strong>nten weergeeft. De paralleltestbetrouwbaarheid<br />
is <strong>de</strong> verhouding <strong>van</strong> <strong>de</strong>ze betrouwbare variantie en <strong>de</strong> variantie<br />
<strong>van</strong> <strong>de</strong> <strong>tests</strong>cores.<br />
Naast <strong>de</strong> interpretatie <strong>van</strong> meetfouten als toevallige scorecomponenten<br />
is er een an<strong>de</strong>re interpretatie die zegt dat meetfouten<br />
alle onbedoel<strong>de</strong> componenten <strong>van</strong> <strong>de</strong> <strong>tests</strong>core bevatten, om te<br />
beginnen <strong>de</strong> toevallige, maar vervolgens ook <strong>de</strong> onbedoel<strong>de</strong>,<br />
systematische componenten. De betrouwbare variantie geeft in<br />
dit geval <strong>de</strong> spreiding <strong>van</strong> <strong>de</strong> bedoel<strong>de</strong> scorecomponenten, en <strong>de</strong><br />
foutenvariantie <strong>de</strong> spreiding die het gevolg is <strong>van</strong> <strong>de</strong> onbedoel<strong>de</strong><br />
componenten, inclusief <strong>de</strong> toevallige meetfouten. Hier<strong>van</strong> wordt<br />
een schatting gekregen door gebruik te maken <strong>van</strong> technieken uit<br />
<strong>de</strong> generaliseerbaarheidstheorie, <strong>de</strong> item-responstheorie en <strong>de</strong><br />
structurele vergelijkingsmo<strong>de</strong>llen. In bei<strong>de</strong> gevallen is het belangrijk<br />
(maar niet altijd strikt noodzakelijk) hier<strong>voor</strong> speciaal verzamel<strong>de</strong><br />
gegevens te analyseren.<br />
Een <strong>voor</strong>beeld <strong>van</strong> een test waarmee niet alleen <strong>de</strong> bedoel<strong>de</strong> eigenschap<br />
maar ook een an<strong>de</strong>re eigenschap wordt gemeten, is een<br />
rekentest waar<strong>van</strong> <strong>de</strong> spreiding in <strong>de</strong> <strong>tests</strong>cores niet alleen <strong>van</strong><br />
rekenvaardigheid (bedoeld) afhankelijk is, maar ook <strong>van</strong> taalvaardigheid<br />
en toeval (bei<strong>de</strong> onbedoeld). De eerste vorm <strong>van</strong> betrouwbaarheid<br />
is gelijk aan <strong>de</strong> verhouding <strong>van</strong> <strong>de</strong> variantie als gevolg<br />
<strong>van</strong> verschillen tussen respon<strong>de</strong>nten in rekenvaardigheid en taalvaardigheid<br />
samen, en <strong>de</strong> variantie <strong>van</strong> <strong>de</strong> <strong>tests</strong>cores. De twee<strong>de</strong><br />
vorm is gelijk aan <strong>de</strong> verhouding <strong>van</strong> <strong>de</strong> variantie <strong>van</strong> alleen <strong>de</strong><br />
bedoel<strong>de</strong> rekenvaardigheid, en <strong>de</strong> variantie <strong>van</strong> <strong>de</strong> <strong>tests</strong>core.<br />
De bronnen <strong>van</strong> <strong>de</strong> foutenvariantie kunnen zeer verschillend zijn<br />
en hoeven niet alleen betrekking te hebben op onbedoel<strong>de</strong> psychologische<br />
eigenschappen, zoals <strong>de</strong> taalvaardigheid in het <strong>voor</strong>beeld.<br />
Een alternatieve mogelijkheid is dat men zich afvraagt in hoeverre<br />
een <strong>tests</strong>core herhaalbaar is over een bepaal<strong>de</strong> perio<strong>de</strong>. Zo kan<br />
‘stemming’ op hetzelf<strong>de</strong> tijdstip wor<strong>de</strong>n gemeten met twee, als<br />
parallelle instrumenten bedoel<strong>de</strong> vragenlijsten, en kan blijken dat<br />
<strong>de</strong> meting op dat tijdstip zeer betrouwbaar was. Ligt er tussen <strong>de</strong><br />
twee afnamen (<strong>van</strong> <strong>de</strong>zelf<strong>de</strong> test, en niet twee verschillen<strong>de</strong> testversies)<br />
echter een lange tussenpoos, dan kan blijken dat <strong>de</strong> corre-<br />
latie tussen <strong>de</strong> twee <strong>tests</strong>cores laag is. De conclusie is dan dat <strong>de</strong><br />
verschillen tussen respon<strong>de</strong>nten over een langere perio<strong>de</strong> zijn<br />
gemeten, maar <strong>voor</strong> een klein <strong>de</strong>el systematisch zijn. Dus is <strong>de</strong><br />
betrouwbaarheid – hier <strong>de</strong> test-hertestbetrouwbaarheid – te gering<br />
<strong>voor</strong> het generaliseren <strong>van</strong> <strong>de</strong> <strong>tests</strong>core over tijdsperio<strong>de</strong>s zoals in<br />
het on<strong>de</strong>rzoek betracht.<br />
De indices <strong>voor</strong> betrouwbaarheid met vermelding <strong>van</strong> <strong>de</strong> foutenbron<br />
maken het dus mogelijk over een <strong>voor</strong> een bepaald doel<br />
betrouwbare test te spreken. Met behulp <strong>van</strong> <strong>de</strong> traditionele<br />
betrouwbaarheidsmaten, zoals verwoord in vraag 5.2, wordt in<br />
feite <strong>de</strong> generaliseerbaarheid <strong>van</strong> scores over versies (<strong>de</strong> paralleltestbetrouwbaarheid;<br />
betrouwbaarheidsschattingen op basis <strong>van</strong><br />
inter-itemrelaties geven hier<strong>van</strong> een schatting, waarover straks<br />
meer), tijdstippen (<strong>de</strong> test-hertestbetrouwbaarheid) en beoor<strong>de</strong>laars<br />
(<strong>de</strong> interbeoor<strong>de</strong>laarsbetrouwbaarheid) vastgesteld. Uit <strong>de</strong>ze<br />
opsomming wordt dui<strong>de</strong>lijk – maar om misverstand te vermij<strong>de</strong>n<br />
wordt het nog eens gezegd – dat dé betrouwbaarheid <strong>van</strong> een<br />
test niet bestaat: we on<strong>de</strong>rschei<strong>de</strong>n vormen <strong>van</strong> betrouwbaarheid<br />
naar <strong>de</strong> aard <strong>van</strong> <strong>de</strong> variantiebron die in het betrouwbaarheidson<strong>de</strong>rzoek<br />
wordt geanalyseerd.<br />
Ook is het <strong>van</strong> belang te on<strong>de</strong>rkennen dat <strong>de</strong> uitkomsten <strong>van</strong> het<br />
betrouwbaarheidson<strong>de</strong>rzoek <strong>voor</strong> een bepaal<strong>de</strong> test afhankelijk zijn<br />
<strong>van</strong> <strong>de</strong> on<strong>de</strong>rzochte groep. Meet <strong>de</strong> test in twee groepen <strong>de</strong>zelf<strong>de</strong><br />
eigenschap, dan is <strong>de</strong> betrouwbaarheid het grootst in <strong>de</strong> groep met<br />
<strong>de</strong> grootste variantie in <strong>de</strong> <strong>tests</strong>cores. Meet <strong>de</strong> test echter in <strong>de</strong> ene<br />
groep alleen <strong>de</strong> bedoel<strong>de</strong> eigenschap en in <strong>de</strong> an<strong>de</strong>re groep behalve<br />
<strong>de</strong> bedoel<strong>de</strong> eigenschap ook nog een onbedoel<strong>de</strong> eigenschap – <strong>de</strong>nk<br />
aan het <strong>voor</strong>beeld met rekenvaardigheid en taalvaardigheid –, dan is<br />
<strong>de</strong> validiteit <strong>van</strong> <strong>de</strong> test in het geding, en is het af te ra<strong>de</strong>n <strong>de</strong> scores<br />
<strong>van</strong> personen uit <strong>de</strong> twee groepen met elkaar te vergelijken.<br />
Hoewel een test vaak uit meer dan één on<strong>de</strong>r<strong>de</strong>el (schalen, sub<strong>tests</strong>)<br />
bestaat, geeft <strong>de</strong> beoor<strong>de</strong>laar in het algemeen één beoor<strong>de</strong>ling <strong>voor</strong><br />
het criterium betrouwbaarheid, die een samenvatting geeft <strong>van</strong> <strong>de</strong><br />
resultaten op <strong>de</strong> verschillen<strong>de</strong> on<strong>de</strong>r<strong>de</strong>len. Dit is bij<strong>voor</strong>beeld het<br />
geval bij vragenlijsten die uit diverse schalen bestaan, zoals <strong>de</strong> BIT,<br />
<strong>de</strong> EPPS en <strong>de</strong> NPV, en bij <strong>tests</strong>eries die uit verschei<strong>de</strong>ne, in principe<br />
onafhankelijk af te nemen sub<strong>tests</strong> bestaan, zoals <strong>de</strong> DAT, <strong>de</strong> DVMH<br />
en <strong>de</strong> MCTM. In <strong>de</strong>rgelijke gevallen geeft <strong>de</strong> laagste coëfficiënt <strong>de</strong><br />
doorslag in <strong>de</strong> beoor<strong>de</strong>ling. Wanneer het echter een dui<strong>de</strong>lijke<br />
negatieve uitzon<strong>de</strong>ring betreft (bij<strong>voor</strong>beeld: op één na alle sub<strong>tests</strong><br />
‘goed’ en één subtest ‘onvoldoen<strong>de</strong>’), mag <strong>de</strong> hogere beoor<strong>de</strong>ling<br />
wor<strong>de</strong>n aangehou<strong>de</strong>n (in dit <strong>voor</strong>beeld: ‘goed’), en kan als voetnoot<br />
bij <strong>de</strong> beoor<strong>de</strong>ling <strong>de</strong> uitzon<strong>de</strong>ring wor<strong>de</strong>n vermeld. Een an<strong>de</strong>re<br />
situatie kan ontstaan wanneer <strong>de</strong> scores op <strong>de</strong> sub<strong>tests</strong> wor<strong>de</strong>n<br />
gesommeerd tot een totaalscore, zoals bij sommige intelligentie<strong>tests</strong><br />
het geval is. Hierbij kunnen drie mogelijkhe<strong>de</strong>n wor<strong>de</strong>n on<strong>de</strong>rschei<strong>de</strong>n:<br />
• Als slechts <strong>de</strong> interpretatie <strong>van</strong> <strong>de</strong> totaalscore <strong>van</strong> belang is,<br />
hoeft uiteraard slechts <strong>de</strong> betrouwbaarheid <strong>van</strong> <strong>de</strong>ze score<br />
wor<strong>de</strong>n beoor<strong>de</strong>eld.<br />
• Als door <strong>de</strong> testauteur wordt aangegeven dat <strong>de</strong> totaalscore<br />
<strong>COTAN</strong> Beoor<strong>de</strong>lingssysteem <strong>voor</strong> <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong><br />
31