COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

5 Betrouwbaarheid 

De klassieke testtheorie veronderstelt dat een testscore (X) is 

opgebouwd uit een betrouwbaar deel, ook wel ware score of 

betrouwbare score (T) genoemd, en een deel dat te wijten is aan 

de invloed van toevallige meetfouten. Dit laatste deel wordt meetfout 

(E) genoemd. De testscore is de som van de betrouwbare score 

en de meetfout: X = T + E. Het zou ideaal zijn als alleen de betrouwbare 

score werd gemeten, maar de realiteit is dat testscores ook uit 

meetfouten bestaan. Doel van betrouwbaarheidsanalyse is om de 

invloed van meetfouten op de testscores te schatten. 

De variantie van de testscores in een groep van personen (S2) is X 

opgebouwd uit betrouwbare variantie (S2) en foutenvariantie (S2 

T E ), 

zodat S2 = S2 + S2. 

In zijn meest basale vorm geeft de foutenvariantie 

X T E 

de spreiding weer die het gevolg is van toevallige meetfouten, 

zodat de betrouwbare variantie alle systematische verschillen 

tussen respondenten weergeeft. De paralleltestbetrouwbaarheid 

is de verhouding van deze betrouwbare variantie en de variantie 

van de testscores. 

Naast de interpretatie van meetfouten als toevallige scorecomponenten 

is er een andere interpretatie die zegt dat meetfouten 

alle onbedoelde componenten van de testscore bevatten, om te 

beginnen de toevallige, maar vervolgens ook de onbedoelde, 

systematische componenten. De betrouwbare variantie geeft in 

dit geval de spreiding van de bedoelde scorecomponenten, en de 

foutenvariantie de spreiding die het gevolg is van de onbedoelde 

componenten, inclusief de toevallige meetfouten. Hiervan wordt 

een schatting gekregen door gebruik te maken van technieken uit 

de generaliseerbaarheidstheorie, de item-responstheorie en de 

structurele vergelijkingsmodellen. In beide gevallen is het belangrijk 

(maar niet altijd strikt noodzakelijk) hiervoor speciaal verzamelde 

gegevens te analyseren. 

Een voorbeeld van een test waarmee niet alleen de bedoelde eigenschap 

maar ook een andere eigenschap wordt gemeten, is een 

rekentest waarvan de spreiding in de testscores niet alleen van 

rekenvaardigheid (bedoeld) afhankelijk is, maar ook van taalvaardigheid 

en toeval (beide onbedoeld). De eerste vorm van betrouwbaarheid 

is gelijk aan de verhouding van de variantie als gevolg 

van verschillen tussen respondenten in rekenvaardigheid en taalvaardigheid 

samen, en de variantie van de testscores. De tweede 

vorm is gelijk aan de verhouding van de variantie van alleen de 

bedoelde rekenvaardigheid, en de variantie van de testscore. 

De bronnen van de foutenvariantie kunnen zeer verschillend zijn 

en hoeven niet alleen betrekking te hebben op onbedoelde psychologische 

eigenschappen, zoals de taalvaardigheid in het voorbeeld. 

Een alternatieve mogelijkheid is dat men zich afvraagt in hoeverre 

een testscore herhaalbaar is over een bepaalde periode. Zo kan 

‘stemming’ op hetzelfde tijdstip worden gemeten met twee, als 

parallelle instrumenten bedoelde vragenlijsten, en kan blijken dat 

de meting op dat tijdstip zeer betrouwbaar was. Ligt er tussen de 

twee afnamen (van dezelfde test, en niet twee verschillende testversies) 

echter een lange tussenpoos, dan kan blijken dat de corre- 

latie tussen de twee testscores laag is. De conclusie is dan dat de 

verschillen tussen respondenten over een langere periode zijn 

gemeten, maar voor een klein deel systematisch zijn. Dus is de 

betrouwbaarheid – hier de test-hertestbetrouwbaarheid – te gering 

voor het generaliseren van de testscore over tijdsperiodes zoals in 

het onderzoek betracht. 

De indices voor betrouwbaarheid met vermelding van de foutenbron 

maken het dus mogelijk over een voor een bepaald doel 

betrouwbare test te spreken. Met behulp van de traditionele 

betrouwbaarheidsmaten, zoals verwoord in vraag 5.2, wordt in 

feite de generaliseerbaarheid van scores over versies (de paralleltestbetrouwbaarheid; 

betrouwbaarheidsschattingen op basis van 

inter-itemrelaties geven hiervan een schatting, waarover straks 

meer), tijdstippen (de test-hertestbetrouwbaarheid) en beoordelaars 

(de interbeoordelaarsbetrouwbaarheid) vastgesteld. Uit deze 

opsomming wordt duidelijk – maar om misverstand te vermijden 

wordt het nog eens gezegd – dat dé betrouwbaarheid van een 

test niet bestaat: we onderscheiden vormen van betrouwbaarheid 

naar de aard van de variantiebron die in het betrouwbaarheidsonderzoek 

wordt geanalyseerd. 

Ook is het van belang te onderkennen dat de uitkomsten van het 

betrouwbaarheidsonderzoek voor een bepaalde test afhankelijk zijn 

van de onderzochte groep. Meet de test in twee groepen dezelfde 

eigenschap, dan is de betrouwbaarheid het grootst in de groep met 

de grootste variantie in de testscores. Meet de test echter in de ene 

groep alleen de bedoelde eigenschap en in de andere groep behalve 

de bedoelde eigenschap ook nog een onbedoelde eigenschap – denk 

aan het voorbeeld met rekenvaardigheid en taalvaardigheid –, dan is 

de validiteit van de test in het geding, en is het af te raden de scores 

van personen uit de twee groepen met elkaar te vergelijken. 

Hoewel een test vaak uit meer dan één onderdeel (schalen, subtests) 

bestaat, geeft de beoordelaar in het algemeen één beoordeling voor 

het criterium betrouwbaarheid, die een samenvatting geeft van de 

resultaten op de verschillende onderdelen. Dit is bijvoorbeeld het 

geval bij vragenlijsten die uit diverse schalen bestaan, zoals de BIT, 

de EPPS en de NPV, en bij testseries die uit verscheidene, in principe 

onafhankelijk af te nemen subtests bestaan, zoals de DAT, de DVMH 

en de MCTM. In dergelijke gevallen geeft de laagste coëfficiënt de 

doorslag in de beoordeling. Wanneer het echter een duidelijke 

negatieve uitzondering betreft (bijvoorbeeld: op één na alle subtests 

‘goed’ en één subtest ‘onvoldoende’), mag de hogere beoordeling 

worden aangehouden (in dit voorbeeld: ‘goed’), en kan als voetnoot 

bij de beoordeling de uitzondering worden vermeld. Een andere 

situatie kan ontstaan wanneer de scores op de subtests worden 

gesommeerd tot een totaalscore, zoals bij sommige intelligentietests 

het geval is. Hierbij kunnen drie mogelijkheden worden onderscheiden: 

• Als slechts de interpretatie van de totaalscore van belang is, 

hoeft uiteraard slechts de betrouwbaarheid van deze score 

worden beoordeeld. 

• Als door de testauteur wordt aangegeven dat de totaalscore 

COTAN Beoordelingssysteem voor de kwaliteit van tests 

31

Previous page

Next page

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

Create successful ePaper yourself

Delete template?

Save as template?