COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

More documents

Recommendations

Info

• Omvang van de steekproef De steekproef moet voldoende groot zijn om te voorkomen dat de itemparameters onnauwkeurig geschat worden. Er zijn hiervoor om twee redenen geen eenduidige richtlijnen op te stellen. Ten eerste is de minimale benodigde grootte van de steekproef afhankelijk van het gekozen item-responsmodel en ten tweede worden er in de literatuur weinig aanwijzingen gegeven met betrekking tot de gewenste grootte van de steekproef. Het is vaak een kwestie van ‘ervaring’. In de literatuur worden nauwelijks richtlijnen genoemd voor de steekproefgrootte die nodig is bij de logistische modellen voor dichotome items. Op basis van Parshall, Davey, Spray en Kalohn (1998) zijn de richtlijnen in onderstaande tabel opgesteld: Model N 3-parameter N > 700 2-parameter N > 400 1-parameter N > 200 • Passing statistisch model Alle statistische methoden zijn gebaseerd op vooronderstellingen (‘assumpties’) over verdelingen van variabelen (bijvoorbeeld normaal) en relaties tussen variabelen (bijvoorbeeld lineair). Dit geldt bijvoorbeeld voor factormodellen en item-responsmodellen, maar ook voor de bekende product-momentcorrelatie. Allerlei uitspraken over de kwaliteit van tests die zijn gebaseerd op statistische berekeningen zijn alleen te vertrouwen als er voor de betreffende toepassing is aangetoond dat aan deze vooronderstellingen is voldaan. Het is ondoenlijk om hier aan te geven wat dit voor elke techniek inhoudt, maar van de testconstructeur mag worden verwacht dat hij de noodzakelijke informatie over modelpassing (goodnessoffit) in de handleiding van de test of vragenlijst rapporteert. Gegevens over de invariantie van de factorstructuur en mogelijke itembias bij verschillende groepen Dit onderzoek kan plaatsvinden op basis van modellen en procedures die passen binnen de klassieke testtheorie of de item- responstheorie. Als er verschillen in factorstructuur zijn vastgesteld of als er itembias is aangetoond, moeten de conse quenties worden aangegeven (bijvoorbeeld een schatting van het effect op de totale testscore). Bijkomend voordeel van onderzoek naar itembias is dat het informatie oplevert over de mogelijke meerdimensionaliteit van het gemeten begrip. Gegevens over de convergente en de discriminante validiteit Beide typen gegevens kunnen in één onderzoek worden verkregen via de multi-trait-multi-method-benadering. Gegevens over de convergente validiteit kunnen ook worden verkregen via correlatie met ‘soortgenoot’-tests. Gegevens over de discriminante validiteit zijn van belang om te kunnen uitsluiten dat niet ‘per ongeluk’ een ander dan het bedoelde begrip wordt gemeten (meet men wel arbeidstevredenheid en niet bijvoorbeeld negatieve affectiviteit; meet men wel rekenvaardigheid en niet voor een belangrijk deel taalvaardigheid?). Gegevens over verschillen tussen relevante groepen Afhankelijk van de meetpretentie van een test en de kenmerken van bepaalde groepen kan men verschillen tussen deze groepen verwachten. Zo is te verwachten dat leerlingen in basisgroep 8 hoger zullen scoren op een toets voor rekenvaardigheid dan leerlingen in groep 6. Evenzo is het te verwachten dat kinderen die zijn gediagnosticeerd als ADHD hoger zullen scoren op een test voor hyperactiviteit dan ‘normale’ kinderen. Dergelijk groepsvergelijkend onderzoek is belangrijk, omdat het een eerste aanwijzing kan geven dat de test groepen kan onderscheiden zoals is bedoeld. Als er tegen de verwachting in geen verschillen zouden blijken te zijn, zou het bovendien zeer onwaarschijnlijk zijn dat de test het bedoelde begrip meet. Het omgekeerde is echter niet waar: als er verschillen tussen relevante groepen blijken te zijn, hoeft dit nog niet te betekenen dat de test nu werkelijk meet wat wordt bedoeld (de rekenvaardigheidstoets kan nog steeds taalvaardigheid meten en de test voor hyperactiviteit een of andere vorm van sociaal onwenselijk gedrag). Overige gegevens Dit kunnen bijvoorbeeld gegevens zijn over de criteriumvaliditeit die tevens informatie opleveren over de begripsvaliditeit. De vraag naar de totaalscore kan met een score ‘2’ worden beoordeeld, als er resultaten op ten minste twee van de bovengenoemde typen onderzoek worden gerapporteerd, als deze uitkomsten in het algemeen de gewenste structuur ondersteunen, en als deze op zowel de interne als de externe structuur betrekking hebben. De score ‘3’ kan worden toegekend als resultaten op ten minste drie van de bovengenoemde typen onderzoek worden gerapporteerd, deze uitkomsten unaniem de gewenste structuur ondersteunen, en op zowel de interne als de externe structuur betrekking hebben. Aanwijzingen bij vraag 6.3.a: “Zijn de procedures op basis waarvan de begripsvaliditeitsgegevens zijn berekend correct?” De opzet van het onderzoek en de gebruikte analysetechnieken moeten voldoende duidelijk zijn beschreven. Onvoldoende informatie kan namelijk tot het oordeel ‘2’ of zelfs ‘1’ op deze vraag leiden. Gelet op de veelsoortigheid van dit type onderzoek kunnen hier verder nauwelijks algemene aanwijzingen worden gegeven, behalve dat de grootte van de onderzoeksgroep van belang is bij de waardering van de onderzoeksresultaten. Enkele specifieke aandachtspunten hierbij zijn: • Wanneer de samenhang tussen items en (sub)test(s) wordt onderzocht, moet worden gecorrigeerd voor het aandeel van het item zelf in de (sub)testscore, omdat de berekende waarden COTAN Beoordelingssysteem voor de kwaliteit van tests 41
anders geflatteerd uitvallen (dat wil zeggen dat er zogenoemde item-restcorrelaties in plaats van item-totaalcorrelaties moeten worden vermeld). • Bij onderzoek naar de convergente validiteit moet worden gewaarschuwd tegen de interpretatie van onderzoeksresultaten zonder specifieke verwachtingen vooraf. Dergelijk onderzoek krijgt al gauw het karakter van ‘vissen’: post hoc zal men altijd wel een aantal interpreteerbare verbanden vinden, wanneer men de test correleert met de scores op een groot aantal (toevallige beschikbaar zijnde) andere tests. Hierbij is het aannemelijk dat enkele van de significante correlaties op toeval zullen berusten. Deze kans op toevalscorrelaties wordt groter naarmate de te valideren test uit meer subtests of schalen bestaat. Aanwijzingen bij vraag 6.3.b: “Komen de steekproeven die in het begripsvalideringsonderzoek zijn gebruikt overeen met groepen waarvoor de test is bedoeld?” Het valideringsonderzoek moet betrekking hebben op de populatie waarvoor de test wordt gebruikt. Hierbij is vooral de variantie van de testscores in de onderzoeksgroep van belang. Omdat validiteitscoëfficiënten in het algemeen lager zullen uitvallen bij afnemende variantie, zal een validiteitsonderzoek dat is uitgevoerd op een heterogenere groep dan de groep waarvoor de test uiteindelijk is bedoeld, geflatteerde resultaten laten zien. Zo is het onjuist om een test die is bedoeld voor therapieselectie bij mensen die zich daarvoor hebben aangemeld, te valideren op een doorsnee van de ‘normale’ bevolking. Om een en ander te kunnen beoordelen, moet de onderzoeksgroep zijn beschreven met behulp van mogelijk relevante psychologische of demografische variabelen. Vaststelling eindoordeel voor criterium 6 Begripsvaliditeit De basisvraag wordt met ‘3’ beoordeeld. De basisvraag wordt met ‘1’ beoordeeld. 42 COTAN Beoordelingssysteem voor de kwaliteit van tests Vraag 6.2 wordt met ‘3’ beoordeeld. Vraag 6.2 wordt met ‘2’ beoordeeld. Vraag 6.2 wordt met ‘1’ beoordeeld. Wanneer de test volgens de handleiding is bedoeld voor gebruik in verschillende situaties en/of voor verschillende groepen, dan moet er onderzoek zijn verricht in meerdere van deze situaties en/of bij meerdere groepen. Aanwijzingen bij vraag 6.3.c: “Wat is de kwaliteit van de andere maten die in het begripsvalideringsonderzoek zijn gebruikt?” Van de gebruikte maten moet de betrouwbaarheid bekend zijn. Het spreekt bijna voor zich dat validering aan maten met een lage betrouwbaarheid (lager dan .60) minder zinvol is, omdat de resultaten in dat geval niet goed te interpreteren zijn. Validering aan soortgenoten heeft bovendien alleen zin als daarvoor instrumenten worden gebruikt waarvan de validiteit zelf voldoende is onderzocht. Aanwijzingen bij vraag 6.3.d: “Is de kwaliteit van het onderzoek, zoals beoordeeld in de vragen 6.3.a tot en met 6.3.c, zodanig dat de beoordeling van de begripsvaliditeit, zoals gegeven in vraag 6.2, kan worden bevestigd?” Negatieve beantwoording (‘1’) op een van de vragen 6.3.a tot en met 6.3.c leidt tot een score ‘1’ bij vraag 6.3.d. Dit betekent dat het oordeel over de resultaten van het begripsvalideringsonderzoek zoals gegeven in vraag 6.2 naar beneden moet worden bijgesteld. Ook meerdere ‘2’-oordelen op de vragen 6.3.a tot en met 6.3.c kunnen betekenen dat het onderzoek zo veel manco’s vertoont dat vraag 6.3.d negatief wordt beantwoord en op grond hiervan het oordeel van vraag 6.2 naar beneden wordt bijgesteld. Vraag 6.3.d wordt met ‘3’ beoordeeld. Vraag 6.3.d wordt met ‘2’ beoordeeld. Vraag 6.3.d wordt met ‘1’ beoordeeld. Vraag 6.3.d wordt met ‘3’ beoordeeld. Vraag 6.3.d wordt met ‘2’ beoordeeld. Vraag 6.3.d wordt met ‘1’ beoordeeld. goed voldoende onvoldoende voldoende onvoldoende onvoldoende onvoldoende onvoldoende
Page 4 and 5: Woord vooraf Voor u ligt de herzien
Page 6 and 7: Het oordeel voor elk van deze crite
Page 8 and 9: interpretatiemogelijkheden van de t
Page 10 and 11: 1 Uitgangspunten van de testconstru
Page 12 and 13: 2 De kwaliteit van het testmateriaa
Page 14 and 15: Aanwijzingen bij basisvraag 2.3:
Page 16 and 17: Worden enkele of alle items handmat
Page 18 and 19: Vaststelling eindoordeel voor crite
Page 20 and 21: vragen moet ingaan (er kunnen bijvo
Page 22 and 23: 4 Normen Het scoren van een test le
Page 26 and 27: Richtlijnen voor subgroepsgrootte b
Page 28 and 29: komen. Er ligt geen steekproefmodel
Page 30 and 31: 1.96S E bij X op te tellen). Dit in
Page 32 and 33: Aanwijzingen bij vraag 4.9: “Zijn
Page 34 and 35: 5 Betrouwbaarheid De klassieke test
Page 38 and 39: etrouwbaarheid. Het verschil is dat
Page 40 and 41: Vaststelling eindoordeel voor crite
Page 42 and 43: Vragen voor criterium 6 Begripsvali
Page 46 and 47: 7 Criteriumvaliditeit Bij criterium
Page 48 and 49: Nederlandse vertaling van een buite
Page 50: Kingsbury, G. G., & Zara, A. R. (19

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?