01.09.2013 Views

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

COTAN beoordelingssysteem voor de kwaliteit van tests - NIP

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

1.96S E bij X op te tellen). Dit interval geeft een indruk <strong>van</strong> <strong>de</strong><br />

nauwkeurigheid <strong>van</strong> <strong>de</strong> meting en kan wor<strong>de</strong>n gebruikt <strong>voor</strong> het<br />

toetsen <strong>van</strong> hypothesen over iemands betrouwbare score.<br />

De standaardschattingsfout kan <strong>voor</strong> hetzelf<strong>de</strong> doel wor<strong>de</strong>n gebruikt<br />

als <strong>de</strong> standaardmeetfout, dus het schatten <strong>van</strong> een betrouwbaarheidsinterval<br />

<strong>voor</strong> <strong>de</strong> betrouwbare score. Het verschil is dat er hierbij<br />

een an<strong>de</strong>re schatting <strong>van</strong> <strong>de</strong> betrouwbare score wordt gebruikt.<br />

De betrouwbare score wordt hier geschat door mid<strong>de</strong>l <strong>van</strong> lineaire<br />

regressie, wat resulteert in <strong>de</strong> formule .<br />

Hierin is het gemid<strong>de</strong>l<strong>de</strong> <strong>van</strong> <strong>de</strong> groep waarin <strong>de</strong> betrouwbaarheid<br />

is bepaald. Deze formule staat wel bekend als Kelley’s formula.<br />

Omdat hij een lineaire regressieschatting geeft <strong>van</strong> <strong>de</strong> betrouwbare<br />

score, wordt nu <strong>de</strong> standaardschattingsfout,<br />

,<br />

gebruikt om een (95%) betrouwbaarheidsinterval <strong>voor</strong> T te schatten.<br />

Dat gebeurt door te berekenen: , waarbij men dus <strong>de</strong><br />

geschatte betrouwbare score uit Kelley’s formula gebruikt. Het<br />

<strong>voor</strong><strong>de</strong>el <strong>van</strong> Kelley’s formula ten opzichte <strong>van</strong> <strong>de</strong> eerste metho<strong>de</strong><br />

is dat er meer informatie wordt gebruikt om <strong>de</strong> betrouwbare score<br />

te schatten. Het i<strong>de</strong>e daarbij is dat naarmate <strong>de</strong> betrouwbaarheid<br />

geringer is, geobserveer<strong>de</strong> scores min<strong>de</strong>r gewicht krijgen en het<br />

groepsgemid<strong>de</strong>l<strong>de</strong> juist meer. Omgekeerd geldt dat bij een hoge<br />

betrouwbaarheid het groepsgemid<strong>de</strong>l<strong>de</strong> nauwelijks meer een rol<br />

speelt en <strong>de</strong> schatting <strong>van</strong> T bijna volledig door <strong>de</strong> geobserveer<strong>de</strong><br />

score X wordt bepaald. Zo spelen dus ook <strong>de</strong> betrouwbaarheid en<br />

<strong>de</strong> gemid<strong>de</strong>l<strong>de</strong> <strong>tests</strong>core een rol bij <strong>de</strong> schatting <strong>van</strong> T, en daarin ligt<br />

het verschil met <strong>de</strong> standaardmeetfout. Het gevolg <strong>van</strong> het gebruik<br />

<strong>van</strong> meer informatie is dat S < S . In woor<strong>de</strong>n: <strong>de</strong> twee<strong>de</strong> metho<strong>de</strong><br />

est E<br />

is nauwkeuriger dan <strong>de</strong> eerste. De twee<strong>de</strong> formule <strong>voor</strong> het schatten<br />

<strong>van</strong> <strong>de</strong> betrouwbare score (Kelley’s formula) wordt regelmatig in<br />

<strong>de</strong> praktijk gebruikt, maar ten onrechte wordt dan <strong>de</strong> ‘standaardmeetfout’<br />

gerapporteerd. Hier moet men dus goed op letten.<br />

Het betrouwbaarheidsinterval is belangrijk als men statistische toetsen<br />

wil uitvoeren. We noemen twee mogelijkhe<strong>de</strong>n: verschilt <strong>de</strong> score <strong>van</strong><br />

persoon v <strong>van</strong> die <strong>van</strong> een an<strong>de</strong>re persoon w of <strong>van</strong> een grensscore X o ?<br />

De eerste mogelijkheid behelst <strong>de</strong> nulhypothese dat <strong>de</strong> betrouwbare<br />

scores <strong>van</strong> twee personen, zeg persoon v en persoon w, gelijk<br />

zijn; dus H 0 : T v = T w . Getoetst wordt dan dus of het verschil gelijk is<br />

aan 0, en beschouwd wordt dan <strong>de</strong> standaardmeetfout <strong>van</strong> het verschil<br />

D vw = X v – X w . Deze standaardmeetfout is gelijk aan<br />

Een 95% betrouwbaarheidsinterval <strong>voor</strong> het ware verschil, dat<br />

wordt geschat met behulp <strong>van</strong> het geobserveer<strong>de</strong> verschil, is gelijk<br />

aan . Als <strong>de</strong> waar<strong>de</strong> 0 in dit interval ligt, wordt<br />

<strong>de</strong> nulhypothese geaccepteerd, maar als <strong>de</strong> waar<strong>de</strong> 0 buiten het<br />

interval ligt, wordt <strong>de</strong> nulhypothese verworpen.<br />

Voor <strong>de</strong> twee<strong>de</strong> mogelijkheid, het vergelijken <strong>van</strong> een <strong>tests</strong>core<br />

met een drempelwaar<strong>de</strong>, geldt dat <strong>de</strong>ze drempelwaar<strong>de</strong> perfect<br />

betrouwbaar is. Dan hoeft alleen te wor<strong>de</strong>n nagegaan of <strong>de</strong> drempelwaar<strong>de</strong><br />

al dan niet in het betrouwbaarheidsinterval X ± 1.96S E ligt.<br />

Werkt men met <strong>de</strong> standaardschattingsfout, dan moet er in <strong>de</strong><br />

formules steeds S est wor<strong>de</strong>n gebruikt in plaats <strong>van</strong> S E .<br />

Standaardmeetfouten en bijbehoren<strong>de</strong> betrouwbaarheidsintervallen<br />

kan men ook <strong>voor</strong> an<strong>de</strong>re scores schatten, zoals betrouwbare<br />

verschilscores. Overigens moet men er rekening mee hou<strong>de</strong>n dat<br />

verschilscores, zoals ze bij<strong>voor</strong>beeld in profielen wor<strong>de</strong>n gebruikt,<br />

notoir onbetrouwbaar zijn, en <strong>de</strong> betrouwbaarheidsintervallen dus<br />

erg lang. In <strong>de</strong> literatuur is er veel bekend over psychometrische<br />

problemen met verschilscores, maar het blijft een heikel probleem<br />

(zie bij<strong>voor</strong>beeld Allen & Yen, 1979, pp. 208-211; Drenth & Sijtsma,<br />

2006, pp. 241-243; Murphy & Davidshofer, 1998, pp. 138-139).<br />

Is <strong>de</strong> test of vragenlijst geconstrueerd met behulp <strong>van</strong> een item-<br />

responsmo<strong>de</strong>l, dan kan <strong>de</strong> testconstructeur er<strong>voor</strong> kiezen <strong>de</strong><br />

testinformatiefunctie te geven of het omgekeer<strong>de</strong> hier<strong>van</strong>, <strong>de</strong><br />

standaardfout afhankelijk <strong>van</strong> <strong>de</strong> schaal. Met behulp <strong>van</strong> <strong>de</strong>ze<br />

standaardfout kunnen we<strong>de</strong>rom betrouwbaarheidsintervallen<br />

wor<strong>de</strong>n geschat <strong>voor</strong> het niveau <strong>van</strong> <strong>de</strong> respon<strong>de</strong>nt (in <strong>de</strong> context<br />

<strong>van</strong> <strong>de</strong> item-responstheorie is dit een an<strong>de</strong>re parameter dan <strong>de</strong><br />

betrouwbare score). Het verschil met betrouwbaarheidsintervallen<br />

op basis <strong>van</strong> <strong>de</strong> klassieke standaardmeetfout is dat <strong>de</strong> betrouwbaarheidsintervallen<br />

nu variëren over <strong>de</strong> schaalwaar<strong>de</strong>n. Hiermee is<br />

dui<strong>de</strong>lijk dat niet ie<strong>de</strong>reen even nauwkeurig met <strong>de</strong>zelf<strong>de</strong> test wordt<br />

gemeten. Het verdient aanbeveling om <strong>de</strong>ze lokale informatie over<br />

<strong>de</strong> meetnauwkeurigheid zowel grafisch (<strong>voor</strong> <strong>de</strong> inzichtelijkheid) als<br />

numeriek in <strong>de</strong> vorm <strong>van</strong> tabellen (om exacte waar<strong>de</strong>n te kunnen<br />

aflezen) weer te geven.<br />

Voor een positieve beoor<strong>de</strong>ling op <strong>de</strong>ze vraag zal een testconstructeur<br />

minstens een <strong>van</strong> <strong>de</strong> drie genoem<strong>de</strong> mogelijkhe<strong>de</strong>n moeten<br />

rapporteren: standaardmeetfout, standaardschattingsfout of testinformatiefunctie/<strong>voor</strong>waar<strong>de</strong>lijke<br />

standaardfout, inclusief een<br />

afdoen<strong>de</strong> uitleg <strong>voor</strong> <strong>de</strong> testgebruiker over het gebruik <strong>van</strong><br />

betrouwbaarheidsintervallen. Het wordt ook aanbevolen <strong>voor</strong> elke<br />

ruwe score of standaardscore <strong>de</strong>ze intervallen in <strong>de</strong> handleiding op<br />

te nemen.<br />

Domeingerichte of criteriumgerichte<br />

interpretatie<br />

Bij een test die gebruik maakt <strong>van</strong> grensscores wordt met behulp<br />

<strong>van</strong> <strong>de</strong>ze score(s) het hele scorebereik ver<strong>de</strong>eld in twee of meer<br />

categorieën. Deze categorieën kunnen louter <strong>voor</strong> beschrijven<strong>de</strong><br />

doelein<strong>de</strong>n wor<strong>de</strong>n gebruikt, maar meestal zijn ze bedoeld om<br />

on<strong>de</strong>rscheid te maken tussen groepen geteste personen die een<br />

verschillend programma of een verschillen<strong>de</strong> behan<strong>de</strong>ling krijgen<br />

aangebo<strong>de</strong>n of <strong>voor</strong> wie een verschillen<strong>de</strong> verwachting geldt.<br />

Zo kan een werkgever een grensscore gebruiken om potentiële<br />

werknemers te screenen, kan een school grensscores gebruiken<br />

om groepen leerlingen verschillen<strong>de</strong> instructieprogramma’s aan<br />

te bie<strong>de</strong>n, kunnen in <strong>de</strong> geestelijke gezondheidszorg grensscores<br />

wor<strong>de</strong>n gebruikt om te beslissen over therapie-indicatie of over<br />

<strong>de</strong> aanwezigheid <strong>van</strong> een bepaal<strong>de</strong> vorm <strong>van</strong> psychopathologie,<br />

of kunnen bij certificering door <strong>de</strong> verantwoor<strong>de</strong>lijke instelling<br />

minimum slaagscores wor<strong>de</strong>n vastgesteld.<br />

<strong>COTAN</strong> Beoor<strong>de</strong>lingssysteem <strong>voor</strong> <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong> 27

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!