COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
COTAN beoordelingssysteem voor de kwaliteit van tests - NIP
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
1.96S E bij X op te tellen). Dit interval geeft een indruk <strong>van</strong> <strong>de</strong><br />
nauwkeurigheid <strong>van</strong> <strong>de</strong> meting en kan wor<strong>de</strong>n gebruikt <strong>voor</strong> het<br />
toetsen <strong>van</strong> hypothesen over iemands betrouwbare score.<br />
De standaardschattingsfout kan <strong>voor</strong> hetzelf<strong>de</strong> doel wor<strong>de</strong>n gebruikt<br />
als <strong>de</strong> standaardmeetfout, dus het schatten <strong>van</strong> een betrouwbaarheidsinterval<br />
<strong>voor</strong> <strong>de</strong> betrouwbare score. Het verschil is dat er hierbij<br />
een an<strong>de</strong>re schatting <strong>van</strong> <strong>de</strong> betrouwbare score wordt gebruikt.<br />
De betrouwbare score wordt hier geschat door mid<strong>de</strong>l <strong>van</strong> lineaire<br />
regressie, wat resulteert in <strong>de</strong> formule .<br />
Hierin is het gemid<strong>de</strong>l<strong>de</strong> <strong>van</strong> <strong>de</strong> groep waarin <strong>de</strong> betrouwbaarheid<br />
is bepaald. Deze formule staat wel bekend als Kelley’s formula.<br />
Omdat hij een lineaire regressieschatting geeft <strong>van</strong> <strong>de</strong> betrouwbare<br />
score, wordt nu <strong>de</strong> standaardschattingsfout,<br />
,<br />
gebruikt om een (95%) betrouwbaarheidsinterval <strong>voor</strong> T te schatten.<br />
Dat gebeurt door te berekenen: , waarbij men dus <strong>de</strong><br />
geschatte betrouwbare score uit Kelley’s formula gebruikt. Het<br />
<strong>voor</strong><strong>de</strong>el <strong>van</strong> Kelley’s formula ten opzichte <strong>van</strong> <strong>de</strong> eerste metho<strong>de</strong><br />
is dat er meer informatie wordt gebruikt om <strong>de</strong> betrouwbare score<br />
te schatten. Het i<strong>de</strong>e daarbij is dat naarmate <strong>de</strong> betrouwbaarheid<br />
geringer is, geobserveer<strong>de</strong> scores min<strong>de</strong>r gewicht krijgen en het<br />
groepsgemid<strong>de</strong>l<strong>de</strong> juist meer. Omgekeerd geldt dat bij een hoge<br />
betrouwbaarheid het groepsgemid<strong>de</strong>l<strong>de</strong> nauwelijks meer een rol<br />
speelt en <strong>de</strong> schatting <strong>van</strong> T bijna volledig door <strong>de</strong> geobserveer<strong>de</strong><br />
score X wordt bepaald. Zo spelen dus ook <strong>de</strong> betrouwbaarheid en<br />
<strong>de</strong> gemid<strong>de</strong>l<strong>de</strong> <strong>tests</strong>core een rol bij <strong>de</strong> schatting <strong>van</strong> T, en daarin ligt<br />
het verschil met <strong>de</strong> standaardmeetfout. Het gevolg <strong>van</strong> het gebruik<br />
<strong>van</strong> meer informatie is dat S < S . In woor<strong>de</strong>n: <strong>de</strong> twee<strong>de</strong> metho<strong>de</strong><br />
est E<br />
is nauwkeuriger dan <strong>de</strong> eerste. De twee<strong>de</strong> formule <strong>voor</strong> het schatten<br />
<strong>van</strong> <strong>de</strong> betrouwbare score (Kelley’s formula) wordt regelmatig in<br />
<strong>de</strong> praktijk gebruikt, maar ten onrechte wordt dan <strong>de</strong> ‘standaardmeetfout’<br />
gerapporteerd. Hier moet men dus goed op letten.<br />
Het betrouwbaarheidsinterval is belangrijk als men statistische toetsen<br />
wil uitvoeren. We noemen twee mogelijkhe<strong>de</strong>n: verschilt <strong>de</strong> score <strong>van</strong><br />
persoon v <strong>van</strong> die <strong>van</strong> een an<strong>de</strong>re persoon w of <strong>van</strong> een grensscore X o ?<br />
De eerste mogelijkheid behelst <strong>de</strong> nulhypothese dat <strong>de</strong> betrouwbare<br />
scores <strong>van</strong> twee personen, zeg persoon v en persoon w, gelijk<br />
zijn; dus H 0 : T v = T w . Getoetst wordt dan dus of het verschil gelijk is<br />
aan 0, en beschouwd wordt dan <strong>de</strong> standaardmeetfout <strong>van</strong> het verschil<br />
D vw = X v – X w . Deze standaardmeetfout is gelijk aan<br />
Een 95% betrouwbaarheidsinterval <strong>voor</strong> het ware verschil, dat<br />
wordt geschat met behulp <strong>van</strong> het geobserveer<strong>de</strong> verschil, is gelijk<br />
aan . Als <strong>de</strong> waar<strong>de</strong> 0 in dit interval ligt, wordt<br />
<strong>de</strong> nulhypothese geaccepteerd, maar als <strong>de</strong> waar<strong>de</strong> 0 buiten het<br />
interval ligt, wordt <strong>de</strong> nulhypothese verworpen.<br />
Voor <strong>de</strong> twee<strong>de</strong> mogelijkheid, het vergelijken <strong>van</strong> een <strong>tests</strong>core<br />
met een drempelwaar<strong>de</strong>, geldt dat <strong>de</strong>ze drempelwaar<strong>de</strong> perfect<br />
betrouwbaar is. Dan hoeft alleen te wor<strong>de</strong>n nagegaan of <strong>de</strong> drempelwaar<strong>de</strong><br />
al dan niet in het betrouwbaarheidsinterval X ± 1.96S E ligt.<br />
Werkt men met <strong>de</strong> standaardschattingsfout, dan moet er in <strong>de</strong><br />
formules steeds S est wor<strong>de</strong>n gebruikt in plaats <strong>van</strong> S E .<br />
Standaardmeetfouten en bijbehoren<strong>de</strong> betrouwbaarheidsintervallen<br />
kan men ook <strong>voor</strong> an<strong>de</strong>re scores schatten, zoals betrouwbare<br />
verschilscores. Overigens moet men er rekening mee hou<strong>de</strong>n dat<br />
verschilscores, zoals ze bij<strong>voor</strong>beeld in profielen wor<strong>de</strong>n gebruikt,<br />
notoir onbetrouwbaar zijn, en <strong>de</strong> betrouwbaarheidsintervallen dus<br />
erg lang. In <strong>de</strong> literatuur is er veel bekend over psychometrische<br />
problemen met verschilscores, maar het blijft een heikel probleem<br />
(zie bij<strong>voor</strong>beeld Allen & Yen, 1979, pp. 208-211; Drenth & Sijtsma,<br />
2006, pp. 241-243; Murphy & Davidshofer, 1998, pp. 138-139).<br />
Is <strong>de</strong> test of vragenlijst geconstrueerd met behulp <strong>van</strong> een item-<br />
responsmo<strong>de</strong>l, dan kan <strong>de</strong> testconstructeur er<strong>voor</strong> kiezen <strong>de</strong><br />
testinformatiefunctie te geven of het omgekeer<strong>de</strong> hier<strong>van</strong>, <strong>de</strong><br />
standaardfout afhankelijk <strong>van</strong> <strong>de</strong> schaal. Met behulp <strong>van</strong> <strong>de</strong>ze<br />
standaardfout kunnen we<strong>de</strong>rom betrouwbaarheidsintervallen<br />
wor<strong>de</strong>n geschat <strong>voor</strong> het niveau <strong>van</strong> <strong>de</strong> respon<strong>de</strong>nt (in <strong>de</strong> context<br />
<strong>van</strong> <strong>de</strong> item-responstheorie is dit een an<strong>de</strong>re parameter dan <strong>de</strong><br />
betrouwbare score). Het verschil met betrouwbaarheidsintervallen<br />
op basis <strong>van</strong> <strong>de</strong> klassieke standaardmeetfout is dat <strong>de</strong> betrouwbaarheidsintervallen<br />
nu variëren over <strong>de</strong> schaalwaar<strong>de</strong>n. Hiermee is<br />
dui<strong>de</strong>lijk dat niet ie<strong>de</strong>reen even nauwkeurig met <strong>de</strong>zelf<strong>de</strong> test wordt<br />
gemeten. Het verdient aanbeveling om <strong>de</strong>ze lokale informatie over<br />
<strong>de</strong> meetnauwkeurigheid zowel grafisch (<strong>voor</strong> <strong>de</strong> inzichtelijkheid) als<br />
numeriek in <strong>de</strong> vorm <strong>van</strong> tabellen (om exacte waar<strong>de</strong>n te kunnen<br />
aflezen) weer te geven.<br />
Voor een positieve beoor<strong>de</strong>ling op <strong>de</strong>ze vraag zal een testconstructeur<br />
minstens een <strong>van</strong> <strong>de</strong> drie genoem<strong>de</strong> mogelijkhe<strong>de</strong>n moeten<br />
rapporteren: standaardmeetfout, standaardschattingsfout of testinformatiefunctie/<strong>voor</strong>waar<strong>de</strong>lijke<br />
standaardfout, inclusief een<br />
afdoen<strong>de</strong> uitleg <strong>voor</strong> <strong>de</strong> testgebruiker over het gebruik <strong>van</strong><br />
betrouwbaarheidsintervallen. Het wordt ook aanbevolen <strong>voor</strong> elke<br />
ruwe score of standaardscore <strong>de</strong>ze intervallen in <strong>de</strong> handleiding op<br />
te nemen.<br />
Domeingerichte of criteriumgerichte<br />
interpretatie<br />
Bij een test die gebruik maakt <strong>van</strong> grensscores wordt met behulp<br />
<strong>van</strong> <strong>de</strong>ze score(s) het hele scorebereik ver<strong>de</strong>eld in twee of meer<br />
categorieën. Deze categorieën kunnen louter <strong>voor</strong> beschrijven<strong>de</strong><br />
doelein<strong>de</strong>n wor<strong>de</strong>n gebruikt, maar meestal zijn ze bedoeld om<br />
on<strong>de</strong>rscheid te maken tussen groepen geteste personen die een<br />
verschillend programma of een verschillen<strong>de</strong> behan<strong>de</strong>ling krijgen<br />
aangebo<strong>de</strong>n of <strong>voor</strong> wie een verschillen<strong>de</strong> verwachting geldt.<br />
Zo kan een werkgever een grensscore gebruiken om potentiële<br />
werknemers te screenen, kan een school grensscores gebruiken<br />
om groepen leerlingen verschillen<strong>de</strong> instructieprogramma’s aan<br />
te bie<strong>de</strong>n, kunnen in <strong>de</strong> geestelijke gezondheidszorg grensscores<br />
wor<strong>de</strong>n gebruikt om te beslissen over therapie-indicatie of over<br />
<strong>de</strong> aanwezigheid <strong>van</strong> een bepaal<strong>de</strong> vorm <strong>van</strong> psychopathologie,<br />
of kunnen bij certificering door <strong>de</strong> verantwoor<strong>de</strong>lijke instelling<br />
minimum slaagscores wor<strong>de</strong>n vastgesteld.<br />
<strong>COTAN</strong> Beoor<strong>de</strong>lingssysteem <strong>voor</strong> <strong>de</strong> <strong>kwaliteit</strong> <strong>van</strong> <strong>tests</strong> 27