Prestaties op papieren en digitale examens wat is het verschil?
resultaten_literatuuronderzoek
resultaten_literatuuronderzoek
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Prestaties</strong> <strong>op</strong> <strong>papier<strong>en</strong></strong> <strong>en</strong> <strong>digitale</strong><br />
exam<strong>en</strong>s: <strong>wat</strong> <strong>is</strong> <strong>het</strong> <strong>verschil</strong>?<br />
Verslag van e<strong>en</strong> literatuurstudie<br />
Eindrapportage mei 2015
Inhouds<strong>op</strong>gave<br />
1 INLEIDING .................................................................................................................................................. 3<br />
2 METHODE VAN ONDERZOEK ............................................................................................................... 7<br />
3 RESULTATEN ............................................................................................................................................. 9<br />
3.1 HET EFFECT VAN DE AFNAMEMODUS OP DE PRESTATIES ............................................................................. 9<br />
3.2 HET TOEKENNEN VAN PARTIAL CREDIT AAN ANTWOORDEN .................................................................... 14<br />
3.3 MOGELIJKHEDEN VAN ITEM REVIEW ............................................................................................................. 23<br />
3.4 GEBRUIK VAN KLADPAPIER ............................................................................................................................. 28<br />
3.5 INVOER VAN ANTWOORDEN VIA BEELDSCHERM VERSUS PAPIER ............................................................. 34<br />
4 CONCLUSIES ............................................................................................................................................ 39<br />
5 GERAADPLEEGDE LITERATUUR ...................................................................................................... 42<br />
© Stichting Cito, Arnhem 2015 2
1 Inleiding<br />
De laatste dec<strong>en</strong>nia word<strong>en</strong> de papier-<strong>en</strong>-p<strong>en</strong>-exam<strong>en</strong>s (PPT) in to<strong>en</strong>em<strong>en</strong>de mate vervang<strong>en</strong> door<br />
computer-based exam<strong>en</strong>s (CBT). CBT heeft vele voordel<strong>en</strong> bov<strong>en</strong> PPT, zoals e<strong>en</strong> vermindering van de<br />
correctielast, objectivering van de beoordeling, voorkom<strong>en</strong> van afkijk<strong>en</strong> door toewijzing van<br />
<strong>verschil</strong>l<strong>en</strong>d og<strong>en</strong>de maar gelijkwaardige vraagversies, adaptieve toetsing, mogelijkheid tot <strong>het</strong><br />
gev<strong>en</strong> van feedback aan kandidat<strong>en</strong> tijd<strong>en</strong>s de afname, besparing van druk- <strong>en</strong> verz<strong>en</strong>dkost<strong>en</strong> <strong>en</strong><br />
snellere rapportage van de resultat<strong>en</strong>. E<strong>en</strong> bijkom<strong>en</strong>d voordeel <strong>is</strong> dat leerling<strong>en</strong> over <strong>het</strong> algeme<strong>en</strong><br />
e<strong>en</strong> voorkeur hebb<strong>en</strong> <strong>en</strong> meer gemotiveerd zijn voor <strong>digitale</strong> toetsing dan voor <strong>papier<strong>en</strong></strong> toetsing<br />
(o.a. Glassnapp, Poggio, Poggio, & Yang, 2005; O’Malley et al., 2005; Ito & Sykes, 2004; Hargreaves,<br />
Shorrocks-Taylor, Swinnerton, Tait & Threlfall, 2004).<br />
Naast voordel<strong>en</strong> word<strong>en</strong> er ook nadel<strong>en</strong> g<strong>en</strong>oemd. Al vanaf <strong>het</strong> begin van <strong>digitale</strong> toetsing <strong>en</strong><br />
examinering <strong>is</strong> de vergelijkbaarheid van de scores <strong>op</strong> PPT <strong>en</strong> CBT e<strong>en</strong> punt van zorg geweest (o.a.<br />
Gre<strong>en</strong>, Bock, Humphreys, Linn & Reckase, 1984; APA, 1986; Mazzeo & Harvey, 1988). E<strong>en</strong> veel<br />
g<strong>en</strong>oemd probleem <strong>is</strong> dat PPT- <strong>en</strong> CBT-versies van <strong>het</strong>zelfde exam<strong>en</strong> tot <strong>verschil</strong>l<strong>en</strong>de resultat<strong>en</strong><br />
kunn<strong>en</strong> leid<strong>en</strong>. Deze zoge<strong>het</strong><strong>en</strong> moduseffect<strong>en</strong> (Engels: mode effects) verwijz<strong>en</strong> naar <strong>verschil</strong>l<strong>en</strong> in<br />
exam<strong>en</strong>prestaties t<strong>en</strong> gevolge van <strong>het</strong> aanbied<strong>en</strong> van <strong>het</strong> exam<strong>en</strong> <strong>op</strong> papier dan wel via de computer<br />
(o.a. Kol<strong>en</strong>, 1999; B<strong>en</strong>nett, 2003; Wang, Jiao, Young, Brooks & Olson, 2007). Zo zou CBT bij <strong>het</strong><br />
vakgebied rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde gemiddeld tot hogere of lagere prestaties kunn<strong>en</strong> leid<strong>en</strong> dan PPT.<br />
Lagere prestaties <strong>op</strong> e<strong>en</strong> CBT kunn<strong>en</strong> e<strong>en</strong> probleem vorm<strong>en</strong> als de resultat<strong>en</strong> veel lager zijn dan<br />
vrijwel iedere<strong>en</strong> verwacht <strong>en</strong> de afnamemodus als e<strong>en</strong> mogelijke oorzaak wordt g<strong>en</strong>oemd. Zo<br />
signaleerde de Comm<strong>is</strong>sie Bosker (2014) dat de prestaties van de kandidat<strong>en</strong> <strong>op</strong> de Rek<strong>en</strong>toets<strong>en</strong> vo<br />
<strong>en</strong> rek<strong>en</strong>exam<strong>en</strong>s mbo teg<strong>en</strong>vall<strong>en</strong>. Bij deze rek<strong>en</strong>toets<strong>en</strong> zou de <strong>digitale</strong> afname tot gemiddeld<br />
lagere prestaties hebb<strong>en</strong> geleid dan wanneer deze toets als PPT was afg<strong>en</strong>om<strong>en</strong>. Als mogelijke<br />
oorzak<strong>en</strong> voor de teg<strong>en</strong>vall<strong>en</strong>de prestaties (die sam<strong>en</strong>hang<strong>en</strong> met afnamemodus) noemt de<br />
Comm<strong>is</strong>sie Bosker:<br />
<br />
<br />
<br />
<br />
in de <strong>digitale</strong> rek<strong>en</strong>toets ontbrek<strong>en</strong> <strong>op</strong>gav<strong>en</strong> die werk<strong>en</strong> met partial credit (<strong>het</strong> belon<strong>en</strong> van<br />
tuss<strong>en</strong>stapp<strong>en</strong>), waardoor één fout in één van de stapp<strong>en</strong> in <strong>het</strong> <strong>op</strong>loss<strong>en</strong> van e<strong>en</strong> <strong>op</strong>gave ertoe<br />
leidt dat nul punt<strong>en</strong> voor <strong>het</strong> antwoord word<strong>en</strong> gegev<strong>en</strong> (waardoor de prestaties <strong>op</strong> de <strong>digitale</strong><br />
rek<strong>en</strong>toets lager zijn dan wanneer de antwoord<strong>en</strong> beoordeeld zoud<strong>en</strong> zijn via de gebruikelijke<br />
partial credit scoring van <strong>op</strong> papier gegev<strong>en</strong> antwoord<strong>en</strong>);<br />
anders dan bij e<strong>en</strong> <strong>papier<strong>en</strong></strong> toets kond<strong>en</strong> de leerling<strong>en</strong> tot <strong>en</strong> met 2014 in de <strong>digitale</strong><br />
rek<strong>en</strong>toets<strong>en</strong> niet terugblader<strong>en</strong> <strong>en</strong> hun antwoord<strong>en</strong> bekijk<strong>en</strong> <strong>en</strong> vervolg<strong>en</strong>s verbeter<strong>en</strong> (terwijl<br />
leerling<strong>en</strong> geleerd <strong>is</strong> om lastige <strong>op</strong>gav<strong>en</strong> ev<strong>en</strong> te lat<strong>en</strong> ligg<strong>en</strong>); <strong>en</strong>quêtes onder door doc<strong>en</strong>t<strong>en</strong> <strong>en</strong><br />
leerling<strong>en</strong> bevestigd<strong>en</strong> dat dit als e<strong>en</strong> ernstig knelpunt werd ervar<strong>en</strong> (College voor Exam<strong>en</strong>s,<br />
2014);<br />
bij de <strong>digitale</strong> afname van de rek<strong>en</strong>toets zijn leerling<strong>en</strong> minder g<strong>en</strong>eigd kladpapier te gebruik<strong>en</strong><br />
dan bij afname <strong>op</strong> papier, <strong>wat</strong> de kans <strong>op</strong> fout<strong>en</strong> vergroot;<br />
de leerling<strong>en</strong> die de <strong>digitale</strong> rek<strong>en</strong>toet mak<strong>en</strong>, zijn over <strong>het</strong> algeme<strong>en</strong> nog onbek<strong>en</strong>d met <strong>het</strong><br />
digitaal afnem<strong>en</strong> van toets<strong>en</strong>/exam<strong>en</strong>s.<br />
De comm<strong>is</strong>sie doet onder meer de volg<strong>en</strong>de aanbeveling<strong>en</strong>:<br />
<br />
<br />
onderzoek de mogelijkheid van schriftelijke afname naast toetsing per computer;<br />
onderzoek de mogelijkhed<strong>en</strong> om in de rek<strong>en</strong>toets<strong>en</strong> te werk<strong>en</strong> met partial credit (<strong>het</strong> belon<strong>en</strong><br />
van tuss<strong>en</strong>stapp<strong>en</strong>).<br />
© Stichting Cito, Arnhem 2015 3
Beide aanbeveling<strong>en</strong> zijn beleidsmatig van belang. Als PPT- <strong>en</strong> CBT-versies van dezelfde rek<strong>en</strong>toets<br />
naast elkaar gebruikt zoud<strong>en</strong> word<strong>en</strong>, vere<strong>is</strong><strong>en</strong> professionele standaard<strong>en</strong> (APA, 1986; AERA, 1999;<br />
International Test Comm<strong>is</strong>sion, 2001, 2006; Evers, Lucass<strong>en</strong>, Meijer & Sijtsma, 2009) dat de<br />
gerapporteerde scores aantoonbaar vergelijkbaar zijn (Wang & Kol<strong>en</strong>, 2001). E<strong>en</strong> duaal<br />
afnamesysteem verhoogt de correctielast voor de doc<strong>en</strong>t<strong>en</strong>/beoordelaars, <strong>en</strong> dat geldt ook als<br />
schriftelijke <strong>en</strong> <strong>digitale</strong> afname binn<strong>en</strong> <strong>het</strong>zelfde exam<strong>en</strong> gecombineerd zou word<strong>en</strong> (t<strong>en</strong>zij de<br />
correctie natuurlijk ‘uitbesteed’ wordt, maar dat lijkt in <strong>het</strong> Nederlandse exam<strong>en</strong>systeem vooralsnog<br />
onwaarschijnlijk). En als de huidige dichotome scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord bijvoorbeeld<br />
vervang<strong>en</strong> zou word<strong>en</strong> door stapsgewijze bevraging met geautomat<strong>is</strong>eerde toek<strong>en</strong>ning van<br />
deelscores, dreigt <strong>het</strong> gevaar dat nieuw verzamelde gegev<strong>en</strong>s niet meer vergelijkbaar zijn met<br />
eerdere gegev<strong>en</strong>s (o.a. B<strong>en</strong>nett, Braswell, Oranje, Sand<strong>en</strong>e, Kaplan & Yan, 2008). Uiteraard <strong>is</strong> dit e<strong>en</strong><br />
tijdelijk probleem dat <strong>op</strong>gelost kan word<strong>en</strong>, maar <strong>het</strong> kan wel betek<strong>en</strong><strong>en</strong> dat <strong>het</strong> refer<strong>en</strong>tiekader<br />
voor de interpretatie van de scores <strong>op</strong> de rek<strong>en</strong>toets<strong>en</strong> <strong>op</strong>nieuw vastgesteld moet word<strong>en</strong> (College<br />
voor Toets<strong>en</strong> <strong>en</strong> Exam<strong>en</strong>s, 2014; Béguin & Wools, 2015).<br />
In deze literatuurstudie gaan we na <strong>wat</strong> er in de Engelstalige literatuur bek<strong>en</strong>d <strong>is</strong> over <strong>het</strong> effect van<br />
de afnamemodus <strong>op</strong> de leerprestaties. Omdat <strong>het</strong> comm<strong>en</strong>taar van de Comm<strong>is</strong>sie Bosker <strong>op</strong> de<br />
rek<strong>en</strong>toets<strong>en</strong> de aanleiding vormde voor deze literatuurstudie, ligt <strong>het</strong> acc<strong>en</strong>t <strong>op</strong> <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong><br />
CBT <strong>en</strong> PPT bij <strong>het</strong> vakgebied rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde.<br />
Allereerst kijk<strong>en</strong> we naar <strong>wat</strong> er in algem<strong>en</strong>e zin bek<strong>en</strong>d <strong>is</strong> over <strong>het</strong> effect van de afnamemodus <strong>op</strong><br />
de hoogte van de prestaties. In <strong>het</strong> kader van e<strong>en</strong> kortdur<strong>en</strong>de studie <strong>is</strong> <strong>het</strong> niet mogelijk om de vele<br />
honderd<strong>en</strong> uitgevoerde vergelijkingsstudies te bestuder<strong>en</strong> <strong>en</strong> sam<strong>en</strong> te vatt<strong>en</strong>. We beperk<strong>en</strong> ons tot<br />
<strong>het</strong> synt<strong>het</strong><strong>is</strong>er<strong>en</strong> van de uitkomst<strong>en</strong> van de belangrijkste reviews <strong>en</strong> meta-analyses (Mazzeo &<br />
Harvey, 1988; Bunderson, Inouye & Ols<strong>en</strong>, 1989; W<strong>is</strong>e & Plake, 1989; Bergstrom, 1992; Dillon,<br />
1992; Mead <strong>en</strong> Drasgow, 1993; Kim, 1999; Russell, Goldberg & O’Connor, 2003; Paek, 2005; Gaskill<br />
& Marshall; 2006; Wang, Jiao, Young, Brooks & Olson, 2007; Texas Education Ag<strong>en</strong>cy, 2008; Kingston,<br />
2009). Daarbij kijk<strong>en</strong> we met name naar <strong>het</strong> ev<strong>en</strong>tuele effect van de afnamemodus <strong>op</strong> de<br />
gemiddelde prestaties van de kandidat<strong>en</strong> (<strong>en</strong> niet zozeer naar ev<strong>en</strong>tuele effect<strong>en</strong> <strong>op</strong> bijvoorbeeld<br />
betrouwbaarheid, validiteit, rangord<strong>en</strong>ing van de kandidat<strong>en</strong>, indicator<strong>en</strong> van<br />
classificatieaccuratesse zoals perc<strong>en</strong>tage onvoldo<strong>en</strong>des <strong>en</strong> zak-/slaagperc<strong>en</strong>tages, of de stabiliteit<br />
van de itemparameters).<br />
Vervolg<strong>en</strong>s gaan we <strong>op</strong> zoek naar <strong>wat</strong> er bek<strong>en</strong>d <strong>is</strong> over mogelijke oorzak<strong>en</strong> van <strong>het</strong> effect van de<br />
afnamemodus <strong>op</strong> de prestaties. Kol<strong>en</strong> (1999-2000) noemt vier clusters van verklar<strong>en</strong>de factor<strong>en</strong> die<br />
ertoe kunn<strong>en</strong> bijdrag<strong>en</strong> dat kandidat<strong>en</strong> hoger of ju<strong>is</strong>t lager scor<strong>en</strong> <strong>op</strong> de <strong>en</strong>e afnamemodus in<br />
vergelijking met de andere: a) <strong>verschil</strong>l<strong>en</strong> in de exam<strong>en</strong>vrag<strong>en</strong>, b) <strong>verschil</strong>l<strong>en</strong> in de scoring van de<br />
antwoord<strong>en</strong>, c) <strong>verschil</strong>l<strong>en</strong> in de afnamecondities <strong>en</strong> d) <strong>verschil</strong>l<strong>en</strong> in de geëxamineerde groep<br />
kandidat<strong>en</strong> (zoals naar geslacht, sociaal milieu, etniciteit, vaardigheidsniveau, ICT-ervaring <strong>en</strong><br />
toetsangst). B<strong>en</strong>nett (2003) maakt e<strong>en</strong> onderscheid in k<strong>en</strong>merk<strong>en</strong> van de itempres<strong>en</strong>tatie<br />
(bijvoorbeeld <strong>het</strong> aantal items per scherm versus per pagina), de vere<strong>is</strong>te response (bijvoorbeeld <strong>het</strong><br />
aankru<strong>is</strong><strong>en</strong> van e<strong>en</strong> antwoordalternatief <strong>op</strong> papier versus <strong>het</strong> aanwijz<strong>en</strong>, klikk<strong>en</strong>, slep<strong>en</strong>,<br />
positioner<strong>en</strong> <strong>en</strong> scroll<strong>en</strong> met de mu<strong>is</strong> of <strong>het</strong> gebruik van <strong>het</strong> toets<strong>en</strong>bord om tekst in te voer<strong>en</strong> <strong>en</strong> te<br />
wijzig<strong>en</strong>). In <strong>het</strong> kader van e<strong>en</strong> kortdur<strong>en</strong>de studie <strong>is</strong> <strong>het</strong> niet mogelijk om al deze factor<strong>en</strong> te<br />
onderzoek<strong>en</strong>. We beperk<strong>en</strong> ons tot <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> CBT <strong>en</strong> PPT die de Comm<strong>is</strong>sie Bosker g<strong>en</strong>oemd<br />
heeft als mogelijke oorzak<strong>en</strong> voor de teg<strong>en</strong>vall<strong>en</strong>de prestaties <strong>op</strong> de Rek<strong>en</strong>toets<strong>en</strong>.<br />
© Stichting Cito, Arnhem 2015 4
Onderzoeksvrag<strong>en</strong><br />
Al met al onderscheid<strong>en</strong> we in deze review de volg<strong>en</strong>de vijf onderzoeksvrag<strong>en</strong>:<br />
<br />
<br />
<br />
<br />
<br />
Wat <strong>is</strong> er bek<strong>en</strong>d over <strong>het</strong> effect van de afnamemodus <strong>op</strong> de hoogte van de prestaties van de<br />
kandidat<strong>en</strong> (in algem<strong>en</strong>e zin <strong>en</strong> bij rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde in <strong>het</strong> bijzonder)?<br />
In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met <strong>het</strong> al dan niet<br />
toek<strong>en</strong>n<strong>en</strong> van deelscores (partial credit) aan gedeeltelijk goede antwoord<strong>en</strong>? Hierbij nem<strong>en</strong> we<br />
ook de vraag mee in hoeverre <strong>het</strong> teg<strong>en</strong>woordig mogelijk <strong>is</strong> de resultat<strong>en</strong> van de leerling<strong>en</strong> <strong>op</strong><br />
e<strong>en</strong> CBT-exam<strong>en</strong> <strong>op</strong> e<strong>en</strong>zelfde manier te beoordel<strong>en</strong> als de gebruikelijke partial credit<br />
beoordeling in e<strong>en</strong> PPT-exam<strong>en</strong>.<br />
In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met de<br />
<strong>verschil</strong>l<strong>en</strong>de mogelijkhed<strong>en</strong> tot item review?<br />
In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met <strong>verschil</strong>l<strong>en</strong> in<br />
<strong>het</strong> gebruik van kladpapier?<br />
In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met de manier<br />
waar<strong>op</strong> kandidat<strong>en</strong> hun antwoord moet<strong>en</strong> gev<strong>en</strong>: <strong>het</strong> intyp<strong>en</strong> van <strong>het</strong> antwoord in e<strong>en</strong> invoervak<br />
<strong>op</strong> <strong>het</strong> beeldscherm volg<strong>en</strong>s de specifieke vere<strong>is</strong>t<strong>en</strong> van de <strong>digitale</strong> invoermodule versus <strong>het</strong><br />
noter<strong>en</strong> van <strong>het</strong> antwoord <strong>op</strong> papier volg<strong>en</strong>s de gebruikelijke <strong>en</strong> vertrouwde w<strong>is</strong>kundige<br />
notatiewijz<strong>en</strong> <strong>en</strong> conv<strong>en</strong>ties.<br />
<br />
De vijfde onderzoeksvraag wordt niet letterlijk door de Comm<strong>is</strong>sie Bosker (2014) g<strong>en</strong>oemd, maar<br />
heeft wel raakvlakk<strong>en</strong> met de door de comm<strong>is</strong>sie geconstateerde onbek<strong>en</strong>dheid met <strong>het</strong> digitaal<br />
afnem<strong>en</strong> van toets<strong>en</strong>/exam<strong>en</strong>s als e<strong>en</strong> van de verklaring<strong>en</strong> voor de teg<strong>en</strong>vall<strong>en</strong>de resultat<strong>en</strong>.<br />
Kandidat<strong>en</strong> hebb<strong>en</strong> vaak meer ervaring met <strong>het</strong> noter<strong>en</strong> van antwoord<strong>en</strong> <strong>op</strong> w<strong>is</strong>kundevrag<strong>en</strong> <strong>op</strong><br />
papier dan met <strong>het</strong> invoer<strong>en</strong> van deze antwoord<strong>en</strong> via <strong>het</strong> beeldscherm (McGuire & Youngson,<br />
2002). Daardoor zoud<strong>en</strong> kandidat<strong>en</strong> bij e<strong>en</strong> CBT meer invoerfout<strong>en</strong> mak<strong>en</strong> dan bij e<strong>en</strong> PPT, met<br />
als gevolg lagere prestaties voor CBT in vergelijking met PPT.<br />
Bij de interpretatie van de uitkomst<strong>en</strong> van deze literatuurstudie <strong>is</strong> e<strong>en</strong> relativer<strong>en</strong>de kanttek<strong>en</strong>ing <strong>op</strong><br />
zijn plaats. Reeds in de jar<strong>en</strong> tachtig van de vorige eeuw merkt<strong>en</strong> Bunderson, Inouye <strong>en</strong> Ols<strong>en</strong> (1989)<br />
<strong>op</strong> dat <strong>digitale</strong> afnamesystem<strong>en</strong> zo snel verander<strong>en</strong> dat elke poging om de balans <strong>op</strong> te mak<strong>en</strong> al snel<br />
verouderd zal zijn. Zij voeg<strong>en</strong> daar aan toe dat “Today's state-of-the-art devices might become<br />
exhibits in tomorrow's museum of antiquities” (p. 21). Dit geldt tot <strong>op</strong> zekere hoogte ook voor de<br />
rek<strong>en</strong>toets<strong>en</strong> die met ingang van 2015 sterk verbeterd zijn terwijl er nog meer verbetering<strong>en</strong> in <strong>het</strong><br />
verschiet ligg<strong>en</strong>. Zo bied<strong>en</strong> de nieuwe rek<strong>en</strong>toets<strong>en</strong> teg<strong>en</strong>woordig ruime mogelijkhed<strong>en</strong> tot item<br />
review (dit wil zegg<strong>en</strong>: <strong>het</strong> terugblader<strong>en</strong>, bekijk<strong>en</strong> <strong>en</strong> verander<strong>en</strong> van antwoord<strong>en</strong>). Daarnaast lat<strong>en</strong><br />
zeer rec<strong>en</strong>te vrag<strong>en</strong>lijstgegev<strong>en</strong>s (Cito, 2015a) zi<strong>en</strong> dat de overgrote meerderheid van ruim 16000<br />
bevraagde kandidat<strong>en</strong> van m<strong>en</strong>ing <strong>is</strong> dat <strong>het</strong> computerprogramma waarin de rek<strong>en</strong>toets staat<br />
duidelijk <strong>is</strong> (96%) <strong>en</strong> dat <strong>het</strong> aangev<strong>en</strong> of intyp<strong>en</strong> van de antwoord<strong>en</strong> bij de <strong>op</strong>gav<strong>en</strong> gemakkelijk <strong>is</strong><br />
(86%). Verder blijkt uit nog ongepubliceerde gegev<strong>en</strong>s dat syntact<strong>is</strong>che invoerfout<strong>en</strong> nauwelijks meer<br />
voorkom<strong>en</strong> (zoals <strong>het</strong> t<strong>en</strong> onrechte gebruik<strong>en</strong> van e<strong>en</strong> punt voor <strong>het</strong> aangev<strong>en</strong> van duiz<strong>en</strong>dtall<strong>en</strong>).<br />
Tot slot wordt er gewerkt aan geautomat<strong>is</strong>eerde scoringsalgoritm<strong>en</strong> die de traditionele m<strong>en</strong>selijke<br />
beoordeling van antwoord<strong>en</strong> <strong>op</strong> papier waar mogelijk <strong>en</strong> w<strong>en</strong>selijk prober<strong>en</strong> na te boots<strong>en</strong>. Op bas<strong>is</strong><br />
van e<strong>en</strong> inhoudsanalyse van veel voorkom<strong>en</strong>de fout<strong>en</strong> <strong>en</strong> gedeeltelijk goede antwoord<strong>en</strong> van<br />
kandidat<strong>en</strong> (o.a. Cito, 2015b) <strong>is</strong> ervaring <strong>op</strong>gedaan met <strong>het</strong> waarder<strong>en</strong> van nu nog als fout gescoorde<br />
antwoord<strong>en</strong> die e<strong>en</strong> m<strong>en</strong>selijke beoordelaar bij e<strong>en</strong> <strong>papier<strong>en</strong></strong> exam<strong>en</strong> waarschijnlijk wel<br />
© Stichting Cito, Arnhem 2015 5
(gedeeltelijk) goed gerek<strong>en</strong>d zou hebb<strong>en</strong>. E<strong>en</strong> voorbeeld <strong>is</strong> <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van punt<strong>en</strong> aan alle<br />
ingevoerde geldbedrag<strong>en</strong> die minder dan 10 c<strong>en</strong>t <strong>verschil</strong>l<strong>en</strong> van <strong>het</strong> volledig correcte antwoord. In<br />
plaats van slechts één goed antwoord te accepter<strong>en</strong>, rek<strong>en</strong>t <strong>het</strong> scoringsalgoritme alle antwoord<strong>en</strong><br />
binn<strong>en</strong> e<strong>en</strong> bepaald scorebereik goed. Uiteraard <strong>is</strong> deze versoepeling van de scoring niet bij alle<br />
itemtyp<strong>en</strong> mogelijk <strong>en</strong> w<strong>en</strong>selijk, maar <strong>het</strong> geeft wel aan dat de rek<strong>en</strong>toets<strong>en</strong> vol<strong>op</strong> in beweging zijn.<br />
© Stichting Cito, Arnhem 2015 6
2 Methode van onderzoek<br />
De literatuurstudie <strong>is</strong> uitgevoerd in <strong>het</strong> begin van 2015. De werkzaamhed<strong>en</strong> zijn uitgevoerd in<br />
<strong>op</strong>dracht van <strong>het</strong> College voor Toets<strong>en</strong> <strong>en</strong> Exam<strong>en</strong>s (CvTE).<br />
Ter beantwoording van de eerste <strong>en</strong> tweede onderzoeksvraag zijn twee literatuur searches<br />
uitgevoerd. Daarbij <strong>is</strong> gezocht in de databases ERIC, PsycINFO, Applied Social Sci<strong>en</strong>ces Index and<br />
Abstracts (ASSIA), International Bibliography of the Social Sci<strong>en</strong>ces (IBSS), Library and Information<br />
Sci<strong>en</strong>ce Abstracts (LISA) <strong>en</strong> ProQuest Social Sci<strong>en</strong>ce Journals. In aanmerking kwam<strong>en</strong> publicaties die<br />
zijn versch<strong>en</strong><strong>en</strong> in de periode 1970 tot <strong>en</strong> met 2015. De besl<strong>is</strong>sing om ook minder rec<strong>en</strong>te publicaties<br />
mee te nem<strong>en</strong> <strong>is</strong> welbewust g<strong>en</strong>om<strong>en</strong>. De rek<strong>en</strong>toets<strong>en</strong> waar de Comm<strong>is</strong>sie <strong>op</strong> doelt, behor<strong>en</strong><br />
namelijk tot de categorie eerste-g<strong>en</strong>eratie CBT (Bunderson, Inouye & Ols<strong>en</strong>, 1989) uit de<br />
beginperiode van <strong>het</strong> <strong>digitale</strong> tijdperk. D<strong>en</strong>k bijvoorbeeld aan <strong>het</strong> ontbrek<strong>en</strong> van mogelijkhed<strong>en</strong> tot<br />
a) item review, b) geautomat<strong>is</strong>eerde partial credit scoring, c) feedback <strong>op</strong> onder meer de<br />
syntact<strong>is</strong>che ju<strong>is</strong>theid van ingetypte antwoord<strong>en</strong>, d) digitaal marker<strong>en</strong> <strong>en</strong> annoter<strong>en</strong>, e) adaptieve<br />
toewijzing van items van e<strong>en</strong> <strong>verschil</strong>l<strong>en</strong>de moeilijkheidsgraad afhankelijk van <strong>het</strong><br />
vaardigheidsniveau van de kandidaat, <strong>en</strong> f) moderne itemtyp<strong>en</strong> met gebruikmaking van bijvoorbeeld<br />
animaties <strong>en</strong> simulaties.<br />
Ter beantwoording van de eerste onderzoeksvraag naar <strong>het</strong> effect van de afnamemodus <strong>op</strong> de<br />
prestaties <strong>is</strong> in eerste instantie na <strong>en</strong>ig uitprober<strong>en</strong> de volg<strong>en</strong>de zoekstring gehanteerd: “((compara*)<br />
OR (equival<strong>en</strong>*)) AND ((computer) or (on-line)) AND ((test*) or (assess*))”. Deze zoekactie<br />
resulteerde in 70.522 publicaties. Dit aantal was veel te groot om binn<strong>en</strong> de temporele <strong>en</strong><br />
budgettaire beperking<strong>en</strong> van <strong>het</strong> project bestudeerd te word<strong>en</strong>. Daarom <strong>is</strong> dezelfde zoekstring<br />
nogmaals toegepast, maar nu <strong>is</strong> er alle<strong>en</strong> in de Abstracts van de publicaties gezocht (in plaats van in<br />
de volledige tekst). Dit resulteerde in 2.245 publicaties. Er <strong>is</strong> beslot<strong>en</strong> de zoekactie te beperk<strong>en</strong> tot de<br />
titel van de publicatie. De zoekstring “ti((compara*) OR (equival<strong>en</strong>*)) AND ti((computer) or TI(online))<br />
AND ti((test*) or (assess*))” leverde 44 publicaties <strong>op</strong> waarvan acht on-t<strong>op</strong>ic.<br />
Ter beantwoording van de tweede onderzoeksvraag naar <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van partial credit werd e<strong>en</strong><br />
tweede literatuursearch uitgevoerd. Daarbij werd uiteindelijk de zoekstring “(TI(partial credit) OR<br />
ti(partial knowledge)) and TI(math*)” gehanteerd. Dit leverde zev<strong>en</strong> publicaties <strong>op</strong> waarvan twee ont<strong>op</strong>ic.<br />
Voor de derde, vierde <strong>en</strong> vijfde onderzoeksvraag <strong>is</strong> vanwege de beperkte tijd ge<strong>en</strong><br />
afzonderlijke literatuur search uitgevoerd. Het aantal gem<strong>is</strong>te publicaties zal hier dus groter zijn dan<br />
bij de eerste twee onderzoeksvrag<strong>en</strong>.<br />
Naast de beide literatuur searches <strong>is</strong> e<strong>en</strong> serie Web-searches uitgevoerd met de zoekmachines<br />
Google <strong>en</strong> Google Scholar. De aldus gevond<strong>en</strong> publicaties zijn gescre<strong>en</strong>d <strong>op</strong> verwijzing<strong>en</strong> naar<br />
reviews <strong>en</strong> meta-analyses over <strong>het</strong> effect van de afnamemodus <strong>op</strong> de prestaties. Dit leverde in totaal<br />
derti<strong>en</strong> publicaties <strong>op</strong> (Mazzeo & Harvey, 1988; Bunderson, Inouye & Ols<strong>en</strong>, 1989; W<strong>is</strong>e & Plake,<br />
1989; Bergstrom, 1992; Dillon, 1992; Mead <strong>en</strong> Drasgow, 1993; Kim, 1999; Russell, Goldberg &<br />
O’Connor, 2003; Paek, 2005; Gaskill & Marshall, 2006; Wang, Jiao, Young, Brooks & Olson, 2007;<br />
Texas Education Ag<strong>en</strong>cy, 2008; Kingston, 2009). Deze reviews <strong>en</strong> meta-analyses vormd<strong>en</strong> <strong>het</strong><br />
uitgangspunt voor de beantwoording van de eerste onderzoeksvraag.<br />
De reviews, meta-analyses <strong>en</strong> overige publicaties zijn vervolg<strong>en</strong>s doorzocht <strong>op</strong> relevante verwijzing<strong>en</strong><br />
naar studies over partial credit, item review, kladpapier <strong>en</strong> invoer <strong>op</strong> papier versus via beeldscherm.<br />
© Stichting Cito, Arnhem 2015 7
Dit alles resulteerde in totaal in circa 150 publicaties die voor onze onderzoeksvrag<strong>en</strong> relevant<br />
zoud<strong>en</strong> kunn<strong>en</strong> zijn. Geprobeerd <strong>is</strong> deze publicaties in <strong>het</strong> pdf-format te verkrijg<strong>en</strong> via onder meer<br />
<strong>het</strong> Internet <strong>en</strong> <strong>het</strong> K<strong>en</strong>n<strong>is</strong>c<strong>en</strong>trum van Cito, <strong>wat</strong> in vrijwel alle gevall<strong>en</strong> gelukt <strong>is</strong>. Na bestudering<br />
blek<strong>en</strong> niet alle 150 publicaties voor <strong>het</strong> doel van ons onderzoek bruikbaar. Voor de publicaties die<br />
uiteindelijk voor deze literatuurstudie gebruikt zijn, wordt verwez<strong>en</strong> naar <strong>het</strong> overzicht van<br />
geraadpleegde literatuur aan <strong>het</strong> einde van dit rapport.<br />
Beperking<strong>en</strong><br />
Naast <strong>het</strong> feit dat deze literatuurstudie in mei 2015 afgerond di<strong>en</strong>de zijn, moet er bij de interpretatie<br />
van de resultat<strong>en</strong> ook rek<strong>en</strong>ing word<strong>en</strong> gehoud<strong>en</strong> met de volg<strong>en</strong>de beperking<strong>en</strong>:<br />
<br />
<br />
<br />
<br />
<br />
<br />
Bij <strong>het</strong> zoek<strong>en</strong> zijn ge<strong>en</strong> e<strong>is</strong><strong>en</strong> gesteld aan de methodolog<strong>is</strong>che zuiverheid van de studies. Peerreview<br />
vormde bijvoorbeeld ge<strong>en</strong> selectiecriterium.<br />
De kans dat relevante publicaties gem<strong>is</strong>t zijn, <strong>is</strong> relatief groot in vergelijking met de brede <strong>en</strong><br />
diepgaande reviews zoals deze door <strong>het</strong> Nationaal Regieorgaan Onderwijsonderzoek (NRO)<br />
word<strong>en</strong> uitgezet (zie bijvoorbeeld Scheltinga, Keuning & Kuhlemeier, 2015).<br />
Het onderzoeksobject <strong>is</strong> voornamelijk beperkt tot <strong>het</strong> effect van de afnamemodus <strong>op</strong> de hoogte<br />
van de prestaties. Grot<strong>en</strong>deels buit<strong>en</strong> beschouwing blijv<strong>en</strong> hiermee onder meer <strong>het</strong> effect <strong>op</strong> de<br />
validiteit, betrouwbaarheid, rangord<strong>en</strong>ing van de kandidat<strong>en</strong>, indicator<strong>en</strong> van<br />
classificatieaccuratesse zoals perc<strong>en</strong>tage onvoldo<strong>en</strong>des <strong>en</strong> zak-/slaagperc<strong>en</strong>tages, <strong>en</strong> de<br />
stabiliteit van de itemparameters.<br />
In deze literatuurstudie <strong>is</strong> vrijwel uitsluit<strong>en</strong>d gekek<strong>en</strong> naar de vergelijkbaarheid van de<br />
totaalscores <strong>op</strong> PPT <strong>en</strong> CBT, <strong>en</strong> slechts af <strong>en</strong> toe naar <strong>verschil</strong>l<strong>en</strong> <strong>op</strong> <strong>het</strong> niveau van de subtoets of<br />
<strong>het</strong> individuele item. Dit laatste <strong>is</strong> van belang omdat er sterke moduseffect<strong>en</strong> <strong>op</strong> subtoets- of<br />
itemniveau kunn<strong>en</strong> zijn die elkaar uitmiddel<strong>en</strong> <strong>op</strong> <strong>het</strong> niveau <strong>het</strong> de totaalscore (Pommerich,<br />
2004; Johnson & Gre<strong>en</strong>, 2006).<br />
Met betrekking tot partial credit <strong>is</strong> alle<strong>en</strong> gekek<strong>en</strong> naar <strong>het</strong> mogelijke effect van <strong>het</strong> al dan niet<br />
toek<strong>en</strong>n<strong>en</strong> van deelscores in de context van CBT. De zeer omvangrijke maar nu <strong>en</strong>igszins<br />
gedateerde literatuur over <strong>het</strong> effect van dichotome versus polytome scoring van meerkeuzeversus<br />
<strong>op</strong><strong>en</strong> vrag<strong>en</strong> <strong>op</strong> papier kon niet word<strong>en</strong> meeg<strong>en</strong>om<strong>en</strong> (voor e<strong>en</strong> review, zie Traub, 1993).<br />
Ook lat<strong>en</strong> we partial credit scoring in <strong>het</strong> kader van formatieve evaluatie van w<strong>is</strong>kundige<br />
vaardighed<strong>en</strong> in oef<strong>en</strong>omgeving<strong>en</strong> buit<strong>en</strong> beschouwing (o.a. DWO, 2013).<br />
In de bespreking van individuele studies beperk<strong>en</strong> we ons voornamelijk tot <strong>het</strong> rapporter<strong>en</strong> van<br />
de belangrijkste onderzoeksresultat<strong>en</strong>. Gezi<strong>en</strong> de beperkte tijd bleek <strong>het</strong> niet haalbaar om de<br />
gevond<strong>en</strong> studies te besprek<strong>en</strong> volg<strong>en</strong>s <strong>het</strong> gebruikelijke rapportagestrami<strong>en</strong> met als<br />
onderdel<strong>en</strong>: aanleiding, context, vraagstelling, methode van onderzoek (proefperson<strong>en</strong>, design,<br />
data-analyse), resultat<strong>en</strong>, d<strong>is</strong>cussie, conclusies <strong>en</strong> aanbeveling<strong>en</strong>; zie bijvoorbeeld Scheltinga,<br />
Keuning & Kuhlemeier, 2015).<br />
© Stichting Cito, Arnhem 2015 8
3 Resultat<strong>en</strong><br />
3.1 Het effect van de afnamemodus <strong>op</strong> de prestaties<br />
Inleiding<br />
De eerste onderzoeksvraag luidt: “Wat <strong>is</strong> er bek<strong>en</strong>d over <strong>het</strong> effect van de afnamemodus <strong>op</strong> de<br />
hoogte van de prestaties van de kandidat<strong>en</strong>? We beantwoord<strong>en</strong> deze vraag aan de hand van de<br />
verhal<strong>en</strong>de reviews <strong>en</strong> meta-analyses van Mazzeo <strong>en</strong> Harvey (1988), Bunderson, Inouye <strong>en</strong> Ols<strong>en</strong><br />
(1989), W<strong>is</strong>e <strong>en</strong> Plake (1989), Bergstrom (1992), Dillon (1992), Mead <strong>en</strong> Drasgow (1993), Kim (1999),<br />
Russell, Goldberg <strong>en</strong> O’Connor (2003), Paek (2005), Gaskill & Marshall, 2006; Wang, Jiao, Young,<br />
Brooks <strong>en</strong> Olson (2007), Texas Education Ag<strong>en</strong>cy (2008) <strong>en</strong> Kingston (2009).<br />
Resultat<strong>en</strong> reviews <strong>en</strong> meta-analyses<br />
Mazzeo <strong>en</strong> Harvey (1988)<br />
Mazzeo and Harvey (1988) analyseerd<strong>en</strong> 38 studies (45 tests) waarin zij de resultat<strong>en</strong> van CBT- <strong>en</strong><br />
PPT-versies van tests <strong>op</strong> <strong>het</strong> gebied van intellig<strong>en</strong>tie, geschiktheid, persoonlijkheid <strong>en</strong> prestaties met<br />
elkaar vergelek<strong>en</strong>.<br />
Bij elf studies resulteerde de CBT in hogere scores dan de PPT, bij achtti<strong>en</strong> was er ge<strong>en</strong> <strong>verschil</strong> <strong>en</strong> bij<br />
vijfti<strong>en</strong> war<strong>en</strong> de PPT-scores hoger.<br />
De auteurs verondersteld<strong>en</strong> dat speedtests gevoeliger zijn voor modus-effect<strong>en</strong> dan power tests. Bij<br />
e<strong>en</strong> speedtest gaat <strong>het</strong> erom zoveel mogelijk items binn<strong>en</strong> de toegewez<strong>en</strong> tijd correct te<br />
beantwoord<strong>en</strong>. Bij e<strong>en</strong> power test <strong>is</strong> er ge<strong>en</strong> tijdlimiet of <strong>is</strong> de tijdlimiet zo ruim dat vrijwel elke<br />
kandidaat de test volledig kan mak<strong>en</strong>. De aanname dat speedtests gevoeliger zijn voor moduseffect<strong>en</strong><br />
dan power tests formuleerd<strong>en</strong> Mazzeo <strong>en</strong> Harvey (1988) als volgt: “Any d<strong>is</strong>tractions or<br />
difficulties introduced by automated test admin<strong>is</strong>tration, or advantages introduced by ease of<br />
responding, will affect the rate at which items are answered (p. 4)”. De afnamemodus - papier versus<br />
digitaal - bleek inderdaad van ge<strong>en</strong> belang bij power tests, maar bij speedtests bleek de PPT-versie<br />
gemiddeld tot hogere scores te leid<strong>en</strong> dan de CBT-versie. Als mogelijke verklaring verwijz<strong>en</strong> de<br />
auteurs ernaar dat <strong>het</strong> lez<strong>en</strong> van langere tekst<strong>en</strong> <strong>op</strong> <strong>het</strong> scherm meer tijd kost dan <strong>op</strong> papier.<br />
Bij de CBT-versies werd<strong>en</strong> meer vrag<strong>en</strong> overgeslag<strong>en</strong> dan bij de PPT-versies.<br />
Ook de antwoordmodus (beeldscherm versus papier) bleek e<strong>en</strong> mogelijke oorzaak van de hogere<br />
scores <strong>op</strong> PPT. Onderzoek waarbij de door de computer gelez<strong>en</strong> antwoord<strong>en</strong> werd<strong>en</strong> vergelek<strong>en</strong> met<br />
de antwoord<strong>en</strong> <strong>op</strong> papier liet zi<strong>en</strong> dat de computer lang niet alle ingevoerde antwoord<strong>en</strong> correct<br />
leest.<br />
Andere factor<strong>en</strong> die zorgd<strong>en</strong> voor <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT war<strong>en</strong> <strong>het</strong> gebruik van multi-scre<strong>en</strong><br />
items, graf<strong>is</strong>che weergaves <strong>en</strong> complexe beeldschermweergaves.<br />
Bunderson, Inouye <strong>en</strong> Ols<strong>en</strong> (1989)<br />
In hun review analyseerd<strong>en</strong> Bunderson, Inouye <strong>en</strong> Ols<strong>en</strong> (1989) 23 studies waarbij de scores <strong>op</strong> PPT<br />
werd<strong>en</strong> vergelijk<strong>en</strong> met die <strong>op</strong> CBT.<br />
Bij drie studies ded<strong>en</strong> de leerling<strong>en</strong> <strong>het</strong> beter <strong>op</strong> de CBT, bij elf studies was er ge<strong>en</strong> <strong>verschil</strong> <strong>en</strong> bij de<br />
overige neg<strong>en</strong> behaald<strong>en</strong> de leerling<strong>en</strong> hogere prestaties <strong>op</strong> de PPT.<br />
In hun bespreking van de bevinding<strong>en</strong> wijz<strong>en</strong> Bunderson et al. (1989) onder meer <strong>op</strong> de<br />
scoringsprocedure als mogelijke bron van onvergelijkbaarheid. De hogere scores <strong>op</strong> PPT word<strong>en</strong><br />
© Stichting Cito, Arnhem 2015 9
mede veroorzaakt doordat de computer ingevoerde antwoord<strong>en</strong> van kandidat<strong>en</strong> t<strong>en</strong> onrechte als<br />
fout interpreteert terwijl e<strong>en</strong> m<strong>en</strong>selijke beoordelaar ze <strong>op</strong> papier goed of gedeeltelijk goed zou<br />
rek<strong>en</strong><strong>en</strong> (zie hiervoor ook paragraaf 3.5).<br />
E<strong>en</strong> andere mogelijk bron van moduseffect<strong>en</strong> <strong>is</strong> dat <strong>het</strong> ontwerp van de interface <strong>het</strong> niet toestaat<br />
om fout<strong>en</strong> bij <strong>het</strong> invoer<strong>en</strong> van antwoord<strong>en</strong> onmiddellijk te corriger<strong>en</strong> of om eerder ingevoerde<br />
antwoord<strong>en</strong> te bekijk<strong>en</strong> <strong>en</strong> zo nodig te verander<strong>en</strong>, zoals bij e<strong>en</strong> PPT-versie van dezelfde toets<br />
uiteraard wel mogelijk <strong>is</strong>. Overig<strong>en</strong>s zijn de auteurs van m<strong>en</strong>ing dat <strong>het</strong> hier e<strong>en</strong> triviaal<br />
ontwerpprobleem betreft aangezi<strong>en</strong> er t<strong>en</strong> tijde van hun review reeds <strong>verschil</strong>l<strong>en</strong>de goede<br />
<strong>op</strong>lossing<strong>en</strong> beschikbaar war<strong>en</strong> (die vanaf 2015 ook in de rek<strong>en</strong>toets<strong>en</strong> geïmplem<strong>en</strong>teerd zijn).<br />
W<strong>is</strong>e <strong>en</strong> Plake (1989)<br />
De review van W<strong>is</strong>e <strong>en</strong> Plake (1989) <strong>is</strong> vooral van belang voor onze derde vraagstelling naar <strong>het</strong><br />
verme<strong>en</strong>de negatieve effect van <strong>het</strong> ontbrek<strong>en</strong> van mogelijkhed<strong>en</strong> tot item review in eersteg<strong>en</strong>eratie<br />
CBT <strong>op</strong> de prestaties. Vandaar dat we de resultat<strong>en</strong> ervan besprek<strong>en</strong> in paragraaf 3.3.<br />
Dillon (1992)<br />
De review van Dillon (1992) <strong>is</strong> voor ons minder interessant omdat <strong>het</strong> vooral betrekking heeft <strong>op</strong><br />
<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> <strong>het</strong> lez<strong>en</strong> <strong>en</strong> begrijp<strong>en</strong> van grote hoeveelhed<strong>en</strong> informatie <strong>op</strong> <strong>het</strong> scherm of<br />
papier. E<strong>en</strong> van de conclusies was dat <strong>het</strong> lez<strong>en</strong> van <strong>het</strong> scherm ongeveer 20% tot 30% langzamer<br />
gaat dan van papier, e<strong>en</strong> conclusies die anno 2015 vanwege de grote techn<strong>is</strong>che verbetering<strong>en</strong><br />
waarschijnlijk grot<strong>en</strong>deels achterhaald <strong>is</strong>.<br />
Bergstrom (1992)<br />
Bergstrom (1992) analyseerde twintig studies zoals beschrev<strong>en</strong> in acht onderzoeksrapport<strong>en</strong> waarin<br />
de prestaties <strong>op</strong> PPP werd<strong>en</strong> vergelek<strong>en</strong> met die <strong>op</strong> adaptieve computertoets<strong>en</strong> (CAT). Ondanks<br />
<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> de studies qua getoetste leerstof, de leeftijd van de proefperson<strong>en</strong>, <strong>het</strong> gebruikte<br />
IRT-model <strong>en</strong> <strong>het</strong> onderzoekontwerp blek<strong>en</strong> PPT <strong>en</strong> CAT over <strong>het</strong> algeme<strong>en</strong> tot vergelijkbare<br />
prestaties te leid<strong>en</strong>. Na verwijdering van vijf studies die te sterk bijdroeg<strong>en</strong> aan de <strong>het</strong>erog<strong>en</strong>iteit van<br />
de effectgroottes, vond zij e<strong>en</strong> gemiddelde effectgrootte van -.002. In de studies waarin e<strong>en</strong><br />
significant gemiddeld <strong>verschil</strong> gevond<strong>en</strong> werd, war<strong>en</strong> de scores <strong>op</strong> de PPT hoger dan die <strong>op</strong> de CAT<br />
als de PPT als eerste was afg<strong>en</strong>om<strong>en</strong>. De auteur doet de aanbeveling nader onderzoek te do<strong>en</strong> naar<br />
scroll<strong>en</strong> als mogelijke verklaring voor de lagere prestaties <strong>op</strong> CAT.<br />
Mead <strong>en</strong> Drasgow (1993)<br />
In hun meta-analyse analyseerd<strong>en</strong> Mead <strong>en</strong> Drasgow (1993) e<strong>en</strong> groot aantal studies naar <strong>verschil</strong>l<strong>en</strong><br />
tuss<strong>en</strong> <strong>papier<strong>en</strong></strong> <strong>en</strong> <strong>digitale</strong> afname van power <strong>en</strong> speedtests. Voor power tests met e<strong>en</strong> tijdslimiet -<br />
die in <strong>het</strong> onderwijs veel gebruikt word<strong>en</strong> - bedroeg de effectgrootte van <strong>het</strong> gemiddeld <strong>verschil</strong><br />
tuss<strong>en</strong> PPT <strong>en</strong> CBT .03 met e<strong>en</strong> standaarddeviatie van .15. CBT’s zijn gemiddeld dus nauwelijks<br />
moeilijker dan PPT’s <strong>en</strong> <strong>het</strong> gemiddeld prestatie<strong>verschil</strong> varieert weinig van studie tot studie.<br />
Mead <strong>en</strong> Drasgow (1993) kek<strong>en</strong> ook naar <strong>het</strong> effect van de afnamemodus <strong>op</strong> de rangord<strong>en</strong>ing van<br />
deg<strong>en</strong><strong>en</strong> die getoetst werd<strong>en</strong>. Voor power tests was de gemiddelde correlatie (na correctie voor<br />
onbetrouwbaarheid) zeer hoog, te wet<strong>en</strong> .91 over 123 geanalyseerde correlaties, <strong>wat</strong> er <strong>op</strong> wijst dat<br />
de rangord<strong>en</strong>ing van de leerling<strong>en</strong> nag<strong>en</strong>oeg gelijk <strong>is</strong>.<br />
Voor speed tests was de gemiddelde correlatie veel lager, namelijk .72 over 36 correlaties.<br />
De auteurs vond<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong> tuss<strong>en</strong> lineaire (CBT) <strong>en</strong> adaptieve (CAT) <strong>digitale</strong> toetsing.<br />
© Stichting Cito, Arnhem 2015 10
Kim (1999)<br />
In e<strong>en</strong> meta-analyse bestudeerde Kim (1999) 51 studies naar de vergelijkbaarheid van scores <strong>op</strong> PPT,<br />
lineaire (CBT) <strong>en</strong> adaptieve (CAT) <strong>digitale</strong> toets<strong>en</strong> bij e<strong>en</strong> groot aantal doelgroep<strong>en</strong> <strong>en</strong> vakgebied<strong>en</strong>.<br />
Het gemiddelde over de 226 bestudeerde effectgroottes voor <strong>en</strong>erzijds CBT <strong>en</strong> CAT <strong>en</strong> anderzijds PPT<br />
bedroeg .019 (95%-betrouwbaarheidsinterval -.030 tot .068) <strong>en</strong> was stat<strong>is</strong>t<strong>is</strong>ch niet significant.<br />
Echter, <strong>het</strong> <strong>verschil</strong> bleek sterk afhankelijk van <strong>het</strong> type CBT. Voor de vergelijking CBT-PPT bedroeg<br />
de gemiddelde effectgrootte .103 (lineaire CBT gemiddeld beter gemaakt dan PPT) <strong>en</strong> voor de<br />
vergelijking CAT-PPT ging <strong>het</strong> om -.125 (CAT gemiddeld slechter gemaakt dan PPT).<br />
Kim rapporteerde de resultat<strong>en</strong> ook apart voor <strong>verschil</strong>l<strong>en</strong>de leeftijdsgroep<strong>en</strong> <strong>en</strong> vakgebied<strong>en</strong>. Voor<br />
high school leerling<strong>en</strong> bleek CBT gemiddeld makkelijker dan PPT, <strong>wat</strong> de auteur toeschreef aan hun<br />
positieve houding t<strong>en</strong> <strong>op</strong>zichte van toetsing met de computer <strong>en</strong> de ‘excitem<strong>en</strong>t’ die <strong>het</strong> mak<strong>en</strong> van<br />
e<strong>en</strong> <strong>digitale</strong> toets met zich meebracht.<br />
Russell, Goldberg <strong>en</strong> O’Connor (2003)<br />
In hun review analyseerd<strong>en</strong> Russel, Goldberg <strong>en</strong> O’Connor (2003) onderzoek naar de<br />
vergelijkbaarheid van PPT- <strong>en</strong> CBT-toets<strong>en</strong> <strong>op</strong> <strong>het</strong> gebied van schrijfvaardigheid <strong>en</strong> w<strong>is</strong>kunde. Zij<br />
maakt<strong>en</strong> e<strong>en</strong> onderscheid tuss<strong>en</strong> onderzoek in de periode tot 1986 <strong>en</strong> de periode daarna. Hun<br />
review br<strong>en</strong>gt e<strong>en</strong> aantal factor<strong>en</strong> aan <strong>het</strong> licht die van invloed zijn <strong>op</strong> de hoogte van de prestaties<br />
(<strong>en</strong> de validiteit van de meting). Daartoe behor<strong>en</strong> moduseffect<strong>en</strong> die te mak<strong>en</strong> hebb<strong>en</strong> met de<br />
mogelijkhed<strong>en</strong> om individuele items over te slaan, <strong>op</strong>nieuw te bekijk<strong>en</strong> <strong>en</strong> te verander<strong>en</strong> <strong>en</strong> de<br />
transfer van informatie tuss<strong>en</strong> scherm <strong>en</strong> kladpapier. Zie hiervoor ook paragraaf 3.3 <strong>en</strong> 3.5.<br />
Andere moduseffect<strong>en</strong> die de auteurs de revue lat<strong>en</strong> passer<strong>en</strong>, betreff<strong>en</strong> de pres<strong>en</strong>tatie van graphics<br />
<strong>en</strong> tekst <strong>op</strong> <strong>het</strong> scherm in relatie tot de ervaring van leerling<strong>en</strong> met <strong>het</strong> werk<strong>en</strong> met computers.<br />
Omdat deze mogelijke verklaring<strong>en</strong> voor <strong>het</strong> doel van onze literatuurstudie van minder groot belang<br />
zijn, lat<strong>en</strong> we bespreking ervan hier verder achterwege.<br />
Paek (2005)<br />
Paek (2005) bestudeerde e<strong>en</strong> aantal reviews <strong>en</strong> onderzoek<strong>en</strong> naar de vergelijkbaarheid van PPT <strong>en</strong><br />
CBT die vóór <strong>en</strong> na 1993 war<strong>en</strong> uitgevoerd. De studies betroff<strong>en</strong> de vakgebied<strong>en</strong><br />
rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde, taal, lez<strong>en</strong> <strong>en</strong> sci<strong>en</strong>ce. Zij constateert dat de zoge<strong>het</strong><strong>en</strong> electronic pageturners - in<br />
<strong>het</strong> Nederlandse taalgebied ook wel aangeduid als ‘recht<strong>op</strong> gezette’ <strong>papier<strong>en</strong></strong> toets<strong>en</strong> - regelmatig<br />
slechter gemaakt werd<strong>en</strong> dan de <strong>papier<strong>en</strong></strong> versies. E<strong>en</strong> eerste verklaring suggereert dat leerling<strong>en</strong><br />
moest<strong>en</strong> w<strong>en</strong>n<strong>en</strong> aan de nieuwe afnamemodus: kandidat<strong>en</strong> moest<strong>en</strong> onder high-stakes condities<br />
ler<strong>en</strong> te naviger<strong>en</strong> in e<strong>en</strong> interface waarmee zij nog niet vertrouwd war<strong>en</strong>. Als tweede verklaring<br />
noemt Paek (2005) dat <strong>het</strong> destijds nog niet mogelijk was om vooruit <strong>en</strong> achteruit te blader<strong>en</strong>, items<br />
over te slaan <strong>en</strong> itemantwoord<strong>en</strong> te bekijk<strong>en</strong> <strong>en</strong> te verander<strong>en</strong>, <strong>wat</strong> in PPT <strong>en</strong> meer rec<strong>en</strong>te CBT<br />
natuurlijk wel mogelijk <strong>is</strong> (<strong>en</strong> <strong>wat</strong> t<strong>en</strong> goede komt aan de motivatie van de leerling).<br />
Bij de na 1993 uitgevoerde studies war<strong>en</strong> de <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT kleiner dan bij <strong>het</strong><br />
daarvoor uitgevoerde onderzoek. In de meeste rec<strong>en</strong>telijk uitgevoerde studies bij zoge<strong>het</strong><strong>en</strong> K12-<br />
leerling<strong>en</strong> (dit wil zegg<strong>en</strong>: leerling<strong>en</strong> van kindergart<strong>en</strong> tot <strong>en</strong> met grade 12; ofwel van 4 à 6 tot 17 à<br />
19 jaar) blek<strong>en</strong> de scores <strong>op</strong> CBT gelijkwaardig of iets hoger dan die <strong>op</strong> PPT. Waar er <strong>verschil</strong>l<strong>en</strong><br />
tuss<strong>en</strong> afnamemodi gevond<strong>en</strong> werd<strong>en</strong>, war<strong>en</strong> deze lang niet altijd stat<strong>is</strong>t<strong>is</strong>ch significant. Paek schrijft<br />
deze og<strong>en</strong>schijnlijke afname van de <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT toe aan de toeg<strong>en</strong>om<strong>en</strong> ervaring<br />
© Stichting Cito, Arnhem 2015 11
met computers <strong>en</strong> <strong>het</strong> gegev<strong>en</strong> dat rec<strong>en</strong>tere CBT de mogelijkhed<strong>en</strong> tot <strong>het</strong> naviger<strong>en</strong>, overslaan <strong>en</strong><br />
wijzig<strong>en</strong> van antwoord<strong>en</strong> van de reguliere PPT beter kunn<strong>en</strong> naboots<strong>en</strong>.<br />
Paek rapporteert de rec<strong>en</strong>tere resultat<strong>en</strong> ook per vakgebied. Zo behaald<strong>en</strong> de leerling<strong>en</strong> bij drie van<br />
de twaalf geanalyseerde studies <strong>op</strong> <strong>het</strong> gebied van rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde lagere scores <strong>op</strong> de CBT, bij<br />
één was de PPT moeilijker <strong>en</strong> bij de overige acht war<strong>en</strong> de scores vergelijkbaar.<br />
Gaskill <strong>en</strong> Marshall (2006)<br />
De review van Gaskill <strong>en</strong> Marshall (2006) <strong>is</strong> voor ons minder interessant omdat <strong>het</strong> vooral gericht <strong>is</strong><br />
<strong>op</strong> <strong>het</strong> synt<strong>het</strong><strong>is</strong>er<strong>en</strong> van onderzoek naar interacties tuss<strong>en</strong> de afnamemodus <strong>en</strong><br />
achtergrondk<strong>en</strong>merk<strong>en</strong> van leerling<strong>en</strong>, zoals vaardigheidsniveau, geslacht <strong>en</strong> sociaal-etn<strong>is</strong>che<br />
achtergrond. Van groter belang voor ons doel <strong>is</strong> <strong>het</strong> onderzoek dat zij zelf uitvoerd<strong>en</strong> naar de<br />
vergelijkbaarheid van PPT <strong>en</strong> CBT bij meerkeuzetoets<strong>en</strong> numeracy in grade 4 <strong>en</strong> 7. Omdat dit<br />
onderzoek relevant <strong>is</strong> voor de beantwoording van onze vierde onderzoeksvraag over de rol van<br />
kladpapier, verwijz<strong>en</strong> wij voor de resultat<strong>en</strong> ervan naar paragraaf 3.4.<br />
Wang, Jiao, Young, Brooks <strong>en</strong> Olson (2007)<br />
In hun meta-analyse analyseerd<strong>en</strong> Wang, Jiao, Young, Brooks <strong>en</strong> Olson (2007) 38 studies <strong>op</strong> <strong>het</strong><br />
gebied van rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde bij K12-leerling<strong>en</strong>. Zij vond<strong>en</strong> ge<strong>en</strong> significante <strong>verschil</strong>l<strong>en</strong> qua<br />
gemiddelde prestaties tuss<strong>en</strong> PPT <strong>en</strong> CBT. Dit resultaat werd echter verkreg<strong>en</strong> na verwijdering van<br />
zes outlier studies waarin CBT aanzi<strong>en</strong>lijk slechter gemaakt war<strong>en</strong> dan PPT.<br />
B<strong>en</strong>nett, Braswell, Oranje, Sand<strong>en</strong>e, Kaplan & Yan (2008) merk<strong>en</strong> <strong>op</strong> dat de meeste studies uit de<br />
meta-analyse van Wang niet officieel gepubliceerd war<strong>en</strong> (<strong>en</strong> dus waarschijnlijk niet door<br />
vakg<strong>en</strong>ot<strong>en</strong> beoordeeld zijn). Daarnaast ging <strong>het</strong> meestal alle<strong>en</strong> om meerkeuze-<strong>op</strong>gav<strong>en</strong>, was de<br />
meerderheid van de effectgroottes van slechts drie onderzoek<strong>en</strong> afkomstig <strong>en</strong> hield<strong>en</strong> de<br />
onderzoekers ge<strong>en</strong> rek<strong>en</strong>ing met de repres<strong>en</strong>tativiteit van de steekproev<strong>en</strong>.<br />
Texas Education Ag<strong>en</strong>cy (2008)<br />
Naar aanleiding van e<strong>en</strong> review van uitgevoerde vergelijkingsstudies over e<strong>en</strong> periode van twintig<br />
jaar concludeert de Texas Education Ag<strong>en</strong>cy (2008) dat de onderzoeksresultat<strong>en</strong> sterk variër<strong>en</strong> al<br />
naar gelang <strong>het</strong> vakgebied (lez<strong>en</strong>, rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde, sci<strong>en</strong>ce et cetera), <strong>het</strong> itemtype (meerkeuze<br />
versus <strong>op</strong><strong>en</strong> vrag<strong>en</strong>) <strong>en</strong> <strong>het</strong> testprogramma (state assessm<strong>en</strong>t programs, toetsdoel, et cetera). De<br />
resultat<strong>en</strong> blek<strong>en</strong> zelfs niet cons<strong>is</strong>t<strong>en</strong>t over tests in <strong>het</strong>zelfde vakgebied met soortgelijke k<strong>en</strong>merk<strong>en</strong>.<br />
Desalniettemin signaler<strong>en</strong> de auteurs de volg<strong>en</strong>de algem<strong>en</strong>e tr<strong>en</strong>ds.<br />
Van de 23 studies <strong>op</strong> <strong>het</strong> gebied van rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde vond<strong>en</strong> er veerti<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong> tuss<strong>en</strong> PPT<br />
<strong>en</strong> CBT, bij acht was CBT moeilijker <strong>en</strong> bij slechts bij één studie was PPT moeilijker. Alhoewel de<br />
uitkomst<strong>en</strong> dus niet e<strong>en</strong>sluid<strong>en</strong>d war<strong>en</strong>, bleek de meerderheid van de toets<strong>en</strong> voor rek<strong>en</strong><strong>en</strong>w<strong>is</strong>kunde<br />
vergelijkbaar over de twee afnamemodi.<br />
In sommige van de studies die wel <strong>verschil</strong>l<strong>en</strong> vond<strong>en</strong>, <strong>is</strong> gekek<strong>en</strong> naar itemtyp<strong>en</strong> die <strong>het</strong><br />
moduseffect zoud<strong>en</strong> kunn<strong>en</strong> verklar<strong>en</strong> (Ito & Sykes, 2004; Sand<strong>en</strong>e et al., 2005; Johnson & Gre<strong>en</strong>,<br />
2006; B<strong>en</strong>nett et al., 2008; K<strong>en</strong>g, McClarty & Dav<strong>is</strong>, 2008). Het gaat dan om items:<br />
<br />
<br />
die uit <strong>verschil</strong>l<strong>en</strong>de del<strong>en</strong> bestaan <strong>en</strong> waarbij de kandidaat moet scroll<strong>en</strong> om <strong>het</strong> hele item te<br />
zi<strong>en</strong>;<br />
die mede tot doel hebb<strong>en</strong> om te bepal<strong>en</strong> hoe effectief de kandidaat e<strong>en</strong> fysiek hulpmiddel kan<br />
manipuler<strong>en</strong>, zoals e<strong>en</strong> liniaal of e<strong>en</strong> grad<strong>en</strong>boog;<br />
© Stichting Cito, Arnhem 2015 12
waarbij de leerling e<strong>en</strong> tek<strong>en</strong>ing moet mak<strong>en</strong>, e<strong>en</strong> grote hoeveelheid tekst moet invoer<strong>en</strong> of e<strong>en</strong><br />
w<strong>is</strong>kundige formule moet producer<strong>en</strong>;<br />
waarbij de leerling graf<strong>is</strong>ch materiaal of geometr<strong>is</strong>che manipulaties moet producer<strong>en</strong>;<br />
die e<strong>en</strong> uitgebreide handleiding (Engels: tutorial) of uitgebreide item-specifieke aanwijzing<strong>en</strong><br />
voor <strong>het</strong> beantwoord<strong>en</strong> vere<strong>is</strong><strong>en</strong>;<br />
die <strong>het</strong> gebruik van kladpapier vere<strong>is</strong><strong>en</strong> (<strong>en</strong> waarbij de leerling de vraag dus niet ‘uit <strong>het</strong> hoofd’<br />
kan beantwoord<strong>en</strong>):<br />
waarbij <strong>het</strong> itemformat ingrijp<strong>en</strong>d gewijzigd moet word<strong>en</strong> om <strong>het</strong> item geschikt te mak<strong>en</strong> voor<br />
pres<strong>en</strong>tatie via <strong>het</strong> beeldscherm;<br />
die veronderstell<strong>en</strong> dat de schermresolutie gelijk <strong>is</strong> <strong>op</strong> alle computers waar<strong>op</strong> de toets wordt<br />
afg<strong>en</strong>om<strong>en</strong>.<br />
Verder komt uit de review naar vor<strong>en</strong> dat leerling<strong>en</strong> over <strong>het</strong> algeme<strong>en</strong> hogere scores <strong>op</strong> <strong>op</strong><strong>en</strong><br />
vrag<strong>en</strong> behal<strong>en</strong> wanneer de manier waar<strong>op</strong> de toets wordt afg<strong>en</strong>om<strong>en</strong> overe<strong>en</strong>komt met de manier<br />
waar<strong>op</strong> de leerstof in de klas <strong>is</strong> onderwez<strong>en</strong> <strong>en</strong> getoetst.<br />
Daarnaast blijk<strong>en</strong> zelfs zeer kleine moduseffect<strong>en</strong> grote prakt<strong>is</strong>che consequ<strong>en</strong>ties te kunn<strong>en</strong> hebb<strong>en</strong>.<br />
E<strong>en</strong> moduseffect van slechts één punt <strong>op</strong> e<strong>en</strong> eindtoets in Texas kan ertoe leid<strong>en</strong> dat e<strong>en</strong> groot<br />
aantal kandidat<strong>en</strong> zakt <strong>en</strong> dus ge<strong>en</strong> diploma krijgt.<br />
Kingston (2009)<br />
In e<strong>en</strong> meta-analyse analyseerde Kingston (2009) de resultat<strong>en</strong> van 81 vergelijkingsstudies met<br />
meerkeuzetoets<strong>en</strong>, uitgevoerd gedur<strong>en</strong>de de periode 1997 tot 2007 bij leerling<strong>en</strong> in grade 1 tot <strong>en</strong><br />
met 12. Voor <strong>het</strong> vakgebied w<strong>is</strong>kunde werd<strong>en</strong> 31 studies geanalyseerd. PPT w<strong>is</strong>kunde werd<strong>en</strong> iets<br />
beter gemaakt dan CBT w<strong>is</strong>kunde. De gemiddelde effectgrootte was met -.06 echter zeer klein (met<br />
e<strong>en</strong> 95%-betrouwbaarheidsinterval van -.10 tot -.02). Kingston noemt <strong>het</strong> waarschijnlijk dat dit kleine<br />
<strong>verschil</strong> te mak<strong>en</strong> heeft met <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier. Zie hiervoor ook paragraaf 3.4.<br />
Individuele studies met gegev<strong>en</strong>s over vergelijkbaarheid van de rangord<strong>en</strong>ing<br />
Poggio, Glasnapp, Yang <strong>en</strong> Poggio (2005) legd<strong>en</strong> leerling<strong>en</strong> in grade 7 e<strong>en</strong> PPT- <strong>en</strong> e<strong>en</strong> CBT-versie van<br />
e<strong>en</strong> meerkeuzetoets w<strong>is</strong>kunde voor. Zij vond<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong> in gemiddeld prestati<strong>en</strong>iveau <strong>en</strong> de<br />
gemiddelde correlatie tuss<strong>en</strong> de scores <strong>op</strong> beide versies bedroeg .96.<br />
De Oregon Departm<strong>en</strong>t of Education (2007) vond ge<strong>en</strong> moduseffect <strong>op</strong> de prestaties van<br />
w<strong>is</strong>kundetoets<strong>en</strong> voor <strong>verschil</strong>l<strong>en</strong>de grades. De correlaties tuss<strong>en</strong> de PPT- <strong>en</strong> CBT-versies varieerd<strong>en</strong><br />
over de grades van .70 tot .83.<br />
Csapó, Molnár <strong>en</strong> Tóth (2009) vergelek<strong>en</strong> PPT- <strong>en</strong> CBT-versies van drie deeltests <strong>op</strong> <strong>het</strong> gebied van<br />
inductive reasoning. Op de onderdel<strong>en</strong> number analogies <strong>en</strong> number series scoorde PPT hoger dan<br />
CBT, maar <strong>op</strong> verbal analogies deed CBT <strong>het</strong> beter dan PPT. De correlaties tuss<strong>en</strong> de beide testversies<br />
bedroeg .79 voor de totaalscores over alle drie de onderdel<strong>en</strong>, .62 <strong>en</strong> .42 voor respectievelijk number<br />
analogies <strong>en</strong> number series <strong>en</strong> .80 voor verbal analogies.<br />
© Stichting Cito, Arnhem 2015 13
3.2 Het toek<strong>en</strong>n<strong>en</strong> van partial credit aan antwoord<strong>en</strong><br />
Inleiding<br />
In e<strong>en</strong> <strong>papier<strong>en</strong></strong> exam<strong>en</strong> rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde <strong>is</strong> <strong>het</strong> gebruikelijk dat kandidat<strong>en</strong> beloond word<strong>en</strong> voor<br />
gedeeltelijk goede antwoord<strong>en</strong>. De beoordelaar k<strong>en</strong>t <strong>het</strong> volledige aantal punt<strong>en</strong> toe als <strong>het</strong><br />
antwoord helemaal goed <strong>is</strong> <strong>en</strong> k<strong>en</strong>t deelscores (Engels: partial credit) toe als <strong>het</strong> antwoord<br />
gedeeltelijk goed <strong>is</strong> (McGuire & Youngson, 2002). Hoewel er voor doeleind<strong>en</strong> van formatieve toetsing<br />
in oef<strong>en</strong>omgeving<strong>en</strong> subtielere scoringswijz<strong>en</strong> beschikbaar zijn (o.a. DWO, 2013), <strong>is</strong><br />
geautomat<strong>is</strong>eerde toek<strong>en</strong>ning van partial credit aan gedeeltelijk goede antwoord<strong>en</strong> <strong>op</strong> <strong>op</strong><strong>en</strong> vrag<strong>en</strong><br />
in de meeste ons bek<strong>en</strong>de <strong>digitale</strong> high-stakes w<strong>is</strong>kunde-exam<strong>en</strong>s niet gebruikelijk. Vrijwel altijd<br />
wordt alle<strong>en</strong> <strong>het</strong> eindantwoord automat<strong>is</strong>ch gescoord als goed (één punt) of fout (nul punt<strong>en</strong>). Bij<br />
<strong>het</strong> vakgebied rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde <strong>is</strong> de meest voor de hand ligg<strong>en</strong>de vraag: “In hoeverre <strong>is</strong> <strong>het</strong><br />
mogelijk de antwoord<strong>en</strong> van kandidat<strong>en</strong> in e<strong>en</strong> automat<strong>is</strong>ch gescoord CBT-exam<strong>en</strong> <strong>op</strong> dezelfde<br />
manier te beoordel<strong>en</strong> als m<strong>en</strong>selijke beoordelaars bij e<strong>en</strong> <strong>papier<strong>en</strong></strong> exam<strong>en</strong> zoud<strong>en</strong> do<strong>en</strong>?” (McGuire<br />
& Youngson, 2002; Ashton et al., 2006).<br />
Exam<strong>en</strong>s rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde waarbij de vergelijkbaarheid van PPT- <strong>en</strong> CBT-versies tot <strong>op</strong> hed<strong>en</strong> <strong>het</strong><br />
best gereal<strong>is</strong>eerd <strong>is</strong>, zijn CBT-exam<strong>en</strong>s met alle<strong>en</strong> meerkeuzevrag<strong>en</strong> (B<strong>en</strong>nett, 2003). Dat <strong>is</strong> niet zo<br />
verwonderlijk, aangezi<strong>en</strong> beide afnamemodi van <strong>het</strong> meerkeuze-exam<strong>en</strong> doorgaans dichotoom<br />
gescoord word<strong>en</strong>. Echter, exam<strong>en</strong>s rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde bevatt<strong>en</strong> meestal meer <strong>op</strong><strong>en</strong> vrag<strong>en</strong> dan<br />
meerkeuzevrag<strong>en</strong>. E<strong>en</strong> antwoord <strong>op</strong> e<strong>en</strong> <strong>op</strong><strong>en</strong> vraag kan vele vorm<strong>en</strong> aannem<strong>en</strong>, zoals e<strong>en</strong><br />
numerieke score, e<strong>en</strong> formule of e<strong>en</strong> grafiek. Het antwoord <strong>op</strong> e<strong>en</strong> w<strong>is</strong>kundevraag vere<strong>is</strong>t doorgaans<br />
meerdere d<strong>en</strong>kstapp<strong>en</strong> of <strong>op</strong>lossingsprocess<strong>en</strong> waarvan de kandidaat er één of meer goed<br />
uitgevoerd kan hebb<strong>en</strong>. Hoewel er uitzondering<strong>en</strong> zijn (zie hierna) <strong>is</strong> <strong>het</strong> zonder speciale<br />
aanpassing<strong>en</strong> in e<strong>en</strong> CBT-exam<strong>en</strong> niet mogelijk om kandidat<strong>en</strong> voor gedeeltelijk goede antwoord<strong>en</strong><br />
punt<strong>en</strong> toe te k<strong>en</strong>n<strong>en</strong>: de computer k<strong>en</strong>t <strong>het</strong> antwoord alle<strong>en</strong> <strong>het</strong> maximale aantal punt<strong>en</strong> toe als <strong>het</strong><br />
antwoord helemaal goed <strong>is</strong> <strong>en</strong> als dat niet <strong>het</strong> geval <strong>is</strong> krijgt de kandidaat nul punt<strong>en</strong>. De CBT-versie<br />
van <strong>het</strong> exam<strong>en</strong> wijkt dan af van de PPT-versie waarbij m<strong>en</strong>selijke beoordelaars deelscores<br />
toek<strong>en</strong>n<strong>en</strong> aan gedeeltelijk goede antwoord<strong>en</strong>.<br />
Doc<strong>en</strong>t<strong>en</strong> <strong>en</strong> kandidat<strong>en</strong> beschouw<strong>en</strong> de geautomat<strong>is</strong>eerde alles-of-niets scoring van antwoord<strong>en</strong> <strong>op</strong><br />
<strong>op</strong><strong>en</strong> vrag<strong>en</strong> in e<strong>en</strong> CBT vaak als onrechtvaardig. De score nul wil immers niet zegg<strong>en</strong> dat de<br />
kandidaat ge<strong>en</strong> <strong>en</strong>kele vaardigheid bezit of ge<strong>en</strong> <strong>en</strong>kel leerdoel bereikt heeft. In e<strong>en</strong> CBT kan e<strong>en</strong><br />
rek<strong>en</strong>- of slordigheidsfoutje aan <strong>het</strong> begin van <strong>het</strong> <strong>op</strong>lossingsproces er bijvoorbeeld toe leid<strong>en</strong> dat de<br />
kandidaat voor <strong>het</strong> hele antwoord nul punt<strong>en</strong> krijgt, ook al heeft de kandidaat de vere<strong>is</strong>te strategie<br />
of formule volledig correct toegepast. En als aanwezige partiële k<strong>en</strong>n<strong>is</strong> <strong>en</strong> vaardighed<strong>en</strong> niet herk<strong>en</strong>d<br />
<strong>en</strong> beloond word<strong>en</strong>, kunn<strong>en</strong> vraagtek<strong>en</strong>s word<strong>en</strong> geplaatst bij de validiteit van de meting van<br />
w<strong>is</strong>kundige vaardighed<strong>en</strong>. Het wekt dan ook ge<strong>en</strong> verbazing dat w<strong>is</strong>kundedoc<strong>en</strong>t<strong>en</strong> <strong>het</strong> toek<strong>en</strong>n<strong>en</strong><br />
van deelscores aan gedeeltelijk goede (tuss<strong>en</strong>)antwoord<strong>en</strong> preferer<strong>en</strong> bov<strong>en</strong> e<strong>en</strong> alles-of-niets<br />
scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord. Veel doc<strong>en</strong>t<strong>en</strong> vrag<strong>en</strong> zich af in hoeverre kandidat<strong>en</strong> hogere<br />
scores behaald zoud<strong>en</strong> hebb<strong>en</strong> als deelscores wel beloond zoud<strong>en</strong> zijn <strong>en</strong> hoeveel punt<strong>en</strong> de<br />
kandidat<strong>en</strong> dan hoger zoud<strong>en</strong> scor<strong>en</strong>; bov<strong>en</strong>di<strong>en</strong> vrag<strong>en</strong> zij zich af of er e<strong>en</strong> manier <strong>is</strong> om kandidat<strong>en</strong><br />
te comp<strong>en</strong>ser<strong>en</strong> voor de t<strong>en</strong> onrechte niet gekreg<strong>en</strong> deelscores (zonder punt<strong>en</strong> weg te gev<strong>en</strong>)<br />
(Darrah et al., 2010). Bij kandidat<strong>en</strong> kan de geautomat<strong>is</strong>eerde alles-of-niets scoring van alle<strong>en</strong> <strong>het</strong><br />
eindantwoord tot bezorgdheid, wantrouw<strong>en</strong> <strong>en</strong> frustraties leid<strong>en</strong>, onder meer vanwege <strong>het</strong><br />
© Stichting Cito, Arnhem 2015 14
onpersoonlijke <strong>en</strong> anonieme karakter van de volledig geautomat<strong>is</strong>eerde beoordeling. Kandidat<strong>en</strong><br />
kunn<strong>en</strong> zich b<strong>en</strong>adeeld voel<strong>en</strong> omdat zij <strong>het</strong> idee hebb<strong>en</strong> punt<strong>en</strong> m<strong>is</strong> te l<strong>op</strong><strong>en</strong> die zij wel gekreg<strong>en</strong><br />
zoud<strong>en</strong> hebb<strong>en</strong> als hun antwoord<strong>en</strong> <strong>en</strong> uitwerking<strong>en</strong> <strong>op</strong> papier door e<strong>en</strong> m<strong>en</strong>selijke beoordelaar<br />
nagekek<strong>en</strong> zoud<strong>en</strong> zijn (McGuire & Johnson, 2002; Darrah et al., 2010).<br />
De vraag naar effect van <strong>het</strong> al dan niet toek<strong>en</strong>n<strong>en</strong> van partial credit aan gedeeltelijk goede<br />
prestaties <strong>is</strong> mogelijk ook van belang voor de interpretatie van de resultat<strong>en</strong> <strong>op</strong> de huidige<br />
Rek<strong>en</strong>toets VO. De teg<strong>en</strong>vall<strong>en</strong>de resultat<strong>en</strong> zoals geconstateerd door de Comm<strong>is</strong>sie Bosker (2014)<br />
zijn mogelijk te verklar<strong>en</strong> vanuit <strong>het</strong> gegev<strong>en</strong> dat gedeeltelijk goede antwoord in de huidige <strong>digitale</strong><br />
examinering ge<strong>en</strong> punt<strong>en</strong> <strong>op</strong>lever<strong>en</strong>. Onder constant houding van de maximumscore (<strong>en</strong> <strong>het</strong><br />
antwoordmodel) zou partial credit scoring log<strong>is</strong>cherwijs tot hogere scores moet<strong>en</strong> leid<strong>en</strong> dan allesof-niets<br />
scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord (uiteraard onder de aanname dat gedeeltelijk goede<br />
antwoord<strong>en</strong> inderdaad voorkom<strong>en</strong>). Dat <strong>het</strong> perc<strong>en</strong>tage goed <strong>op</strong> <strong>het</strong> exam<strong>en</strong> door <strong>het</strong> toek<strong>en</strong>n<strong>en</strong><br />
van deelscores hoger wordt, betek<strong>en</strong>t natuurlijk niet dat de kandidat<strong>en</strong> dan vaardiger zijn geword<strong>en</strong>.<br />
Het betek<strong>en</strong>t wel dat de resultat<strong>en</strong> <strong>op</strong> <strong>het</strong> exam<strong>en</strong> dan minder snel als teg<strong>en</strong>vall<strong>en</strong>d geïnterpreteerd<br />
zull<strong>en</strong> word<strong>en</strong>. Daarnaast zijn er wellicht implicaties voor de refer<strong>en</strong>tiecesur<strong>en</strong> <strong>en</strong> de manier waar<strong>op</strong><br />
deze via standaardsetting bepaald word<strong>en</strong>. In de begeleid<strong>en</strong>de brief aan de min<strong>is</strong>ter constateert de<br />
Comm<strong>is</strong>sie Bosker (2014) dat de refer<strong>en</strong>tiecesur<strong>en</strong> voor de niveaus 2F <strong>en</strong> 3F thans nog te hoog ligg<strong>en</strong><br />
<strong>en</strong> dus bijstelling behoev<strong>en</strong>. E<strong>en</strong> mogelijke red<strong>en</strong> waarom de lat nu zo hoog ligt, <strong>is</strong> <strong>het</strong> gegev<strong>en</strong> dat<br />
de refer<strong>en</strong>tiecesur<strong>en</strong> bepaald zijn zonder gedeeltelijk goede antwoord<strong>en</strong> in de standaardsetting te<br />
verd<strong>is</strong>conter<strong>en</strong>.<br />
In deze paragraaf gaan we na <strong>wat</strong> er bek<strong>en</strong>d <strong>is</strong> over de volg<strong>en</strong>de twee onderzoeksvrag<strong>en</strong>:<br />
<br />
<br />
In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met <strong>het</strong> al dan niet<br />
<strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van partial credit aan gedeeltelijk goede antwoord<strong>en</strong>?<br />
In hoeverre <strong>is</strong> <strong>het</strong> mogelijk de resultat<strong>en</strong> van de leerling<strong>en</strong> <strong>op</strong> e<strong>en</strong> CBT-exam<strong>en</strong> <strong>op</strong> e<strong>en</strong>zelfde<br />
manier te beoordel<strong>en</strong> als de gebruikelijke partial credit beoordeling in e<strong>en</strong> PPT-exam<strong>en</strong>?<br />
Resultat<strong>en</strong>: reviews <strong>en</strong> meta-analyses<br />
Er <strong>is</strong> nog nauwelijks onderzoek gedaan naar de mogelijkhed<strong>en</strong> van geautomat<strong>is</strong>eerde scoring van<br />
antwoord<strong>en</strong> <strong>op</strong> w<strong>is</strong>kundige problem<strong>en</strong> waarbij kandidat<strong>en</strong> beloond word<strong>en</strong> voor gedeeltelijk goede<br />
antwoord<strong>en</strong> (Darrah et al., 2010). We hebb<strong>en</strong> ge<strong>en</strong> review of meta-analyse gevond<strong>en</strong> waarin<br />
resultat<strong>en</strong> van ontwikkelingsgericht onderzoek <strong>op</strong> e<strong>en</strong> handzame wijze gesynt<strong>het</strong><strong>is</strong>eerd word<strong>en</strong>.<br />
Noodgedwong<strong>en</strong> volstaan we met e<strong>en</strong> verhal<strong>en</strong>de beschrijving van individuele studies. We beperk<strong>en</strong><br />
ons in hoofdzaak tot <strong>het</strong> beschrijv<strong>en</strong> van de belangrijkste onderzoeksresultat<strong>en</strong>.<br />
Resultat<strong>en</strong>: individuele studies<br />
Beevers, McGuire, Stirling <strong>en</strong> Wild (1995)<br />
In e<strong>en</strong> van de eerste experim<strong>en</strong>t<strong>en</strong> met geautomat<strong>is</strong>eerde partial credit scoring in e<strong>en</strong> CBT w<strong>is</strong>kunde<br />
probeerd<strong>en</strong> Beevers et al. (1995) e<strong>en</strong> <strong>op</strong>lossing te vind<strong>en</strong> voor e<strong>en</strong> bek<strong>en</strong>d nadeel van CBT met <strong>op</strong><strong>en</strong><br />
vrag<strong>en</strong>: <strong>het</strong> probleem van <strong>het</strong> niet kunn<strong>en</strong> waarder<strong>en</strong> van gedeeltelijk goede antwoord<strong>en</strong>. Om partial<br />
credit beoordeling mogelijk te mak<strong>en</strong>, ontwierp<strong>en</strong> de onderzoekers e<strong>en</strong> CBT-versie waarbij elke<br />
toetsvraag werd <strong>op</strong>gedeeld in twee à vier deelvrag<strong>en</strong>. De leerling<strong>en</strong> kond<strong>en</strong> per toetsvraag kiez<strong>en</strong> of<br />
© Stichting Cito, Arnhem 2015 15
zij van Steps gebruik wild<strong>en</strong> mak<strong>en</strong> door de kn<strong>op</strong> More steps al dan niet aan te klikk<strong>en</strong>. Om de<br />
maximumscore te behal<strong>en</strong>, moest de leerling alle deelvrag<strong>en</strong> goed beantwoord hebb<strong>en</strong>. De keuze<br />
voor Steps leidde dus niet automat<strong>is</strong>ch tot aftrek van punt<strong>en</strong>. De keuze voor Steps bleef echter niet<br />
geheel ongestraft, aangezi<strong>en</strong> de toets e<strong>en</strong> tijdslimiet k<strong>en</strong>de <strong>en</strong> de stapsgewijze bevraging meer tijd<br />
bleek te kost<strong>en</strong> dan de reguliere bevraging. Zoals verwacht blek<strong>en</strong> goede leerling<strong>en</strong> de toetsvrag<strong>en</strong><br />
vaak snel te beantwoord<strong>en</strong> zonder de tuss<strong>en</strong>stapp<strong>en</strong> te gebruik<strong>en</strong>. Sommig<strong>en</strong> van h<strong>en</strong> liep<strong>en</strong><br />
daardoor echter punt<strong>en</strong> m<strong>is</strong> die zij wel gekreg<strong>en</strong> zoud<strong>en</strong> hebb<strong>en</strong> als e<strong>en</strong> m<strong>en</strong>selijke beoordelaar hun<br />
antwoord<strong>en</strong> <strong>op</strong> papier beoordeeld zou hebb<strong>en</strong>. Zwakkere leerling<strong>en</strong> koz<strong>en</strong> veelvuldig voor Steps,<br />
bijvoorbeeld als zij niet onmiddellijk in staat war<strong>en</strong> e<strong>en</strong> ‘beginnetje’ te vind<strong>en</strong> of tuss<strong>en</strong>tijds<br />
‘vastliep<strong>en</strong>’ bij <strong>het</strong> vind<strong>en</strong> van e<strong>en</strong> antwoord. Zij verdi<strong>en</strong>d<strong>en</strong> daardoor punt<strong>en</strong> die beoordelaars van<br />
e<strong>en</strong> PPT ook gegev<strong>en</strong> zoud<strong>en</strong> hebb<strong>en</strong>. Het kwam maar weinig voor dat de zwakkere leerling<strong>en</strong> niet<br />
voor Steps koz<strong>en</strong> terwijl zij dat beter wel hadd<strong>en</strong> kunn<strong>en</strong> do<strong>en</strong>.<br />
Deze keuze om Steps al dan niet te gebruik<strong>en</strong> vere<strong>is</strong>t toetsvaardighed<strong>en</strong> die bij e<strong>en</strong> PPT niet nodig<br />
zijn. De kandidaat moet <strong>het</strong> voordeel van <strong>het</strong> uitzicht <strong>op</strong> partial credit namelijk afweg<strong>en</strong> teg<strong>en</strong> <strong>het</strong><br />
nadeel van e<strong>en</strong> to<strong>en</strong>ame van de afnametijd. De onderzoekers do<strong>en</strong> dan ook de aanbeveling om deze<br />
nieuwe toetsvaardighed<strong>en</strong> terdege te train<strong>en</strong>.<br />
McGuire, Youngson, Korabinski <strong>en</strong> McMillan (2002)<br />
Aanleiding van <strong>het</strong> onderzoek van McGuire, Youngson, Korabinski <strong>en</strong> McMillan (2002) war<strong>en</strong> de<br />
problem<strong>en</strong> met de alles-of-niets scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord in traditionele CBT. Als <strong>het</strong><br />
scoringsalgoritme de kandidaat nul punt<strong>en</strong> toek<strong>en</strong>t, betek<strong>en</strong>t dat niet automat<strong>is</strong>ch dat hij of zij over<br />
ge<strong>en</strong> <strong>en</strong>kele w<strong>is</strong>kundige vaardigheid beschikt.<br />
Modernere CBT’s die mogelijkheid bied<strong>en</strong> tot stapsgewijze aanbieding van vrag<strong>en</strong>, kunn<strong>en</strong> partial<br />
credit toek<strong>en</strong>n<strong>en</strong>, bijvoorbeeld voor <strong>het</strong> vind<strong>en</strong> van <strong>het</strong> ju<strong>is</strong>te begin van <strong>het</strong> antwoord (Engels: the<br />
correct start to the answer), voor de correcte toepassing van de formule (ook al gebruikte de<br />
kandidaat in de formule e<strong>en</strong> verkeerd getal vanwege e<strong>en</strong> rek<strong>en</strong>- of slordigheidsfoutje eerder in de<br />
<strong>op</strong>gave) of voor stapelfout<strong>en</strong> (Engels: follow-through errors) waarmee wordt voorkom<strong>en</strong> dat<br />
dezelfde fout de kandidaat meer dan één keer aangerek<strong>en</strong>d wordt.<br />
In e<strong>en</strong> zeer invloedrijk onderzoek vergelek<strong>en</strong> McGuire, Youngson, Korabinski <strong>en</strong> McMillan (2002) de<br />
<strong>digitale</strong> beoordeling van w<strong>is</strong>kundige vaardighed<strong>en</strong> met <strong>en</strong> zonder recht te do<strong>en</strong> aan gedeeltelijk<br />
goede antwoord<strong>en</strong>. In e<strong>en</strong> experim<strong>en</strong>teel onderzoeksontwerp vergelek<strong>en</strong> zij de volg<strong>en</strong>de drie versies<br />
van dezelfde w<strong>is</strong>kundetoets die <strong>verschil</strong>d<strong>en</strong> in de hoeveel hulp die de kandidaat gebod<strong>en</strong> werd:<br />
<br />
<br />
<br />
No Steps format (NS): e<strong>en</strong> traditionele CBT-versie met geautomat<strong>is</strong>eerde dichotome scoring van<br />
alle<strong>en</strong> <strong>het</strong> eindantwoord. In <strong>het</strong> No Steps format werd<strong>en</strong> gedeeltelijk goede antwoord<strong>en</strong> dus niet<br />
beloond.<br />
Compulsory Steps (CS) format: e<strong>en</strong> CBT-versie met zog<strong>en</strong>oemde Steps waarbij elke exam<strong>en</strong>vraag<br />
in e<strong>en</strong> aantal deelvrag<strong>en</strong> was <strong>op</strong>gedeeld. Om de maximumscore te behal<strong>en</strong>, moest de kandidaat<br />
zowel de antwoord<strong>en</strong> <strong>op</strong> de deelvrag<strong>en</strong> als <strong>het</strong> antwoord <strong>op</strong> de eindvraag goed hebb<strong>en</strong>. De<br />
deelvrag<strong>en</strong> kwam<strong>en</strong> bij b<strong>en</strong>adering overe<strong>en</strong> met de “method the stud<strong>en</strong>t would have to go<br />
through in order to solve the question” (p. 224). Omdat de kandidaat niet voor Steps kon kiez<strong>en</strong>,<br />
werd deze versie aangeduid met de term Compulsory Steps.<br />
Optional Steps (OS) format: e<strong>en</strong> hybride CBT-versie die <strong>het</strong> midd<strong>en</strong> hield tuss<strong>en</strong> NS <strong>en</strong> CS. De<br />
kandidaat kreeg de exam<strong>en</strong>vraag eerst in <strong>het</strong> NS-format te zi<strong>en</strong> <strong>en</strong> kon daarna desgew<strong>en</strong>st<br />
kiez<strong>en</strong> voor Steps. Had de kandidaat e<strong>en</strong>maal voor Steps gekoz<strong>en</strong>, dan moest<strong>en</strong> alle deelvrag<strong>en</strong><br />
© Stichting Cito, Arnhem 2015 16
correct beantwoord word<strong>en</strong> om de maximumscore te behal<strong>en</strong>. Net als in <strong>het</strong> hiervoor besprok<strong>en</strong><br />
onderzoek van Beevers, McGuire, Stirling <strong>en</strong> Wild (1995) leidde de keuze voor Steps niet<br />
automat<strong>is</strong>ch tot aftrek van punt<strong>en</strong>. De keuze voor Steps bleef echter niet geheel ongestraft,<br />
aangezi<strong>en</strong> de toets e<strong>en</strong> tijdslimiet k<strong>en</strong>de, de afnametijd daar Steps to<strong>en</strong>am <strong>en</strong> de kandidaat met<br />
tijdnood te mak<strong>en</strong> kon krijg<strong>en</strong>.<br />
In <strong>het</strong> OS-format werd 30% van de vrag<strong>en</strong> geprobeerd zonder van Steps gebruik te mak<strong>en</strong>. Van deze<br />
vrag<strong>en</strong> werd 42% goed beantwoord <strong>en</strong> 58% fout. Van de kandidat<strong>en</strong> gebruikte 28% Steps bij alle<br />
vrag<strong>en</strong>, 54% gebruikte Steps bij t<strong>en</strong> minste één vraag <strong>en</strong> 8% gebruikte Steps helemaal niet.<br />
De antwoord<strong>en</strong> <strong>op</strong> de vrag<strong>en</strong> van de drie CBT-versies werd<strong>en</strong> automat<strong>is</strong>ch met de computer<br />
gescoord. Als de computer e<strong>en</strong> goed antwoord niet herk<strong>en</strong>de, werd<strong>en</strong> de scores handmatig hersteld.<br />
Om de praktijk van <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van deelscores bij e<strong>en</strong> gewone PPT zo goed mogelijk na te<br />
boots<strong>en</strong>, werd<strong>en</strong> de uitwerking<strong>en</strong> <strong>op</strong> kladpapier door m<strong>en</strong>selijke beoordelaars beoordeeld. Dit<br />
resulteerde in de volg<strong>en</strong>de zev<strong>en</strong> ‘condities’ die met elkaar vergelek<strong>en</strong> werd<strong>en</strong>:<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
NS: No Steps waarbij alle<strong>en</strong> <strong>het</strong> eindantwoord automat<strong>is</strong>ch dichotoom gescoord werd;<br />
NSW: No Steps waarbij e<strong>en</strong> m<strong>en</strong>selijke beoordelaar de uitwerking<strong>en</strong> <strong>op</strong> kladpapier volg<strong>en</strong>s de<br />
partial credit methode beoordeelde;<br />
CS: Compulsory Steps automat<strong>is</strong>ch met partial credit gescoord;<br />
CSPC: Compulsory Steps waarbij e<strong>en</strong> m<strong>en</strong>selijke beoordelaar de uitwerking<strong>en</strong> <strong>op</strong> kladpapier<br />
volg<strong>en</strong>s de partial credit methode beoordeelde;<br />
OS: Optional Steps automat<strong>is</strong>ch met partial credit gescoord;<br />
OSPC: Optional Steps waarbij e<strong>en</strong> m<strong>en</strong>selijke beoordelaar ALLEEN DE VRAGEN waarbij de<br />
kandidat<strong>en</strong> ervoor koz<strong>en</strong> ge<strong>en</strong> gebruik te mak<strong>en</strong> van Steps volg<strong>en</strong>s de partial credit methode<br />
beoordeelt (<strong>op</strong> bas<strong>is</strong> van de uitwerking<strong>en</strong> <strong>op</strong> kladpapier);<br />
OSPC+S: Optional Steps waarbij e<strong>en</strong> m<strong>en</strong>selijke beoordelaar ALLE VRAGEN volg<strong>en</strong>s de partial<br />
credit methode beoordeelde (<strong>op</strong> bas<strong>is</strong> van de uitwerking<strong>en</strong> <strong>op</strong> kladpapier).<br />
Het onderscheid tuss<strong>en</strong> CS <strong>en</strong> SCPC <strong>en</strong> dat tuss<strong>en</strong> OSPC <strong>en</strong> OSPC+S motiver<strong>en</strong> McGuire et al. (2002)<br />
als volgt: “The main reason for a differ<strong>en</strong>ce betwe<strong>en</strong> CS and CSPC marks for a particular candidate<br />
was that if they gave a wrong answer to, let us say, the first part of the question and th<strong>en</strong><br />
subsequ<strong>en</strong>tly used the right method to the remaining parts, th<strong>en</strong> the computer would give no marks<br />
for the remaining parts whereas partial credit would normally accrue in paper-based examinations.<br />
The same main reason applied to a differ<strong>en</strong>ce betwe<strong>en</strong> OS and OSPC marks for any particular<br />
candidate. The differ<strong>en</strong>ces betwe<strong>en</strong> NS and NSW marks (and OSPC and OSPC+S marks) could not be<br />
assigned in such a simple way as the partial credit was awarded for making variable amounts of<br />
progress through each question.” (p. 226).<br />
De via NSW verkreg<strong>en</strong> scores werd<strong>en</strong> geacht de m<strong>en</strong>selijke beoordeling van antwoord<strong>en</strong> <strong>op</strong> papier<br />
<strong>het</strong> beste te b<strong>en</strong>ader<strong>en</strong>. De NSW-beoordeling met partial credit bleek tot aanzi<strong>en</strong>lijk hogere scores te<br />
leid<strong>en</strong> dan NS (dit wil zegg<strong>en</strong>: de gebruikelijke dichotome scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord).<br />
McGuire et al. (2002) trekk<strong>en</strong> hieruit de conclusie dat “… there <strong>is</strong> absolutely no doubt that the basic<br />
NS format <strong>is</strong> not a suitable alternative to paper-based examinations” (p. 226).<br />
De onderzoekers vergelek<strong>en</strong> ook NSW met OS <strong>en</strong> CS. De OS-scores war<strong>en</strong> gemiddeld iets lager dan<br />
de NSW-scores, maar dit <strong>verschil</strong> was stat<strong>is</strong>t<strong>is</strong>ch gezi<strong>en</strong> niet significant (<strong>op</strong> 10%-niveau). Ook de CS-<br />
© Stichting Cito, Arnhem 2015 17
scores war<strong>en</strong> iets hoger dan de NSW-scores, maar ook dit <strong>verschil</strong> was stat<strong>is</strong>t<strong>is</strong>ch gezi<strong>en</strong> niet van<br />
betek<strong>en</strong><strong>is</strong>. K<strong>en</strong>nelijk gev<strong>en</strong> de <strong>op</strong>tionele <strong>en</strong> verplichte Steps-methodes e<strong>en</strong> goede b<strong>en</strong>adering van de<br />
traditionele PPT-beoordeling met toek<strong>en</strong>ning van partial credit door m<strong>en</strong>selijke beoordelaars. Het<br />
lijkt dus goed mogelijk om de ‘gewone’ arbeidsint<strong>en</strong>sieve PPT-beoordeling met deelscores in e<strong>en</strong><br />
automat<strong>is</strong>ch gescoorde CBT met Steps na te boots<strong>en</strong><br />
Het onderzoek bood ook uitsluitsel over ev<strong>en</strong>tuele <strong>verschil</strong>l<strong>en</strong> in de gemiddelde scores zoals<br />
verkreg<strong>en</strong> met de <strong>op</strong>tionele <strong>en</strong> verplichte Steps-methode. Er war<strong>en</strong> drie vergelijking<strong>en</strong> mogelijk. De<br />
vergelijking CS versus OS gaf significantie te zi<strong>en</strong> waarbij CS gemiddeld tot iets hogere scores leidde<br />
dan OS. De vergelijking CSPC versus OSPC was ev<strong>en</strong>e<strong>en</strong>s significant waarbij CSPC wederom tot<br />
hogere scores leidde dan OSPC. Hieruit concluder<strong>en</strong> de onderzoekers dat <strong>het</strong> er<strong>op</strong> lijkt dat de<br />
verplichte steps-methode de kandidat<strong>en</strong> hulp biedt bij de keuze van de ju<strong>is</strong>te strategie (die zij bij e<strong>en</strong><br />
gewone PPT niet zoud<strong>en</strong> hebb<strong>en</strong> gekreg<strong>en</strong>). De vergelijking CSPC versus OSPC+S leverde daar<strong>en</strong>teg<strong>en</strong><br />
ge<strong>en</strong> significantie <strong>op</strong>. Dit betek<strong>en</strong>t dat <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van partial credit bij alle vrag<strong>en</strong> de CS-scores<br />
weer <strong>op</strong> gelijke hoogte br<strong>en</strong>gt met de OS-scores.<br />
Tot slot werd NS vergelek<strong>en</strong> met OS <strong>en</strong> CS. Hier war<strong>en</strong> twee vergelijking<strong>en</strong> mogelijk. De vergelijking<br />
NS versus OS gaf significantie te zi<strong>en</strong> waarbij NS tot lagere scores leidde dan OS. Ook de vergelijking<br />
NS versus CS leverde significantie <strong>op</strong> waarbij NS lager scoorde dan OS. Dit laat volg<strong>en</strong>s de<br />
onderzoekers zi<strong>en</strong> dat <strong>het</strong> gebruik van de <strong>op</strong>tionele <strong>en</strong> verplichte Steps-methode de kandidat<strong>en</strong><br />
meer mogelijkhed<strong>en</strong> biedt om hun k<strong>en</strong>n<strong>is</strong> t<strong>en</strong> toon te spreid<strong>en</strong> dan de gebruikelijke CBT-toetsing<br />
waarbij alle<strong>en</strong> <strong>het</strong> eindantwoord dichotoom gescoord wordt.<br />
McGuire et al. (2002) zijn er zich overig<strong>en</strong>s van bewust dat de Steps-method<strong>en</strong> e<strong>en</strong> deel van <strong>het</strong><br />
antwoord kunn<strong>en</strong> weggev<strong>en</strong>. Daardoor zoud<strong>en</strong> exam<strong>en</strong>vrag<strong>en</strong> met Steps e<strong>en</strong> beroep kunn<strong>en</strong> do<strong>en</strong><br />
<strong>op</strong> andere leerdoel<strong>en</strong> dan de traditionele <strong>papier<strong>en</strong></strong> beoordeling aan de hand van e<strong>en</strong><br />
antwoordmodel. Zij pleit<strong>en</strong> daarom voor vervolgonderzoek naar <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> met aftrekpunt<strong>en</strong> als<br />
straf voor <strong>het</strong> gebruik van Steps. Wel zoud<strong>en</strong> kandidat<strong>en</strong> dan gewaarschuwd moet<strong>en</strong> word<strong>en</strong> dat de<br />
keuze voor Steps niet alle<strong>en</strong> tijdverlies kan betek<strong>en</strong><strong>en</strong>, maar ook aftrekpunt<strong>en</strong>.<br />
Fiddes, Korabinski, McGuire, Youngson <strong>en</strong> McMillan (2002)<br />
In e<strong>en</strong> onderzoek dat parallel liep aan dat van McGuire, Youngson, Korabinski <strong>en</strong> McMillan (2002)<br />
vergelek<strong>en</strong> Fiddes, Korabinski, McGuire, Youngson <strong>en</strong> McMillan (2002) drie versies van dezelfde<br />
w<strong>is</strong>kundetoets:<br />
<br />
<br />
<br />
e<strong>en</strong> PPT-versie, beoordeeld volg<strong>en</strong>s de partial credit methode;<br />
e<strong>en</strong> CBT-versie, beoordeeld volg<strong>en</strong>s de alles-of-niets methode van alle<strong>en</strong> <strong>het</strong> eindantwoord;<br />
e<strong>en</strong> zog<strong>en</strong>oemde Reversed Translation versie (RT), dit wil zegg<strong>en</strong> e<strong>en</strong> scre<strong>en</strong>dump van de CBTversie<br />
(ofwel e<strong>en</strong> vanuit de CBT-versie 'terugvertaalde' PPT-versie).<br />
In de RT-versie was bij elke toetsvraag ruimte gereserveerd voor kladwerk, zodat de leerling<strong>en</strong> hun<br />
berek<strong>en</strong>ing<strong>en</strong> <strong>en</strong> dergelijk kond<strong>en</strong> uitvoer<strong>en</strong> <strong>op</strong> e<strong>en</strong> manier die vergelijkbaar was met de PPT-versie.<br />
Om <strong>het</strong> effect van herformulering onderzoeksmatig te kunn<strong>en</strong> onderscheid<strong>en</strong> van dat van de<br />
afnamemodus, werd de RT-versie <strong>op</strong> twee manier<strong>en</strong> beoordeeld:<br />
<br />
RTC. Bij de zog<strong>en</strong>oemde RTC-marking werd alle<strong>en</strong> beoordeeld of <strong>het</strong> eindantwoord goed of fout<br />
was, net als bij de CBT-versie gebeurd was;<br />
© Stichting Cito, Arnhem 2015 18
RTW. Bij de zog<strong>en</strong>oemde RTW-marking vond plaats volg<strong>en</strong>s de partial credit methode waarbij de<br />
uitwerking<strong>en</strong> <strong>op</strong> kladpapier in de beoordeling betrokk<strong>en</strong> werd<strong>en</strong> <strong>en</strong> de leerling punt<strong>en</strong> kon<br />
behal<strong>en</strong> voor gedeeltelijk goede antwoord<strong>en</strong>, zoals ook bij de PPT <strong>het</strong> geval was.<br />
Het onderzoekontwerp stelde de onderzoekers in staat om <strong>het</strong> effect van de afnamemodus te<br />
scheid<strong>en</strong> van <strong>het</strong> effect van <strong>het</strong> herformuler<strong>en</strong> van de exam<strong>en</strong>vrag<strong>en</strong>.<br />
Effect afnamemodus<br />
Omdat de formulering van de vraagstelling <strong>en</strong> de plek om <strong>het</strong> antwoord te noter<strong>en</strong> in de CBT- <strong>en</strong> RTversie<br />
exact gelijk war<strong>en</strong> <strong>en</strong> beide versies <strong>op</strong> precies dezelfde wijze beoordeeld werd<strong>en</strong> via de goedof-fout<br />
methode, geeft de vergelijking CBT-RTC inzicht in <strong>het</strong> mogelijke effect van de afnamemodus.<br />
De afnamemodus bleek ge<strong>en</strong> noem<strong>en</strong>swaardig effect <strong>op</strong> de prestaties te hebb<strong>en</strong>. K<strong>en</strong>nelijk maakt<br />
<strong>het</strong> voor de prestaties niet uit of de leerling<strong>en</strong> de originele CBT mak<strong>en</strong> of e<strong>en</strong> <strong>papier<strong>en</strong></strong> scre<strong>en</strong>dump<br />
van deze versie zolang hun antwoord<strong>en</strong> maar volg<strong>en</strong>s de alles-of-niets b<strong>en</strong>adering gescoord of<br />
beoordeeld word<strong>en</strong>.<br />
Effect herformulering<br />
Voordat de vrag<strong>en</strong> van e<strong>en</strong> PPT geschikt zijn voor gebruik in e<strong>en</strong> CBT, moet<strong>en</strong> ze vaak<br />
geherformuleerd <strong>en</strong> in e<strong>en</strong> andere lay-out gezet word<strong>en</strong>. Fiddes et al. (2002) noem<strong>en</strong> dit <strong>het</strong><br />
herformuleringseffect. De vergelijking van de PPT- met de RTW-versie, die beide volg<strong>en</strong>s de partial<br />
credit methode beoordeeld werd<strong>en</strong>, geeft inzicht in <strong>het</strong> ev<strong>en</strong>tuele effect van <strong>het</strong> herformuler<strong>en</strong> van<br />
de toetsvrag<strong>en</strong>. De herformulering van de toetsvrag<strong>en</strong> bleek e<strong>en</strong> middelgroot effect <strong>op</strong> de<br />
toetsresultat<strong>en</strong> te hebb<strong>en</strong> gehad (effectgrootte .48), waarbij de RTW-versie beter gemaakt werd dan<br />
de PPT-versie. De onderzoekers schrijv<strong>en</strong> dit <strong>verschil</strong> toe aan de herformulering van de vrag<strong>en</strong> <strong>en</strong> de<br />
<strong>verschil</strong>l<strong>en</strong> in <strong>het</strong> aantal <strong>op</strong>gav<strong>en</strong> per pagina <strong>op</strong> papier <strong>en</strong> <strong>het</strong> beeldscherm.<br />
E<strong>en</strong> alternatieve verklaring verwijst naar <strong>het</strong> gegev<strong>en</strong> dat de leerling<strong>en</strong> hun uitwerking<strong>en</strong> <strong>op</strong><br />
kladpapier in <strong>het</strong> PPT-format onder elkaar <strong>op</strong>schrev<strong>en</strong>, zodat de beoordelaar gemakkelijk kon zi<strong>en</strong><br />
waar de fout<strong>en</strong> zich voorded<strong>en</strong>. In <strong>het</strong> RTW-format kond<strong>en</strong> de leerling<strong>en</strong> hun antwoord<strong>en</strong><br />
daar<strong>en</strong>teg<strong>en</strong> niet <strong>op</strong> e<strong>en</strong> lineaire manier <strong>op</strong>schrijv<strong>en</strong>. Als de leerling bijvoorbeeld in <strong>het</strong> RTW-format<br />
twee antwoord<strong>en</strong> gaf waarvan er één fout <strong>en</strong> één goed was, was veel minder duidelijk welk<br />
antwoord de leerling als <strong>het</strong> goede antwoord bedoeld had. Bijgevolg gav<strong>en</strong> de beoordelaars de<br />
leerling<strong>en</strong> in <strong>het</strong> RTW-format vaker <strong>het</strong> voordeel van de twijfel dan in <strong>het</strong> PPT-format. De<br />
onderzoekers merk<strong>en</strong> <strong>op</strong> dat deze kwestie nader onderzoek vere<strong>is</strong>t. In <strong>het</strong> onderzoek werd ge<strong>en</strong><br />
gebruik gemaakt van stapsgewijze toetsing die de onderzoekers aanbevel<strong>en</strong> als e<strong>en</strong> geschikte manier<br />
om gedeeltelijk goede antwoord<strong>en</strong> in e<strong>en</strong> CBT te belon<strong>en</strong>.<br />
Ashton, Beevers, Korabinski, Youngson <strong>en</strong> Martin (2006)<br />
Ashton, Beevers, Korabinski, Youngson <strong>en</strong> Martin (2006) borduurd<strong>en</strong> voort <strong>op</strong> <strong>het</strong> baanbrek<strong>en</strong>de<br />
onderzoek van McGuire et al. (2002). Laatstg<strong>en</strong>oemd<strong>en</strong> vond<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong> tuss<strong>en</strong> de scores die<br />
behaald war<strong>en</strong> <strong>op</strong> e<strong>en</strong> CBT met ingebouwde stapsgewijze bevraging <strong>en</strong> e<strong>en</strong> gewone PPT waarbij<br />
m<strong>en</strong>selijke beoordelaars partial credit toek<strong>en</strong>d<strong>en</strong> aan gedeeltelijk goede antwoord<strong>en</strong> <strong>op</strong> papier.<br />
McGuire et al. (2002) war<strong>en</strong> zich er echter van bewust dat stapsgewijze bevraging zou kunn<strong>en</strong> leid<strong>en</strong><br />
tot <strong>het</strong> weggev<strong>en</strong> van de ju<strong>is</strong>te <strong>op</strong>lossingsstrategie. Dit werd als minder w<strong>en</strong>selijk ervar<strong>en</strong>, omdat <strong>het</strong><br />
vind<strong>en</strong> van de ju<strong>is</strong>te <strong>op</strong>lossingsstrategie e<strong>en</strong> belangrijk leerdoel <strong>is</strong> van <strong>het</strong> vak w<strong>is</strong>kunde in <strong>het</strong><br />
voortgezet onderwijs. Het onderzoek van Ashton, Beevers, Korabinski, Youngson <strong>en</strong> Martin (2006)<br />
© Stichting Cito, Arnhem 2015 19
had tot doel e<strong>en</strong> <strong>op</strong>lossing voor dit probleem te vind<strong>en</strong>. Zij onderzocht<strong>en</strong> de volg<strong>en</strong>de twee<br />
manier<strong>en</strong> om partial credit in e<strong>en</strong> CBT toe te k<strong>en</strong>n<strong>en</strong>:<br />
<br />
<br />
Het werk<strong>en</strong> met aftrekpunt<strong>en</strong>. Om tegemoet te kom<strong>en</strong> aan <strong>het</strong> bezwaar dat de kandidat<strong>en</strong> die<br />
voor Steps koz<strong>en</strong> in sommige gevall<strong>en</strong> de strategie cadeau kreg<strong>en</strong>, werd<strong>en</strong> de punt<strong>en</strong> die zij<br />
anders voor de strategie hadd<strong>en</strong> gekreg<strong>en</strong> <strong>op</strong> hun score in mindering gebracht; zij kond<strong>en</strong> dus<br />
alle<strong>en</strong> de rester<strong>en</strong>de punt<strong>en</strong> behal<strong>en</strong>. Hiermee ho<strong>op</strong>t<strong>en</strong> de onderzoekers <strong>het</strong> antwoordmodel<br />
van de originele PPT zo goed mogelijk na te boots<strong>en</strong> (Ashton & Youngson, 2004).<br />
Het gev<strong>en</strong> van onmiddellijke feedback <strong>op</strong> kleine foutjes. De tweede aanpak was gebaseerd <strong>op</strong> de<br />
observatie dat veel foute antwoord<strong>en</strong> in e<strong>en</strong> traditionele CBT <strong>het</strong> gevolg war<strong>en</strong> van kleine rek<strong>en</strong>of<br />
slordigheidsfoutjes die in e<strong>en</strong> PPT nauwelijks tot punt<strong>en</strong>aftrek geleid zoud<strong>en</strong> hebb<strong>en</strong>. Door de<br />
kandidaat <strong>op</strong> deze kleine foutjes te att<strong>en</strong>der<strong>en</strong>, zou deze de kans krijg<strong>en</strong> om de fout te tracer<strong>en</strong><br />
<strong>en</strong> <strong>het</strong> foute antwoord door <strong>het</strong> goede te vervang<strong>en</strong>. De feedback werd gegev<strong>en</strong> in de vorm van<br />
vinkjes <strong>en</strong> kru<strong>is</strong>jes (Engels: ticks and crosses) voor respectievelijk e<strong>en</strong> goed <strong>en</strong> e<strong>en</strong> fout antwoord.<br />
In de feedbackversie kond<strong>en</strong> de kandidat<strong>en</strong> niet voor Steps kiez<strong>en</strong>. Zie voor functioner<strong>en</strong> van<br />
deze feedback de bespreking in paragraaf 3.5.<br />
Ashton et al. (2006) ontwikkeld<strong>en</strong> drie versies van <strong>het</strong>zelfde w<strong>is</strong>kunde-exam<strong>en</strong> (waarbij elke versie<br />
uit twee deeltoets<strong>en</strong> bestond):<br />
<br />
<br />
<br />
S-versie: e<strong>en</strong> CBT met <strong>op</strong>tionele Steps waarbij de kandidat<strong>en</strong> desgew<strong>en</strong>st kond<strong>en</strong> kiez<strong>en</strong> voor<br />
stapsgewijze bevraging met punt<strong>en</strong>aftrek als straf;<br />
T-versie: e<strong>en</strong> CBT zonder Steps maar met onmiddellijke feedback via vinkjes <strong>en</strong> kru<strong>is</strong>jes <strong>op</strong> <strong>het</strong><br />
scherm;<br />
R-versie: e<strong>en</strong> scre<strong>en</strong> dump van de CBT-versie zonder Steps.<br />
Er werd<strong>en</strong> twee trials uitgevoerd. In de eerste trial werd<strong>en</strong> vrag<strong>en</strong> uit <strong>het</strong> Advanced Higher<br />
Mathematics exam<strong>en</strong> gebruikt. In de tweede trial gebruikte m<strong>en</strong> vrag<strong>en</strong> uit <strong>het</strong> Higher Mathematics<br />
exam<strong>en</strong> dat qua niveau vergelijkbaar <strong>is</strong> met <strong>het</strong> A level exam<strong>en</strong> in Engeland. In de eerste trial kreg<strong>en</strong><br />
de kandidat<strong>en</strong> alle<strong>en</strong> de S- <strong>en</strong> R-versies voorgelegd <strong>en</strong> in de tweede trial alle drie versies.<br />
Alvor<strong>en</strong>s de CBT-versie met <strong>op</strong>tionele Steps te mak<strong>en</strong>, werd<strong>en</strong> de kandidat<strong>en</strong> eraan herinnerd dat de<br />
keuze voor Steps betek<strong>en</strong>de dat zij niet de maximale score kond<strong>en</strong> behal<strong>en</strong>. Kandidat<strong>en</strong> die de<br />
feedback-versie (T) maakt<strong>en</strong>, werd<strong>en</strong> geatt<strong>en</strong>deerd <strong>op</strong> de vinkjes <strong>en</strong> kru<strong>is</strong>jes die zoud<strong>en</strong> verschijn<strong>en</strong><br />
nadat zij hun antwoord hadd<strong>en</strong> ingevoerd. All<strong>en</strong> werd gevraagd hun uitwerking<strong>en</strong> <strong>op</strong> kladpapier te<br />
noter<strong>en</strong>.<br />
Bij de afname van de CBT’s blek<strong>en</strong> zich <strong>en</strong>kele uitvoeringsproblem<strong>en</strong> voor te do<strong>en</strong>. De beide CBT’s<br />
blek<strong>en</strong> meer afnametijd te verg<strong>en</strong> dan de PPT. De kandidat<strong>en</strong> die e<strong>en</strong> CBT-versie maakt<strong>en</strong>, kwam<strong>en</strong><br />
daardoor vaak in tijdnood <strong>en</strong> kreg<strong>en</strong> <strong>het</strong> exam<strong>en</strong> niet af binn<strong>en</strong> de afnametijd van één uur. De<br />
onderzoekers noem<strong>en</strong> de volg<strong>en</strong>de oorzak<strong>en</strong>:<br />
<br />
<br />
<br />
Bij de CBT’s kostte <strong>het</strong> <strong>op</strong>start<strong>en</strong> van <strong>het</strong> exam<strong>en</strong> meer tijd dan bij de PPT. De kandidat<strong>en</strong><br />
moest<strong>en</strong> <strong>verschil</strong>l<strong>en</strong>de ker<strong>en</strong> inlogg<strong>en</strong> (in de computer, <strong>het</strong> Internet <strong>en</strong> <strong>het</strong> exam<strong>en</strong>) <strong>en</strong> de weg<br />
vind<strong>en</strong> naar de ju<strong>is</strong>te webpagina van <strong>het</strong> exam<strong>en</strong>.<br />
Het intyp<strong>en</strong> van de antwoord<strong>en</strong> <strong>is</strong> tijdrov<strong>en</strong>der dan <strong>het</strong> noter<strong>en</strong> <strong>op</strong> papier.<br />
Kandidat<strong>en</strong> die bij de CBT met <strong>op</strong>tionele Steps voor Steps koz<strong>en</strong>, gebruikt<strong>en</strong> meer afnametijd dan<br />
deg<strong>en</strong><strong>en</strong> die daar niet voor koz<strong>en</strong>.<br />
© Stichting Cito, Arnhem 2015 20
In de feedback-versie onderbrak<strong>en</strong> stud<strong>en</strong>t<strong>en</strong> wellicht hun werk om e<strong>en</strong> fout antwoord te<br />
check<strong>en</strong>.<br />
E<strong>en</strong> ander uitvoeringsprobleem had te mak<strong>en</strong> met de invoer van de antwoord<strong>en</strong> <strong>op</strong> <strong>het</strong> scherm (zie<br />
ook de bespreking van de resultat<strong>en</strong> met de T-versie in paragraaf 3.5). De computer rek<strong>en</strong>de soms<br />
antwoord<strong>en</strong> fout die e<strong>en</strong> m<strong>en</strong>selijke beoordelaar wel (gedeeltelijk) goed gerek<strong>en</strong>d zou hebb<strong>en</strong>. E<strong>en</strong><br />
voorbeeld <strong>is</strong> <strong>het</strong> <strong>op</strong> zich ju<strong>is</strong>te antwoord ‘tw<strong>en</strong>ty one and a third’ waarbij de kandidat<strong>en</strong> niet altijd<br />
w<strong>is</strong>t<strong>en</strong> hoe zij de sam<strong>en</strong>gestelde breuk (Engels: fractional part) moest<strong>en</strong> invoer<strong>en</strong> <strong>op</strong>dat de<br />
computer deze zou herk<strong>en</strong>n<strong>en</strong>. E<strong>en</strong> ander voorbeeld <strong>is</strong> <strong>het</strong> verget<strong>en</strong> van haakjes, bijvoorbeeld ’sin<br />
2x’ versus ‘sin(2x)’. Omwille van de vergelijkbaarheid van de CBT- <strong>en</strong> PPT-versies werd<strong>en</strong><br />
invoerfout<strong>en</strong> die bij e<strong>en</strong> PPT niet tot punt<strong>en</strong>aftrek zoud<strong>en</strong> leid<strong>en</strong> handmatig hersteld.<br />
Advanced Higher Mathematics<br />
Bij de Advanced Higher Mathematics trial war<strong>en</strong> er twee deeltoets<strong>en</strong>. Op de eerste deeltoets<br />
behaald<strong>en</strong> de kandidat<strong>en</strong> hogere scores <strong>op</strong> de S-versie (CBT met <strong>op</strong>tionele Steps) dan <strong>op</strong> de R-versie<br />
(scre<strong>en</strong>dump van de CBT zonder Steps). E<strong>en</strong> vraag-bij-vraag analyse liet zi<strong>en</strong> dat dit vooral<br />
veroorzaakt werd door één exam<strong>en</strong>vraag die veel mogelijkhed<strong>en</strong> bood tot <strong>het</strong> mak<strong>en</strong> van<br />
rek<strong>en</strong>foutjes die dan doorwerkt<strong>en</strong> in <strong>het</strong> vervolg van de vraag (Engels: follow-through errors). In de<br />
<strong>papier<strong>en</strong></strong> R-versie kreg<strong>en</strong> de kandidat<strong>en</strong> voor deze vraag veel follow-through partial credit, terwijl de<br />
kandidat<strong>en</strong> in de S-versie daarvoor vrijwel altijd nul punt<strong>en</strong> behaald<strong>en</strong>.<br />
Op de tweede deeltoets was <strong>het</strong> <strong>verschil</strong> tuss<strong>en</strong> de S- <strong>en</strong> R-versie niet significant. De analyse van de<br />
resultat<strong>en</strong> per vraag liet zi<strong>en</strong> dat deze tweede deeltoets net als de eerste deeltoets ook e<strong>en</strong> vraag<br />
bevatte met veel mogelijkhed<strong>en</strong> tot <strong>het</strong> mak<strong>en</strong> van stapelfout<strong>en</strong>. Anders dan bij de eerste deeltoets<br />
<strong>het</strong> geval was, <strong>verschil</strong>d<strong>en</strong> de gemiddeld<strong>en</strong> <strong>op</strong> de S- <strong>en</strong> R-versie van deze vraag niet van elkaar. E<strong>en</strong><br />
nadere inspectie bracht van de antwoord<strong>en</strong> <strong>op</strong> deze vraag bracht aan <strong>het</strong> licht dat e<strong>en</strong> foutje in <strong>het</strong><br />
begin van de vraag <strong>het</strong> vrijwel onmogelijk maakte om de vraag verder te beantwoord<strong>en</strong>, waardoor<br />
de kandidat<strong>en</strong> voor <strong>het</strong> vervolg van de vraag weinig partial credit kond<strong>en</strong> verdi<strong>en</strong><strong>en</strong> (zowel in de CBT<br />
met steps als de PPT). Dit in teg<strong>en</strong>stelling tot de eerste deeltoets waar kandidat<strong>en</strong> <strong>het</strong> geluk hadd<strong>en</strong><br />
de vraag verder te kunn<strong>en</strong> beantwoord<strong>en</strong>, al was dat dan wel met de verkeerde getall<strong>en</strong>.<br />
De onderzoekers onderzocht<strong>en</strong> ook <strong>het</strong> gebruik van Steps in de S-versie. De kandidat<strong>en</strong> blek<strong>en</strong> maar<br />
weinig gebruik te mak<strong>en</strong> van Steps, mogelijk omdat zij zich real<strong>is</strong>eerd<strong>en</strong> dat <strong>het</strong> gebruik ervan tot<br />
punt<strong>en</strong>aftrek zou leid<strong>en</strong>. Het war<strong>en</strong> vooral de zwakkere kandidat<strong>en</strong> die de meeste behoefte hadd<strong>en</strong><br />
aan hulp die dan voor Steps koz<strong>en</strong>.<br />
Volg<strong>en</strong>s de onderzoekers bevestigt <strong>het</strong> onderzoek de hypothese dat - met uitzondering van die <strong>en</strong>e<br />
vraag in de eerste deeltoets - beide versies tot dezelfde scores leid<strong>en</strong> <strong>en</strong> bov<strong>en</strong>di<strong>en</strong> e<strong>en</strong> beroep do<strong>en</strong><br />
<strong>op</strong> soortgelijke k<strong>en</strong>n<strong>is</strong>.<br />
Higher Mathematics<br />
In de Higher Mathematics trial bracht de vergelijking van de gemiddelde scores <strong>op</strong> de S-, T- <strong>en</strong> R-<br />
versie ge<strong>en</strong> significante <strong>verschil</strong>l<strong>en</strong> aan <strong>het</strong> licht. Bij e<strong>en</strong> <strong>en</strong>kele vraag was de gemiddelde score <strong>op</strong> de<br />
S-versie wel lager dan die <strong>op</strong> de R-versie. E<strong>en</strong> nadere analyse liet zi<strong>en</strong> dat de door Steps gebod<strong>en</strong><br />
hulp in de S-versie onvoldo<strong>en</strong>de comp<strong>en</strong>seerde voor de deelscores die de kandidaat bij de R-versie<br />
© Stichting Cito, Arnhem 2015 21
zou hebb<strong>en</strong> gekreg<strong>en</strong>. Voor e<strong>en</strong> bespreking van de onderzoeksresultat<strong>en</strong> met betrekking tot <strong>het</strong><br />
functioner<strong>en</strong> van de T-versie wordt verwez<strong>en</strong> naar paragraaf 3.5.<br />
Op bas<strong>is</strong> van de onderzoeksresultat<strong>en</strong> bracht<strong>en</strong> de onderzoekers ook e<strong>en</strong> verbetering aan in de S-<br />
versie (CBT met steps). In de trials w<strong>is</strong>t<strong>en</strong> kandidat<strong>en</strong> al wel dat zij punt<strong>en</strong> verliez<strong>en</strong> als zij voor Steps<br />
kiez<strong>en</strong>, maar nog niet hoeveel dat er zoud<strong>en</strong> zijn. In de verbeterde versie krijg<strong>en</strong> kandidat<strong>en</strong> alvor<strong>en</strong>s<br />
ev<strong>en</strong>tueel voor Steps te kiez<strong>en</strong> feedback over <strong>het</strong> maximale aantal rester<strong>en</strong>de punt<strong>en</strong> dat zij dan nog<br />
kunn<strong>en</strong> behal<strong>en</strong>. Voor gedetailleerde informatie over de verbetering<strong>en</strong> die in de CBT met steps zijn<br />
aangebracht wordt verwez<strong>en</strong> naar de Good Practice Guide in Question and Test Design (Pass-it,<br />
2002). De resultat<strong>en</strong> van <strong>het</strong> onderzoek mak<strong>en</strong>, aldus de onderzoekers, aannemelijk dat e<strong>en</strong><br />
verbeterde CBT-versie met steps de normale <strong>papier<strong>en</strong></strong> versie van <strong>het</strong> w<strong>is</strong>kunde-exam<strong>en</strong> kan<br />
vervang<strong>en</strong>. E<strong>en</strong> vervolgonderzoek onder high-stakes condities zou dit moet<strong>en</strong> bevestig<strong>en</strong>.<br />
Darrah, Fuller <strong>en</strong> Miller (2010)<br />
Darrah, Fuller <strong>en</strong> Miller (2010) ontwierp<strong>en</strong> e<strong>en</strong> CBT voor <strong>het</strong> examiner<strong>en</strong> van w<strong>is</strong>kundige<br />
vaardighed<strong>en</strong> bij e<strong>en</strong> Introductory Calculus Course. Het <strong>digitale</strong> exam<strong>en</strong> bood zoals te do<strong>en</strong><br />
gebruikelijk ge<strong>en</strong> mogelijkhed<strong>en</strong> tot <strong>het</strong> honorer<strong>en</strong> van gedeeltelijk goede antwoord<strong>en</strong>. Anders dan<br />
bijvoorbeeld Ashton et al. (2006) ded<strong>en</strong> Darrah et al. (2010) ge<strong>en</strong> poging<strong>en</strong> om de<br />
deelscoreb<strong>en</strong>adering in hun CBT in te bouw<strong>en</strong>. In plaats daarvan legd<strong>en</strong> zij de kandidat<strong>en</strong> aan <strong>het</strong><br />
einde van <strong>het</strong> semester e<strong>en</strong> bekn<strong>op</strong>te aanvull<strong>en</strong>de toets voor over de leerstof van <strong>het</strong> hele semester.<br />
Anders dan bij de CBT werd<strong>en</strong> gedeeltelijk goede antwoord<strong>en</strong> bij deze zog<strong>en</strong>oemde Super Quiz wel<br />
beloond. Het doel van deze eindtoets was de leerling<strong>en</strong> in de geleg<strong>en</strong>heid te stell<strong>en</strong> de bij de CBT<br />
gem<strong>is</strong>te deelscores alsnog te behal<strong>en</strong>. Aan <strong>het</strong> begin van <strong>het</strong> CBT-exam<strong>en</strong> werd de kandidat<strong>en</strong><br />
verteld dat zij al hun uitwerking<strong>en</strong> <strong>en</strong> dergelijke <strong>op</strong> kladpapier moest<strong>en</strong> noter<strong>en</strong> (<strong>en</strong> inlever<strong>en</strong><br />
voordat zij de exam<strong>en</strong>zaal verliet<strong>en</strong>). Op deze manier kon hun werk word<strong>en</strong> beoordeeld als ware <strong>het</strong><br />
e<strong>en</strong> PPT waarbij de antwoord<strong>en</strong> met de hand werd<strong>en</strong> nagekek<strong>en</strong> volg<strong>en</strong>s de partial credit methode.<br />
De veronderstelling was dat de <strong>op</strong> de Super Quiz behaalde extra punt<strong>en</strong> vergelijkbaar zoud<strong>en</strong> zijn<br />
met de extra punt<strong>en</strong> die de beoordeling van <strong>het</strong> kladwerk volg<strong>en</strong>s de partial credit methode zou<br />
<strong>op</strong>lever<strong>en</strong>.<br />
De onderzoekers vergelek<strong>en</strong> de geautomat<strong>is</strong>eerde alles-of-niets scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord<br />
<strong>op</strong> de CBT met de partial credit beoordeling van de uitwerking<strong>en</strong> <strong>op</strong> kladpapier. Zoals verwacht,<br />
bleek de partial credit beoordeling tot aanmerkelijk hogere scores te leid<strong>en</strong> dan de dichotome CBTscoring.<br />
Het <strong>verschil</strong> tuss<strong>en</strong> de gemiddeld<strong>en</strong> voor de vier deeltoets<strong>en</strong> varieerde van 3.21 tot 6.10<br />
scorepunt<strong>en</strong> (bij e<strong>en</strong> gemiddelde toetsscore variër<strong>en</strong>d van 67.76 tot 80.35 <strong>en</strong> e<strong>en</strong> standaarddeviatie<br />
van de partial credit beoordeling van 9.78; de standaarddeviatie van de CBT vermeld<strong>en</strong> de<br />
onderzoekers helaas niet).<br />
Daarnaast vergelek<strong>en</strong> de onderzoekers de scores <strong>op</strong> de Super Quiz met de partial credit beoordeling<br />
van de uitwerking<strong>en</strong> <strong>op</strong> kladpapier. Zij vond<strong>en</strong> e<strong>en</strong> significant <strong>verschil</strong> in <strong>het</strong> voordeel van de Super<br />
Quiz. Zij concludeerd<strong>en</strong> daaruit dat deze eindtoets te sterk comp<strong>en</strong>seert voor de gem<strong>is</strong>te deelscores<br />
<strong>op</strong> de dichotoom gescoorde CBT.<br />
Verder vroeg<strong>en</strong> de onderzoekers zich af in hoeverre vaardige kandidat<strong>en</strong> ev<strong>en</strong>veel profiter<strong>en</strong> van de<br />
Super Quiz <strong>en</strong> de partial credit beoordeling als de minder vaardige kandidat<strong>en</strong>. Daartoe verdeeld<strong>en</strong><br />
zij de kandidat<strong>en</strong> in twee groep<strong>en</strong>: de 20% beste <strong>en</strong> de 80% zwakste stud<strong>en</strong>t<strong>en</strong>. De groep beste<br />
© Stichting Cito, Arnhem 2015 22
kandidat<strong>en</strong> bleek bij de Super Quiz veel meer van de mogelijkheid tot <strong>het</strong> behal<strong>en</strong> van bonuspunt<strong>en</strong><br />
te profiter<strong>en</strong> dan bij de partial credit beoordeling <strong>het</strong> geval was. De onderzoekers verklar<strong>en</strong> dit door<br />
te ernaar te verwijz<strong>en</strong> dat de partial credit beoordeling voor h<strong>en</strong> relatief weinig bonuspunt<strong>en</strong> kon<br />
<strong>op</strong>lever<strong>en</strong> vanwege hun reeds relatief hoge scores <strong>op</strong> de CBT. De 20% beste stud<strong>en</strong>t<strong>en</strong> verzilverd<strong>en</strong><br />
tuss<strong>en</strong> de 0% <strong>en</strong> 50% van de extra punt<strong>en</strong> die de partial credit beoordeling maximaal kon <strong>op</strong>lever<strong>en</strong>.<br />
Omdat zij in de CBT meer vrag<strong>en</strong> gem<strong>is</strong>t hadd<strong>en</strong>, kond<strong>en</strong> de 80% zwakste kandidat<strong>en</strong> meer punt<strong>en</strong><br />
‘terugverdi<strong>en</strong><strong>en</strong>’ dan de 20% beste kandidat<strong>en</strong>. Zij blek<strong>en</strong> dat echter niet te do<strong>en</strong>, noch bij de Super<br />
Quiz, noch bij de partial credit beoordeling van hun uitwerking<strong>en</strong> <strong>op</strong> kladpapier. De onderzoekers<br />
concluder<strong>en</strong> hieruit dat de betere kandidat<strong>en</strong> meer profiter<strong>en</strong> van de partial credit beoordeling dan<br />
de zwakkere kandidat<strong>en</strong>, maar dat de rangord<strong>en</strong>ing van de kandidat<strong>en</strong> in de meeste gevall<strong>en</strong> gelijk<br />
was geblev<strong>en</strong>. Dit laatste bleek ook uit e<strong>en</strong> vergelijking van de frequ<strong>en</strong>tieverdeling<strong>en</strong> van de cijfers<br />
<strong>op</strong> bas<strong>is</strong> van de CBT <strong>en</strong> de partial credit beoordeling.<br />
In <strong>het</strong> onderzoek <strong>is</strong> de stud<strong>en</strong>t<strong>en</strong> na aflo<strong>op</strong> van <strong>het</strong> onderzoek gevraagd naar hun voorkeur voor<br />
<strong>papier<strong>en</strong></strong> <strong>en</strong> <strong>digitale</strong> examinering. Op de vraag ‘Als je zou kunn<strong>en</strong> kiez<strong>en</strong>, zou je dan de voorkeur<br />
gev<strong>en</strong> aan e<strong>en</strong> <strong>papier<strong>en</strong></strong> exam<strong>en</strong> bov<strong>en</strong> e<strong>en</strong> gecomputer<strong>is</strong>eerd exam<strong>en</strong>’ antwoordde 48% van de<br />
stud<strong>en</strong>t<strong>en</strong> met Ja, 25% met Nee <strong>en</strong> 27% had ge<strong>en</strong> voorkeur. Van de stud<strong>en</strong>t<strong>en</strong> die de <strong>op</strong><strong>en</strong> vraag<br />
Please make other comm<strong>en</strong>ts about computerized exams beantwoordd<strong>en</strong>, noemde de helft <strong>het</strong><br />
nadeel dat <strong>het</strong> <strong>digitale</strong> exam<strong>en</strong> ge<strong>en</strong> partial credit toeliet.<br />
3.3 Mogelijkhed<strong>en</strong> van item review<br />
Inleiding<br />
Volg<strong>en</strong>s de bek<strong>en</strong>de APA-richtlijn<strong>en</strong> (1986) di<strong>en</strong><strong>en</strong> kandidat<strong>en</strong> de geleg<strong>en</strong>heid te krijg<strong>en</strong> om hun<br />
antwoord<strong>en</strong> te herzi<strong>en</strong>. W<strong>is</strong>e <strong>en</strong> Plake (1989) verstaan onder item review a) <strong>het</strong> overslaan van vrag<strong>en</strong><br />
om deze later te beantwoord<strong>en</strong>, b) <strong>het</strong> bekijk<strong>en</strong> van eerder gegev<strong>en</strong> antwoord<strong>en</strong> <strong>en</strong> c) <strong>het</strong><br />
verander<strong>en</strong> van eerder gegev<strong>en</strong> antwoord<strong>en</strong>. Verondersteld wordt dat item review e<strong>en</strong> positieve<br />
bijdrage levert aan de validiteit van de meting (V<strong>is</strong>poel, 2000; Schwarz, McMorr<strong>is</strong> & DeMers, 1991).<br />
De kandidaat kan immers fout<strong>en</strong> corriger<strong>en</strong> die <strong>het</strong> gevolg zijn van a) schrijf-, notatie-, type- <strong>en</strong><br />
invoerfout<strong>en</strong>, b) <strong>het</strong> in eerste instantie verkeerd interpreter<strong>en</strong> van exam<strong>en</strong>vrag<strong>en</strong>, c) tijdelijke<br />
fluctuaties in <strong>het</strong> conc<strong>en</strong>tratievermog<strong>en</strong>, <strong>en</strong> c) <strong>het</strong> <strong>op</strong>nieuw overd<strong>en</strong>k<strong>en</strong> van eerder gegev<strong>en</strong><br />
antwoord<strong>en</strong>. Daarnaast kan <strong>het</strong> toestaan van item review toetsangst verminder<strong>en</strong>, met name bij laag<br />
vaardige leerling<strong>en</strong>. Anders dan PPT biedt de eerste-g<strong>en</strong>eratie CBT ge<strong>en</strong> mogelijkhed<strong>en</strong> tot item<br />
review. Hierna besprek<strong>en</strong> we <strong>het</strong> gevond<strong>en</strong> onderzoek naar item review <strong>en</strong> <strong>het</strong> effect ervan <strong>op</strong> de<br />
prestaties. Hierbij merk<strong>en</strong> we <strong>op</strong> dat de rek<strong>en</strong>toets<strong>en</strong> anno 2015 ruime mogelijkhed<strong>en</strong> bied<strong>en</strong> tot<br />
item review.<br />
Resultat<strong>en</strong>: reviews <strong>en</strong> meta-analyses<br />
Mueller <strong>en</strong> Wasser (1977)<br />
Mueller <strong>en</strong> Wasser (1977) analyseerd<strong>en</strong> de resultat<strong>en</strong> van achtti<strong>en</strong> studies naar <strong>het</strong> effect van item<br />
review <strong>op</strong> de prestaties van <strong>papier<strong>en</strong></strong> meerkeuzetoets<strong>en</strong>. Zij rapporter<strong>en</strong> winst-verlies ratio’s tuss<strong>en</strong><br />
de 2.3 : 1 <strong>en</strong> 5.3 : 1. Dit betek<strong>en</strong>t dat verandering<strong>en</strong> van e<strong>en</strong> fout naar e<strong>en</strong> goed antwoord twee à vijf<br />
keer zo vaak voorkom<strong>en</strong> dan verandering<strong>en</strong> van e<strong>en</strong> goed naar e<strong>en</strong> fout antwoord. De conclusie was<br />
© Stichting Cito, Arnhem 2015 23
dat item review e<strong>en</strong> positieve bijdrage aan de prestaties levert <strong>en</strong> dat de meer vaardige leerling<strong>en</strong><br />
daar meer van profiteerd<strong>en</strong> dan de minder vaardige leerling<strong>en</strong>.<br />
B<strong>en</strong>jamin, Cavell <strong>en</strong> Shall<strong>en</strong>berger (1984)<br />
B<strong>en</strong>jamin, Cavell and Shall<strong>en</strong>berger (1984) analyseerd<strong>en</strong> 33 studies naar item review bij <strong>papier<strong>en</strong></strong><br />
toets<strong>en</strong>. Hun conclusie luidde als volgt: “…after more than a half c<strong>en</strong>tury of research on th<strong>is</strong> t<strong>op</strong>ic"<br />
the evid<strong>en</strong>ce uniformly indicates that a) only a small perc<strong>en</strong>tage of answers are actually changed, b)<br />
the majority of answers are changed from wrong to right, c) most test takers are answer changers,<br />
and d) most answer changers are point gainers” (p. 133).<br />
Resultat<strong>en</strong>: individuele studies<br />
Lee <strong>en</strong> H<strong>op</strong>kins (1985)<br />
Lee <strong>en</strong> H<strong>op</strong>kins (1985) vergelek<strong>en</strong> e<strong>en</strong> PPT- <strong>en</strong> CBT-versie van e<strong>en</strong> red<strong>en</strong>eertoets w<strong>is</strong>kunde. De CBT<br />
bood ge<strong>en</strong> mogelijkhed<strong>en</strong> tot item review. De stud<strong>en</strong>t<strong>en</strong> behaald<strong>en</strong> hogere scores <strong>op</strong> de PPT dan de<br />
CBT. De onderzoekers concludeerd<strong>en</strong> dat item review van invloed <strong>is</strong> <strong>op</strong> de prestaties <strong>en</strong> betoogd<strong>en</strong><br />
dat “only software that allows the conv<strong>en</strong>i<strong>en</strong>ces of paper-and-p<strong>en</strong>cil tests, e.g., the ability to change<br />
answers and the ability to review past items, be used in future applications” (p. 9).<br />
Terzijde zij <strong>op</strong>gemerkt dat Russell, Goldberg <strong>en</strong> O’Connor (2003) melding mak<strong>en</strong> van twee andere<br />
vroege studies - naast die van Lee <strong>en</strong> H<strong>op</strong>kins uit 1985 - naar w<strong>is</strong>kundig red<strong>en</strong>er<strong>en</strong>. De resultat<strong>en</strong><br />
ervan war<strong>en</strong> w<strong>is</strong>sel<strong>en</strong>d: afname per computer bleek zowel van positieve invloed (Johnson & Mihal,<br />
1973) als van negatieve invloed (Lee, Mor<strong>en</strong>o & Sympson, 1986) <strong>op</strong> de w<strong>is</strong>kundeprestaties. Zoals we<br />
hierna zull<strong>en</strong> zi<strong>en</strong>, zijn de resultat<strong>en</strong> van Lee <strong>en</strong> H<strong>op</strong>kins (1985) in diverse studies bevestigt (V<strong>is</strong>poel,<br />
1998; W<strong>is</strong>e & Plake, 1989; 2000; V<strong>is</strong>poel, Wang, de la Torre, Bleiler & Dings, 1992).<br />
V<strong>is</strong>poel (1988, 2000) <strong>en</strong> V<strong>is</strong>poel, Wang, De la Torre, Bleiler <strong>en</strong> Dings (1992)<br />
V<strong>is</strong>poel (1988, 2000) <strong>en</strong> V<strong>is</strong>poel, Wang, De la Torre, Bleiler <strong>en</strong> Dings (1992) bestudeerd<strong>en</strong> de<br />
antwoord<strong>en</strong> van kandidat<strong>en</strong> <strong>op</strong> e<strong>en</strong> CBT-woord<strong>en</strong>schattoets voorafgaand <strong>en</strong> nadat zij de<br />
mogelijkheid tot item review hadd<strong>en</strong> gekreg<strong>en</strong>. De resultat<strong>en</strong> lat<strong>en</strong> zi<strong>en</strong> dat veel kandidat<strong>en</strong> hun<br />
antwoord<strong>en</strong> herzi<strong>en</strong>; zij do<strong>en</strong> dat echter slechts bij e<strong>en</strong> klein deel van de items. V<strong>is</strong>poel (1998) vond<br />
dat 67% van de kandidat<strong>en</strong> e<strong>en</strong> of meer antwoord<strong>en</strong> hadd<strong>en</strong> gewijzigd. In <strong>het</strong> onderzoek van<br />
V<strong>is</strong>pool (2000) maakte bijna de helft van de kandidat<strong>en</strong> (45%) gebruik van de mogelijkheid tot item<br />
review, maar minder dan 4% bracht daadwerkelijk één of meer verandering<strong>en</strong> aan.<br />
Item review in e<strong>en</strong> woord<strong>en</strong>schattoets heeft e<strong>en</strong> positief effect <strong>op</strong> de prestaties. V<strong>is</strong>poel (2000) vond<br />
bijvoorbeeld dat de kandidat<strong>en</strong> <strong>het</strong> antwoord ruim twee keer vaker van fout naar goed corrigeerd<strong>en</strong><br />
dan van goed naar fout (2.25 : 1). Wel had item review tot gevolg dat de afnametijd aanzi<strong>en</strong>lijk<br />
to<strong>en</strong>am, al ging dit minder <strong>op</strong> voor hoog dan voor laag vaardige leerling<strong>en</strong>. Naarmate kandidat<strong>en</strong><br />
vaardiger war<strong>en</strong>, nam <strong>het</strong> aantal veranderde antwoord<strong>en</strong> af e<strong>en</strong> steeg de fout-naar-goed ratio (4 : 1).<br />
Tot slot blek<strong>en</strong> de kandidat<strong>en</strong> de mogelijkheid tot item review zeer <strong>op</strong> prijs te stell<strong>en</strong>. Ook<br />
V<strong>is</strong>poel et al. (1992) concludeerd<strong>en</strong> dat <strong>het</strong> kunn<strong>en</strong> terugzi<strong>en</strong> <strong>en</strong> verander<strong>en</strong> van de antwoord<strong>en</strong> <strong>op</strong><br />
e<strong>en</strong> woord<strong>en</strong>schattoets e<strong>en</strong> positief effect had <strong>op</strong> de prestaties. Daarnaast zorgde item review voor<br />
e<strong>en</strong> kleine afname van de meetnauwkeurigheid <strong>en</strong> e<strong>en</strong> to<strong>en</strong>ame van de totale afnametijd. En<br />
wederom hadd<strong>en</strong> de kandidat<strong>en</strong> e<strong>en</strong> sterke voorkeur voor item review.<br />
© Stichting Cito, Arnhem 2015 24
W<strong>is</strong>e <strong>en</strong> Plake (1989)<br />
W<strong>is</strong>e <strong>en</strong> Plake (1989) ging<strong>en</strong> na in hoeverre <strong>het</strong> ontbrek<strong>en</strong> van de mogelijkhed<strong>en</strong> tot item review in<br />
de eerste-g<strong>en</strong>eratie CBT de prestaties nadelig beïnvloedt. Als mogelijke oorzak<strong>en</strong> voor <strong>het</strong><br />
onderstelde negatieve effect <strong>op</strong> de prestaties noem<strong>en</strong> zij: a) <strong>het</strong> niet kunn<strong>en</strong> overslaan van vrag<strong>en</strong><br />
om deze later te beantwoord<strong>en</strong>, b) <strong>het</strong> niet kunn<strong>en</strong> bekijk<strong>en</strong> van eerder gegev<strong>en</strong> antwoord<strong>en</strong> <strong>en</strong> c)<br />
<strong>het</strong> niet kunn<strong>en</strong> verander<strong>en</strong> van eerder gegev<strong>en</strong> antwoord<strong>en</strong>. Zij verwachtt<strong>en</strong> dat meer flexibiliteit<br />
zou leid<strong>en</strong> tot hogere prestaties, maar ook tot e<strong>en</strong> to<strong>en</strong>ame van de toetstijd. Het <strong>en</strong>ige onderzoek<br />
dat W<strong>is</strong>e <strong>en</strong> Plake <strong>op</strong> dit terrein kond<strong>en</strong> vind<strong>en</strong>, was <strong>het</strong> niet gepubliceerde promotie-onderzoek van<br />
Harvey (1989). Zij ontwikkelde e<strong>en</strong> CBT waarin de drie hiervoor g<strong>en</strong>oemde k<strong>en</strong>merk<strong>en</strong><br />
geïmplem<strong>en</strong>teerd war<strong>en</strong> <strong>en</strong> vergeleek deze versie met e<strong>en</strong> CBT zonder deze k<strong>en</strong>merk<strong>en</strong>. Er werd<strong>en</strong><br />
ge<strong>en</strong> significante <strong>verschil</strong>l<strong>en</strong> in de prestaties <strong>op</strong> beide versie gevond<strong>en</strong>. De resultat<strong>en</strong> moet<strong>en</strong> echter<br />
met de nodige voorzichtigheid geïnterpreteerd word<strong>en</strong> omdat de motivatie van de stud<strong>en</strong>t<strong>en</strong> te<br />
w<strong>en</strong>s<strong>en</strong> overliet.<br />
Schwartz, McMorr<strong>is</strong> <strong>en</strong> DeMers (1991)<br />
Schwartz, McMorr<strong>is</strong> and DeMers (1991) bestudeerd<strong>en</strong> de red<strong>en</strong><strong>en</strong> van kandidat<strong>en</strong> om antwoord<strong>en</strong><br />
<strong>op</strong> toetsvrag<strong>en</strong> te verander<strong>en</strong>. De meerderheid van de leerling<strong>en</strong> bleek dat te do<strong>en</strong> om <strong>wat</strong> de<br />
onderzoekers legitieme red<strong>en</strong><strong>en</strong> noem<strong>en</strong>. Bijna de helft (45%) van de leerling<strong>en</strong> zegt antwoord<strong>en</strong> te<br />
verander<strong>en</strong> omdat zij de vraagstelling na herlez<strong>en</strong> beter begrep<strong>en</strong>, bijna e<strong>en</strong> derde (31%) omdat zij<br />
de vraag daardoor beter kond<strong>en</strong> overd<strong>en</strong>k<strong>en</strong> <strong>en</strong> herconceptual<strong>is</strong>er<strong>en</strong> <strong>en</strong> e<strong>en</strong> vijfde (20%) omdat zij<br />
zich daardoor meer informatie kond<strong>en</strong> herinner<strong>en</strong>. Verder blek<strong>en</strong> de middelmatige <strong>en</strong> betere<br />
leerling<strong>en</strong> meer te profiter<strong>en</strong> van item review dan de zwakkere leerling<strong>en</strong>. Volg<strong>en</strong>s de auteurs <strong>is</strong> <strong>het</strong><br />
niet meer dan billijk dat leerling<strong>en</strong> de kans krijg<strong>en</strong> hun werkelijke k<strong>en</strong>n<strong>is</strong> te demonstrer<strong>en</strong> door hun<br />
werk te controler<strong>en</strong> <strong>op</strong> invoerfout<strong>en</strong> <strong>en</strong> ontdekte fout<strong>en</strong> te verbeter<strong>en</strong>.<br />
Lunz, Bergstrom <strong>en</strong> Wright (1992)<br />
Lunz, Bergstrom <strong>en</strong> Wright (1992) ontwikkeld<strong>en</strong> e<strong>en</strong> CAT-exam<strong>en</strong> med<strong>is</strong>che technologie. Volg<strong>en</strong>s e<strong>en</strong><br />
experim<strong>en</strong>teel onderzoeksontwerp wez<strong>en</strong> zij kandidat<strong>en</strong> random toe aan vier condities die van<br />
elkaar <strong>verschil</strong>d<strong>en</strong> in de mogelijkhed<strong>en</strong> van item review:<br />
<br />
<br />
<br />
<br />
Skip. In de zog<strong>en</strong>oemde skip condition kon de kandidaat bij elk toegewez<strong>en</strong> item ervoor kiez<strong>en</strong><br />
de vraag al dan niet te beantwoord<strong>en</strong>. Verkoos de kandidaat e<strong>en</strong> item niet te beantwoord<strong>en</strong>, dan<br />
kreeg hij of zij e<strong>en</strong> andere item van vergelijkbare moeilijkheidsgraad over <strong>het</strong>zelfde inhoudelijk<br />
gebied toegewez<strong>en</strong>. E<strong>en</strong>maal overgeslag<strong>en</strong> items mocht<strong>en</strong> niet alsnog geprobeerd word<strong>en</strong>. Deze<br />
conditie bood de kandidaat maximale controle over <strong>het</strong> exam<strong>en</strong>.<br />
Review. In de zog<strong>en</strong>oemde review condition maakte de kandidaat alle items, maar na <strong>het</strong> laatste<br />
item mocht<strong>en</strong> zij hun antwoord<strong>en</strong> bekijk<strong>en</strong> <strong>en</strong> zo nodig herzi<strong>en</strong>. De onderzoekers merk<strong>en</strong> <strong>op</strong> dat<br />
kandidat<strong>en</strong> m<strong>en</strong><strong>en</strong> recht te hebb<strong>en</strong> <strong>op</strong> item review, <strong>en</strong> daar vaak in getraind zijn.<br />
Defer. Ook in de zog<strong>en</strong>oemde defer condition moest de kandidaat alle toegewez<strong>en</strong> items<br />
beantwoord<strong>en</strong>, maar zij kond<strong>en</strong> <strong>het</strong> beantwoord<strong>en</strong> van e<strong>en</strong> item uitstell<strong>en</strong> tot aan <strong>het</strong> einde van<br />
<strong>het</strong> exam<strong>en</strong>. Was <strong>het</strong> laatste item gemaakt, kreeg de kandidaat de uitgestelde items alsnog<br />
aangebod<strong>en</strong>. De reeds beantwoorde items kreeg de kandidaat niet nogmaals te zi<strong>en</strong>. De<br />
kandidaat kon dus zelf bepal<strong>en</strong> wanneer hij of zij <strong>het</strong> item wilde beantwoord<strong>en</strong>, maar<br />
beantwoordde wel alle items.<br />
Non. In de zog<strong>en</strong>oemde non condition had de kandidaat ge<strong>en</strong> <strong>en</strong>kele controle over <strong>het</strong> exam<strong>en</strong>.<br />
Elk item werd beantwoord <strong>op</strong> <strong>het</strong> mom<strong>en</strong>t van toewijzing, <strong>en</strong> de kandidaat mocht ge<strong>en</strong> items<br />
© Stichting Cito, Arnhem 2015 25
overslaan, uitstell<strong>en</strong> of terugker<strong>en</strong> naar eerder aangebod<strong>en</strong> items. Deze vierde conditie biedt<br />
<strong>op</strong>timale psychometr<strong>is</strong>che controle over <strong>het</strong> exam<strong>en</strong>.<br />
Hoe minder de kandidaat invloed <strong>op</strong> <strong>het</strong> exam<strong>en</strong> kon uitoef<strong>en</strong><strong>en</strong>, hoe lager de prestaties. De<br />
<strong>verschil</strong>l<strong>en</strong> in gemiddelde prestaties tuss<strong>en</strong> de vier condities war<strong>en</strong> echter slechts in één geval<br />
significant (te wet<strong>en</strong>: de vergelijking van de skip- versus de non-condition).<br />
In de skip-conditie maakte bijna twee derde (64%) van de kandidat<strong>en</strong> gebruik van de mogelijkheid<br />
om items over te slaan. Daarbij werd 9% van de items daadwerkelijk overgeslag<strong>en</strong> (d.w.z. geweigerd<br />
waarna de kandidaat e<strong>en</strong> vervang<strong>en</strong>d item kreeg aangebod<strong>en</strong>). Kandidat<strong>en</strong> in de skip-conditie<br />
presteerd<strong>en</strong> significant hoger dan deg<strong>en</strong><strong>en</strong> die ge<strong>en</strong> controle hadd<strong>en</strong> over hun adaptieve toets. Ter<br />
verklaring verwijz<strong>en</strong> de onderzoekers naar <strong>het</strong> gevoel van veiligheid <strong>en</strong> <strong>het</strong> vertrouw<strong>en</strong> dat<br />
kandidat<strong>en</strong> ervar<strong>en</strong> als ze wet<strong>en</strong> dat ze hun antwoord<strong>en</strong> mog<strong>en</strong> herzi<strong>en</strong> <strong>en</strong> slordigheidsfoutjes<br />
kunn<strong>en</strong> herstell<strong>en</strong> (zie ook Bergstrom & Lunz, 1992).<br />
In de review-conditie maakte 61% van de kandidat<strong>en</strong> gebruik van de mogelijkheid om antwoord<strong>en</strong> te<br />
herzi<strong>en</strong> <strong>en</strong> zo nodig te verander<strong>en</strong>. Daarbij werd 2% van de antwoord<strong>en</strong> daadwerkelijk veranderd.<br />
Item review leidde tot e<strong>en</strong> kleine verbetering van de prestaties, alhoewel <strong>het</strong> <strong>verschil</strong> niet significant<br />
was. De meeste kandidat<strong>en</strong> die antwoord<strong>en</strong> veranderd<strong>en</strong>, ded<strong>en</strong> dat bij tuss<strong>en</strong> de één <strong>en</strong> vier items.<br />
De conclusie was dat review van minimale invloed <strong>op</strong> de prestaties <strong>is</strong>.<br />
In de defer-conditie maakte bijna de helft (45%) van de kandidat<strong>en</strong> gebruik van deze mogelijkheid.<br />
Daarbij werd bij 2.5% van de items de beantwoording uitgesteld tot aan <strong>het</strong> einde van <strong>het</strong> exam<strong>en</strong>.<br />
Kandidat<strong>en</strong> blek<strong>en</strong> vooral moeilijke items uit te stell<strong>en</strong>. Ge<strong>en</strong> van de toetsing<strong>en</strong> van de <strong>verschil</strong>l<strong>en</strong><br />
met de prestaties in de drie andere condities gaf significantie te zi<strong>en</strong>.<br />
Binn<strong>en</strong> elk van de condities war<strong>en</strong> er kandidat<strong>en</strong> die ge<strong>en</strong> gebruik maakt<strong>en</strong> van de mogelijkheid tot<br />
overslaan, uitstell<strong>en</strong> of herzi<strong>en</strong>. Tuss<strong>en</strong> de groep die dat wel <strong>en</strong> niet deed, war<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong>l<strong>en</strong> in<br />
gemiddelde prestatie aantoonbaar <strong>en</strong> dat gold binn<strong>en</strong> elk van de drie condities.<br />
Tot sluit wijz<strong>en</strong> we er<strong>op</strong> dat de resultat<strong>en</strong> van deze studie verkreg<strong>en</strong> zijn met e<strong>en</strong> CAT. In e<strong>en</strong> CAT <strong>is</strong><br />
item review om <strong>verschil</strong>l<strong>en</strong>de red<strong>en</strong><strong>en</strong> veel problemat<strong>is</strong>cher dan in e<strong>en</strong> lineaire CBT. De resultat<strong>en</strong><br />
van Lunz et al. (1992) zijn dan ook beperkt g<strong>en</strong>eral<strong>is</strong>eerbaar naar lineaire CBT.<br />
Olea, Revuelta, Ximénez <strong>en</strong> Abad (2000)<br />
Olea, Revuelta, Ximénez <strong>en</strong> Abad (2000) vergelek<strong>en</strong> twee <strong>digitale</strong> versies (met <strong>en</strong> zonder item<br />
review) van e<strong>en</strong> lineaire <strong>en</strong> e<strong>en</strong> adaptieve Engelse woord<strong>en</strong>schattoets bij e<strong>en</strong> steekproef van<br />
Spaanstalige eerste jaarstud<strong>en</strong>t<strong>en</strong> psychologie. Van alle stud<strong>en</strong>t<strong>en</strong> veranderde 82% één of meer<br />
antwoord<strong>en</strong> waarbij 14% van de antwoord<strong>en</strong> gewijzigd werd. Het toestaan van item review<br />
resulteerde in e<strong>en</strong> hoger perc<strong>en</strong>tage goede antwoord<strong>en</strong> <strong>en</strong> e<strong>en</strong> hogere vaardigheid van de<br />
leerling<strong>en</strong>, maar ook in e<strong>en</strong> aanzi<strong>en</strong>lijke to<strong>en</strong>ame van de afnametijd. De correlatie tuss<strong>en</strong> de scores<br />
zonder <strong>en</strong> met item review bedroeg .94 voor de lineaire CBT <strong>en</strong> .95 voor de adaptieve CBT (CAT).<br />
© Stichting Cito, Arnhem 2015 26
Mason, Patry <strong>en</strong> Bernstein (2001)<br />
Mason, Patry <strong>en</strong> Bernstein (2001) vergelek<strong>en</strong> de scores <strong>op</strong> PPT <strong>en</strong> CBT met e<strong>en</strong> vergelijkbare<br />
flexibiliteit. Dit wil zegg<strong>en</strong>: met vergelijkbare mogelijkhed<strong>en</strong> om terug te ker<strong>en</strong> naar eerder gemaakte<br />
vrag<strong>en</strong>, vrag<strong>en</strong> over te slaan, antwoord<strong>en</strong> <strong>op</strong>nieuw te bekijk<strong>en</strong> <strong>en</strong> zo nodig te verander<strong>en</strong> <strong>en</strong><br />
dergelijke. Aan <strong>het</strong> onderzoek nam<strong>en</strong> 27 psychologiestud<strong>en</strong>t<strong>en</strong> deel. Voor de prestaties bleek <strong>het</strong><br />
niet uit te mak<strong>en</strong> of de stud<strong>en</strong>t<strong>en</strong> de PPT of de CBT maakt<strong>en</strong>. De onderzoekers schrijv<strong>en</strong> dit toe aan<br />
<strong>het</strong> gegev<strong>en</strong> dat hun CBT de flexibiliteit van e<strong>en</strong> PPT nauwkeurig nabootste (<strong>en</strong> de motivatie van de<br />
stud<strong>en</strong>t<strong>en</strong> in beide condities ev<strong>en</strong> hoog was). De kandidat<strong>en</strong> kond<strong>en</strong> <strong>op</strong> effectieve wijze door de CBT<br />
naviger<strong>en</strong> <strong>en</strong> behaald<strong>en</strong> daardoor met PPT equival<strong>en</strong>te scores.<br />
Russell, Goldberg <strong>en</strong> O’Connor (2003)<br />
Op bas<strong>is</strong> van e<strong>en</strong> review concluder<strong>en</strong> Russell et al. (2003) dat ”admin<strong>is</strong>tration factors, such as<br />
transfer of problems from the scre<strong>en</strong> to scratchwork space, lack of scratchwork space, and inability to<br />
review and/or skip individual test items, were found to affect [computer-based] test performance<br />
significantly” (p. 282). Verder concluder<strong>en</strong> zij dat “research on some mathematics tests indicates that<br />
validity <strong>is</strong> threat<strong>en</strong>ed wh<strong>en</strong> stud<strong>en</strong>ts experi<strong>en</strong>ce difficulty accessing scratch paper in which they<br />
perform calculations” (p. 288). Voor e<strong>en</strong> bespreking van de uitkomst<strong>en</strong> van de door h<strong>en</strong> aangehaalde<br />
studies wordt de geïnteresseerde lezer verwez<strong>en</strong> naar paragraaf 3.4 <strong>en</strong> 3.5 van dit rapport.<br />
Revuelta, Ximénez <strong>en</strong> Olea (2003)<br />
Revuelta, Ximénez <strong>en</strong> Olea (2003) nam<strong>en</strong> drie versies van e<strong>en</strong> <strong>digitale</strong> test Engels voor Spaanstalige<br />
eerste-jaarstud<strong>en</strong>t<strong>en</strong> psychologie. De drie versies war<strong>en</strong> lineaire CBT, adaptieve CAT <strong>en</strong> e<strong>en</strong> CATversie<br />
(ECAT) met toewijzing van iets gemakkelijkere items dan bij de ‘gewone’ CAT. De vier condities<br />
war<strong>en</strong>: ge<strong>en</strong> item review, review alle<strong>en</strong> aan <strong>het</strong> einde van de toets, review per blok van vijf items <strong>en</strong><br />
review voor elk item.<br />
Item review resulteerde bij alle drie versies in hogere prestaties, maar ook in e<strong>en</strong> aanzi<strong>en</strong>lijke<br />
verl<strong>en</strong>ging van de toetstijd (gemiddeld over alle versies <strong>en</strong> condities met 21%). Van alle leerling<strong>en</strong><br />
maakte 90% gebruik van de mogelijkhed<strong>en</strong> tot item review, waarvan 65% van item review<br />
profiteerd<strong>en</strong>.<br />
De onderzoekers rapporter<strong>en</strong> ook de uitkomst<strong>en</strong> afzonderlijk voor de lineaire CBT-versie (die <strong>het</strong><br />
meest vergelijkbaar <strong>is</strong> met de rek<strong>en</strong>toets). Van de leerling<strong>en</strong> maakte 87% gebruik van item review.<br />
Van alle antwoord<strong>en</strong> werd 16% gewijzigd. Van de gewijzigde antwoord<strong>en</strong> werd 59% gewijzigd van<br />
fout naar fout, 32% van fout naar goed <strong>en</strong> 9% van goed naar fout. Van alle leerling<strong>en</strong> in de CBTconditie<br />
profiteerde 64% van item review.<br />
Paek (2005)<br />
Paek (2005) reviewde e<strong>en</strong> aantal K12-studies met meerkeuzetoets<strong>en</strong> die vóór <strong>en</strong> na 1993 war<strong>en</strong><br />
uitgevoerd. Zij concludeert dat de scores <strong>op</strong> rec<strong>en</strong>tere PPT <strong>en</strong> CBT vergelijkbaar zijn over leerjar<strong>en</strong> <strong>en</strong><br />
vakgebied<strong>en</strong>. Zij geeft hiervoor twee mogelijke verklaring<strong>en</strong>. E<strong>en</strong> eerste verklaring <strong>is</strong> dat kandidat<strong>en</strong><br />
teg<strong>en</strong>woordig vaardiger zijn in <strong>het</strong> gebruik van de computer dan voorhe<strong>en</strong>. Als tweede verklaring<br />
noemt zij <strong>het</strong> gegev<strong>en</strong> dat moderne toets-system<strong>en</strong> vergelijkbare mogelijkhed<strong>en</strong> bied<strong>en</strong> om vooruit<br />
<strong>en</strong> achteruit te blader<strong>en</strong>, items over te slaan <strong>en</strong> itemantwoord<strong>en</strong> te bekijk<strong>en</strong> <strong>en</strong> te verander<strong>en</strong> als<br />
traditionele <strong>papier<strong>en</strong></strong> toets<strong>en</strong>. De nieuwe navigatietools mak<strong>en</strong> <strong>het</strong> mogelijk dezelfde test-takingstrategies<br />
toe te pass<strong>en</strong> als bij <strong>papier<strong>en</strong></strong> toets<strong>en</strong>, met als resultaat meer equival<strong>en</strong>te scores. E<strong>en</strong><br />
uitzondering vorm<strong>en</strong> meerkeuze-items met lange leestekst<strong>en</strong> waar kandidat<strong>en</strong> moet<strong>en</strong> scroll<strong>en</strong>: die<br />
© Stichting Cito, Arnhem 2015 27
zijn digitaal nog steeds moeilijker dan <strong>op</strong> papier. Bij rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde zijn lange tekst<strong>en</strong> echter e<strong>en</strong><br />
zeldzaamheid, al komt <strong>het</strong> wel voor dat informatie verdeeld <strong>is</strong> over meer beeldschermpagina’s <strong>en</strong><br />
kandidat<strong>en</strong> dus moet<strong>en</strong> scroll<strong>en</strong>. Zie paragraaf 3.1 voor meer informatie over deze review.<br />
Leeson (2006)<br />
Leeson (2006) geeft e<strong>en</strong> sam<strong>en</strong>vatting van zev<strong>en</strong>tig jaar onderzoek naar <strong>het</strong> effect van <strong>het</strong> al dan niet<br />
kunn<strong>en</strong> herzi<strong>en</strong> van antwoord<strong>en</strong> <strong>op</strong> toetsvrag<strong>en</strong>. Onder item review verstaat zij de mogelijkheid om<br />
items <strong>op</strong>nieuw te bekijk<strong>en</strong>, over te slaan <strong>en</strong> gegev<strong>en</strong> antwoord<strong>en</strong> te verander<strong>en</strong>. De resultat<strong>en</strong> lat<strong>en</strong><br />
volg<strong>en</strong>s haar cons<strong>is</strong>t<strong>en</strong>t zi<strong>en</strong> dat de meerderheid van de kandidat<strong>en</strong> slechts e<strong>en</strong> klein aantal<br />
antwoord<strong>en</strong> verandert, waardoor de toetsresultat<strong>en</strong> meestal verbeter<strong>en</strong>.<br />
Leeson merkt <strong>op</strong> dat item review in de meeste lineaire CBT nog niet mogelijk <strong>is</strong>, maar dat er<br />
teg<strong>en</strong>woordig goede algoritm<strong>en</strong> bestaan die structurele review mogelijk mak<strong>en</strong>.<br />
Leeson (2006) noemt <strong>het</strong> volg<strong>en</strong>de onderzoek naar <strong>het</strong> effect van <strong>het</strong> toestaan van item review in<br />
lineaire CBT <strong>op</strong> de toetsprestaties:<br />
<br />
<br />
<br />
<br />
Van e<strong>en</strong> meerkeuze-exam<strong>en</strong> vergelek<strong>en</strong> Eaves <strong>en</strong> Smith (1986) e<strong>en</strong> PPT-versie met<br />
mogelijkhed<strong>en</strong> tot item review <strong>en</strong> e<strong>en</strong> CBT-versie zonder deze mogelijkhed<strong>en</strong> <strong>en</strong> vond<strong>en</strong> ge<strong>en</strong><br />
<strong>verschil</strong> in gemiddelde prestaties.<br />
Spray, Ackerman, Reckase <strong>en</strong> Carlson (1989) vergelek<strong>en</strong> e<strong>en</strong> PPT met e<strong>en</strong> CBT waarbij<br />
kandidat<strong>en</strong> vrij door de toets kond<strong>en</strong> naviger<strong>en</strong> <strong>en</strong> waarbij zij eerdere antwoord<strong>en</strong> kond<strong>en</strong><br />
bekijk<strong>en</strong> <strong>en</strong> verander<strong>en</strong> <strong>en</strong> vond<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong> tuss<strong>en</strong> de gemiddeld<strong>en</strong> <strong>en</strong> de cumulatieve<br />
scoreverdeling<strong>en</strong>.<br />
In e<strong>en</strong> soortgelijke studie vergelek<strong>en</strong> Luecht, Hadadi, Swanson <strong>en</strong> Case (1998) e<strong>en</strong> gewone PPT<br />
met twee CBT’s: één met ingebouwde flexibiliteit <strong>en</strong> één zonder. Het ontbrek<strong>en</strong> van flexibiliteit<br />
had ge<strong>en</strong> effect <strong>op</strong> de prestaties. Wel blek<strong>en</strong> kandidat<strong>en</strong> <strong>het</strong> gebrek aan flexibiliteit maar matig<br />
te kunn<strong>en</strong> waarder<strong>en</strong>.<br />
V<strong>is</strong>poel (2000) bestudeerde de antwoord<strong>en</strong> van kandidat<strong>en</strong> <strong>op</strong> e<strong>en</strong> woord<strong>en</strong>schattoets<br />
voorafgaand <strong>en</strong> nadat zij de mogelijkheid tot item review hadd<strong>en</strong> gekreg<strong>en</strong> <strong>en</strong> vond e<strong>en</strong> positief<br />
effect <strong>op</strong> de prestaties (zie eerder in deze tekst voor e<strong>en</strong> korte bespreking van dit onderzoek).<br />
3.4 Gebruik van kladpapier<br />
Inleiding<br />
Exam<strong>en</strong>s rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde bevatt<strong>en</strong> vaak veel vrag<strong>en</strong> waarbij kandidat<strong>en</strong> iets moet<strong>en</strong> uitrek<strong>en</strong><strong>en</strong>.<br />
Het antwoord vere<strong>is</strong>t doorgaans meerdere d<strong>en</strong>kstapp<strong>en</strong> of <strong>op</strong>lossingsprocess<strong>en</strong> waarvan de<br />
kandidaat er één of meer goed uitgevoerd kan hebb<strong>en</strong>. Bij sommige typ<strong>en</strong> <strong>op</strong>gav<strong>en</strong> kan of moet de<br />
kandidaat <strong>het</strong> daartoe b<strong>en</strong>odigde rek<strong>en</strong>werk ‘uit <strong>het</strong> hoofd’ uitvoer<strong>en</strong>, bijvoorbeeld als de <strong>op</strong>gave<br />
erg e<strong>en</strong>voudig <strong>is</strong>, als er iets geschat moet word<strong>en</strong> of wanneer <strong>het</strong> hoofdrek<strong>en</strong><strong>en</strong><strong>op</strong>gav<strong>en</strong> betreft. Bij<br />
deze <strong>op</strong>gav<strong>en</strong> <strong>is</strong> e<strong>en</strong> effect van de afnamemodus minder waarschijnlijk.<br />
Bij de meer ingewikkelde <strong>op</strong>gav<strong>en</strong> zijn tuss<strong>en</strong>berek<strong>en</strong>ing<strong>en</strong>, uitwerking<strong>en</strong> <strong>en</strong> dergelijke noodzakelijk<br />
die kandidat<strong>en</strong> (nog) niet <strong>op</strong> de computer kunn<strong>en</strong> uitvoer<strong>en</strong> <strong>en</strong> docum<strong>en</strong>ter<strong>en</strong>. De kandidaat staat<br />
dan voor de keuze: doe ik <strong>het</strong> uit <strong>het</strong> hoofd of gebruik ik kladpapier (Engels: scratch paper, scrap<br />
paper, rough working)? Het kladpapier bevat als <strong>het</strong> ware de gedocum<strong>en</strong>teerde evid<strong>en</strong>tie van de<br />
gehanteerde strategieën <strong>en</strong> d<strong>en</strong>kprocess<strong>en</strong> (Johnson & Gre<strong>en</strong>, 2006).<br />
© Stichting Cito, Arnhem 2015 28
Er zijn <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> <strong>het</strong> gebruik van kladpapier in e<strong>en</strong> CBT <strong>en</strong> e<strong>en</strong> PPT die implicaties kunn<strong>en</strong><br />
hebb<strong>en</strong> voor de vergelijkbaarheid van beide afnamemodi. Achter de computer moet<strong>en</strong> leerling<strong>en</strong> als<br />
zij kladpapier gebruik<strong>en</strong> telk<strong>en</strong>s schakel<strong>en</strong> tuss<strong>en</strong> beeldscherm <strong>en</strong> papier, terwijl zij bij de <strong>papier<strong>en</strong></strong><br />
versie hun uitwerking<strong>en</strong> in de kantlijn van <strong>het</strong> toetsboekje kunn<strong>en</strong> noter<strong>en</strong>; bij e<strong>en</strong> PPT werkt de<br />
leerling in e<strong>en</strong> twee-dim<strong>en</strong>sioneel vlak, terwijl e<strong>en</strong> CBT <strong>het</strong> veelvuldig switch<strong>en</strong> tuss<strong>en</strong> beeldscherm<br />
<strong>en</strong> kladpapier in drie dim<strong>en</strong>sies vere<strong>is</strong>t (Kingston, 2009). Daardoor zoud<strong>en</strong> kandidat<strong>en</strong> bij CBT minder<br />
g<strong>en</strong>eigd zijn om kladpapier te gebruik<strong>en</strong> dan bij PPT, met als gevolg e<strong>en</strong> grotere kans <strong>op</strong> fout<strong>en</strong> <strong>en</strong><br />
lagere prestaties (Comm<strong>is</strong>sie Bosker, 2014).<br />
Er zijn aanwijzing<strong>en</strong> dat <strong>het</strong> niet gebruik<strong>en</strong> van kladpapier e<strong>en</strong> negatief effect <strong>op</strong> de prestaties heeft.<br />
Zo lat<strong>en</strong> periodieke peiling<strong>en</strong> van <strong>het</strong> onderwijsniveau in Nederland zi<strong>en</strong> dat de prestaties <strong>op</strong> <strong>het</strong><br />
onderdeel ‘bewerking<strong>en</strong>’ achteruit zijn gaan. Als belangrijkste oorzaak wordt g<strong>en</strong>oemd dat veel<br />
leerling<strong>en</strong> teg<strong>en</strong>woordig t<strong>en</strong> onrechte ge<strong>en</strong> kladpapier gebruik<strong>en</strong>, maar prober<strong>en</strong> de <strong>op</strong>gav<strong>en</strong> ‘uit <strong>het</strong><br />
hoofd’ te mak<strong>en</strong> (Janss<strong>en</strong>, Van der Schoot & Hemker, 2004; Van Putt<strong>en</strong>, 2008; Schelt<strong>en</strong>s,<br />
Hick<strong>en</strong>dorff, Egg<strong>en</strong> & Hiddink, 2014; Hick<strong>en</strong>dorff, He<strong>is</strong>er, Van Putt<strong>en</strong> & Verhelst, 2009).<br />
Rec<strong>en</strong>te vrag<strong>en</strong>lijstgegev<strong>en</strong>s (Cito, 2015a) lat<strong>en</strong> zi<strong>en</strong> dat ruim twee derde (69%) van de kandidat<strong>en</strong><br />
die deelnam<strong>en</strong> aan de Rek<strong>en</strong>toets VO naar eig<strong>en</strong> zegg<strong>en</strong> bij de meeste <strong>op</strong>gav<strong>en</strong> kladpapier gebruikte,<br />
ruim e<strong>en</strong> kwart (28%) deed dat af <strong>en</strong> toe <strong>en</strong> 3% bij ge<strong>en</strong> <strong>en</strong>kele <strong>op</strong>gave.<br />
In <strong>het</strong> vervolg van deze paragraaf besprek<strong>en</strong> we eerst <strong>en</strong>kele reviews waarin <strong>het</strong> gebruik van<br />
kladpapier ter sprake komt <strong>en</strong> vervolg<strong>en</strong>s <strong>en</strong>kele individuele studies naar <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik<br />
van kladpapier in PPT <strong>en</strong> CBT <strong>en</strong> <strong>het</strong> effect ervan <strong>op</strong> de prestaties.<br />
Resultat<strong>en</strong>: reviews <strong>en</strong> meta-analyses<br />
In e<strong>en</strong> review vond<strong>en</strong> Lee <strong>en</strong> H<strong>op</strong>kins (1985) hogere gemiddelde scores <strong>op</strong> PPT in vergelijking met<br />
CBT (zie ook paragraaf 3.1). Als belangrijke oorzaak noem<strong>en</strong> zij de beperkte ruimte voor <strong>het</strong> werk<strong>en</strong><br />
met kladpapier <strong>en</strong> <strong>het</strong> frequ<strong>en</strong>t moet<strong>en</strong> w<strong>is</strong>sel<strong>en</strong> tuss<strong>en</strong> scherm <strong>en</strong> kladpapier.<br />
Ev<strong>en</strong>e<strong>en</strong>s <strong>op</strong> bas<strong>is</strong> van e<strong>en</strong> review concluder<strong>en</strong> Russell, Goldberg <strong>en</strong> O’Connor (2003) dat<br />
”admin<strong>is</strong>tration factors, such as transfer of problems from the scre<strong>en</strong> to scratchwork space, lack of<br />
scratchwork space (….) were found to affect [computer-based] test performance significantly” (p.<br />
282). Ook concluder<strong>en</strong> zij dat “research on some mathematics tests indicates that validity <strong>is</strong><br />
threat<strong>en</strong>ed wh<strong>en</strong> stud<strong>en</strong>ts experi<strong>en</strong>ce difficulty accessing scratch paper in which they perform<br />
calculations” (p. 288).<br />
In e<strong>en</strong> meta-analyse analyseerde Kingston (2009) onder meer de resultat<strong>en</strong> van 31<br />
vergelijkingsstudies <strong>op</strong> <strong>het</strong> gebied van w<strong>is</strong>kunde. PPT w<strong>is</strong>kunde werd<strong>en</strong> gemiddeld iets beter<br />
gemaakt dan CBT w<strong>is</strong>kunde. De gemiddelde effectgrootte was met -.06 echter zeer klein (met e<strong>en</strong><br />
95%-betrouwbaarheidsinterval van -.10 tot -.02). Kingston noemt <strong>het</strong> waarschijnlijk dat dit kleine<br />
<strong>verschil</strong> te mak<strong>en</strong> heeft met <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier. Kingston spreekt de ho<strong>op</strong> uit<br />
dat toetsontwikkelaars manier<strong>en</strong> bed<strong>en</strong>k<strong>en</strong> om dit probleem te omzeil<strong>en</strong>, net zoals zij dat bij <strong>het</strong><br />
lez<strong>en</strong> van grote hoeveelhed<strong>en</strong> tekst gedaan hebb<strong>en</strong> (bijvoorbeeld door leerling<strong>en</strong> in de geleg<strong>en</strong>heid<br />
te stell<strong>en</strong> eerder gelez<strong>en</strong> tekst digitaal te marker<strong>en</strong> <strong>en</strong> te annoter<strong>en</strong>).<br />
© Stichting Cito, Arnhem 2015 29
Resultat<strong>en</strong>: individuele studies<br />
Braswell <strong>en</strong> Bridgeman (1992)<br />
De studie van Braswell <strong>en</strong> Bridgeman (1992) betreft wel<strong>is</strong>waar niet <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik van<br />
kladpapier in PPT <strong>en</strong> CBT <strong>en</strong> <strong>het</strong> effect ervan <strong>op</strong> de prestaties, maar we vermeld<strong>en</strong> de resultat<strong>en</strong> hier<br />
toch omdat <strong>het</strong> inzicht verschaft in <strong>het</strong> effect van de fysieke afstand tuss<strong>en</strong> de toetsvraag <strong>en</strong> de<br />
ruimte voor uitwerking<strong>en</strong>. De onderzoekers vergelek<strong>en</strong> twee <strong>papier<strong>en</strong></strong> 25-itemversies van de SAT-<br />
Mathematical (SAT-M): één in <strong>het</strong> standaardformat <strong>en</strong> één in datzelfde format met e<strong>en</strong> extra kolom<br />
voor kladwerk. Zij vond<strong>en</strong> ge<strong>en</strong> effect <strong>op</strong> de prestaties. In beide formats maakte de meerderheid van<br />
de kandidat<strong>en</strong> bij minimaal driekwart van de items gebruik van kladwerk. Og<strong>en</strong>schijnlijk e<strong>en</strong>voudige<br />
berek<strong>en</strong>ing<strong>en</strong>, zoals 1000 x 10, werd<strong>en</strong> daarbij vaak uitgeschrev<strong>en</strong>. Echter, zelfs als voor <strong>het</strong> kladwerk<br />
e<strong>en</strong> aparte kolom in <strong>het</strong> toetsboekje was gereserveerd, gav<strong>en</strong> de meeste kandidat<strong>en</strong> er de voorkeur<br />
aan <strong>het</strong> kladwerk bij <strong>het</strong> item zelf te noter<strong>en</strong> in plaats van <strong>op</strong> e<strong>en</strong> plek verder weg van <strong>het</strong> item.<br />
Hick<strong>en</strong>dorff, Van Putt<strong>en</strong>, Verhelst <strong>en</strong> He<strong>is</strong>er (2010)<br />
De studie van Hick<strong>en</strong>dorff, Van Putt<strong>en</strong>, Verhelst <strong>en</strong> He<strong>is</strong>er (2010) <strong>is</strong> ev<strong>en</strong>e<strong>en</strong>s niet volledig on-t<strong>op</strong>ic,<br />
maar we mak<strong>en</strong> er toch melding van omdat <strong>het</strong> inzicht geeft in <strong>het</strong> effect van strategiekeuze<br />
(m<strong>en</strong>taal versus schriftelijk) in relatie tot achtergrondk<strong>en</strong>merk<strong>en</strong> van de leerling<strong>en</strong>.<br />
Hick<strong>en</strong>dorff, Van Putt<strong>en</strong>, Verhelst <strong>en</strong> He<strong>is</strong>er (2010) toond<strong>en</strong> aan dat <strong>het</strong> vooral zwakke rek<strong>en</strong>aars <strong>en</strong><br />
jong<strong>en</strong>s zijn die bij complexe deelsomm<strong>en</strong> kiez<strong>en</strong> voor zuiver m<strong>en</strong>tale strategieën in plaats van<br />
kladpapier te gebruik<strong>en</strong> (<strong>en</strong> zichzelf daarmee b<strong>en</strong>adel<strong>en</strong>). Als m<strong>en</strong> leerling<strong>en</strong> die ‘uit <strong>het</strong> hoofd’ e<strong>en</strong><br />
som uitrek<strong>en</strong><strong>en</strong>, dwingt om kladpapier te gebruik<strong>en</strong> bij e<strong>en</strong> parallelle <strong>op</strong>gave, komt dat hun<br />
prestaties t<strong>en</strong> goede. Vandaar dat de onderzoekers de aanbeveling do<strong>en</strong> <strong>het</strong> gebruik van kladpapier<br />
bij complexe deelproblem<strong>en</strong> te stimuler<strong>en</strong>.<br />
Van d<strong>en</strong> Heuvel-Panhuiz<strong>en</strong> <strong>en</strong> Bodin-Baar<strong>en</strong>ds (2004)<br />
Van d<strong>en</strong> Heuvel-Panhuiz<strong>en</strong> <strong>en</strong> Bodin-Baar<strong>en</strong>ds (2004) nam<strong>en</strong> e<strong>en</strong> <strong>papier<strong>en</strong></strong> rek<strong>en</strong>toets af bij hoogprester<strong>en</strong>de<br />
leerling<strong>en</strong> uit <strong>het</strong> Nederlandse bas<strong>is</strong>onderwijs. De toets bevatte vijfti<strong>en</strong> puzzel-achtige<br />
<strong>op</strong>gav<strong>en</strong> zoals number riddles. De <strong>op</strong>gav<strong>en</strong> bevatt<strong>en</strong> grote hoeveelhed<strong>en</strong> gegev<strong>en</strong>s waarbij de<br />
leerling de <strong>op</strong>lossing vaak kon vind<strong>en</strong> door systemat<strong>is</strong>ch <strong>op</strong>ties uit te prober<strong>en</strong>. E<strong>en</strong> van de<br />
uitkomst<strong>en</strong> was dat deze leerling<strong>en</strong> zeld<strong>en</strong> gebruik maakt<strong>en</strong> van de ruimte voor kladwerk, waardoor<br />
zij, aldus de onderzoekers, lager dan verwacht presteerd<strong>en</strong>.<br />
Gaskill <strong>en</strong> Marshall (2006)<br />
Gaskill <strong>en</strong> Marshall (2006) ded<strong>en</strong> onderzoek naar de vergelijkbaarheid van PPT <strong>en</strong> CBT bij<br />
meerkeuzetoets<strong>en</strong> numeracy in grade 4 <strong>en</strong> 7. Bij beide versies had de leerling papier nodig om <strong>het</strong><br />
antwoord te kunn<strong>en</strong> gev<strong>en</strong>. Bij de PPT-versie kond<strong>en</strong> de leerling<strong>en</strong> hun uitwerking<strong>en</strong> <strong>en</strong><br />
berek<strong>en</strong>ing<strong>en</strong> <strong>op</strong> dezelfde pagina <strong>en</strong> vaak <strong>op</strong> dezelfde regel noter<strong>en</strong> als <strong>het</strong> item. Wel moest<strong>en</strong> zij <strong>het</strong><br />
antwoord overbr<strong>en</strong>g<strong>en</strong> naar e<strong>en</strong> antwoordblad dat zich echter in de onmiddellijke nabijheid van <strong>het</strong><br />
toetsboekje bevond. Bij de CBT-versie moest<strong>en</strong> de leerling<strong>en</strong> de b<strong>en</strong>odigde informatie eerst van <strong>het</strong><br />
scherm overbr<strong>en</strong>g<strong>en</strong> naar <strong>het</strong> kladpapier, vervolg<strong>en</strong>s de <strong>op</strong>lossing <strong>op</strong> <strong>het</strong> kladpapier uitwerk<strong>en</strong> <strong>en</strong> tot<br />
slot <strong>het</strong> resultaat weer ‘terugbr<strong>en</strong>g<strong>en</strong>’ naar <strong>het</strong> scherm. Bij de CBT-versie <strong>is</strong> de kans <strong>op</strong> <strong>het</strong> mak<strong>en</strong><br />
van fout<strong>en</strong> dus groter dan bij de PPT-versie. De veronderstelling was dan ook dat de CBT-versie tot<br />
lagere scores zou leid<strong>en</strong> dan de PPT-versie <strong>en</strong> dat <strong>het</strong> <strong>verschil</strong> groter zou zijn voor de laag dan voor<br />
de hoog vaardige leerling<strong>en</strong>. Leerling<strong>en</strong> behaald<strong>en</strong> inderdaad hogere scores <strong>op</strong> de PPT-versie van de<br />
© Stichting Cito, Arnhem 2015 30
meerkeuzetoets over rek<strong>en</strong>vaardigheid dan <strong>op</strong> de CBT-versie maar <strong>het</strong> <strong>verschil</strong> was niet groter voor<br />
de minder vaardige leerling<strong>en</strong>. Gaskill <strong>en</strong> Marshall (2006) bevel<strong>en</strong> schol<strong>en</strong> aan de <strong>digitale</strong><br />
afnamesituatie zo in te richt<strong>en</strong> dat de leerling<strong>en</strong> voldo<strong>en</strong>de ruimte hebb<strong>en</strong> om de berek<strong>en</strong>ing<strong>en</strong> <strong>op</strong><br />
papier uit te voer<strong>en</strong> <strong>en</strong> ervoor te zorg<strong>en</strong> dat zij de informatie van <strong>het</strong> scherm gemakkelijk <strong>op</strong> <strong>het</strong><br />
kladpapier kunn<strong>en</strong> overnem<strong>en</strong> (<strong>en</strong> vice versa). Verder wijz<strong>en</strong> de onderzoekers <strong>op</strong> <strong>het</strong> belang van e<strong>en</strong><br />
goede voorbereiding van de leerling<strong>en</strong> <strong>op</strong> de <strong>digitale</strong> toetsing. Zo zoud<strong>en</strong> leerling<strong>en</strong> getraind moet<strong>en</strong><br />
word<strong>en</strong> in <strong>het</strong> overnem<strong>en</strong> <strong>en</strong> controler<strong>en</strong> van informatie van <strong>het</strong> scherm naar papier (<strong>en</strong> vice versa).<br />
Johnson <strong>en</strong> Gre<strong>en</strong> (2006)<br />
Johnson <strong>en</strong> Gre<strong>en</strong> (2006) vergelek<strong>en</strong> PPT- <strong>en</strong> CBT-versies van dezelfde rek<strong>en</strong>toets bij elf-jarig<strong>en</strong> in <strong>het</strong><br />
Engelse primair onderwijs. De leerling<strong>en</strong> werd gevraagd hun tuss<strong>en</strong>berek<strong>en</strong>ing<strong>en</strong> <strong>en</strong> dergelijke zo<br />
uitgebreid mogelijk te docum<strong>en</strong>ter<strong>en</strong> in de daarvoor bestemde ruimte <strong>op</strong> <strong>het</strong> toetsboekje (PPT) of <strong>op</strong><br />
<strong>het</strong> afzonderlijk ter beschikking gestelde kladpapier (CBT). Daarnaast nam<strong>en</strong> de onderzoekers de<br />
leerling<strong>en</strong> interviews af. Daarbij werd gevraagd naar <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> beide versies van e<strong>en</strong> <strong>op</strong>gave<br />
in de manier waar<strong>op</strong> zij <strong>het</strong> probleem hadd<strong>en</strong> uitgewerkt. Bij de CBT-versie werd daarbij ook gebruik<br />
gemaakt van de Replay Option waarmee de leerling<strong>en</strong> hun antwoord<strong>en</strong> <strong>en</strong> rev<strong>is</strong>ies in chronolog<strong>is</strong>che<br />
volgorde kond<strong>en</strong> terugzi<strong>en</strong>. Verder werd<strong>en</strong> vrag<strong>en</strong> gesteld over hun voorkeur voor vraagtyp<strong>en</strong> in de<br />
<strong>en</strong>e <strong>en</strong> andere afnamemodus. Met behulp van inhoudsanalyse codeerd<strong>en</strong> de onderzoekers de<br />
gemaakte fout<strong>en</strong> aan de hand van de uitwerking<strong>en</strong> <strong>op</strong> papier. Op bas<strong>is</strong> van argum<strong>en</strong>t<strong>en</strong> zoals<br />
g<strong>en</strong>oemd in de inleiding <strong>op</strong> deze paragraaf, verondersteld<strong>en</strong> zij dat leerling<strong>en</strong> bij de CBT-versie<br />
minder g<strong>en</strong>eigd zoud<strong>en</strong> zijn tot verstrekk<strong>en</strong> van evid<strong>en</strong>tie over de gehanteerde strategieën <strong>en</strong><br />
d<strong>en</strong>kprocess<strong>en</strong> dan bij de PPT-versie.<br />
Kwantitatieve resultat<strong>en</strong><br />
Johnson <strong>en</strong> Gre<strong>en</strong> (2006) vond<strong>en</strong> dat de PPT-versie iets makkelijker was dan de CBT-versie, maar <strong>het</strong><br />
<strong>verschil</strong> tuss<strong>en</strong> de gemiddelde totaalscores was niet significant. E<strong>en</strong> analyse <strong>op</strong> itemniveau bracht<br />
aan <strong>het</strong> licht dat van de zesti<strong>en</strong> vrag<strong>en</strong> er elf significant gemakkelijker war<strong>en</strong> in de PPT-versie; slechts<br />
één vraag was significant gemakkelijker in de CBT-versie.<br />
De meest gemaakte fout<strong>en</strong> war<strong>en</strong> computation and m<strong>en</strong>tal calculation errors die leerling<strong>en</strong> maakt<strong>en</strong><br />
als uitgeschrev<strong>en</strong> uitwerking<strong>en</strong> <strong>en</strong> dergelijke ontbrak<strong>en</strong> <strong>en</strong> zij k<strong>en</strong>nelijk geprobeerd hadd<strong>en</strong> de vraag<br />
uit <strong>het</strong> hoofd te beantwoord<strong>en</strong>. In de CBT-versie werd<strong>en</strong> deze m<strong>en</strong>tale rek<strong>en</strong>fout<strong>en</strong> vaker gemaakt<br />
dan in de PPT-versie.<br />
De <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> de beide afnamemodi in <strong>het</strong> aantal gemaakte rek<strong>en</strong>fout<strong>en</strong> blek<strong>en</strong> afhankelijk<br />
van de aard van de vraag. Bij alle vrag<strong>en</strong> die e<strong>en</strong> beroep ded<strong>en</strong> <strong>op</strong> aftrekk<strong>en</strong> met substraction using<br />
decomposition, bijvoorbeeld 554-538 of 546-39, maakt<strong>en</strong> de leerling<strong>en</strong> meer m<strong>en</strong>tale rek<strong>en</strong>fout<strong>en</strong> in<br />
de <strong>digitale</strong> dan de <strong>papier<strong>en</strong></strong> versie. Verder werd<strong>en</strong> in de CBT-versies van lange<br />
verm<strong>en</strong>igvuldigingsvrag<strong>en</strong> meer <strong>op</strong>splitsfout<strong>en</strong> (Engels: partitioning errors) gemaakt dan in de PPTversies<br />
(dit wil zegg<strong>en</strong>: <strong>het</strong> splitst<strong>en</strong> van grote gehele getall<strong>en</strong> in kleine gehele getall<strong>en</strong> voorafgaand<br />
aan e<strong>en</strong> rek<strong>en</strong>kundige bewerking (Engels: <strong>op</strong>eration). Johnson <strong>en</strong> Gre<strong>en</strong> (2006) interpreteerd<strong>en</strong> dit<br />
als volgt: “Th<strong>is</strong> meant that stud<strong>en</strong>ts made more errors wh<strong>en</strong> separating out the T<strong>en</strong>s and Units<br />
compon<strong>en</strong>ts of large numbers, and t<strong>en</strong>ded to have more problems multiplying the appr<strong>op</strong>riate parts<br />
wh<strong>en</strong> working on the computer.” (p. 16).<br />
© Stichting Cito, Arnhem 2015 31
Er werd<strong>en</strong> door de bank g<strong>en</strong>om<strong>en</strong> relatief weinig transcriptiefout<strong>en</strong> gemaakt, dit wil zegg<strong>en</strong> fout<strong>en</strong><br />
bij <strong>het</strong> overnem<strong>en</strong> van gegev<strong>en</strong>s binn<strong>en</strong> dezelfde pagina of van de <strong>en</strong>e naar de andere pagina (PPT)<br />
of van <strong>het</strong> scherm naar kladpapier <strong>en</strong> vice versa (CBTP). Echter, bij de CBT-versie werd<strong>en</strong> zoals<br />
verwacht meer transcriptiefout<strong>en</strong> gemaakt dan bij de PPT-versie. Transcriptieproblem<strong>en</strong> van scherm<br />
naar papier <strong>en</strong> omgekeerd ded<strong>en</strong> zich voor bij ongeveer ti<strong>en</strong> proc<strong>en</strong>t van de leerling<strong>en</strong>. Johnson <strong>en</strong><br />
Gre<strong>en</strong> (2006) veronderstell<strong>en</strong> dat <strong>het</strong> grotere aantal transcriptiefout<strong>en</strong> sam<strong>en</strong>hangt met de grotere<br />
fysieke afstand die de informatie moet overbrugg<strong>en</strong> gedur<strong>en</strong>de de verwerking van <strong>het</strong> probleem. Bij<br />
e<strong>en</strong> <strong>papier<strong>en</strong></strong> versie zijn de locaties van de vraag, uitwerking <strong>en</strong> antwoord<strong>en</strong> in elkaars onmiddellijke<br />
nabijheid. Bij e<strong>en</strong> CBT <strong>is</strong> de fysieke afstand <strong>en</strong> daarmee de belasting van <strong>het</strong> werkgeheug<strong>en</strong><br />
daar<strong>en</strong>teg<strong>en</strong> veel groter. Eerst moet de leerling de vraag <strong>op</strong> <strong>het</strong> scherm lez<strong>en</strong>, vervolg<strong>en</strong>s moet hij of<br />
zij deze informatie vasthoud<strong>en</strong> in <strong>het</strong> werkgeheug<strong>en</strong> als de aandacht verschuift naar <strong>het</strong> kladpapier<br />
<strong>en</strong> vervolg<strong>en</strong>s weer naar <strong>het</strong> scherm, om t<strong>en</strong> slotte <strong>het</strong> antwoord in <strong>het</strong> daarvoor bestemde<br />
invoervak <strong>op</strong> <strong>het</strong> scherm in te typ<strong>en</strong>. Dat leerling<strong>en</strong> in de CBT-versies meer transcriptiefout<strong>en</strong> mak<strong>en</strong>,<br />
betek<strong>en</strong>t volg<strong>en</strong>s Johnson <strong>en</strong> Gre<strong>en</strong> (2006) dat “that their lack of success should not have be<strong>en</strong><br />
attributed to them having conceptual problems relating to the particular question within which the<br />
error was found” (p. 24). Deze bevinding roept volg<strong>en</strong>s de onderzoekers vrag<strong>en</strong> <strong>op</strong> over de validiteit<br />
van scores zoals verkreg<strong>en</strong> met <strong>digitale</strong> toets- <strong>en</strong> exam<strong>en</strong>system<strong>en</strong> die diagnost<strong>is</strong>che profiel<strong>en</strong><br />
rapporter<strong>en</strong> <strong>op</strong> bas<strong>is</strong> van fout<strong>en</strong>analyses. Hun advies <strong>is</strong> na te d<strong>en</strong>k<strong>en</strong> over de manier waar<strong>op</strong> <strong>het</strong><br />
aantal transcriptiefout<strong>en</strong> verder kan word<strong>en</strong> teruggebracht, bijvoorbeeld door leerling<strong>en</strong> in staat te<br />
stell<strong>en</strong> annotaties <strong>op</strong> <strong>het</strong> scherm te mak<strong>en</strong>.<br />
Op papier werd<strong>en</strong> meer vrag<strong>en</strong> niet beantwoord dan <strong>op</strong> <strong>het</strong> scherm, waarbij twee keer zoveel<br />
me<strong>is</strong>jes dan jong<strong>en</strong>s e<strong>en</strong> of meer vrag<strong>en</strong> onbeantwoord liet<strong>en</strong>. Waarschijnlijk vanwege <strong>het</strong><br />
gebrekkige onderscheid<strong>en</strong> vermog<strong>en</strong> - <strong>het</strong> aantal leerling<strong>en</strong> was klein - was dit <strong>verschil</strong> echter niet<br />
significant. Ter verklaring verwijz<strong>en</strong> de auteurs naar Gallagher, Bridgm<strong>en</strong> <strong>en</strong> Cahalan (2000) die<br />
veronderstell<strong>en</strong> dat CBT voor sommige leerling<strong>en</strong> e<strong>en</strong> minder bedreig<strong>en</strong>de omgeving<br />
verteg<strong>en</strong>woordigt dan PPT. Johnson <strong>en</strong> Gre<strong>en</strong> (2006) veronderstell<strong>en</strong> dat de jong<strong>en</strong>s in hun<br />
onderzoek meer g<strong>en</strong>eigd zijn to take a chance dan me<strong>is</strong>jes, ook al zijn zij er niet zeker van dat hun<br />
antwoord goed <strong>is</strong>. E<strong>en</strong> mogelijke verklaring <strong>is</strong> dat leerling<strong>en</strong> <strong>het</strong> beantwoord<strong>en</strong> van <strong>digitale</strong> vrag<strong>en</strong><br />
associër<strong>en</strong> met andere activiteit<strong>en</strong> die zij <strong>op</strong> de computer uitvoer<strong>en</strong>, zoals spelletjes, waarbij wordt<br />
uitgegaan van de filosofie van have a go and start again (Gallagher et al., 2000) of snatch and grab<br />
(Sutherland-Smith (2002).<br />
Daarnaast zoud<strong>en</strong> de <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> de beide afnamemodi in <strong>het</strong> onbeantwoord lat<strong>en</strong> van vrag<strong>en</strong><br />
ermee te mak<strong>en</strong> kunn<strong>en</strong> hebb<strong>en</strong> dat <strong>het</strong> indi<strong>en</strong><strong>en</strong> van antwoord<strong>en</strong> via <strong>het</strong> beeldscherm als e<strong>en</strong><br />
minder persoonlijke aangeleg<strong>en</strong>heid wordt beschouwd dan <strong>het</strong> toevertrouw<strong>en</strong> van antwoord<strong>en</strong> aan<br />
<strong>het</strong> papier. Johnson <strong>en</strong> Gre<strong>en</strong> (2006) licht<strong>en</strong> dit als volgt toe: “Wh<strong>en</strong> stud<strong>en</strong>ts answer on paper their<br />
attempts and errors are made explicit and public, whereas the computer creates a more private<br />
workspace where stud<strong>en</strong>ts may be more willing to r<strong>is</strong>k being wrong. Wh<strong>en</strong> answers are submitted online<br />
there <strong>is</strong> no immediately v<strong>is</strong>ible trace of evid<strong>en</strong>ce relating to past questions which the stud<strong>en</strong>t may<br />
have struggled with, and that they need to confront each time that they look at any subsequ<strong>en</strong>t<br />
question, although th<strong>is</strong> information might be stored elsewhere for teacher analys<strong>is</strong> at a later time.<br />
Th<strong>is</strong> contrasts with the paper versions of each test, which expose a stud<strong>en</strong>t’s prior attempts at<br />
answers in the public ar<strong>en</strong>a occupied by themselves, and pot<strong>en</strong>tially their peers and teachers. Having<br />
the <strong>op</strong>portunity to submit answers in a less public <strong>en</strong>vironm<strong>en</strong>t may lead stud<strong>en</strong>ts to worry less about<br />
© Stichting Cito, Arnhem 2015 32
the type of answers that they give, perhaps <strong>en</strong>couraging them to take r<strong>is</strong>ks about which strategies to<br />
employ” (p. 28).<br />
De onderzoekers vond<strong>en</strong> ook modus-gerelateerde <strong>verschil</strong>l<strong>en</strong> in de mate waarin leerling<strong>en</strong> hun<br />
werkwijze bij de vraag docum<strong>en</strong>teerd<strong>en</strong>. Bij neg<strong>en</strong> van de zesti<strong>en</strong> vrag<strong>en</strong> gav<strong>en</strong> de leerling<strong>en</strong> bij de<br />
CBT-versie meer informatie over hun werkwijze dan bij de PPT-versie, bij vier vrag<strong>en</strong> werd de<br />
werkwijze bij de PPT-versie beter gedocum<strong>en</strong>teerd <strong>en</strong> bij drie vrag<strong>en</strong> was er ge<strong>en</strong> <strong>verschil</strong>.<br />
Kwalitatieve resultat<strong>en</strong><br />
Drie vrag<strong>en</strong> werd<strong>en</strong> <strong>op</strong> papier significant beter gemaakt dan via <strong>het</strong> beeldscherm. E<strong>en</strong> kwalitatieve<br />
analyse bracht aan <strong>het</strong> licht dat <strong>het</strong> drie van de vier vrag<strong>en</strong> betrof vrag<strong>en</strong> waarbij meer leerling<strong>en</strong><br />
hun uitwerking<strong>en</strong> aan <strong>het</strong> papier toevertrouwd<strong>en</strong> bij de PPTT- dan de CBT-versie. De onderzoekers<br />
veronderstell<strong>en</strong> dat de extra inspanning die nodig <strong>is</strong> om <strong>het</strong> d<strong>en</strong>kproces in de <strong>digitale</strong> afnamemodus<br />
<strong>op</strong> papier te docum<strong>en</strong>ter<strong>en</strong> ertoe geleid heeft dat deze leerling<strong>en</strong> de berek<strong>en</strong>ing<strong>en</strong> uit <strong>het</strong> hoofd<br />
uitvoer<strong>en</strong> (in plaats van kladpapier te gebruik<strong>en</strong>). De fout<strong>en</strong>analyse bood verdere ondersteuning<br />
voor deze veronderstelling. Bij deze drie vrag<strong>en</strong> maakt<strong>en</strong> de leerling<strong>en</strong> namelijk meer combined<br />
computational and m<strong>en</strong>tal errors in de CBT- dan in de PPT-versie. Bij deze drie vrag<strong>en</strong> zou de aversie<br />
teg<strong>en</strong> <strong>het</strong> gebruik van kladpapier er dus toe leid<strong>en</strong> dat leerling<strong>en</strong> meer <strong>op</strong> zuiver m<strong>en</strong>tale strategieën<br />
vertrouw<strong>en</strong> waardoor zij meer fout<strong>en</strong> mak<strong>en</strong> <strong>en</strong> lagere prestaties behal<strong>en</strong>.<br />
E<strong>en</strong> kwalitatieve analyse liet verder zi<strong>en</strong> dat 37% van de leerling<strong>en</strong> bij de <strong>papier<strong>en</strong></strong> <strong>en</strong> <strong>digitale</strong> versie<br />
<strong>verschil</strong>l<strong>en</strong>de <strong>op</strong>lossingsstrategieën toepast<strong>en</strong>. Zo war<strong>en</strong> leerling<strong>en</strong> bij de <strong>papier<strong>en</strong></strong> versie van vrag<strong>en</strong><br />
zoals ‘554-538’ <strong>en</strong> ‘546-30’ meer g<strong>en</strong>eigd om partitioning strategies te gebruik<strong>en</strong> dan bij de <strong>digitale</strong><br />
versie. De algehele conclusie was dat leerling<strong>en</strong> bij de PPT-versie <strong>wat</strong> vaker informele <strong>en</strong> flexibele<br />
<strong>op</strong>lossingsstrategieën hanteerd<strong>en</strong> dan bij de CBT-versie waar vaker formele <strong>en</strong> standaardstrategieën<br />
werd<strong>en</strong> toegepast. De groep die flexibele <strong>op</strong>lossingsstrategieën hanteerde, bevatte overig<strong>en</strong>s<br />
significant meer me<strong>is</strong>jes dan jong<strong>en</strong>s.<br />
Threfall, Pool, Homer <strong>en</strong> Swinnerton (2007)<br />
Threfall, Pool, Homer <strong>en</strong> Swinnerton (2007) ded<strong>en</strong> vergelijkingsonderzoek bij leerling<strong>en</strong> van 11<br />
<strong>en</strong> 14 jaar in Groot-Brittannië. Bij elfjarig<strong>en</strong> war<strong>en</strong> de totaalscores voor de 24 items bij de CBTversie<br />
3% hoger dan bij de PPT-versie <strong>en</strong> bij vierti<strong>en</strong>jarig<strong>en</strong> scoorde de CBT 5% lager dan de PPT.<br />
Hoewel Threfall et al. (2007) ge<strong>en</strong> gegev<strong>en</strong>s over de stat<strong>is</strong>t<strong>is</strong>che significantie verstrekk<strong>en</strong>,<br />
concludeerd<strong>en</strong> zij toch dat “A differ<strong>en</strong>ce of 5% or less in performance cannot be said to be<br />
indicative of an underlying effect” (p. 340).<br />
Zev<strong>en</strong> items waarbij <strong>het</strong> <strong>verschil</strong> in p-waarde tuss<strong>en</strong> CBT <strong>en</strong> PPT tuss<strong>en</strong> de 12% <strong>en</strong> 34% bedroeg,<br />
werd<strong>en</strong> nader bestudeerd. Bij vijf ervan scoorde de CBT hoger dan de PPT. Bij vier van deze vijf<br />
items moest de leerling elem<strong>en</strong>t<strong>en</strong> in de goede volgorde zett<strong>en</strong>. E<strong>en</strong> mogelijke verklaring<br />
veronderstelt dat <strong>het</strong> (<strong>op</strong> interactieve wijze) explorer<strong>en</strong> van de <strong>verschil</strong>l<strong>en</strong>de arrangem<strong>en</strong>t<strong>en</strong> <strong>op</strong><br />
de computer minder belast<strong>en</strong>d <strong>is</strong> voor <strong>het</strong> geheug<strong>en</strong> dan <strong>op</strong> papier.<br />
Op twee van de zev<strong>en</strong> items scoorde PPT hoger dan CBT. Bij beide items hadd<strong>en</strong> de leerling<strong>en</strong><br />
kladpapier nodig om <strong>het</strong> ju<strong>is</strong>te antwoord te kunn<strong>en</strong> gev<strong>en</strong>. Hoewel de leerling<strong>en</strong> e<strong>en</strong> working<br />
booklet tot hun beschikking hadd<strong>en</strong>, werd dat door maar weinig leerling<strong>en</strong> gebruikt. Anders dan<br />
in <strong>het</strong> onderzoek van Johson and Gre<strong>en</strong> (2006) <strong>het</strong> geval was, gebruikt<strong>en</strong> naar verhouding meer<br />
leerling<strong>en</strong> kladpapier bij de PPT- dan bij de CBT-versie.<br />
© Stichting Cito, Arnhem 2015 33
K<strong>en</strong>g, McClarty <strong>en</strong> Dav<strong>is</strong> (2008)<br />
K<strong>en</strong>g, McClarty <strong>en</strong> Dav<strong>is</strong> (2008) vergelek<strong>en</strong> e<strong>en</strong> PPT- <strong>en</strong> e<strong>en</strong> CBT-versie van onder meer e<strong>en</strong><br />
w<strong>is</strong>kundetoets voor grade 8 <strong>en</strong> 11. Hoewel de toets ook <strong>op</strong><strong>en</strong> vrag<strong>en</strong> bevatte, gebruikt<strong>en</strong> de<br />
onderzoekers alle<strong>en</strong> de meerkeuzevrag<strong>en</strong>. Beide versies bod<strong>en</strong> mogelijkhed<strong>en</strong> tot item review. In de<br />
<strong>papier<strong>en</strong></strong> versie kond<strong>en</strong> de leerling<strong>en</strong> hun aantek<strong>en</strong>ing<strong>en</strong> <strong>en</strong> tek<strong>en</strong>ing<strong>en</strong> direct in <strong>het</strong> toetsboekje<br />
mak<strong>en</strong>. In de online versie kon de leerling gebruik mak<strong>en</strong> van online drawing tools zoals e<strong>en</strong><br />
highlighter <strong>en</strong> e<strong>en</strong> answer eliminator.<br />
Bij vier van de vijftig w<strong>is</strong>kunde-items voor grade 8 werd e<strong>en</strong> effect van de afnamemodus gevond<strong>en</strong><br />
waarvan drie in <strong>het</strong> voordeel van de PPT-versie. Bij twee van deze drie items moest de leerling<br />
graf<strong>is</strong>che <strong>en</strong> geometr<strong>is</strong>che manipulaties uitvoer<strong>en</strong>. Ter verklaring voer<strong>en</strong> K<strong>en</strong>g et al. (2008) aan dat<br />
digitaal tek<strong>en</strong><strong>en</strong> moeilijker <strong>is</strong> dan tek<strong>en</strong><strong>en</strong> <strong>op</strong> papier. Het overzett<strong>en</strong> van de grafiekjes van<br />
beeldscherm naar papier <strong>is</strong> e<strong>en</strong> extra stap die bij de <strong>papier<strong>en</strong></strong> versie niet nodig <strong>is</strong>. Het overzett<strong>en</strong> van<br />
grafiekjes vere<strong>is</strong>t e<strong>en</strong> zekere nauwkeurigheid waardoor de CBT-versie van <strong>het</strong> item e<strong>en</strong> (onbedoeld)<br />
extra beroep zou kunn<strong>en</strong> do<strong>en</strong> <strong>op</strong> de tek<strong>en</strong>vaardigheid van de leerling. Het derde item waarbij de<br />
PPT-versie tot hogere scores leidde, k<strong>en</strong>de <strong>verschil</strong>l<strong>en</strong>de omvangrijke graphics of geometr<strong>is</strong>che<br />
vorm<strong>en</strong> waarbij de leerling moest scroll<strong>en</strong>. K<strong>en</strong>g et al. (2008) veronderstell<strong>en</strong> de CBT-versie van dat<br />
item moeilijker was omdat de leerling<strong>en</strong> om <strong>het</strong> hele item te kunn<strong>en</strong> bekijk<strong>en</strong> voortdur<strong>en</strong>d moest<strong>en</strong><br />
scroll<strong>en</strong>, terwijl ze <strong>het</strong> volledige item in hun toetsboekje <strong>op</strong> e<strong>en</strong> <strong>en</strong> dezelfde pagina kond<strong>en</strong> bekijk<strong>en</strong>.<br />
De onderzoekers vond<strong>en</strong> ge<strong>en</strong> verklaring waarom <strong>het</strong> vierde item <strong>het</strong> in de CBT-conditie beter deed<br />
dan in de PPT-conditie.<br />
De resultat<strong>en</strong> in grade 11 gav<strong>en</strong> e<strong>en</strong> vergelijkbaar beeld te zi<strong>en</strong>. Ook daar werd<strong>en</strong> items die graf<strong>is</strong>che<br />
<strong>en</strong> geometr<strong>is</strong>che manipulaties <strong>en</strong> scroll<strong>en</strong> vere<strong>is</strong>t<strong>en</strong> in <strong>het</strong> PPT-format beter gemaakt dan in <strong>het</strong> CBTformat.<br />
De onderzoekers vermeld<strong>en</strong> dat hun resultat<strong>en</strong> bij w<strong>is</strong>kunde overe<strong>en</strong>kom<strong>en</strong> met die van<br />
Sand<strong>en</strong>e et al. (2005) <strong>en</strong> Gre<strong>en</strong>wood et al. (2000). Laatstg<strong>en</strong>oemd<strong>en</strong> vond<strong>en</strong> dat items die e<strong>en</strong><br />
beroep do<strong>en</strong> <strong>op</strong> spatial and gross motor skills digitaal moeilijker zijn dan <strong>op</strong> papier.<br />
3.5 Invoer van antwoord<strong>en</strong> via beeldscherm versus papier<br />
Inleiding<br />
Onderzoek laat zi<strong>en</strong> dat <strong>verschil</strong>l<strong>en</strong> in ICT-ervaring mede verantwoordelijk kunn<strong>en</strong> zijn voor<br />
prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT (o.a. Gaskill & Marshall, 2006). Als e<strong>en</strong> mogelijke verklaring<br />
voor de teg<strong>en</strong>vall<strong>en</strong>de resultat<strong>en</strong> <strong>op</strong> de rek<strong>en</strong>toets<strong>en</strong> noemt de Comm<strong>is</strong>sie Bosker (2014) <strong>het</strong><br />
gegev<strong>en</strong> dat kandidat<strong>en</strong> over <strong>het</strong> algeme<strong>en</strong> onbek<strong>en</strong>d zijn met <strong>het</strong> digitaal afnem<strong>en</strong> van toets<strong>en</strong> <strong>en</strong><br />
exam<strong>en</strong>s. E<strong>en</strong> specifiek probleem bij CBT rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde <strong>is</strong> dat de computer specifieke e<strong>is</strong><strong>en</strong> stelt<br />
aan de invoer van de antwoord<strong>en</strong>. Kandidat<strong>en</strong> zijn daar vaak nog onvoldo<strong>en</strong>de van <strong>op</strong> de hoogte <strong>en</strong><br />
in getraind. Vel<strong>en</strong> hebb<strong>en</strong> meer ervaring met <strong>het</strong> noter<strong>en</strong> van antwoord<strong>en</strong> <strong>op</strong> papier dan met <strong>het</strong><br />
invoer<strong>en</strong> ervan via <strong>het</strong> beeldscherm (McGuire & Youngson, 2002). In e<strong>en</strong> CBT voer<strong>en</strong> de kandidat<strong>en</strong><br />
hun antwoord uiteindelijk in <strong>op</strong> <strong>het</strong> scherm, maar voor de berek<strong>en</strong>ing<strong>en</strong> <strong>en</strong> uitwerking<strong>en</strong> <strong>op</strong><br />
kladpapier moet<strong>en</strong> zij toch nog potlood <strong>en</strong> papier gebruik<strong>en</strong>. Als zij daarmee klaar zijn, moet<strong>en</strong> zij<br />
hun ‘<strong>papier<strong>en</strong></strong>’ antwoord vertal<strong>en</strong> in w<strong>is</strong>kundige symbol<strong>en</strong> die de computer kan herk<strong>en</strong>n<strong>en</strong> <strong>en</strong> dat<br />
antwoord vervolg<strong>en</strong>s transponer<strong>en</strong> naar <strong>het</strong> beeldscherm. Onder meer door e<strong>en</strong> gebrek aan ervaring<br />
met de invoermodule zoud<strong>en</strong> kandidat<strong>en</strong> bij e<strong>en</strong> CBT meer invoerfout<strong>en</strong> mak<strong>en</strong> dan bij e<strong>en</strong> PPT, met<br />
als gevolg lagere prestaties voor CBT in vergelijking met PPT. De afnamemodus introduceert hier<br />
constructirrelevante variantie die afbreuk kan do<strong>en</strong> aan de validiteit.<br />
© Stichting Cito, Arnhem 2015 34
E<strong>en</strong> hiermee sam<strong>en</strong>hang<strong>en</strong>d probleem van CBT-exam<strong>en</strong>s rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde heeft te mak<strong>en</strong> met de<br />
bezorgdheid van kandidat<strong>en</strong> dat de scoringsprogrammatuur onvoldo<strong>en</strong>de recht doet aan hun k<strong>en</strong>n<strong>is</strong><br />
<strong>en</strong> vaardighed<strong>en</strong> (o.a. McGuire & Johnson, 2002). In e<strong>en</strong> exam<strong>en</strong> rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde moet<strong>en</strong><br />
kandidat<strong>en</strong> doorgaans iets uitrek<strong>en</strong><strong>en</strong> <strong>en</strong> hun antwoord in de vorm van e<strong>en</strong> getal of e<strong>en</strong> formule aan<br />
<strong>het</strong> papier toevertrouw<strong>en</strong> of in de computer invoer<strong>en</strong>. Bij CBT-examinering van rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde<br />
mak<strong>en</strong> kandidat<strong>en</strong> zich zorg<strong>en</strong> over de volg<strong>en</strong>de problem<strong>en</strong> die niet of in mindere mate <strong>op</strong>tred<strong>en</strong> bij<br />
m<strong>en</strong>selijke beoordeling van antwoord<strong>en</strong> <strong>op</strong> papier (McGuire & Johnson, 2002):<br />
<br />
<br />
<br />
<br />
<br />
de computer interpreteert e<strong>en</strong> ingevoerd getal of e<strong>en</strong> ingevoerde formule <strong>op</strong> e<strong>en</strong> andere manier<br />
dan de kandidaat bedoeld heeft;<br />
de computer rek<strong>en</strong>t e<strong>en</strong> goed antwoord fout omdat <strong>het</strong> in <strong>het</strong> verkeerde format gegev<strong>en</strong> <strong>is</strong>;<br />
de computer herk<strong>en</strong>t e<strong>en</strong> ju<strong>is</strong>te numerieke b<strong>en</strong>adering niet als e<strong>en</strong> goed antwoord;<br />
er zijn meer goede antwoord<strong>en</strong> mogelijk, maar de computer herk<strong>en</strong>t er slechts één als ju<strong>is</strong>t;<br />
de computer rek<strong>en</strong>t gedeeltelijk goede antwoord<strong>en</strong> helemaal fout.<br />
Resultat<strong>en</strong>: reviews <strong>en</strong> meta-analyses<br />
Mazzeo and Harvey (1988)<br />
In hun review verwijz<strong>en</strong> Mazzeo and Harvey (1988) naar onderzoek waarbij de door de computer<br />
gelez<strong>en</strong> antwoord<strong>en</strong> werd<strong>en</strong> vergelek<strong>en</strong> met de antwoord<strong>en</strong> <strong>op</strong> papier. De computer bleek lang niet<br />
alle ingevoerde antwoord<strong>en</strong> correct te lez<strong>en</strong>. Ook Bunderson et al. (1989) wijz<strong>en</strong> er in hun review <strong>op</strong><br />
dat de relatief hoge scores <strong>op</strong> PPT mede veroorzaakt word<strong>en</strong> doordat de computer ju<strong>is</strong>te<br />
antwoord<strong>en</strong> van kandidat<strong>en</strong> t<strong>en</strong> onrechte als fout interpreteert. Hierna besprek<strong>en</strong> we de resultat<strong>en</strong><br />
van <strong>en</strong>kele studies waarin geprobeerd <strong>is</strong> de invoerproblematiek van CBT te minimal<strong>is</strong>er<strong>en</strong>.<br />
Resultat<strong>en</strong>: individuele studies<br />
Beevers, McGuire, Stirling <strong>en</strong> Wild (1995)<br />
In e<strong>en</strong> van de eerste experim<strong>en</strong>t<strong>en</strong> met geautomat<strong>is</strong>eerde partial credit scoring in e<strong>en</strong> CBT w<strong>is</strong>kunde<br />
via de Steps-methode (zie paragraaf 3.2) probeerd<strong>en</strong> Beevers et al. (1995) ook e<strong>en</strong> <strong>op</strong>lossing te<br />
vind<strong>en</strong> voor <strong>het</strong> probleem van <strong>wat</strong> zij de m<strong>is</strong>match tuss<strong>en</strong> antwoord<strong>en</strong> <strong>op</strong> <strong>het</strong> beeldscherm versus <strong>op</strong><br />
papier noem<strong>en</strong>. Aanleiding tot deze deelstudie was dat leerling<strong>en</strong> vaak bezorgd zijn over <strong>het</strong><br />
gegev<strong>en</strong> dat zij <strong>het</strong> invoer<strong>en</strong> van hun antwoord<strong>en</strong> syntact<strong>is</strong>che fout<strong>en</strong> mak<strong>en</strong> <strong>en</strong> dan niet in de gat<strong>en</strong><br />
hebb<strong>en</strong> dat de computer hun antwoord verkeerd interpreteert. Het probleem van de m<strong>is</strong>match<br />
tuss<strong>en</strong> antwoord<strong>en</strong> <strong>op</strong> <strong>het</strong> beeldscherm versus <strong>op</strong> paper werd aangepakt door e<strong>en</strong> Input Tool in de<br />
CBT in te bouw<strong>en</strong>. Deze <strong>op</strong>tionele tool liet de ingevoerde input - bijvoorbeeld e<strong>en</strong> antwoord met e<strong>en</strong><br />
breuk of machtsverheff<strong>en</strong> - <strong>op</strong>nieuw zi<strong>en</strong>, maar dan in e<strong>en</strong> w<strong>is</strong>kundige notatie die vergelijkbaar was<br />
met de manier waar<strong>op</strong> de stud<strong>en</strong>t de input <strong>op</strong> papier zou hebb<strong>en</strong> g<strong>en</strong>oteerd. Zo vere<strong>is</strong>te <strong>het</strong><br />
scoringsalgoritme <strong>het</strong> plaatst<strong>en</strong> van haakjes rond <strong>het</strong> argum<strong>en</strong>t van functies (Engels: the argum<strong>en</strong>t of<br />
functions). Het ju<strong>is</strong>te antwoord ‘de sinus van 2x’, dat e<strong>en</strong> m<strong>en</strong>selijke beoordelaar (gedeeltelijk) goed<br />
zou rek<strong>en</strong><strong>en</strong>, moest bijvoorbeeld word<strong>en</strong> ingetypt als ‘sin(2x)’ <strong>en</strong> niet als ‘sin 2x’. Om dit probleem<br />
<strong>op</strong> te loss<strong>en</strong>, gaf de Input Tool dan de foutmelding dat de uitdrukking verkeerd geformuleerd was.<br />
Vrijwel alle stud<strong>en</strong>t<strong>en</strong> blek<strong>en</strong> de Input Tool te gebruik<strong>en</strong>, waardoor hun bezorgdheid aanzi<strong>en</strong>lijk<br />
afnam.<br />
© Stichting Cito, Arnhem 2015 35
Beevers, Youngson, McGuire, Wild <strong>en</strong> Fiddes (1999)<br />
In de lo<strong>op</strong> der jar<strong>en</strong> <strong>is</strong> de Input Tool <strong>op</strong> bas<strong>is</strong> van onderzoek bij kandidat<strong>en</strong> aanzi<strong>en</strong>lijk verbeterd.<br />
M<strong>is</strong>interpretaties tuss<strong>en</strong> kandidaat <strong>en</strong> computer zijn verder geminimal<strong>is</strong>eerd. In e<strong>en</strong><br />
vervolgpublicatie beschrijv<strong>en</strong> Beevers et al. (1999) e<strong>en</strong> syntax checker die kandidat<strong>en</strong> ondersteunt bij<br />
<strong>het</strong> vorm<strong>en</strong> van betek<strong>en</strong><strong>is</strong>volle w<strong>is</strong>kundige uitdrukking<strong>en</strong> (Engels: meaningful expressions). De tool<br />
bevat ook e<strong>en</strong> dynam<strong>is</strong>ch d<strong>is</strong>play die de kandidaat onmiddellijk feedback geeft over hoe de computer<br />
<strong>het</strong> ingevoerde antwoord interpreteert. Als <strong>het</strong> antwoord dicht teg<strong>en</strong> <strong>het</strong> goede antwoord aanzit<br />
maar niet de vere<strong>is</strong>te vorm heeft, kan de leerling toch deelscores verdi<strong>en</strong><strong>en</strong>. Hoe dat in zijn werk<br />
gaat, wordt duidelijk uit <strong>het</strong> volg<strong>en</strong>de voorbeeld (zie voor meer voorbeeld<strong>en</strong>: Beevers et al. , 1999).<br />
Als <strong>het</strong> toegestane antwoord <strong>op</strong> e<strong>en</strong> vraag ½ <strong>is</strong> maar de leerling heeft 0.5 ingetypt, geeft de<br />
computer - als de leerling de Input Tool heeft aangezet - de boodschap ‘Je antwoord <strong>is</strong> goed, maar<br />
heeft de verkeerde vorm; geef je antwoord als e<strong>en</strong> breuk - 50% aftrek’. Leerling<strong>en</strong> blijk<strong>en</strong> de<br />
toeg<strong>en</strong>om<strong>en</strong> flexibiliteit bijzonder <strong>op</strong> prijs te stell<strong>en</strong>, terwijl hun toetsangst daardoor afneemt.<br />
Ashton, Beevers, Korabinski, Youngson <strong>en</strong> Martin (2006)<br />
E<strong>en</strong> van de doel<strong>en</strong> van <strong>het</strong> onderzoek van Ashton, Beevers, Korabinski, Youngson <strong>en</strong> Martin (2006)<br />
was <strong>het</strong> vind<strong>en</strong> van e<strong>en</strong> manier om invoerfout<strong>en</strong> in e<strong>en</strong> CBT te beperk<strong>en</strong> door de kandidaat<br />
onmiddellijke feedback te gev<strong>en</strong> <strong>op</strong> <strong>het</strong> ingevoerde antwoord. Aanleiding was de observatie dat veel<br />
foute antwoord<strong>en</strong> in e<strong>en</strong> traditionele CBT <strong>het</strong> gevolg zijn van kleine rek<strong>en</strong>- of slordigheidsfoutjes die<br />
in e<strong>en</strong> PPT nauwelijks tot punt<strong>en</strong>aftrek geleid zoud<strong>en</strong> hebb<strong>en</strong>. E<strong>en</strong> voorbeeld <strong>is</strong> <strong>het</strong> <strong>op</strong> zich ju<strong>is</strong>te<br />
antwoord tw<strong>en</strong>ty one and a third waarbij de kandidat<strong>en</strong> niet altijd w<strong>is</strong>t<strong>en</strong> hoe zij de breuk (Engels:<br />
fractional part) moest<strong>en</strong> invoer<strong>en</strong> <strong>op</strong>dat de computer deze zou herk<strong>en</strong>n<strong>en</strong>. Door de kandidaat<br />
hier<strong>op</strong> te att<strong>en</strong>der<strong>en</strong>, zou deze de kans krijg<strong>en</strong> om de fout te tracer<strong>en</strong> <strong>en</strong> <strong>het</strong> foute antwoord door<br />
<strong>het</strong> goede te vervang<strong>en</strong>.<br />
De onderzoekers ontwikkeld<strong>en</strong> e<strong>en</strong> zog<strong>en</strong>oemde T-versie van <strong>het</strong> exam<strong>en</strong> waarbij de feedback werd<br />
gegev<strong>en</strong> in de vorm van vinkjes <strong>en</strong> kru<strong>is</strong>jes (Engels: ticks and crosses) voor respectievelijk e<strong>en</strong> goed<br />
<strong>en</strong> e<strong>en</strong> fout antwoord. De gemiddelde scores <strong>op</strong> deze T-versie <strong>verschil</strong>de niet van die <strong>op</strong> de beide<br />
andere versies: Compulsory Steps (CS) <strong>en</strong> Optional Steps (OS). Zie de bespreking van de resultat<strong>en</strong><br />
met betrekking tot <strong>het</strong> effect van <strong>het</strong> al dan niet toek<strong>en</strong>n<strong>en</strong> van partial credit in paragraaf 3.2.<br />
De onderzoekers bestudeerd<strong>en</strong> ook <strong>het</strong> aantal verbeterpoging<strong>en</strong> bij de T-versie waarbij de<br />
kandidat<strong>en</strong> feedback kreg<strong>en</strong> in de vorm van vinkjes <strong>en</strong> kru<strong>is</strong>jes. De uitkomst<strong>en</strong> gav<strong>en</strong> aldus de<br />
onderzoekers aanleiding tot twijfel aan de validiteit van de meting met de T-versie. Het was de<br />
bedoeling dat de feedback kandidat<strong>en</strong> zou att<strong>en</strong>der<strong>en</strong> <strong>op</strong> kleine rek<strong>en</strong>foutjes die zij dan vervolg<strong>en</strong>s<br />
kond<strong>en</strong> herstell<strong>en</strong>. In de T-versie blek<strong>en</strong> de kandidat<strong>en</strong> nog steeds rek<strong>en</strong>foutjes te mak<strong>en</strong>, ook al<br />
war<strong>en</strong> dat er minder dan bij de S-versie (CBT met steps). Wel roep<strong>en</strong> de resultat<strong>en</strong> volg<strong>en</strong>s de<br />
onderzoekers de vraag <strong>op</strong> <strong>wat</strong> er in hoofd<strong>en</strong> van de kandidat<strong>en</strong> omging als zij met e<strong>en</strong> kru<strong>is</strong>je<br />
geconfronteerd werd<strong>en</strong> <strong>en</strong> beslot<strong>en</strong> door te gaan met de volg<strong>en</strong>de vraag of <strong>het</strong> volg<strong>en</strong>de onderdeel<br />
van de vraag. Anders dan de bedoeling was, war<strong>en</strong> er kandidat<strong>en</strong> die zeer veel poging<strong>en</strong><br />
ondernam<strong>en</strong> om e<strong>en</strong> deel van de vraag te verbeter<strong>en</strong>. De onderzoekers acht<strong>en</strong> <strong>het</strong> aannemelijk dat<br />
deze kandidat<strong>en</strong> gokgedrag vertoond<strong>en</strong> in de zin dat zij herhaaldelijk probeerd<strong>en</strong> <strong>het</strong> antwoord te<br />
verbeter<strong>en</strong> zonder inzicht in de aard van de fout. Zij <strong>op</strong>per<strong>en</strong> dat <strong>het</strong> gev<strong>en</strong> van feedback <strong>op</strong> de<br />
ju<strong>is</strong>theid van <strong>het</strong> antwoord mogelijk meer geschikt <strong>is</strong> voor formatieve dan voor summatieve<br />
evaluatie.<br />
© Stichting Cito, Arnhem 2015 36
Voor de onderzoekers war<strong>en</strong> de resultat<strong>en</strong> met de T-versie aanleiding om e<strong>en</strong> aantal verbetering<strong>en</strong><br />
in <strong>het</strong> exam<strong>en</strong> aan te br<strong>en</strong>g<strong>en</strong>. E<strong>en</strong> verbetering was dat kandidaat, na <strong>het</strong> antwoord ingevoerd te<br />
hebb<strong>en</strong>, twee weergaves van zijn of haar antwoord te zi<strong>en</strong> krijgt (gepositioneerd onder <strong>het</strong> invoervak<br />
waarin zij hun antwoord noteerd<strong>en</strong>). De eerste weergave laat <strong>het</strong> antwoord zi<strong>en</strong> in dezelfde vorm als<br />
waarin zij <strong>het</strong> hebb<strong>en</strong> ingetypt. De tweede weergave laat <strong>het</strong> antwoord zi<strong>en</strong> zoals de kandidaat dat<br />
normaal gesprok<strong>en</strong> <strong>op</strong> papier zou hebb<strong>en</strong> gegev<strong>en</strong>. Deze zog<strong>en</strong>oemde r<strong>en</strong>dered form <strong>is</strong> veel meer<br />
vertrouwd <strong>en</strong> gebruikelijk dan <strong>wat</strong> zij <strong>op</strong> <strong>het</strong> beeldscherm <strong>op</strong> één regel moet<strong>en</strong> intyp<strong>en</strong>. De tweede<br />
weergave laat zi<strong>en</strong> hoe de computer <strong>het</strong> antwoord geïnterpreteerd heeft. En als die interpretatie<br />
afwijkt van <strong>wat</strong> de kandidaat had will<strong>en</strong> invoer<strong>en</strong>, kan hij of zij <strong>het</strong> antwoord gemakkelijker<br />
verbeter<strong>en</strong>.<br />
Als tweede verbetering stell<strong>en</strong> de onderzoekers voor <strong>het</strong> maximale aantal verbeterpoging<strong>en</strong> te<br />
beperk<strong>en</strong> tot bijvoorbeeld maximaal twee. Zij wijz<strong>en</strong> er<strong>op</strong> dat dit tot nieuwe problem<strong>en</strong> kan leid<strong>en</strong>.<br />
Het komt bijvoorbeeld vaak voor dat kandidat<strong>en</strong> per ongeluk twee keer <strong>op</strong> e<strong>en</strong> icoontje klikk<strong>en</strong> <strong>wat</strong><br />
dan als twee poging<strong>en</strong> zou tell<strong>en</strong>. Hier <strong>is</strong> nader onderzoek gebod<strong>en</strong>. De onderzoekers verwacht<strong>en</strong> de<br />
geconstateerde invoerproblem<strong>en</strong> in de toekomst grot<strong>en</strong>deels te kunn<strong>en</strong> <strong>op</strong>loss<strong>en</strong>. Echter, net als er<br />
bij e<strong>en</strong> PPT altijd m<strong>is</strong>prints zull<strong>en</strong> voorkom<strong>en</strong>, zull<strong>en</strong> invoerfout<strong>en</strong> bij e<strong>en</strong> CBT nooit helemaal<br />
vermed<strong>en</strong> kunn<strong>en</strong> word<strong>en</strong>.<br />
Passmore, Brookshaw <strong>en</strong> Butler (2011)<br />
Passmore, Brookshaw <strong>en</strong> Butler (2011) ontwikkeld<strong>en</strong> e<strong>en</strong> online systeem voor <strong>het</strong> toets<strong>en</strong> van de<br />
vaardighed<strong>en</strong> van eerstejaars stud<strong>en</strong>t<strong>en</strong> in ‘algebra and calculus’. Om de antwoord<strong>en</strong> - algebraïsche<br />
input - in te voer<strong>en</strong>, hoefd<strong>en</strong> de stud<strong>en</strong>t<strong>en</strong> niet eerst e<strong>en</strong> programmeertaal te ler<strong>en</strong> of ingewikkelde<br />
invoerinstructies te bestuder<strong>en</strong>. De stud<strong>en</strong>t<strong>en</strong> gav<strong>en</strong> hun antwoord<strong>en</strong> volg<strong>en</strong>s de gebruikelijke<br />
w<strong>is</strong>kundige notatiewijz<strong>en</strong> <strong>en</strong> conv<strong>en</strong>ties. Passmore, Brookshaw <strong>en</strong> Butler (2011) ontwikkeld<strong>en</strong> e<strong>en</strong><br />
zog<strong>en</strong>oemd computer algebra system (CAS) waarmee de antwoord<strong>en</strong> werd<strong>en</strong> vergelek<strong>en</strong> met<br />
bek<strong>en</strong>de antwoord<strong>en</strong>, de input zo nodig ontleed werd om de k<strong>en</strong>merk<strong>en</strong> ervan nader te bepal<strong>en</strong> <strong>en</strong><br />
de antwoord<strong>en</strong> automat<strong>is</strong>ch gescoord werd<strong>en</strong>. De invoer via <strong>het</strong> toets<strong>en</strong>bord gebeurde in grote<br />
lijn<strong>en</strong> volg<strong>en</strong>s de informele syntax van Sangwin <strong>en</strong> Ramsd<strong>en</strong> (2007) die, aldus de onderzoekers, de<br />
gebruikelijke w<strong>is</strong>kunde notitiewijz<strong>en</strong> <strong>en</strong> conv<strong>en</strong>ties dicht b<strong>en</strong>aderde. Het CAS gaf feedback aan de<br />
hand waarvan de stud<strong>en</strong>t <strong>het</strong> antwoord kon controler<strong>en</strong> alvor<strong>en</strong>s <strong>het</strong> definitief te verstur<strong>en</strong>. E<strong>en</strong><br />
voorbeeld van e<strong>en</strong> syntact<strong>is</strong>che hint <strong>is</strong>: “A simple solution of the form x/y <strong>is</strong> expected. If you don’t<br />
supply a simple solution it will be marked incorrect” (p. 809). Het systeem voorzag ook in partial<br />
credit scoring (zie ook paragraaf 3.2).<br />
Als voordel<strong>en</strong> noem<strong>en</strong> de auteurs de efficiëntie <strong>en</strong> de snelle feedback voor stud<strong>en</strong>t<strong>en</strong> <strong>en</strong><br />
onderwijspersoneel. Stud<strong>en</strong>t<strong>en</strong> hadd<strong>en</strong> ge<strong>en</strong> klacht<strong>en</strong> over <strong>het</strong> systeem, maar sommig<strong>en</strong> war<strong>en</strong> toch<br />
nog bang dat de computer hun antwoord vanwege e<strong>en</strong> syntaxprobleem fout zou rek<strong>en</strong><strong>en</strong> (zelfs als<br />
ander onderzoek uitwees dat zij e<strong>en</strong> w<strong>is</strong>kundige fout gemaakt hadd<strong>en</strong>). Passmore, Brookshaw <strong>en</strong><br />
Butler (2011) meld<strong>en</strong> dat <strong>het</strong> perc<strong>en</strong>tage syntact<strong>is</strong>che fout<strong>en</strong> werd teruggebracht tot ongeveer 5%<br />
<strong>en</strong> dat dit minder <strong>is</strong> dan de 18% uit <strong>het</strong> onderzoek van Sangwin <strong>en</strong> Ramsd<strong>en</strong> (2007).<br />
De onderzoekers rapporter<strong>en</strong> ook <strong>en</strong>kele problem<strong>en</strong>, zoals <strong>het</strong> ontwikkel<strong>en</strong> <strong>en</strong> uittest<strong>en</strong> van goede<br />
vrag<strong>en</strong>, <strong>het</strong> specificer<strong>en</strong> van de bijbehor<strong>en</strong>de informele syntax <strong>en</strong> <strong>het</strong> gegev<strong>en</strong> dat “no system can<br />
handle perfectly all the possible answers that stud<strong>en</strong>ts may give to any question“ (p. 902).<br />
Het onderzoek van Passmore, Brookshaw <strong>en</strong> Butler (2011) <strong>is</strong> slechts één van de vele<br />
ontwerponderzoek<strong>en</strong> waarbij geprobeerd <strong>is</strong> programmatuur te ontwikkel<strong>en</strong> die overweg kan met<br />
© Stichting Cito, Arnhem 2015 37
antwoord<strong>en</strong> <strong>op</strong> andere vrag<strong>en</strong> dan meerkeuzevrag<strong>en</strong> <strong>en</strong> dan vrag<strong>en</strong> waarbij e<strong>en</strong> exacte match met<br />
<strong>het</strong> gegev<strong>en</strong> numerieke antwoord vere<strong>is</strong>t <strong>is</strong>. In <strong>het</strong> kader van onze kortdur<strong>en</strong>de studie <strong>is</strong> <strong>het</strong> helaas<br />
niet mogelijk om de vele uitgevoerde ontwerponderzoek<strong>en</strong> te tracer<strong>en</strong>, te bestuder<strong>en</strong> <strong>en</strong> sam<strong>en</strong> te<br />
vatt<strong>en</strong>.<br />
© Stichting Cito, Arnhem 2015 38
4 Conclusies<br />
In <strong>het</strong> voorgaande <strong>is</strong> verslag gedaan van de uitkomst<strong>en</strong> van e<strong>en</strong> kortdur<strong>en</strong>de literatuurstudie naar<br />
<strong>het</strong> effect van de afnamemodus (papier versus digitaal) <strong>op</strong> de hoogte van de prestaties <strong>op</strong> onder<br />
meer rek<strong>en</strong>-w<strong>is</strong>kundetoets<strong>en</strong>. Er blijk<strong>en</strong> vele honderd<strong>en</strong> studies te zijn uitgevoerd waarin de<br />
prestaties <strong>op</strong> PPT <strong>en</strong> CBT met elkaar word<strong>en</strong> vergelek<strong>en</strong>. De resultat<strong>en</strong> van dit onderzoek blijk<strong>en</strong><br />
sterk te variër<strong>en</strong> al naar gelang <strong>het</strong> vakgebied, de specifieke toets of exam<strong>en</strong>, <strong>het</strong> vraagtype, <strong>het</strong><br />
afnamesysteem <strong>en</strong> k<strong>en</strong>merk<strong>en</strong> van de p<strong>op</strong>ulatie. De overgrote meerderheid van de studies naar<br />
rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde zijn uitgevoerd met uitsluit<strong>en</strong>d meerkeuzetoets<strong>en</strong> (in low-stakes settings).<br />
Vergelijkingsstudies naar mogelijk differ<strong>en</strong>tiële effect<strong>en</strong> van partial credit scoring, <strong>het</strong> gebruik van<br />
kladpapier <strong>en</strong> de invoer van de antwoord<strong>en</strong> (beeldscherm versus papier) zijn nog nauwelijks<br />
uitgevoerd. De methodolog<strong>is</strong>che zuiverheid van deze studies laat bov<strong>en</strong>di<strong>en</strong> vaak sterk te w<strong>en</strong>s<strong>en</strong><br />
over. Met dit in ons achterhoofd vatt<strong>en</strong> we hieronder de belangrijkste conclusies van de<br />
literatuurstudie sam<strong>en</strong>.<br />
Het effect van de afnamemodus <strong>op</strong> de prestaties<br />
De eerste onderzoeksvraag luidde: “Wat <strong>is</strong> er bek<strong>en</strong>d over <strong>het</strong> effect van de afnamemodus <strong>op</strong> de<br />
hoogte van de prestaties van de kandidat<strong>en</strong>?”. Omdat <strong>het</strong> aantal uitgevoerde studies zeer groot was,<br />
hebb<strong>en</strong> we geprobeerd deze vraag te beantwoord<strong>en</strong> aan de hand van e<strong>en</strong> beperkt aantal verhal<strong>en</strong>de<br />
reviews <strong>en</strong> meta-analyses (Mazzeo & Harvey, 1988; Bunderson, Inouye & Ols<strong>en</strong>, 1989; W<strong>is</strong>e & Plake,<br />
1989; Bergstrom, 1992; Dillon, 1992; Mead <strong>en</strong> Drasgow, 1993; Kim, 1999; Russell, Goldberg &<br />
O’Connor, 2003; Paek, 2005; Gaskill & Marshall; 2006; Wang, Jiao, Young, Brooks & Olson, 2007;<br />
Texas Education Ag<strong>en</strong>cy, 2008; Kingston, 2009). De belangrijkste conclusies met betrekking tot de<br />
eerste onderzoeksvraag kunn<strong>en</strong> als volgt word<strong>en</strong> sam<strong>en</strong>gevat:<br />
<br />
<br />
<br />
de uitkomst<strong>en</strong> bij <strong>het</strong> vakgebied w<strong>is</strong>kunde gev<strong>en</strong> weinig aanleiding om e<strong>en</strong> sterk effect van de<br />
afnamemodus <strong>op</strong> de prestaties te veronderstell<strong>en</strong>; de gemiddelde effectgrootte van <strong>het</strong><br />
gemiddeld prestatie<strong>verschil</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT <strong>is</strong> meestal (verwaarloosbaar) klein <strong>en</strong> de spreiding<br />
van de effectgroottes <strong>is</strong> w<strong>is</strong>sel<strong>en</strong>d (in de <strong>en</strong>e review of meta-analyse <strong>wat</strong> groter dan in de<br />
andere);<br />
als er bij rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde e<strong>en</strong> significant moduseffect <strong>op</strong> de hoogte van de prestaties<br />
gevond<strong>en</strong> wordt, <strong>is</strong> dat veel vaker in <strong>het</strong> voordeel van PPT dan van CBT;<br />
<strong>het</strong> effect van de afnamemodus <strong>is</strong> sterk afhankelijk van <strong>het</strong> itemtype; er <strong>is</strong> nog weinig<br />
vergelijkingsonderzoek gedaan met andere vraagtyp<strong>en</strong> dan meerkeuzevrag<strong>en</strong>, maar de eerste<br />
resultat<strong>en</strong> lijk<strong>en</strong> er<strong>op</strong> te wijz<strong>en</strong> dat moduseffect<strong>en</strong> bij meerkeuzevrag<strong>en</strong> kleiner zijn dan bij<br />
andere itemtyp<strong>en</strong>.<br />
Het toek<strong>en</strong>n<strong>en</strong> van partial credit aan antwoord<strong>en</strong><br />
De tweede onderzoeksvraag bestond uit twee del<strong>en</strong>:<br />
<br />
<br />
In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met <strong>het</strong> al dan niet<br />
toek<strong>en</strong>n<strong>en</strong> van deelscores (partial credit) aan gedeeltelijk goede antwoord<strong>en</strong>?<br />
In hoeverre <strong>is</strong> <strong>het</strong> teg<strong>en</strong>woordig mogelijk om de resultat<strong>en</strong> van de leerling<strong>en</strong> <strong>op</strong> e<strong>en</strong> CBT-exam<strong>en</strong><br />
<strong>op</strong> e<strong>en</strong>zelfde manier te beoordel<strong>en</strong> als de gebruikelijke partial credit beoordeling in e<strong>en</strong> PPTexam<strong>en</strong><br />
door beoordelaars.<br />
© Stichting Cito, Arnhem 2015 39
De belangrijkste resultat<strong>en</strong> van de gevond<strong>en</strong> studies kunn<strong>en</strong> we als volgt sam<strong>en</strong>vatt<strong>en</strong>:<br />
<br />
<br />
<br />
Onder constant houding van de maximumscore (<strong>en</strong> <strong>het</strong> antwoordmodel) zou partial credit<br />
scoring waarbij gedeeltelijk goede antwoord<strong>en</strong> extra punt<strong>en</strong> <strong>op</strong>lever<strong>en</strong> log<strong>is</strong>cherwijs tot hogere<br />
scores moet<strong>en</strong> leid<strong>en</strong> dan alles-of-niets scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord. Niet verrass<strong>en</strong>d<br />
blijkt geautomat<strong>is</strong>eerde partial credit scoring te resulter<strong>en</strong> in hogere scores dan<br />
geautomat<strong>is</strong>eerde alles-of-niets scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord. Dat <strong>het</strong> perc<strong>en</strong>tage goed<br />
<strong>op</strong> <strong>het</strong> exam<strong>en</strong> door <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van deelscores hoger wordt, betek<strong>en</strong>t natuurlijk niet dat de<br />
kandidat<strong>en</strong> dan vaardiger zijn geword<strong>en</strong>. Het betek<strong>en</strong>t wel dat de resultat<strong>en</strong> <strong>op</strong> <strong>het</strong> exam<strong>en</strong><br />
minder snel als teg<strong>en</strong>vall<strong>en</strong>d geïnterpreteerd zull<strong>en</strong> word<strong>en</strong>.<br />
De laatste dertig jaar <strong>is</strong> er ervaring <strong>op</strong>gedaan met CBT waarbij <strong>op</strong>tionele stapsgewijze bevraging<br />
wordt gecombineerd met geautomat<strong>is</strong>eerde scoring van gedeeltelijk goede antwoord<strong>en</strong>. Het<br />
blijkt mogelijk om de ‘gewone’ arbeidsint<strong>en</strong>sieve PPT-beoordeling met deelscores in e<strong>en</strong><br />
automat<strong>is</strong>ch gescoorde CBT met <strong>op</strong>tionele Steps na te boots<strong>en</strong> De resultat<strong>en</strong> wijz<strong>en</strong> er<strong>op</strong> dat<br />
deze nieuwe manier van examinering tot scores leidt die vergelijkbaar zijn met de gebruikelijke<br />
partial credit scoring van <strong>op</strong> papier gegev<strong>en</strong> antwoord<strong>en</strong> door m<strong>en</strong>selijke beoordelaars.<br />
Stapsgewijze bevraging leidt tot e<strong>en</strong> to<strong>en</strong>ame van de afnametijd.<br />
Mogelijkhed<strong>en</strong> van item review<br />
In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met de <strong>verschil</strong>l<strong>en</strong>de<br />
mogelijkhed<strong>en</strong> tot item review? Onder item review wordt verstaan a) <strong>het</strong> overslaan van vrag<strong>en</strong> om<br />
deze later te beantwoord<strong>en</strong>, b) <strong>het</strong> bekijk<strong>en</strong> van eerder gegev<strong>en</strong> antwoord<strong>en</strong> <strong>en</strong> c) <strong>het</strong> verander<strong>en</strong><br />
van eerder gegev<strong>en</strong> antwoord<strong>en</strong> (W<strong>is</strong>e & Plake, 1989). Anders dan PPT biedt de eerste-g<strong>en</strong>eratie CBT<br />
ge<strong>en</strong> mogelijkhed<strong>en</strong> tot item review. De belangrijkste conclusies van <strong>het</strong> gevond<strong>en</strong> onderzoek<br />
kunn<strong>en</strong> als volgt word<strong>en</strong> sam<strong>en</strong>gevat:<br />
<br />
<br />
<br />
<br />
onderzoek met <strong>papier<strong>en</strong></strong> toets<strong>en</strong> laat zi<strong>en</strong> dat veel leerling<strong>en</strong> gebruik mak<strong>en</strong> van item review,<br />
maar dat slechts e<strong>en</strong> klein deel van de antwoord<strong>en</strong> daadwerkelijk gewijzigd wordt; <strong>en</strong> als er e<strong>en</strong><br />
antwoord gewijzigd wordt, <strong>is</strong> dat veel vaker van fout naar goed dan van goed naar fout; item<br />
review heeft hiermee e<strong>en</strong> (klein) positief effect <strong>op</strong> de prestaties;<br />
er <strong>is</strong> onvoldo<strong>en</strong>de evid<strong>en</strong>tie gevond<strong>en</strong> om de vraag naar <strong>het</strong> ev<strong>en</strong>tueel <strong>verschil</strong>l<strong>en</strong>d gebruik van<br />
item review in PPT <strong>en</strong> moderne CBT met mogelijkhed<strong>en</strong> van itemreview e<strong>en</strong>duidig te kunn<strong>en</strong><br />
beantwoord<strong>en</strong>;<br />
als reguliere PPT <strong>en</strong> modernere CBT vergelijkbare mogelijkhed<strong>en</strong> tot item review bied<strong>en</strong>, leidt<br />
dat doorgaans tot vergelijkbare resultat<strong>en</strong>;<br />
item review leidt tot e<strong>en</strong> aanzi<strong>en</strong>lijke to<strong>en</strong>ame van de afnametijd.<br />
Gebruik van kladpapier<br />
De vierde onderzoeksvraag betrof <strong>het</strong> ev<strong>en</strong>tueel <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier in PPT <strong>en</strong> CBT<br />
<strong>en</strong> <strong>het</strong> differ<strong>en</strong>tiële effect daarvan <strong>op</strong> de prestaties. De veronderstelling bij CBT minder kandidat<strong>en</strong><br />
van kladpapier gebruik mak<strong>en</strong> dan bij PPT. Hiermee sam<strong>en</strong>hang<strong>en</strong>d zoud<strong>en</strong> kandidat<strong>en</strong> bij CBT vaker<br />
van m<strong>en</strong>tale <strong>op</strong>lossingsstrategieën (‘uit <strong>het</strong> hoofd’) gebruik<strong>en</strong> t<strong>en</strong> koste van schriftelijke<br />
<strong>op</strong>lossingsstrategieën (‘<strong>op</strong> papier’). Onderzoek suggereert dat m<strong>en</strong>tale <strong>op</strong>lossingsstrategieën<br />
doorgaans minder effectief zijn dan schriftelijke <strong>op</strong>lossingsstrategieën. De resultat<strong>en</strong> van e<strong>en</strong> nog<br />
zeer beperkt aantal gevond<strong>en</strong> studies naar <strong>het</strong> mogelijk <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier in PPT <strong>en</strong><br />
CBT <strong>en</strong> <strong>het</strong> effect daarvan <strong>op</strong> de prestaties kunn<strong>en</strong> als volgt word<strong>en</strong> sam<strong>en</strong>gevat:<br />
© Stichting Cito, Arnhem 2015 40
<strong>wat</strong> betreft de vraag of kandidat<strong>en</strong> bij CBT meer of minder gebruik mak<strong>en</strong> van kladpapier dan bij<br />
PPT geeft <strong>het</strong> gevond<strong>en</strong> onderzoek teg<strong>en</strong>strijdige resultat<strong>en</strong> te zi<strong>en</strong>;<br />
echter, als gevond<strong>en</strong> wordt dat kandidat<strong>en</strong> bij CBT minder gebruik mak<strong>en</strong> van kladpapier dan bij<br />
PPT, heeft dat e<strong>en</strong> hooguit zwak negatief effect <strong>op</strong> de prestaties; bij CBT lijk<strong>en</strong> kandidat<strong>en</strong> dan<br />
<strong>wat</strong> vaker minder effectieve m<strong>en</strong>tale <strong>op</strong>lossingsstrategieën te gebruik<strong>en</strong> <strong>en</strong> <strong>wat</strong> minder vaak<br />
schriftelijke <strong>op</strong>lossingsstrategieën;<br />
ev<strong>en</strong>tuele negatieve effect<strong>en</strong> van <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier zijn mogelijk<br />
afhankelijk van de specifieke rek<strong>en</strong>vaardigheid (bij bewerking<strong>en</strong> <strong>en</strong> bij geometr<strong>is</strong>che relaties <strong>en</strong><br />
ruimtelijk red<strong>en</strong>er<strong>en</strong> groter dan bij andere rek<strong>en</strong>vaardighed<strong>en</strong>) <strong>en</strong> de sekse van de leerling (bij<br />
jong<strong>en</strong>s groter dan bij me<strong>is</strong>jes).<br />
Deze conclusies omtr<strong>en</strong>t <strong>het</strong> gebruik van kladpapier moet<strong>en</strong> als zeer voorl<strong>op</strong>ig word<strong>en</strong> beschouwd.<br />
Enerzijds omdat de literatuur search in dit geval verre van systemat<strong>is</strong>ch was waardoor <strong>het</strong><br />
waarschijnlijk <strong>is</strong> dat relevante studies over <strong>het</strong> hoofd zijn gezi<strong>en</strong>. Anderzijds omdat er nog maar<br />
weinig onderzoek lijkt te zijn gedaan waarin <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier <strong>op</strong> systemat<strong>is</strong>che<br />
wijze in verband wordt gebracht met prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT. Zeldzaam lijk<strong>en</strong> met<br />
name studies waarin <strong>het</strong> differ<strong>en</strong>tieel effect van kladpapier <strong>op</strong> de prestaties nauwkeurig<br />
gekwantificeerd wordt. Nog zeldzamer lijk<strong>en</strong> methodolog<strong>is</strong>ch zuivere studies waarin<br />
onderzoeksontwerp <strong>en</strong> instrum<strong>en</strong>tatie <strong>het</strong> toelat<strong>en</strong> om <strong>het</strong> effect van kladpapier systemat<strong>is</strong>ch te<br />
onderscheid<strong>en</strong> van andere verklaring<strong>en</strong> voor gevond<strong>en</strong> prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT.<br />
Invoer van antwoord<strong>en</strong> via beeldscherm versus papier<br />
De vijfde onderzoeksvraag betrof de vraag in hoeverre prestatie<strong>verschil</strong>l<strong>en</strong> <strong>op</strong> PPT <strong>en</strong> CBT<br />
sam<strong>en</strong>hang<strong>en</strong> met de manier waar<strong>op</strong> kandidat<strong>en</strong> hun antwoord moet<strong>en</strong> gev<strong>en</strong>: via <strong>het</strong> beeldscherm<br />
versus <strong>op</strong> papier. Kandidat<strong>en</strong> hebb<strong>en</strong> doorgaans meer ervaring met <strong>het</strong> noter<strong>en</strong> van antwoord<strong>en</strong> <strong>op</strong><br />
papier dan met <strong>het</strong> invoer<strong>en</strong> van antwoord<strong>en</strong> via <strong>het</strong> beeldscherm. De computer zou t<strong>en</strong> onrechte<br />
antwoord<strong>en</strong> fout rek<strong>en</strong><strong>en</strong> die e<strong>en</strong> m<strong>en</strong>selijke beoordelaar <strong>op</strong> papier (gedeeltelijk) goed zou hebb<strong>en</strong><br />
gerek<strong>en</strong>d, met als gevolg lagere prestaties voor CBT in vergelijking met PPT. De belangrijkste, nog<br />
zeer voorl<strong>op</strong>ige conclusies van e<strong>en</strong> nog zeer klein aantal gevond<strong>en</strong> studies vatt<strong>en</strong> we als volgt sam<strong>en</strong>:<br />
<br />
<br />
<br />
er lijk<strong>en</strong> zwakke aanwijzing<strong>en</strong> te zijn dat geautomat<strong>is</strong>eerde scoringsalgoritm<strong>en</strong> antwoord<strong>en</strong> (wel<br />
e<strong>en</strong>s) fout rek<strong>en</strong><strong>en</strong> die m<strong>en</strong>selijke beoordelaars <strong>op</strong> papier (gedeeltelijk) goed zoud<strong>en</strong> rek<strong>en</strong><strong>en</strong>;<br />
er zijn echter te weinig studies gevond<strong>en</strong> om met <strong>en</strong>ige zekerheid uitsprak<strong>en</strong> te kunn<strong>en</strong> do<strong>en</strong><br />
over de mate waarin dit voorkomt <strong>en</strong> hoe groot <strong>het</strong> ev<strong>en</strong>tuele effect ervan <strong>is</strong> <strong>op</strong> de prestaties;<br />
er zijn input tools <strong>en</strong> feedback-mechan<strong>is</strong>m<strong>en</strong> ontwikkeld die m<strong>is</strong>match tuss<strong>en</strong> computer <strong>en</strong><br />
kandidaat minimal<strong>is</strong>er<strong>en</strong> <strong>en</strong> die kandidat<strong>en</strong> de mogelijkheid bied<strong>en</strong> om kleine invoerfoutjes met<br />
aftrek van punt<strong>en</strong> te herstell<strong>en</strong>; effectiviteit <strong>en</strong> ev<strong>en</strong>tuele nev<strong>en</strong>effect<strong>en</strong> (bijvoorbeeld<br />
gokgedrag) zijn ev<strong>en</strong>wel ongew<strong>is</strong>.<br />
Deze conclusies betreff<strong>en</strong>de m<strong>is</strong>communicatie tuss<strong>en</strong> computer <strong>en</strong> kandidaat bij de invoer van<br />
antwoord<strong>en</strong> <strong>en</strong> <strong>het</strong> effect ervan <strong>op</strong> de prestaties moet<strong>en</strong> als zeer voorl<strong>op</strong>ig word<strong>en</strong> beschouwd. De<br />
literatuur search was te weinig systemat<strong>is</strong>ch <strong>en</strong> <strong>het</strong> leidt ge<strong>en</strong> twijfel dat relevante studies zijn<br />
gem<strong>is</strong>t.<br />
© Stichting Cito, Arnhem 2015 41
5 Geraadpleegde literatuur<br />
Abels, M., Boon, P., & Tacoma, S. (2013). Bas<strong>is</strong>handleiding Digitale W<strong>is</strong>kunde Omgeving. Utrecht:<br />
Freud<strong>en</strong>thal Instituut.<br />
AERA American Educational Research Association (AERA), American Psychological Association (APA),<br />
and the National Council on Measurem<strong>en</strong>t in Education (NCME). (1999). Standards for educational<br />
and psychological testing. Washington, DC: AERA<br />
APA American Psychological Association Committee on Professional Standards and Committee on<br />
Psychological Tests and Assessm<strong>en</strong>t (1986). Guidelines for computer-based tests and interpretations.<br />
Washington, DC: APA.<br />
Ashton, H.S., Beevers, C.E., Korabinski, A.A. & Youngson, M.A. (2006). Incorporating partial credit in<br />
computer-aided assessm<strong>en</strong>t of mathematics in secondary education. Brit<strong>is</strong>h Journal of Educational<br />
Technology, 37, 1, 93-119.<br />
Béguin, A.A., & Wools, S. (2015). Vertical compar<strong>is</strong>on using refer<strong>en</strong>ce sets. In: R.E. Millsap, L.A. van<br />
der Ark, D.M. Bolt, & W.C. Wang (Eds.), Quantitative Psychology Research. Springer Proceedings in<br />
Mathematics & Stat<strong>is</strong>tics (pp. 195-211). New York: Springer.<br />
B<strong>en</strong>jamin, L.T., Cavell, T.A., & Shall<strong>en</strong>burger, W.R. I. (1984). Staying with initial answers on objective<br />
tests: Is it a myth? Teaching of Psychology, 11, 3, 133-141.<br />
B<strong>en</strong>nett, R.E., Braswell, J., Oranje, A., Sand<strong>en</strong>e, B., Kaplan, B., & Yan, F. (2008). Does it matter if I take<br />
my mathematics test on computer? A second empirical study of mode effects in NAEP. Journal of<br />
Technology, Learning, and Assessm<strong>en</strong>t, 6, 9.<br />
Beschikbaar via http://www.jtla.org.<br />
Bergstrom, B.A., & Lunz, M.E. (1992). Confid<strong>en</strong>ce in pass/faildec<strong>is</strong>ions for computer adaptive and<br />
paper and p<strong>en</strong>cil examinations. Evaluation and the Health Professions,15, 4, 453-464.<br />
Braswell, J.S, & Bridgeman, B. (1992). Effects of scratchwork space on SAT-M performance<br />
(ETS-report nr RM-92-10). Princeton: ETS.<br />
Bunderson, C.V., Inouye, D.K., & Ols<strong>en</strong>, J.B. (1989). The four g<strong>en</strong>erations of computerized<br />
educational measurem<strong>en</strong>t. In R.L. Linn (Ed.), Educational measurem<strong>en</strong>t, Third Edition (pp. 367-407).<br />
London: Collier Macmillan.<br />
Cito (2015a). Resultat<strong>en</strong> van de vrag<strong>en</strong>lijst voor leerling<strong>en</strong> die deelnam<strong>en</strong> aan de Rek<strong>en</strong>toets<br />
Voortgezet Onderwijs maart 2015. Arnhem: Cito.<br />
Cito (2015b). Antwoord<strong>en</strong>analyse rek<strong>en</strong>toets 2F voortgezet onderwijs. Weergave <strong>en</strong> analyse van<br />
antwoord<strong>en</strong> <strong>op</strong> de voorbeeldtoets 2F 2014. Arnhem: Cito.<br />
© Stichting Cito, Arnhem 2015 42
Csapó, B., Molnár, G., & Tóth, K. (2009). Comparing paper-and-p<strong>en</strong>cil and online assessm<strong>en</strong>t of<br />
reasoning skills: a pilot study for introducing TAO in large-scale assessm<strong>en</strong>t in Hungary. In F.<br />
Scheuermann & J. Björnsson (Eds.), The transition to computer-based assessm<strong>en</strong>t: new<br />
approaches to skills assessm<strong>en</strong>t and implications for large-scale testing (pp. 120-126)<br />
Luxembourg: Office for Official Publications of the Eur<strong>op</strong>ean Community.<br />
Beschikbaar via http://www.gesci.org/assets/files/reporttransition.pdf<br />
College voor Exam<strong>en</strong>s (2014). Tuss<strong>en</strong>rapportage c<strong>en</strong>traal ontwikkelde exam<strong>en</strong>s mbo <strong>en</strong> Rek<strong>en</strong>toets<br />
VO, 2013-2014. Utrecht: College voor Exam<strong>en</strong>s.<br />
College voor Toets<strong>en</strong> <strong>en</strong> Exam<strong>en</strong>s (2014). Rapportage refer<strong>en</strong>tiesets taal (lez<strong>en</strong>) <strong>en</strong> rek<strong>en</strong><strong>en</strong>. Utrecht:<br />
CvTE.<br />
Comm<strong>is</strong>sie Bosker (2014). Advies over de uitwerking van de refer<strong>en</strong>ti<strong>en</strong>iveaus 2F <strong>en</strong> 3F voor rek<strong>en</strong><strong>en</strong><br />
in toets<strong>en</strong> <strong>en</strong> exam<strong>en</strong>s. Enschede: SLO.<br />
Darrah, M., Fuller, E., & Miller, D. (2010). A comparative study of partial credit assessm<strong>en</strong>t and<br />
computer-based testing for mathematics. Journal of Computers in Mathematics and Sci<strong>en</strong>ce<br />
Teaching, 29, 4, 373-398.<br />
Dillon, A. (1992). Reading from paper versus scre<strong>en</strong>s: A critical review of the empirical literature.<br />
Ergonomics, 35, 1297–1326.<br />
Dimock, P.H., & Cormier, P. (1991). The effects of format differ<strong>en</strong>ces and computer experi<strong>en</strong>ce on<br />
performance and anxiety on a computer-admin<strong>is</strong>tered test. Measurem<strong>en</strong>t & Evaluation in Counseling<br />
& Devel<strong>op</strong>m<strong>en</strong>t, 24, 119–126.<br />
Eaves, R. C., & Smith, E. (1986). The effect of media and amount of microcomputer experi<strong>en</strong>ce on<br />
examination scores. Journal of Experim<strong>en</strong>tal Education, 55, 23–26.<br />
Evers, A., Lucass<strong>en</strong>, W., Meijer, R., & Sijtsma, K. (2009). COTAN beoordelingssysteem voor de kwaliteit<br />
van tests (geheel herzi<strong>en</strong>e versie). Amsterdam: Faculteit der Maatschappij- <strong>en</strong><br />
Gedragswet<strong>en</strong>schapp<strong>en</strong>.<br />
Fiddes, D.J., Korabinski, A.A., McGuire, G.R., Youngson, M.A., & McMillan, D. (2002). Does the mode<br />
of delivery affect mathematics examination results? Alt-J, 10, 1, 60-69.<br />
Gallagher, A., Bridgeman, B., & Calahan, C. (2000). The effect of computer-based tests on<br />
racial/ethnic, g<strong>en</strong>der and language groups (RR–00–8). Princeton, NJ: Educational Testing Service.<br />
Gaskill, J., & Marshall, M. (2006). Compar<strong>is</strong>ons betwe<strong>en</strong> paper- and computer-based tests: A<br />
Literature Review. Kelowna, BC, Canada: Society for the Advancem<strong>en</strong>t of Excell<strong>en</strong>ce in Education.<br />
Gre<strong>en</strong>, B.F., Bock, R.D., Humphreys, L.G., Linn, R.L, & Reckase, M.D. (1984). Technical guidelines for<br />
assessing computerized adaptive tests. Journal of Educational Measurem<strong>en</strong>t, 21, 347-359.<br />
© Stichting Cito, Arnhem 2015 43
Gre<strong>en</strong>wood, L., McBride, F., Morr<strong>is</strong>on, H., Cowan, P. & Lee, M. (2000). Can the same results be<br />
obtained using computer-mediated tests as for paper-based tests for National Curriculum<br />
Assessm<strong>en</strong>t? In Proceedings of International Confer<strong>en</strong>ce on Mathematics / Sci<strong>en</strong>ce Education and<br />
Technology 2000 (pp. 179-184). Association for the Advancem<strong>en</strong>t of Computing in Education (AACE).<br />
Greaud, V., & Gre<strong>en</strong>, B. F. (1986). Equival<strong>en</strong>ce of conv<strong>en</strong>tional and computer pres<strong>en</strong>tation of speed<br />
tests. Applied Psychological Measurem<strong>en</strong>t, 10, 23–34.<br />
Hargreaves, M., Shorrocks-Taylor, D., Swinnerton, B., Tait, K., & Threlfall, J. (2004). Computer or<br />
paper? That <strong>is</strong> the question: Does the medium in which assessm<strong>en</strong>t questions are pres<strong>en</strong>ted affect<br />
childr<strong>en</strong>’s performance in mathematics? Educational Research, 46, 29-42<br />
Harvey, A. L. (1987). Differ<strong>en</strong>ces in response behavior for high and low scores as a function of item<br />
pres<strong>en</strong>tation on a computer ass<strong>is</strong>ted test. Unpubl<strong>is</strong>hed doctoral d<strong>is</strong>sertation. Lincoln: University of<br />
Nebraska.<br />
Hamilton, L.S., Klein, S.P., & Lorie, W. (2000). Using web-based testing for large-scale assessm<strong>en</strong>t.<br />
Santa Monica, CA: RAND Corporation.<br />
Harmes, J.C., & Parshall, C.G. (2000, November). An iterative process for computerized test<br />
devel<strong>op</strong>m<strong>en</strong>t: Integrating usability methods. Paper pres<strong>en</strong>ted at the annual meeting of the<br />
Florida Educational Research Association, Tallahassee.<br />
Hick<strong>en</strong>dorff, M., He<strong>is</strong>er, W.J., Van Putt<strong>en</strong>, C.M., & Verhelst, N.D. (2009). Solution strategies and<br />
achievem<strong>en</strong>t in Dutch complex arithmetic: Lat<strong>en</strong>t variable modeling of change. Psychometrika, 74, 2,<br />
331-350.<br />
Hick<strong>en</strong>dorff, M., Putt<strong>en</strong>, C.M. van, Verhelst , N.D., & He<strong>is</strong>er, W.J. (2010). Individual differ<strong>en</strong>ces in<br />
strategy use on div<strong>is</strong>ion problems: M<strong>en</strong>tal versus writt<strong>en</strong> computation. Journal of Educational<br />
Psychology, 102, 2, 438-452.<br />
Hofer, P. J., & Gre<strong>en</strong>, B. F. (1985). The chall<strong>en</strong>ge of compet<strong>en</strong>ce and creativity in computerized<br />
psychological testing. Journal of Consulting and Clinical Psychology, 53, 826–838.<br />
International Test Comm<strong>is</strong>sion (2001). International guidelines for test use. International Journal of<br />
Testing, 1, 93–114.<br />
International Test Comm<strong>is</strong>sion (2006). International guidelines on computer-based and Internet<br />
delivered testing. International Journal of Testing, 6, 143–172.<br />
Janss<strong>en</strong>, J., Van der Schoot, F., & Hemker, B. (2005). Balans van <strong>het</strong> rek<strong>en</strong>-w<strong>is</strong>kundeonderwijs aan <strong>het</strong><br />
einde van de bas<strong>is</strong>school 4. Uitkomst<strong>en</strong> van de vierde peiling in 2004 (PPON-reeks nummer 32).<br />
Arnhem: Cito.<br />
Johnson, M., & Gre<strong>en</strong>, S. (2006). On-line mathematics assessm<strong>en</strong>t: The impact of mode on<br />
performance and question answering strategies. Journal of Technology, Learning, and<br />
© Stichting Cito, Arnhem 2015 44
Assessm<strong>en</strong>t, 4, 5, 1-34.<br />
Johnson, D.E., & Mihal, W.L. (1973). Performance of blacks and whites in computerized versus<br />
manual testing <strong>en</strong>vironm<strong>en</strong>ts. American Psycholog<strong>is</strong>t, 28, 8, 694–699.<br />
K<strong>en</strong>g, L., McClarty, K.L., & Dav<strong>is</strong>, L.L. (2008). Item-level comparative analys<strong>is</strong> of online and paper<br />
admin<strong>is</strong>trations of the Texas assessm<strong>en</strong>t of knowledge and skills. Applied Measurem<strong>en</strong>t in Education,<br />
21, 3, 207-226.<br />
Kim, J. (1999, October). Meta-analys<strong>is</strong> of equival<strong>en</strong>ce of computerized and P&P tests on ability<br />
measures. Paper pres<strong>en</strong>ted at the annual meeting of the Midwestern Educational Research<br />
Association, Chicago.<br />
Kingston (2009). Comparability of computer- and paper-admin<strong>is</strong>tered multiple-choice<br />
tests for K-12 p<strong>op</strong>ulations: A synthes<strong>is</strong>. Applied Measurem<strong>en</strong>t in Education, 22, 22-37.<br />
Kol<strong>en</strong>, M.J. (1999-2000). Threats to score comparability with applications to performance<br />
assessm<strong>en</strong>ts and computerized adaptive tests. Educational Assessm<strong>en</strong>t 6, 73-96.<br />
Lee, J. (1986). The effects of past computer experi<strong>en</strong>ce on computer aptitude test performance.<br />
Educational and Psychological Measurem<strong>en</strong>t, 46, 727–733.<br />
Lee, J. A., & H<strong>op</strong>kins, L. (1985). The effects of training on computerized aptitude test performance and<br />
anxiety. Paper pres<strong>en</strong>ted at the annual meeting of the Eastern Psychological Association (Boston,<br />
MA, March).<br />
Lee, J.A., Mor<strong>en</strong>o, K.E, & Sympson, J.B. (1986). The effects of test admin<strong>is</strong>tration on test<br />
performance. Educational and Psychological Measurem<strong>en</strong>t, 46, 2, 467-474.<br />
Leeson, H.V. (2006). The mode effect: A literature review of human and technological <strong>is</strong>sues in<br />
computerized testing. International Journal of Testing, 6, 1, 1-24.<br />
Luecht, R.M., Hadadi, A., Swanson, D. B., & Case, S.M. (1998). Testing the test: A comparative study<br />
of a compreh<strong>en</strong>sive basic sci<strong>en</strong>ce test using paper-and-p<strong>en</strong>cil and computer<strong>is</strong>ed formats. Academic<br />
Medicine, 73, 51–53.<br />
Mason, B.J., Patry, M., & Bernstein, D.J. (2001). An examination of the equival<strong>en</strong>ce betwe<strong>en</strong><br />
non-adaptive computer-based and traditional testing. Journal of Educational Computing<br />
Research, 24, 1, 29-39.<br />
Mazzeo, J., & Harvey, A. L. (1988). The equival<strong>en</strong>ce of scores from automated and conv<strong>en</strong>tional<br />
educational and psychological tests: A review of the literature (College Board Rep. No. 88-8, ETS RR<br />
No. 88-21). Princeton, NJ: Educational Testing Service.<br />
© Stichting Cito, Arnhem 2015 45
McGuire, G.R., Youngson, M.A., Korabinski, A.A., & McMillan, D. (2002). Partial credit in mathematics<br />
exams: a compar<strong>is</strong>on of traditional and CAA exams, Proceedings of the 6th International CAA<br />
Confer<strong>en</strong>ce, Loughborough University.<br />
Mueller, D.J., & Wasser, V. (1977). Implications of changing answers on objective test items. Journal<br />
of Educational Measurem<strong>en</strong>t, 14, 1, 9–14.<br />
Murphy, P.K., Long, J., Holleran, T., & Esterly, E. (2000, August). Persuasion online or on paper: A new<br />
take on an old <strong>is</strong>sue. Paper pres<strong>en</strong>ted at the annual meeting of the American Psychological<br />
Association, Washington, DC.<br />
Olea, J., Revuelta, J., Ximénez, M.C., & Abad, F.J. (2000). Psychometric and psychological effects of<br />
review on computerized fixed and adaptive tests. Psicológica, 21, 157-173.<br />
O’Malley, K.J., Kirkpatrick, R., Sherwood, W., Burdick, H.J., Hsieh, M.C., & Sanford, E.E. (2005, April).<br />
Comparability of a Paper Based and Computer Based Reading Test in Early Elem<strong>en</strong>tary Grades. Paper<br />
pres<strong>en</strong>ted at the AERA Div<strong>is</strong>ion D Graduate Stud<strong>en</strong>t Seminar, Montreal, Canada.<br />
Oregon Departm<strong>en</strong>t of Education (2007). Comparability of stud<strong>en</strong>t scores obtained from paper and<br />
computer admin<strong>is</strong>trations. Salem, OR: Oregon Departm<strong>en</strong>t of Education.<br />
Beschikbaar via<br />
http://www.ode.state.or.us/teachlearn/testing/manuals/2007/doc4.1comparabilitytesat<strong>op</strong>andp.pdf<br />
Pass-it (2002). Good practice guide in question and test design. Luton: CAA C<strong>en</strong>tre.<br />
http://www.calm.hw.ac.uk/G<strong>en</strong>eralAuthoring/031112-goodpracticeguide-hw.pdf<br />
Parshall, C.G., Spray, J.A., Kalohn, J.C., & Davey, T. (2002). Practical considerations in computer-based<br />
testing. New York: Springer-Verlag.<br />
Passmore, T., Brookshaw, L, & Butler, H. (2011). A flexible, ext<strong>en</strong>sible online testing system for<br />
mathematics. Australasian Journal of Educational Technology, 27, 6, 896-906.<br />
Paek, P. (2005). Rec<strong>en</strong>t tr<strong>en</strong>ds in comparability studies. Austin, TX: Educational Measurem<strong>en</strong>t.<br />
Pearson (2009). Computer-based & paper-p<strong>en</strong>cil test comparability studies. Test, Measurem<strong>en</strong>t &<br />
Research Services Bulletin, 9.<br />
Poggio, J., Glasnapp, D. R., Yang, X., & Poggio, A. J. (2005). A comparative evaluation of score results<br />
from computerized and paper and p<strong>en</strong>cil mathematics testing in a large scale state assessm<strong>en</strong>t<br />
program. Journal of Technology, Learning, and Assessm<strong>en</strong>t 3, 6.<br />
Beschikbaar via http://www.jtla.org<br />
Pommerich, M. (2004). Devel<strong>op</strong>ing computerized versions of paper-and-p<strong>en</strong>cil tests: Mode effects<br />
for passage-based tests. Journal of Technology, Learning, and Assessm<strong>en</strong>t 2, 6, 1-45.<br />
© Stichting Cito, Arnhem 2015 46
Putt<strong>en</strong>, C.M. van (2008). De onm<strong>is</strong>k<strong>en</strong>bare daling van <strong>het</strong> prestatiepeil bij de bewerking<strong>en</strong> sinds 1987<br />
– e<strong>en</strong> reactie. Rek<strong>en</strong>-w<strong>is</strong>kundeonderwijs: onderzoek, ontwikkeling, praktijk, 27, 1, 35 – 40.<br />
Revuelta, J., Ximénez, M.C., & Olea, J. (2003). Psychometric and psychological effects of item<br />
selection and review on computerized testing. Educational and Psychological Measurem<strong>en</strong>t, 63, 791–<br />
808.<br />
Russell, M., Goldberg, A., & O’Connor, K. (2003). Computer-based testing and validity: a look back<br />
into the future. Assessm<strong>en</strong>t in Education, 10, 3, 279–294.<br />
Sand<strong>en</strong>e, B., Horkay, N., B<strong>en</strong>nett, R., All<strong>en</strong>, N., Braswell, J., Kaplan, B., & Oranje, A. (2005). Online<br />
assessm<strong>en</strong>t in mathematics and writing: Reports from the NAEP technology-based assessm<strong>en</strong>t project<br />
(NCES 2005-457). Washington, DC: Departm<strong>en</strong>t of Education, National C<strong>en</strong>ter for Education<br />
Stat<strong>is</strong>tics.<br />
Sangwin, C.J., & Ramsd<strong>en</strong>, P. (2007). Linear syntax for communicating elem<strong>en</strong>tary mathematics.<br />
Journal of Symbolic Computation, 42, 9, 920-934.<br />
Schelt<strong>en</strong>s, F., Hick<strong>en</strong>dorff, Egg<strong>en</strong>, Th. & Hiddink, L. (2014). Hoofdrek<strong>en</strong><strong>en</strong> met papier - hoe zit dat met<br />
leerling<strong>en</strong> die score<strong>en</strong><strong>en</strong>? Rek<strong>en</strong>-w<strong>is</strong>kundeonderwijs: onderzoek, ontwikkeling, praktijk, 33, 128-140.<br />
Scheltinga, F., Keuning, J., & Kuhlemeier, H. (2014). Gericht werk<strong>en</strong> aan <strong>op</strong>br<strong>en</strong>gst<strong>en</strong> in taal- <strong>en</strong><br />
leesonderwijs: E<strong>en</strong> systemat<strong>is</strong>che review naar toetsvorm<strong>en</strong>. Cito/Expert<strong>is</strong>ec<strong>en</strong>trum Nederlands:<br />
Arnhem/Nijmeg<strong>en</strong>.<br />
Schwartz, S.P., McMorr<strong>is</strong>, R.F., & DeMers, L.P. (1991). Reasons for changing answers: An evaluation<br />
using personal interviews. Journal of Educational Measurem<strong>en</strong>t, 28, 2, 163-171.<br />
Sutherland-Smith, W. (2002). Weaving the literacy web: changes in reading from page to scre<strong>en</strong>. The<br />
Reading Teacher, 55, 7, 664–667.<br />
Spray, J.A., Ackerman, T.A., Reckase, M.D., & Carlson, J.E. (1989). Effect of the medium of item<br />
pres<strong>en</strong>tation on examinee performance and item character<strong>is</strong>tics. Journal of Educational<br />
Measurem<strong>en</strong>t, 26, 261–271.<br />
Straat, H. (@in voorbereiding@). @@@. Arnhem: Cito.<br />
Threfall, J., Pool, P., Homer, M., & Swinnerton, B. (2007). Implicit aspects of paper and p<strong>en</strong>cil<br />
mathematics assessm<strong>en</strong>t that come to light through the use of the computer. Educational Studies in<br />
Mathematics, 66, 335-348.<br />
Traub, R. (1993). On the equival<strong>en</strong>ce of the traits assessed by multiple-choice and constructedresponse<br />
tests. In B<strong>en</strong>nett, R., & Ward, W. (eds.). Construction versus choice in cognitive<br />
measurem<strong>en</strong>t (pp. 29-44). Hillsdale, NJ: Lawr<strong>en</strong>ce Erlbaum Associates.<br />
Van d<strong>en</strong> Heuvel-Panhuiz<strong>en</strong>, M., & Bodin-Baar<strong>en</strong>ds C. (2004). All or nothing: Problem solving by high<br />
achievers in mathematics. Journal of the Korea Society of Mathematical Education, 8, 3, 115-121.<br />
© Stichting Cito, Arnhem 2015 47
V<strong>is</strong>poel, W.P. (1998). Reviewing and changing answers on computer-adaptive and self-adaptive<br />
vocabulary tests. Journal of Educational Measurem<strong>en</strong>t, 35, 328–345.<br />
V<strong>is</strong>poel, W.P., Wang, T., De la Torre, R., Bleiler, T., & Dings, J. (1992). How review <strong>op</strong>tions and<br />
admin<strong>is</strong>tration modes influ<strong>en</strong>ce scores on computerized vocabulary tests. Paper pres<strong>en</strong>ted at the<br />
annual meeting of the National Council on Measurem<strong>en</strong>t in Education (San Franc<strong>is</strong>co, CA).<br />
V<strong>is</strong>poel, W.P. (2000). Reviewing and changing answers on computerized fixed-item vocabulary tests.<br />
Educational and Psychological Measurem<strong>en</strong>t, 60, 371–384.<br />
Way, W. D., Dav<strong>is</strong>, L.L., & Fitzpatrick, S. (2006). Score comparability of online and paper<br />
admin<strong>is</strong>trations of the Texas Assessm<strong>en</strong>t of Knowledge and Skills. Paper pres<strong>en</strong>ted at the Annual<br />
Meeting of the National Council on Measurem<strong>en</strong>t in Education (San Franc<strong>is</strong>co, CA).<br />
Wild, D.G., Beevers, C.E., Fiddes, D.I., McGuire, G.R. and Youngson, M.A. (1997). Interactive<br />
PastPapers for A-Level and Higher Mathematics. Glasgow: Lander Educational Software.<br />
W<strong>is</strong>e, S.L., & Plake, B.S. (1989). Research on the effects of admin<strong>is</strong>tering tests via computers.<br />
Educational Measurem<strong>en</strong>t: Issues and Practice, 8, 3, 5-10.<br />
© Stichting Cito, Arnhem 2015 48