07.01.2016 Views

Prestaties op papieren en digitale examens wat is het verschil?

resultaten_literatuuronderzoek

resultaten_literatuuronderzoek

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Prestaties</strong> <strong>op</strong> <strong>papier<strong>en</strong></strong> <strong>en</strong> <strong>digitale</strong><br />

exam<strong>en</strong>s: <strong>wat</strong> <strong>is</strong> <strong>het</strong> <strong>verschil</strong>?<br />

Verslag van e<strong>en</strong> literatuurstudie<br />

Eindrapportage mei 2015


Inhouds<strong>op</strong>gave<br />

1 INLEIDING .................................................................................................................................................. 3<br />

2 METHODE VAN ONDERZOEK ............................................................................................................... 7<br />

3 RESULTATEN ............................................................................................................................................. 9<br />

3.1 HET EFFECT VAN DE AFNAMEMODUS OP DE PRESTATIES ............................................................................. 9<br />

3.2 HET TOEKENNEN VAN PARTIAL CREDIT AAN ANTWOORDEN .................................................................... 14<br />

3.3 MOGELIJKHEDEN VAN ITEM REVIEW ............................................................................................................. 23<br />

3.4 GEBRUIK VAN KLADPAPIER ............................................................................................................................. 28<br />

3.5 INVOER VAN ANTWOORDEN VIA BEELDSCHERM VERSUS PAPIER ............................................................. 34<br />

4 CONCLUSIES ............................................................................................................................................ 39<br />

5 GERAADPLEEGDE LITERATUUR ...................................................................................................... 42<br />

© Stichting Cito, Arnhem 2015 2


1 Inleiding<br />

De laatste dec<strong>en</strong>nia word<strong>en</strong> de papier-<strong>en</strong>-p<strong>en</strong>-exam<strong>en</strong>s (PPT) in to<strong>en</strong>em<strong>en</strong>de mate vervang<strong>en</strong> door<br />

computer-based exam<strong>en</strong>s (CBT). CBT heeft vele voordel<strong>en</strong> bov<strong>en</strong> PPT, zoals e<strong>en</strong> vermindering van de<br />

correctielast, objectivering van de beoordeling, voorkom<strong>en</strong> van afkijk<strong>en</strong> door toewijzing van<br />

<strong>verschil</strong>l<strong>en</strong>d og<strong>en</strong>de maar gelijkwaardige vraagversies, adaptieve toetsing, mogelijkheid tot <strong>het</strong><br />

gev<strong>en</strong> van feedback aan kandidat<strong>en</strong> tijd<strong>en</strong>s de afname, besparing van druk- <strong>en</strong> verz<strong>en</strong>dkost<strong>en</strong> <strong>en</strong><br />

snellere rapportage van de resultat<strong>en</strong>. E<strong>en</strong> bijkom<strong>en</strong>d voordeel <strong>is</strong> dat leerling<strong>en</strong> over <strong>het</strong> algeme<strong>en</strong><br />

e<strong>en</strong> voorkeur hebb<strong>en</strong> <strong>en</strong> meer gemotiveerd zijn voor <strong>digitale</strong> toetsing dan voor <strong>papier<strong>en</strong></strong> toetsing<br />

(o.a. Glassnapp, Poggio, Poggio, & Yang, 2005; O’Malley et al., 2005; Ito & Sykes, 2004; Hargreaves,<br />

Shorrocks-Taylor, Swinnerton, Tait & Threlfall, 2004).<br />

Naast voordel<strong>en</strong> word<strong>en</strong> er ook nadel<strong>en</strong> g<strong>en</strong>oemd. Al vanaf <strong>het</strong> begin van <strong>digitale</strong> toetsing <strong>en</strong><br />

examinering <strong>is</strong> de vergelijkbaarheid van de scores <strong>op</strong> PPT <strong>en</strong> CBT e<strong>en</strong> punt van zorg geweest (o.a.<br />

Gre<strong>en</strong>, Bock, Humphreys, Linn & Reckase, 1984; APA, 1986; Mazzeo & Harvey, 1988). E<strong>en</strong> veel<br />

g<strong>en</strong>oemd probleem <strong>is</strong> dat PPT- <strong>en</strong> CBT-versies van <strong>het</strong>zelfde exam<strong>en</strong> tot <strong>verschil</strong>l<strong>en</strong>de resultat<strong>en</strong><br />

kunn<strong>en</strong> leid<strong>en</strong>. Deze zoge<strong>het</strong><strong>en</strong> moduseffect<strong>en</strong> (Engels: mode effects) verwijz<strong>en</strong> naar <strong>verschil</strong>l<strong>en</strong> in<br />

exam<strong>en</strong>prestaties t<strong>en</strong> gevolge van <strong>het</strong> aanbied<strong>en</strong> van <strong>het</strong> exam<strong>en</strong> <strong>op</strong> papier dan wel via de computer<br />

(o.a. Kol<strong>en</strong>, 1999; B<strong>en</strong>nett, 2003; Wang, Jiao, Young, Brooks & Olson, 2007). Zo zou CBT bij <strong>het</strong><br />

vakgebied rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde gemiddeld tot hogere of lagere prestaties kunn<strong>en</strong> leid<strong>en</strong> dan PPT.<br />

Lagere prestaties <strong>op</strong> e<strong>en</strong> CBT kunn<strong>en</strong> e<strong>en</strong> probleem vorm<strong>en</strong> als de resultat<strong>en</strong> veel lager zijn dan<br />

vrijwel iedere<strong>en</strong> verwacht <strong>en</strong> de afnamemodus als e<strong>en</strong> mogelijke oorzaak wordt g<strong>en</strong>oemd. Zo<br />

signaleerde de Comm<strong>is</strong>sie Bosker (2014) dat de prestaties van de kandidat<strong>en</strong> <strong>op</strong> de Rek<strong>en</strong>toets<strong>en</strong> vo<br />

<strong>en</strong> rek<strong>en</strong>exam<strong>en</strong>s mbo teg<strong>en</strong>vall<strong>en</strong>. Bij deze rek<strong>en</strong>toets<strong>en</strong> zou de <strong>digitale</strong> afname tot gemiddeld<br />

lagere prestaties hebb<strong>en</strong> geleid dan wanneer deze toets als PPT was afg<strong>en</strong>om<strong>en</strong>. Als mogelijke<br />

oorzak<strong>en</strong> voor de teg<strong>en</strong>vall<strong>en</strong>de prestaties (die sam<strong>en</strong>hang<strong>en</strong> met afnamemodus) noemt de<br />

Comm<strong>is</strong>sie Bosker:<br />

<br />

<br />

<br />

<br />

in de <strong>digitale</strong> rek<strong>en</strong>toets ontbrek<strong>en</strong> <strong>op</strong>gav<strong>en</strong> die werk<strong>en</strong> met partial credit (<strong>het</strong> belon<strong>en</strong> van<br />

tuss<strong>en</strong>stapp<strong>en</strong>), waardoor één fout in één van de stapp<strong>en</strong> in <strong>het</strong> <strong>op</strong>loss<strong>en</strong> van e<strong>en</strong> <strong>op</strong>gave ertoe<br />

leidt dat nul punt<strong>en</strong> voor <strong>het</strong> antwoord word<strong>en</strong> gegev<strong>en</strong> (waardoor de prestaties <strong>op</strong> de <strong>digitale</strong><br />

rek<strong>en</strong>toets lager zijn dan wanneer de antwoord<strong>en</strong> beoordeeld zoud<strong>en</strong> zijn via de gebruikelijke<br />

partial credit scoring van <strong>op</strong> papier gegev<strong>en</strong> antwoord<strong>en</strong>);<br />

anders dan bij e<strong>en</strong> <strong>papier<strong>en</strong></strong> toets kond<strong>en</strong> de leerling<strong>en</strong> tot <strong>en</strong> met 2014 in de <strong>digitale</strong><br />

rek<strong>en</strong>toets<strong>en</strong> niet terugblader<strong>en</strong> <strong>en</strong> hun antwoord<strong>en</strong> bekijk<strong>en</strong> <strong>en</strong> vervolg<strong>en</strong>s verbeter<strong>en</strong> (terwijl<br />

leerling<strong>en</strong> geleerd <strong>is</strong> om lastige <strong>op</strong>gav<strong>en</strong> ev<strong>en</strong> te lat<strong>en</strong> ligg<strong>en</strong>); <strong>en</strong>quêtes onder door doc<strong>en</strong>t<strong>en</strong> <strong>en</strong><br />

leerling<strong>en</strong> bevestigd<strong>en</strong> dat dit als e<strong>en</strong> ernstig knelpunt werd ervar<strong>en</strong> (College voor Exam<strong>en</strong>s,<br />

2014);<br />

bij de <strong>digitale</strong> afname van de rek<strong>en</strong>toets zijn leerling<strong>en</strong> minder g<strong>en</strong>eigd kladpapier te gebruik<strong>en</strong><br />

dan bij afname <strong>op</strong> papier, <strong>wat</strong> de kans <strong>op</strong> fout<strong>en</strong> vergroot;<br />

de leerling<strong>en</strong> die de <strong>digitale</strong> rek<strong>en</strong>toet mak<strong>en</strong>, zijn over <strong>het</strong> algeme<strong>en</strong> nog onbek<strong>en</strong>d met <strong>het</strong><br />

digitaal afnem<strong>en</strong> van toets<strong>en</strong>/exam<strong>en</strong>s.<br />

De comm<strong>is</strong>sie doet onder meer de volg<strong>en</strong>de aanbeveling<strong>en</strong>:<br />

<br />

<br />

onderzoek de mogelijkheid van schriftelijke afname naast toetsing per computer;<br />

onderzoek de mogelijkhed<strong>en</strong> om in de rek<strong>en</strong>toets<strong>en</strong> te werk<strong>en</strong> met partial credit (<strong>het</strong> belon<strong>en</strong><br />

van tuss<strong>en</strong>stapp<strong>en</strong>).<br />

© Stichting Cito, Arnhem 2015 3


Beide aanbeveling<strong>en</strong> zijn beleidsmatig van belang. Als PPT- <strong>en</strong> CBT-versies van dezelfde rek<strong>en</strong>toets<br />

naast elkaar gebruikt zoud<strong>en</strong> word<strong>en</strong>, vere<strong>is</strong><strong>en</strong> professionele standaard<strong>en</strong> (APA, 1986; AERA, 1999;<br />

International Test Comm<strong>is</strong>sion, 2001, 2006; Evers, Lucass<strong>en</strong>, Meijer & Sijtsma, 2009) dat de<br />

gerapporteerde scores aantoonbaar vergelijkbaar zijn (Wang & Kol<strong>en</strong>, 2001). E<strong>en</strong> duaal<br />

afnamesysteem verhoogt de correctielast voor de doc<strong>en</strong>t<strong>en</strong>/beoordelaars, <strong>en</strong> dat geldt ook als<br />

schriftelijke <strong>en</strong> <strong>digitale</strong> afname binn<strong>en</strong> <strong>het</strong>zelfde exam<strong>en</strong> gecombineerd zou word<strong>en</strong> (t<strong>en</strong>zij de<br />

correctie natuurlijk ‘uitbesteed’ wordt, maar dat lijkt in <strong>het</strong> Nederlandse exam<strong>en</strong>systeem vooralsnog<br />

onwaarschijnlijk). En als de huidige dichotome scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord bijvoorbeeld<br />

vervang<strong>en</strong> zou word<strong>en</strong> door stapsgewijze bevraging met geautomat<strong>is</strong>eerde toek<strong>en</strong>ning van<br />

deelscores, dreigt <strong>het</strong> gevaar dat nieuw verzamelde gegev<strong>en</strong>s niet meer vergelijkbaar zijn met<br />

eerdere gegev<strong>en</strong>s (o.a. B<strong>en</strong>nett, Braswell, Oranje, Sand<strong>en</strong>e, Kaplan & Yan, 2008). Uiteraard <strong>is</strong> dit e<strong>en</strong><br />

tijdelijk probleem dat <strong>op</strong>gelost kan word<strong>en</strong>, maar <strong>het</strong> kan wel betek<strong>en</strong><strong>en</strong> dat <strong>het</strong> refer<strong>en</strong>tiekader<br />

voor de interpretatie van de scores <strong>op</strong> de rek<strong>en</strong>toets<strong>en</strong> <strong>op</strong>nieuw vastgesteld moet word<strong>en</strong> (College<br />

voor Toets<strong>en</strong> <strong>en</strong> Exam<strong>en</strong>s, 2014; Béguin & Wools, 2015).<br />

In deze literatuurstudie gaan we na <strong>wat</strong> er in de Engelstalige literatuur bek<strong>en</strong>d <strong>is</strong> over <strong>het</strong> effect van<br />

de afnamemodus <strong>op</strong> de leerprestaties. Omdat <strong>het</strong> comm<strong>en</strong>taar van de Comm<strong>is</strong>sie Bosker <strong>op</strong> de<br />

rek<strong>en</strong>toets<strong>en</strong> de aanleiding vormde voor deze literatuurstudie, ligt <strong>het</strong> acc<strong>en</strong>t <strong>op</strong> <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong><br />

CBT <strong>en</strong> PPT bij <strong>het</strong> vakgebied rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde.<br />

Allereerst kijk<strong>en</strong> we naar <strong>wat</strong> er in algem<strong>en</strong>e zin bek<strong>en</strong>d <strong>is</strong> over <strong>het</strong> effect van de afnamemodus <strong>op</strong><br />

de hoogte van de prestaties. In <strong>het</strong> kader van e<strong>en</strong> kortdur<strong>en</strong>de studie <strong>is</strong> <strong>het</strong> niet mogelijk om de vele<br />

honderd<strong>en</strong> uitgevoerde vergelijkingsstudies te bestuder<strong>en</strong> <strong>en</strong> sam<strong>en</strong> te vatt<strong>en</strong>. We beperk<strong>en</strong> ons tot<br />

<strong>het</strong> synt<strong>het</strong><strong>is</strong>er<strong>en</strong> van de uitkomst<strong>en</strong> van de belangrijkste reviews <strong>en</strong> meta-analyses (Mazzeo &<br />

Harvey, 1988; Bunderson, Inouye & Ols<strong>en</strong>, 1989; W<strong>is</strong>e & Plake, 1989; Bergstrom, 1992; Dillon,<br />

1992; Mead <strong>en</strong> Drasgow, 1993; Kim, 1999; Russell, Goldberg & O’Connor, 2003; Paek, 2005; Gaskill<br />

& Marshall; 2006; Wang, Jiao, Young, Brooks & Olson, 2007; Texas Education Ag<strong>en</strong>cy, 2008; Kingston,<br />

2009). Daarbij kijk<strong>en</strong> we met name naar <strong>het</strong> ev<strong>en</strong>tuele effect van de afnamemodus <strong>op</strong> de<br />

gemiddelde prestaties van de kandidat<strong>en</strong> (<strong>en</strong> niet zozeer naar ev<strong>en</strong>tuele effect<strong>en</strong> <strong>op</strong> bijvoorbeeld<br />

betrouwbaarheid, validiteit, rangord<strong>en</strong>ing van de kandidat<strong>en</strong>, indicator<strong>en</strong> van<br />

classificatieaccuratesse zoals perc<strong>en</strong>tage onvoldo<strong>en</strong>des <strong>en</strong> zak-/slaagperc<strong>en</strong>tages, of de stabiliteit<br />

van de itemparameters).<br />

Vervolg<strong>en</strong>s gaan we <strong>op</strong> zoek naar <strong>wat</strong> er bek<strong>en</strong>d <strong>is</strong> over mogelijke oorzak<strong>en</strong> van <strong>het</strong> effect van de<br />

afnamemodus <strong>op</strong> de prestaties. Kol<strong>en</strong> (1999-2000) noemt vier clusters van verklar<strong>en</strong>de factor<strong>en</strong> die<br />

ertoe kunn<strong>en</strong> bijdrag<strong>en</strong> dat kandidat<strong>en</strong> hoger of ju<strong>is</strong>t lager scor<strong>en</strong> <strong>op</strong> de <strong>en</strong>e afnamemodus in<br />

vergelijking met de andere: a) <strong>verschil</strong>l<strong>en</strong> in de exam<strong>en</strong>vrag<strong>en</strong>, b) <strong>verschil</strong>l<strong>en</strong> in de scoring van de<br />

antwoord<strong>en</strong>, c) <strong>verschil</strong>l<strong>en</strong> in de afnamecondities <strong>en</strong> d) <strong>verschil</strong>l<strong>en</strong> in de geëxamineerde groep<br />

kandidat<strong>en</strong> (zoals naar geslacht, sociaal milieu, etniciteit, vaardigheidsniveau, ICT-ervaring <strong>en</strong><br />

toetsangst). B<strong>en</strong>nett (2003) maakt e<strong>en</strong> onderscheid in k<strong>en</strong>merk<strong>en</strong> van de itempres<strong>en</strong>tatie<br />

(bijvoorbeeld <strong>het</strong> aantal items per scherm versus per pagina), de vere<strong>is</strong>te response (bijvoorbeeld <strong>het</strong><br />

aankru<strong>is</strong><strong>en</strong> van e<strong>en</strong> antwoordalternatief <strong>op</strong> papier versus <strong>het</strong> aanwijz<strong>en</strong>, klikk<strong>en</strong>, slep<strong>en</strong>,<br />

positioner<strong>en</strong> <strong>en</strong> scroll<strong>en</strong> met de mu<strong>is</strong> of <strong>het</strong> gebruik van <strong>het</strong> toets<strong>en</strong>bord om tekst in te voer<strong>en</strong> <strong>en</strong> te<br />

wijzig<strong>en</strong>). In <strong>het</strong> kader van e<strong>en</strong> kortdur<strong>en</strong>de studie <strong>is</strong> <strong>het</strong> niet mogelijk om al deze factor<strong>en</strong> te<br />

onderzoek<strong>en</strong>. We beperk<strong>en</strong> ons tot <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> CBT <strong>en</strong> PPT die de Comm<strong>is</strong>sie Bosker g<strong>en</strong>oemd<br />

heeft als mogelijke oorzak<strong>en</strong> voor de teg<strong>en</strong>vall<strong>en</strong>de prestaties <strong>op</strong> de Rek<strong>en</strong>toets<strong>en</strong>.<br />

© Stichting Cito, Arnhem 2015 4


Onderzoeksvrag<strong>en</strong><br />

Al met al onderscheid<strong>en</strong> we in deze review de volg<strong>en</strong>de vijf onderzoeksvrag<strong>en</strong>:<br />

<br />

<br />

<br />

<br />

<br />

Wat <strong>is</strong> er bek<strong>en</strong>d over <strong>het</strong> effect van de afnamemodus <strong>op</strong> de hoogte van de prestaties van de<br />

kandidat<strong>en</strong> (in algem<strong>en</strong>e zin <strong>en</strong> bij rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde in <strong>het</strong> bijzonder)?<br />

In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met <strong>het</strong> al dan niet<br />

toek<strong>en</strong>n<strong>en</strong> van deelscores (partial credit) aan gedeeltelijk goede antwoord<strong>en</strong>? Hierbij nem<strong>en</strong> we<br />

ook de vraag mee in hoeverre <strong>het</strong> teg<strong>en</strong>woordig mogelijk <strong>is</strong> de resultat<strong>en</strong> van de leerling<strong>en</strong> <strong>op</strong><br />

e<strong>en</strong> CBT-exam<strong>en</strong> <strong>op</strong> e<strong>en</strong>zelfde manier te beoordel<strong>en</strong> als de gebruikelijke partial credit<br />

beoordeling in e<strong>en</strong> PPT-exam<strong>en</strong>.<br />

In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met de<br />

<strong>verschil</strong>l<strong>en</strong>de mogelijkhed<strong>en</strong> tot item review?<br />

In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met <strong>verschil</strong>l<strong>en</strong> in<br />

<strong>het</strong> gebruik van kladpapier?<br />

In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met de manier<br />

waar<strong>op</strong> kandidat<strong>en</strong> hun antwoord moet<strong>en</strong> gev<strong>en</strong>: <strong>het</strong> intyp<strong>en</strong> van <strong>het</strong> antwoord in e<strong>en</strong> invoervak<br />

<strong>op</strong> <strong>het</strong> beeldscherm volg<strong>en</strong>s de specifieke vere<strong>is</strong>t<strong>en</strong> van de <strong>digitale</strong> invoermodule versus <strong>het</strong><br />

noter<strong>en</strong> van <strong>het</strong> antwoord <strong>op</strong> papier volg<strong>en</strong>s de gebruikelijke <strong>en</strong> vertrouwde w<strong>is</strong>kundige<br />

notatiewijz<strong>en</strong> <strong>en</strong> conv<strong>en</strong>ties.<br />

<br />

De vijfde onderzoeksvraag wordt niet letterlijk door de Comm<strong>is</strong>sie Bosker (2014) g<strong>en</strong>oemd, maar<br />

heeft wel raakvlakk<strong>en</strong> met de door de comm<strong>is</strong>sie geconstateerde onbek<strong>en</strong>dheid met <strong>het</strong> digitaal<br />

afnem<strong>en</strong> van toets<strong>en</strong>/exam<strong>en</strong>s als e<strong>en</strong> van de verklaring<strong>en</strong> voor de teg<strong>en</strong>vall<strong>en</strong>de resultat<strong>en</strong>.<br />

Kandidat<strong>en</strong> hebb<strong>en</strong> vaak meer ervaring met <strong>het</strong> noter<strong>en</strong> van antwoord<strong>en</strong> <strong>op</strong> w<strong>is</strong>kundevrag<strong>en</strong> <strong>op</strong><br />

papier dan met <strong>het</strong> invoer<strong>en</strong> van deze antwoord<strong>en</strong> via <strong>het</strong> beeldscherm (McGuire & Youngson,<br />

2002). Daardoor zoud<strong>en</strong> kandidat<strong>en</strong> bij e<strong>en</strong> CBT meer invoerfout<strong>en</strong> mak<strong>en</strong> dan bij e<strong>en</strong> PPT, met<br />

als gevolg lagere prestaties voor CBT in vergelijking met PPT.<br />

Bij de interpretatie van de uitkomst<strong>en</strong> van deze literatuurstudie <strong>is</strong> e<strong>en</strong> relativer<strong>en</strong>de kanttek<strong>en</strong>ing <strong>op</strong><br />

zijn plaats. Reeds in de jar<strong>en</strong> tachtig van de vorige eeuw merkt<strong>en</strong> Bunderson, Inouye <strong>en</strong> Ols<strong>en</strong> (1989)<br />

<strong>op</strong> dat <strong>digitale</strong> afnamesystem<strong>en</strong> zo snel verander<strong>en</strong> dat elke poging om de balans <strong>op</strong> te mak<strong>en</strong> al snel<br />

verouderd zal zijn. Zij voeg<strong>en</strong> daar aan toe dat “Today's state-of-the-art devices might become<br />

exhibits in tomorrow's museum of antiquities” (p. 21). Dit geldt tot <strong>op</strong> zekere hoogte ook voor de<br />

rek<strong>en</strong>toets<strong>en</strong> die met ingang van 2015 sterk verbeterd zijn terwijl er nog meer verbetering<strong>en</strong> in <strong>het</strong><br />

verschiet ligg<strong>en</strong>. Zo bied<strong>en</strong> de nieuwe rek<strong>en</strong>toets<strong>en</strong> teg<strong>en</strong>woordig ruime mogelijkhed<strong>en</strong> tot item<br />

review (dit wil zegg<strong>en</strong>: <strong>het</strong> terugblader<strong>en</strong>, bekijk<strong>en</strong> <strong>en</strong> verander<strong>en</strong> van antwoord<strong>en</strong>). Daarnaast lat<strong>en</strong><br />

zeer rec<strong>en</strong>te vrag<strong>en</strong>lijstgegev<strong>en</strong>s (Cito, 2015a) zi<strong>en</strong> dat de overgrote meerderheid van ruim 16000<br />

bevraagde kandidat<strong>en</strong> van m<strong>en</strong>ing <strong>is</strong> dat <strong>het</strong> computerprogramma waarin de rek<strong>en</strong>toets staat<br />

duidelijk <strong>is</strong> (96%) <strong>en</strong> dat <strong>het</strong> aangev<strong>en</strong> of intyp<strong>en</strong> van de antwoord<strong>en</strong> bij de <strong>op</strong>gav<strong>en</strong> gemakkelijk <strong>is</strong><br />

(86%). Verder blijkt uit nog ongepubliceerde gegev<strong>en</strong>s dat syntact<strong>is</strong>che invoerfout<strong>en</strong> nauwelijks meer<br />

voorkom<strong>en</strong> (zoals <strong>het</strong> t<strong>en</strong> onrechte gebruik<strong>en</strong> van e<strong>en</strong> punt voor <strong>het</strong> aangev<strong>en</strong> van duiz<strong>en</strong>dtall<strong>en</strong>).<br />

Tot slot wordt er gewerkt aan geautomat<strong>is</strong>eerde scoringsalgoritm<strong>en</strong> die de traditionele m<strong>en</strong>selijke<br />

beoordeling van antwoord<strong>en</strong> <strong>op</strong> papier waar mogelijk <strong>en</strong> w<strong>en</strong>selijk prober<strong>en</strong> na te boots<strong>en</strong>. Op bas<strong>is</strong><br />

van e<strong>en</strong> inhoudsanalyse van veel voorkom<strong>en</strong>de fout<strong>en</strong> <strong>en</strong> gedeeltelijk goede antwoord<strong>en</strong> van<br />

kandidat<strong>en</strong> (o.a. Cito, 2015b) <strong>is</strong> ervaring <strong>op</strong>gedaan met <strong>het</strong> waarder<strong>en</strong> van nu nog als fout gescoorde<br />

antwoord<strong>en</strong> die e<strong>en</strong> m<strong>en</strong>selijke beoordelaar bij e<strong>en</strong> <strong>papier<strong>en</strong></strong> exam<strong>en</strong> waarschijnlijk wel<br />

© Stichting Cito, Arnhem 2015 5


(gedeeltelijk) goed gerek<strong>en</strong>d zou hebb<strong>en</strong>. E<strong>en</strong> voorbeeld <strong>is</strong> <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van punt<strong>en</strong> aan alle<br />

ingevoerde geldbedrag<strong>en</strong> die minder dan 10 c<strong>en</strong>t <strong>verschil</strong>l<strong>en</strong> van <strong>het</strong> volledig correcte antwoord. In<br />

plaats van slechts één goed antwoord te accepter<strong>en</strong>, rek<strong>en</strong>t <strong>het</strong> scoringsalgoritme alle antwoord<strong>en</strong><br />

binn<strong>en</strong> e<strong>en</strong> bepaald scorebereik goed. Uiteraard <strong>is</strong> deze versoepeling van de scoring niet bij alle<br />

itemtyp<strong>en</strong> mogelijk <strong>en</strong> w<strong>en</strong>selijk, maar <strong>het</strong> geeft wel aan dat de rek<strong>en</strong>toets<strong>en</strong> vol<strong>op</strong> in beweging zijn.<br />

© Stichting Cito, Arnhem 2015 6


2 Methode van onderzoek<br />

De literatuurstudie <strong>is</strong> uitgevoerd in <strong>het</strong> begin van 2015. De werkzaamhed<strong>en</strong> zijn uitgevoerd in<br />

<strong>op</strong>dracht van <strong>het</strong> College voor Toets<strong>en</strong> <strong>en</strong> Exam<strong>en</strong>s (CvTE).<br />

Ter beantwoording van de eerste <strong>en</strong> tweede onderzoeksvraag zijn twee literatuur searches<br />

uitgevoerd. Daarbij <strong>is</strong> gezocht in de databases ERIC, PsycINFO, Applied Social Sci<strong>en</strong>ces Index and<br />

Abstracts (ASSIA), International Bibliography of the Social Sci<strong>en</strong>ces (IBSS), Library and Information<br />

Sci<strong>en</strong>ce Abstracts (LISA) <strong>en</strong> ProQuest Social Sci<strong>en</strong>ce Journals. In aanmerking kwam<strong>en</strong> publicaties die<br />

zijn versch<strong>en</strong><strong>en</strong> in de periode 1970 tot <strong>en</strong> met 2015. De besl<strong>is</strong>sing om ook minder rec<strong>en</strong>te publicaties<br />

mee te nem<strong>en</strong> <strong>is</strong> welbewust g<strong>en</strong>om<strong>en</strong>. De rek<strong>en</strong>toets<strong>en</strong> waar de Comm<strong>is</strong>sie <strong>op</strong> doelt, behor<strong>en</strong><br />

namelijk tot de categorie eerste-g<strong>en</strong>eratie CBT (Bunderson, Inouye & Ols<strong>en</strong>, 1989) uit de<br />

beginperiode van <strong>het</strong> <strong>digitale</strong> tijdperk. D<strong>en</strong>k bijvoorbeeld aan <strong>het</strong> ontbrek<strong>en</strong> van mogelijkhed<strong>en</strong> tot<br />

a) item review, b) geautomat<strong>is</strong>eerde partial credit scoring, c) feedback <strong>op</strong> onder meer de<br />

syntact<strong>is</strong>che ju<strong>is</strong>theid van ingetypte antwoord<strong>en</strong>, d) digitaal marker<strong>en</strong> <strong>en</strong> annoter<strong>en</strong>, e) adaptieve<br />

toewijzing van items van e<strong>en</strong> <strong>verschil</strong>l<strong>en</strong>de moeilijkheidsgraad afhankelijk van <strong>het</strong><br />

vaardigheidsniveau van de kandidaat, <strong>en</strong> f) moderne itemtyp<strong>en</strong> met gebruikmaking van bijvoorbeeld<br />

animaties <strong>en</strong> simulaties.<br />

Ter beantwoording van de eerste onderzoeksvraag naar <strong>het</strong> effect van de afnamemodus <strong>op</strong> de<br />

prestaties <strong>is</strong> in eerste instantie na <strong>en</strong>ig uitprober<strong>en</strong> de volg<strong>en</strong>de zoekstring gehanteerd: “((compara*)<br />

OR (equival<strong>en</strong>*)) AND ((computer) or (on-line)) AND ((test*) or (assess*))”. Deze zoekactie<br />

resulteerde in 70.522 publicaties. Dit aantal was veel te groot om binn<strong>en</strong> de temporele <strong>en</strong><br />

budgettaire beperking<strong>en</strong> van <strong>het</strong> project bestudeerd te word<strong>en</strong>. Daarom <strong>is</strong> dezelfde zoekstring<br />

nogmaals toegepast, maar nu <strong>is</strong> er alle<strong>en</strong> in de Abstracts van de publicaties gezocht (in plaats van in<br />

de volledige tekst). Dit resulteerde in 2.245 publicaties. Er <strong>is</strong> beslot<strong>en</strong> de zoekactie te beperk<strong>en</strong> tot de<br />

titel van de publicatie. De zoekstring “ti((compara*) OR (equival<strong>en</strong>*)) AND ti((computer) or TI(online))<br />

AND ti((test*) or (assess*))” leverde 44 publicaties <strong>op</strong> waarvan acht on-t<strong>op</strong>ic.<br />

Ter beantwoording van de tweede onderzoeksvraag naar <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van partial credit werd e<strong>en</strong><br />

tweede literatuursearch uitgevoerd. Daarbij werd uiteindelijk de zoekstring “(TI(partial credit) OR<br />

ti(partial knowledge)) and TI(math*)” gehanteerd. Dit leverde zev<strong>en</strong> publicaties <strong>op</strong> waarvan twee ont<strong>op</strong>ic.<br />

Voor de derde, vierde <strong>en</strong> vijfde onderzoeksvraag <strong>is</strong> vanwege de beperkte tijd ge<strong>en</strong><br />

afzonderlijke literatuur search uitgevoerd. Het aantal gem<strong>is</strong>te publicaties zal hier dus groter zijn dan<br />

bij de eerste twee onderzoeksvrag<strong>en</strong>.<br />

Naast de beide literatuur searches <strong>is</strong> e<strong>en</strong> serie Web-searches uitgevoerd met de zoekmachines<br />

Google <strong>en</strong> Google Scholar. De aldus gevond<strong>en</strong> publicaties zijn gescre<strong>en</strong>d <strong>op</strong> verwijzing<strong>en</strong> naar<br />

reviews <strong>en</strong> meta-analyses over <strong>het</strong> effect van de afnamemodus <strong>op</strong> de prestaties. Dit leverde in totaal<br />

derti<strong>en</strong> publicaties <strong>op</strong> (Mazzeo & Harvey, 1988; Bunderson, Inouye & Ols<strong>en</strong>, 1989; W<strong>is</strong>e & Plake,<br />

1989; Bergstrom, 1992; Dillon, 1992; Mead <strong>en</strong> Drasgow, 1993; Kim, 1999; Russell, Goldberg &<br />

O’Connor, 2003; Paek, 2005; Gaskill & Marshall, 2006; Wang, Jiao, Young, Brooks & Olson, 2007;<br />

Texas Education Ag<strong>en</strong>cy, 2008; Kingston, 2009). Deze reviews <strong>en</strong> meta-analyses vormd<strong>en</strong> <strong>het</strong><br />

uitgangspunt voor de beantwoording van de eerste onderzoeksvraag.<br />

De reviews, meta-analyses <strong>en</strong> overige publicaties zijn vervolg<strong>en</strong>s doorzocht <strong>op</strong> relevante verwijzing<strong>en</strong><br />

naar studies over partial credit, item review, kladpapier <strong>en</strong> invoer <strong>op</strong> papier versus via beeldscherm.<br />

© Stichting Cito, Arnhem 2015 7


Dit alles resulteerde in totaal in circa 150 publicaties die voor onze onderzoeksvrag<strong>en</strong> relevant<br />

zoud<strong>en</strong> kunn<strong>en</strong> zijn. Geprobeerd <strong>is</strong> deze publicaties in <strong>het</strong> pdf-format te verkrijg<strong>en</strong> via onder meer<br />

<strong>het</strong> Internet <strong>en</strong> <strong>het</strong> K<strong>en</strong>n<strong>is</strong>c<strong>en</strong>trum van Cito, <strong>wat</strong> in vrijwel alle gevall<strong>en</strong> gelukt <strong>is</strong>. Na bestudering<br />

blek<strong>en</strong> niet alle 150 publicaties voor <strong>het</strong> doel van ons onderzoek bruikbaar. Voor de publicaties die<br />

uiteindelijk voor deze literatuurstudie gebruikt zijn, wordt verwez<strong>en</strong> naar <strong>het</strong> overzicht van<br />

geraadpleegde literatuur aan <strong>het</strong> einde van dit rapport.<br />

Beperking<strong>en</strong><br />

Naast <strong>het</strong> feit dat deze literatuurstudie in mei 2015 afgerond di<strong>en</strong>de zijn, moet er bij de interpretatie<br />

van de resultat<strong>en</strong> ook rek<strong>en</strong>ing word<strong>en</strong> gehoud<strong>en</strong> met de volg<strong>en</strong>de beperking<strong>en</strong>:<br />

<br />

<br />

<br />

<br />

<br />

<br />

Bij <strong>het</strong> zoek<strong>en</strong> zijn ge<strong>en</strong> e<strong>is</strong><strong>en</strong> gesteld aan de methodolog<strong>is</strong>che zuiverheid van de studies. Peerreview<br />

vormde bijvoorbeeld ge<strong>en</strong> selectiecriterium.<br />

De kans dat relevante publicaties gem<strong>is</strong>t zijn, <strong>is</strong> relatief groot in vergelijking met de brede <strong>en</strong><br />

diepgaande reviews zoals deze door <strong>het</strong> Nationaal Regieorgaan Onderwijsonderzoek (NRO)<br />

word<strong>en</strong> uitgezet (zie bijvoorbeeld Scheltinga, Keuning & Kuhlemeier, 2015).<br />

Het onderzoeksobject <strong>is</strong> voornamelijk beperkt tot <strong>het</strong> effect van de afnamemodus <strong>op</strong> de hoogte<br />

van de prestaties. Grot<strong>en</strong>deels buit<strong>en</strong> beschouwing blijv<strong>en</strong> hiermee onder meer <strong>het</strong> effect <strong>op</strong> de<br />

validiteit, betrouwbaarheid, rangord<strong>en</strong>ing van de kandidat<strong>en</strong>, indicator<strong>en</strong> van<br />

classificatieaccuratesse zoals perc<strong>en</strong>tage onvoldo<strong>en</strong>des <strong>en</strong> zak-/slaagperc<strong>en</strong>tages, <strong>en</strong> de<br />

stabiliteit van de itemparameters.<br />

In deze literatuurstudie <strong>is</strong> vrijwel uitsluit<strong>en</strong>d gekek<strong>en</strong> naar de vergelijkbaarheid van de<br />

totaalscores <strong>op</strong> PPT <strong>en</strong> CBT, <strong>en</strong> slechts af <strong>en</strong> toe naar <strong>verschil</strong>l<strong>en</strong> <strong>op</strong> <strong>het</strong> niveau van de subtoets of<br />

<strong>het</strong> individuele item. Dit laatste <strong>is</strong> van belang omdat er sterke moduseffect<strong>en</strong> <strong>op</strong> subtoets- of<br />

itemniveau kunn<strong>en</strong> zijn die elkaar uitmiddel<strong>en</strong> <strong>op</strong> <strong>het</strong> niveau <strong>het</strong> de totaalscore (Pommerich,<br />

2004; Johnson & Gre<strong>en</strong>, 2006).<br />

Met betrekking tot partial credit <strong>is</strong> alle<strong>en</strong> gekek<strong>en</strong> naar <strong>het</strong> mogelijke effect van <strong>het</strong> al dan niet<br />

toek<strong>en</strong>n<strong>en</strong> van deelscores in de context van CBT. De zeer omvangrijke maar nu <strong>en</strong>igszins<br />

gedateerde literatuur over <strong>het</strong> effect van dichotome versus polytome scoring van meerkeuzeversus<br />

<strong>op</strong><strong>en</strong> vrag<strong>en</strong> <strong>op</strong> papier kon niet word<strong>en</strong> meeg<strong>en</strong>om<strong>en</strong> (voor e<strong>en</strong> review, zie Traub, 1993).<br />

Ook lat<strong>en</strong> we partial credit scoring in <strong>het</strong> kader van formatieve evaluatie van w<strong>is</strong>kundige<br />

vaardighed<strong>en</strong> in oef<strong>en</strong>omgeving<strong>en</strong> buit<strong>en</strong> beschouwing (o.a. DWO, 2013).<br />

In de bespreking van individuele studies beperk<strong>en</strong> we ons voornamelijk tot <strong>het</strong> rapporter<strong>en</strong> van<br />

de belangrijkste onderzoeksresultat<strong>en</strong>. Gezi<strong>en</strong> de beperkte tijd bleek <strong>het</strong> niet haalbaar om de<br />

gevond<strong>en</strong> studies te besprek<strong>en</strong> volg<strong>en</strong>s <strong>het</strong> gebruikelijke rapportagestrami<strong>en</strong> met als<br />

onderdel<strong>en</strong>: aanleiding, context, vraagstelling, methode van onderzoek (proefperson<strong>en</strong>, design,<br />

data-analyse), resultat<strong>en</strong>, d<strong>is</strong>cussie, conclusies <strong>en</strong> aanbeveling<strong>en</strong>; zie bijvoorbeeld Scheltinga,<br />

Keuning & Kuhlemeier, 2015).<br />

© Stichting Cito, Arnhem 2015 8


3 Resultat<strong>en</strong><br />

3.1 Het effect van de afnamemodus <strong>op</strong> de prestaties<br />

Inleiding<br />

De eerste onderzoeksvraag luidt: “Wat <strong>is</strong> er bek<strong>en</strong>d over <strong>het</strong> effect van de afnamemodus <strong>op</strong> de<br />

hoogte van de prestaties van de kandidat<strong>en</strong>? We beantwoord<strong>en</strong> deze vraag aan de hand van de<br />

verhal<strong>en</strong>de reviews <strong>en</strong> meta-analyses van Mazzeo <strong>en</strong> Harvey (1988), Bunderson, Inouye <strong>en</strong> Ols<strong>en</strong><br />

(1989), W<strong>is</strong>e <strong>en</strong> Plake (1989), Bergstrom (1992), Dillon (1992), Mead <strong>en</strong> Drasgow (1993), Kim (1999),<br />

Russell, Goldberg <strong>en</strong> O’Connor (2003), Paek (2005), Gaskill & Marshall, 2006; Wang, Jiao, Young,<br />

Brooks <strong>en</strong> Olson (2007), Texas Education Ag<strong>en</strong>cy (2008) <strong>en</strong> Kingston (2009).<br />

Resultat<strong>en</strong> reviews <strong>en</strong> meta-analyses<br />

Mazzeo <strong>en</strong> Harvey (1988)<br />

Mazzeo and Harvey (1988) analyseerd<strong>en</strong> 38 studies (45 tests) waarin zij de resultat<strong>en</strong> van CBT- <strong>en</strong><br />

PPT-versies van tests <strong>op</strong> <strong>het</strong> gebied van intellig<strong>en</strong>tie, geschiktheid, persoonlijkheid <strong>en</strong> prestaties met<br />

elkaar vergelek<strong>en</strong>.<br />

Bij elf studies resulteerde de CBT in hogere scores dan de PPT, bij achtti<strong>en</strong> was er ge<strong>en</strong> <strong>verschil</strong> <strong>en</strong> bij<br />

vijfti<strong>en</strong> war<strong>en</strong> de PPT-scores hoger.<br />

De auteurs verondersteld<strong>en</strong> dat speedtests gevoeliger zijn voor modus-effect<strong>en</strong> dan power tests. Bij<br />

e<strong>en</strong> speedtest gaat <strong>het</strong> erom zoveel mogelijk items binn<strong>en</strong> de toegewez<strong>en</strong> tijd correct te<br />

beantwoord<strong>en</strong>. Bij e<strong>en</strong> power test <strong>is</strong> er ge<strong>en</strong> tijdlimiet of <strong>is</strong> de tijdlimiet zo ruim dat vrijwel elke<br />

kandidaat de test volledig kan mak<strong>en</strong>. De aanname dat speedtests gevoeliger zijn voor moduseffect<strong>en</strong><br />

dan power tests formuleerd<strong>en</strong> Mazzeo <strong>en</strong> Harvey (1988) als volgt: “Any d<strong>is</strong>tractions or<br />

difficulties introduced by automated test admin<strong>is</strong>tration, or advantages introduced by ease of<br />

responding, will affect the rate at which items are answered (p. 4)”. De afnamemodus - papier versus<br />

digitaal - bleek inderdaad van ge<strong>en</strong> belang bij power tests, maar bij speedtests bleek de PPT-versie<br />

gemiddeld tot hogere scores te leid<strong>en</strong> dan de CBT-versie. Als mogelijke verklaring verwijz<strong>en</strong> de<br />

auteurs ernaar dat <strong>het</strong> lez<strong>en</strong> van langere tekst<strong>en</strong> <strong>op</strong> <strong>het</strong> scherm meer tijd kost dan <strong>op</strong> papier.<br />

Bij de CBT-versies werd<strong>en</strong> meer vrag<strong>en</strong> overgeslag<strong>en</strong> dan bij de PPT-versies.<br />

Ook de antwoordmodus (beeldscherm versus papier) bleek e<strong>en</strong> mogelijke oorzaak van de hogere<br />

scores <strong>op</strong> PPT. Onderzoek waarbij de door de computer gelez<strong>en</strong> antwoord<strong>en</strong> werd<strong>en</strong> vergelek<strong>en</strong> met<br />

de antwoord<strong>en</strong> <strong>op</strong> papier liet zi<strong>en</strong> dat de computer lang niet alle ingevoerde antwoord<strong>en</strong> correct<br />

leest.<br />

Andere factor<strong>en</strong> die zorgd<strong>en</strong> voor <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT war<strong>en</strong> <strong>het</strong> gebruik van multi-scre<strong>en</strong><br />

items, graf<strong>is</strong>che weergaves <strong>en</strong> complexe beeldschermweergaves.<br />

Bunderson, Inouye <strong>en</strong> Ols<strong>en</strong> (1989)<br />

In hun review analyseerd<strong>en</strong> Bunderson, Inouye <strong>en</strong> Ols<strong>en</strong> (1989) 23 studies waarbij de scores <strong>op</strong> PPT<br />

werd<strong>en</strong> vergelijk<strong>en</strong> met die <strong>op</strong> CBT.<br />

Bij drie studies ded<strong>en</strong> de leerling<strong>en</strong> <strong>het</strong> beter <strong>op</strong> de CBT, bij elf studies was er ge<strong>en</strong> <strong>verschil</strong> <strong>en</strong> bij de<br />

overige neg<strong>en</strong> behaald<strong>en</strong> de leerling<strong>en</strong> hogere prestaties <strong>op</strong> de PPT.<br />

In hun bespreking van de bevinding<strong>en</strong> wijz<strong>en</strong> Bunderson et al. (1989) onder meer <strong>op</strong> de<br />

scoringsprocedure als mogelijke bron van onvergelijkbaarheid. De hogere scores <strong>op</strong> PPT word<strong>en</strong><br />

© Stichting Cito, Arnhem 2015 9


mede veroorzaakt doordat de computer ingevoerde antwoord<strong>en</strong> van kandidat<strong>en</strong> t<strong>en</strong> onrechte als<br />

fout interpreteert terwijl e<strong>en</strong> m<strong>en</strong>selijke beoordelaar ze <strong>op</strong> papier goed of gedeeltelijk goed zou<br />

rek<strong>en</strong><strong>en</strong> (zie hiervoor ook paragraaf 3.5).<br />

E<strong>en</strong> andere mogelijk bron van moduseffect<strong>en</strong> <strong>is</strong> dat <strong>het</strong> ontwerp van de interface <strong>het</strong> niet toestaat<br />

om fout<strong>en</strong> bij <strong>het</strong> invoer<strong>en</strong> van antwoord<strong>en</strong> onmiddellijk te corriger<strong>en</strong> of om eerder ingevoerde<br />

antwoord<strong>en</strong> te bekijk<strong>en</strong> <strong>en</strong> zo nodig te verander<strong>en</strong>, zoals bij e<strong>en</strong> PPT-versie van dezelfde toets<br />

uiteraard wel mogelijk <strong>is</strong>. Overig<strong>en</strong>s zijn de auteurs van m<strong>en</strong>ing dat <strong>het</strong> hier e<strong>en</strong> triviaal<br />

ontwerpprobleem betreft aangezi<strong>en</strong> er t<strong>en</strong> tijde van hun review reeds <strong>verschil</strong>l<strong>en</strong>de goede<br />

<strong>op</strong>lossing<strong>en</strong> beschikbaar war<strong>en</strong> (die vanaf 2015 ook in de rek<strong>en</strong>toets<strong>en</strong> geïmplem<strong>en</strong>teerd zijn).<br />

W<strong>is</strong>e <strong>en</strong> Plake (1989)<br />

De review van W<strong>is</strong>e <strong>en</strong> Plake (1989) <strong>is</strong> vooral van belang voor onze derde vraagstelling naar <strong>het</strong><br />

verme<strong>en</strong>de negatieve effect van <strong>het</strong> ontbrek<strong>en</strong> van mogelijkhed<strong>en</strong> tot item review in eersteg<strong>en</strong>eratie<br />

CBT <strong>op</strong> de prestaties. Vandaar dat we de resultat<strong>en</strong> ervan besprek<strong>en</strong> in paragraaf 3.3.<br />

Dillon (1992)<br />

De review van Dillon (1992) <strong>is</strong> voor ons minder interessant omdat <strong>het</strong> vooral betrekking heeft <strong>op</strong><br />

<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> <strong>het</strong> lez<strong>en</strong> <strong>en</strong> begrijp<strong>en</strong> van grote hoeveelhed<strong>en</strong> informatie <strong>op</strong> <strong>het</strong> scherm of<br />

papier. E<strong>en</strong> van de conclusies was dat <strong>het</strong> lez<strong>en</strong> van <strong>het</strong> scherm ongeveer 20% tot 30% langzamer<br />

gaat dan van papier, e<strong>en</strong> conclusies die anno 2015 vanwege de grote techn<strong>is</strong>che verbetering<strong>en</strong><br />

waarschijnlijk grot<strong>en</strong>deels achterhaald <strong>is</strong>.<br />

Bergstrom (1992)<br />

Bergstrom (1992) analyseerde twintig studies zoals beschrev<strong>en</strong> in acht onderzoeksrapport<strong>en</strong> waarin<br />

de prestaties <strong>op</strong> PPP werd<strong>en</strong> vergelek<strong>en</strong> met die <strong>op</strong> adaptieve computertoets<strong>en</strong> (CAT). Ondanks<br />

<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> de studies qua getoetste leerstof, de leeftijd van de proefperson<strong>en</strong>, <strong>het</strong> gebruikte<br />

IRT-model <strong>en</strong> <strong>het</strong> onderzoekontwerp blek<strong>en</strong> PPT <strong>en</strong> CAT over <strong>het</strong> algeme<strong>en</strong> tot vergelijkbare<br />

prestaties te leid<strong>en</strong>. Na verwijdering van vijf studies die te sterk bijdroeg<strong>en</strong> aan de <strong>het</strong>erog<strong>en</strong>iteit van<br />

de effectgroottes, vond zij e<strong>en</strong> gemiddelde effectgrootte van -.002. In de studies waarin e<strong>en</strong><br />

significant gemiddeld <strong>verschil</strong> gevond<strong>en</strong> werd, war<strong>en</strong> de scores <strong>op</strong> de PPT hoger dan die <strong>op</strong> de CAT<br />

als de PPT als eerste was afg<strong>en</strong>om<strong>en</strong>. De auteur doet de aanbeveling nader onderzoek te do<strong>en</strong> naar<br />

scroll<strong>en</strong> als mogelijke verklaring voor de lagere prestaties <strong>op</strong> CAT.<br />

Mead <strong>en</strong> Drasgow (1993)<br />

In hun meta-analyse analyseerd<strong>en</strong> Mead <strong>en</strong> Drasgow (1993) e<strong>en</strong> groot aantal studies naar <strong>verschil</strong>l<strong>en</strong><br />

tuss<strong>en</strong> <strong>papier<strong>en</strong></strong> <strong>en</strong> <strong>digitale</strong> afname van power <strong>en</strong> speedtests. Voor power tests met e<strong>en</strong> tijdslimiet -<br />

die in <strong>het</strong> onderwijs veel gebruikt word<strong>en</strong> - bedroeg de effectgrootte van <strong>het</strong> gemiddeld <strong>verschil</strong><br />

tuss<strong>en</strong> PPT <strong>en</strong> CBT .03 met e<strong>en</strong> standaarddeviatie van .15. CBT’s zijn gemiddeld dus nauwelijks<br />

moeilijker dan PPT’s <strong>en</strong> <strong>het</strong> gemiddeld prestatie<strong>verschil</strong> varieert weinig van studie tot studie.<br />

Mead <strong>en</strong> Drasgow (1993) kek<strong>en</strong> ook naar <strong>het</strong> effect van de afnamemodus <strong>op</strong> de rangord<strong>en</strong>ing van<br />

deg<strong>en</strong><strong>en</strong> die getoetst werd<strong>en</strong>. Voor power tests was de gemiddelde correlatie (na correctie voor<br />

onbetrouwbaarheid) zeer hoog, te wet<strong>en</strong> .91 over 123 geanalyseerde correlaties, <strong>wat</strong> er <strong>op</strong> wijst dat<br />

de rangord<strong>en</strong>ing van de leerling<strong>en</strong> nag<strong>en</strong>oeg gelijk <strong>is</strong>.<br />

Voor speed tests was de gemiddelde correlatie veel lager, namelijk .72 over 36 correlaties.<br />

De auteurs vond<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong> tuss<strong>en</strong> lineaire (CBT) <strong>en</strong> adaptieve (CAT) <strong>digitale</strong> toetsing.<br />

© Stichting Cito, Arnhem 2015 10


Kim (1999)<br />

In e<strong>en</strong> meta-analyse bestudeerde Kim (1999) 51 studies naar de vergelijkbaarheid van scores <strong>op</strong> PPT,<br />

lineaire (CBT) <strong>en</strong> adaptieve (CAT) <strong>digitale</strong> toets<strong>en</strong> bij e<strong>en</strong> groot aantal doelgroep<strong>en</strong> <strong>en</strong> vakgebied<strong>en</strong>.<br />

Het gemiddelde over de 226 bestudeerde effectgroottes voor <strong>en</strong>erzijds CBT <strong>en</strong> CAT <strong>en</strong> anderzijds PPT<br />

bedroeg .019 (95%-betrouwbaarheidsinterval -.030 tot .068) <strong>en</strong> was stat<strong>is</strong>t<strong>is</strong>ch niet significant.<br />

Echter, <strong>het</strong> <strong>verschil</strong> bleek sterk afhankelijk van <strong>het</strong> type CBT. Voor de vergelijking CBT-PPT bedroeg<br />

de gemiddelde effectgrootte .103 (lineaire CBT gemiddeld beter gemaakt dan PPT) <strong>en</strong> voor de<br />

vergelijking CAT-PPT ging <strong>het</strong> om -.125 (CAT gemiddeld slechter gemaakt dan PPT).<br />

Kim rapporteerde de resultat<strong>en</strong> ook apart voor <strong>verschil</strong>l<strong>en</strong>de leeftijdsgroep<strong>en</strong> <strong>en</strong> vakgebied<strong>en</strong>. Voor<br />

high school leerling<strong>en</strong> bleek CBT gemiddeld makkelijker dan PPT, <strong>wat</strong> de auteur toeschreef aan hun<br />

positieve houding t<strong>en</strong> <strong>op</strong>zichte van toetsing met de computer <strong>en</strong> de ‘excitem<strong>en</strong>t’ die <strong>het</strong> mak<strong>en</strong> van<br />

e<strong>en</strong> <strong>digitale</strong> toets met zich meebracht.<br />

Russell, Goldberg <strong>en</strong> O’Connor (2003)<br />

In hun review analyseerd<strong>en</strong> Russel, Goldberg <strong>en</strong> O’Connor (2003) onderzoek naar de<br />

vergelijkbaarheid van PPT- <strong>en</strong> CBT-toets<strong>en</strong> <strong>op</strong> <strong>het</strong> gebied van schrijfvaardigheid <strong>en</strong> w<strong>is</strong>kunde. Zij<br />

maakt<strong>en</strong> e<strong>en</strong> onderscheid tuss<strong>en</strong> onderzoek in de periode tot 1986 <strong>en</strong> de periode daarna. Hun<br />

review br<strong>en</strong>gt e<strong>en</strong> aantal factor<strong>en</strong> aan <strong>het</strong> licht die van invloed zijn <strong>op</strong> de hoogte van de prestaties<br />

(<strong>en</strong> de validiteit van de meting). Daartoe behor<strong>en</strong> moduseffect<strong>en</strong> die te mak<strong>en</strong> hebb<strong>en</strong> met de<br />

mogelijkhed<strong>en</strong> om individuele items over te slaan, <strong>op</strong>nieuw te bekijk<strong>en</strong> <strong>en</strong> te verander<strong>en</strong> <strong>en</strong> de<br />

transfer van informatie tuss<strong>en</strong> scherm <strong>en</strong> kladpapier. Zie hiervoor ook paragraaf 3.3 <strong>en</strong> 3.5.<br />

Andere moduseffect<strong>en</strong> die de auteurs de revue lat<strong>en</strong> passer<strong>en</strong>, betreff<strong>en</strong> de pres<strong>en</strong>tatie van graphics<br />

<strong>en</strong> tekst <strong>op</strong> <strong>het</strong> scherm in relatie tot de ervaring van leerling<strong>en</strong> met <strong>het</strong> werk<strong>en</strong> met computers.<br />

Omdat deze mogelijke verklaring<strong>en</strong> voor <strong>het</strong> doel van onze literatuurstudie van minder groot belang<br />

zijn, lat<strong>en</strong> we bespreking ervan hier verder achterwege.<br />

Paek (2005)<br />

Paek (2005) bestudeerde e<strong>en</strong> aantal reviews <strong>en</strong> onderzoek<strong>en</strong> naar de vergelijkbaarheid van PPT <strong>en</strong><br />

CBT die vóór <strong>en</strong> na 1993 war<strong>en</strong> uitgevoerd. De studies betroff<strong>en</strong> de vakgebied<strong>en</strong><br />

rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde, taal, lez<strong>en</strong> <strong>en</strong> sci<strong>en</strong>ce. Zij constateert dat de zoge<strong>het</strong><strong>en</strong> electronic pageturners - in<br />

<strong>het</strong> Nederlandse taalgebied ook wel aangeduid als ‘recht<strong>op</strong> gezette’ <strong>papier<strong>en</strong></strong> toets<strong>en</strong> - regelmatig<br />

slechter gemaakt werd<strong>en</strong> dan de <strong>papier<strong>en</strong></strong> versies. E<strong>en</strong> eerste verklaring suggereert dat leerling<strong>en</strong><br />

moest<strong>en</strong> w<strong>en</strong>n<strong>en</strong> aan de nieuwe afnamemodus: kandidat<strong>en</strong> moest<strong>en</strong> onder high-stakes condities<br />

ler<strong>en</strong> te naviger<strong>en</strong> in e<strong>en</strong> interface waarmee zij nog niet vertrouwd war<strong>en</strong>. Als tweede verklaring<br />

noemt Paek (2005) dat <strong>het</strong> destijds nog niet mogelijk was om vooruit <strong>en</strong> achteruit te blader<strong>en</strong>, items<br />

over te slaan <strong>en</strong> itemantwoord<strong>en</strong> te bekijk<strong>en</strong> <strong>en</strong> te verander<strong>en</strong>, <strong>wat</strong> in PPT <strong>en</strong> meer rec<strong>en</strong>te CBT<br />

natuurlijk wel mogelijk <strong>is</strong> (<strong>en</strong> <strong>wat</strong> t<strong>en</strong> goede komt aan de motivatie van de leerling).<br />

Bij de na 1993 uitgevoerde studies war<strong>en</strong> de <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT kleiner dan bij <strong>het</strong><br />

daarvoor uitgevoerde onderzoek. In de meeste rec<strong>en</strong>telijk uitgevoerde studies bij zoge<strong>het</strong><strong>en</strong> K12-<br />

leerling<strong>en</strong> (dit wil zegg<strong>en</strong>: leerling<strong>en</strong> van kindergart<strong>en</strong> tot <strong>en</strong> met grade 12; ofwel van 4 à 6 tot 17 à<br />

19 jaar) blek<strong>en</strong> de scores <strong>op</strong> CBT gelijkwaardig of iets hoger dan die <strong>op</strong> PPT. Waar er <strong>verschil</strong>l<strong>en</strong><br />

tuss<strong>en</strong> afnamemodi gevond<strong>en</strong> werd<strong>en</strong>, war<strong>en</strong> deze lang niet altijd stat<strong>is</strong>t<strong>is</strong>ch significant. Paek schrijft<br />

deze og<strong>en</strong>schijnlijke afname van de <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT toe aan de toeg<strong>en</strong>om<strong>en</strong> ervaring<br />

© Stichting Cito, Arnhem 2015 11


met computers <strong>en</strong> <strong>het</strong> gegev<strong>en</strong> dat rec<strong>en</strong>tere CBT de mogelijkhed<strong>en</strong> tot <strong>het</strong> naviger<strong>en</strong>, overslaan <strong>en</strong><br />

wijzig<strong>en</strong> van antwoord<strong>en</strong> van de reguliere PPT beter kunn<strong>en</strong> naboots<strong>en</strong>.<br />

Paek rapporteert de rec<strong>en</strong>tere resultat<strong>en</strong> ook per vakgebied. Zo behaald<strong>en</strong> de leerling<strong>en</strong> bij drie van<br />

de twaalf geanalyseerde studies <strong>op</strong> <strong>het</strong> gebied van rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde lagere scores <strong>op</strong> de CBT, bij<br />

één was de PPT moeilijker <strong>en</strong> bij de overige acht war<strong>en</strong> de scores vergelijkbaar.<br />

Gaskill <strong>en</strong> Marshall (2006)<br />

De review van Gaskill <strong>en</strong> Marshall (2006) <strong>is</strong> voor ons minder interessant omdat <strong>het</strong> vooral gericht <strong>is</strong><br />

<strong>op</strong> <strong>het</strong> synt<strong>het</strong><strong>is</strong>er<strong>en</strong> van onderzoek naar interacties tuss<strong>en</strong> de afnamemodus <strong>en</strong><br />

achtergrondk<strong>en</strong>merk<strong>en</strong> van leerling<strong>en</strong>, zoals vaardigheidsniveau, geslacht <strong>en</strong> sociaal-etn<strong>is</strong>che<br />

achtergrond. Van groter belang voor ons doel <strong>is</strong> <strong>het</strong> onderzoek dat zij zelf uitvoerd<strong>en</strong> naar de<br />

vergelijkbaarheid van PPT <strong>en</strong> CBT bij meerkeuzetoets<strong>en</strong> numeracy in grade 4 <strong>en</strong> 7. Omdat dit<br />

onderzoek relevant <strong>is</strong> voor de beantwoording van onze vierde onderzoeksvraag over de rol van<br />

kladpapier, verwijz<strong>en</strong> wij voor de resultat<strong>en</strong> ervan naar paragraaf 3.4.<br />

Wang, Jiao, Young, Brooks <strong>en</strong> Olson (2007)<br />

In hun meta-analyse analyseerd<strong>en</strong> Wang, Jiao, Young, Brooks <strong>en</strong> Olson (2007) 38 studies <strong>op</strong> <strong>het</strong><br />

gebied van rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde bij K12-leerling<strong>en</strong>. Zij vond<strong>en</strong> ge<strong>en</strong> significante <strong>verschil</strong>l<strong>en</strong> qua<br />

gemiddelde prestaties tuss<strong>en</strong> PPT <strong>en</strong> CBT. Dit resultaat werd echter verkreg<strong>en</strong> na verwijdering van<br />

zes outlier studies waarin CBT aanzi<strong>en</strong>lijk slechter gemaakt war<strong>en</strong> dan PPT.<br />

B<strong>en</strong>nett, Braswell, Oranje, Sand<strong>en</strong>e, Kaplan & Yan (2008) merk<strong>en</strong> <strong>op</strong> dat de meeste studies uit de<br />

meta-analyse van Wang niet officieel gepubliceerd war<strong>en</strong> (<strong>en</strong> dus waarschijnlijk niet door<br />

vakg<strong>en</strong>ot<strong>en</strong> beoordeeld zijn). Daarnaast ging <strong>het</strong> meestal alle<strong>en</strong> om meerkeuze-<strong>op</strong>gav<strong>en</strong>, was de<br />

meerderheid van de effectgroottes van slechts drie onderzoek<strong>en</strong> afkomstig <strong>en</strong> hield<strong>en</strong> de<br />

onderzoekers ge<strong>en</strong> rek<strong>en</strong>ing met de repres<strong>en</strong>tativiteit van de steekproev<strong>en</strong>.<br />

Texas Education Ag<strong>en</strong>cy (2008)<br />

Naar aanleiding van e<strong>en</strong> review van uitgevoerde vergelijkingsstudies over e<strong>en</strong> periode van twintig<br />

jaar concludeert de Texas Education Ag<strong>en</strong>cy (2008) dat de onderzoeksresultat<strong>en</strong> sterk variër<strong>en</strong> al<br />

naar gelang <strong>het</strong> vakgebied (lez<strong>en</strong>, rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde, sci<strong>en</strong>ce et cetera), <strong>het</strong> itemtype (meerkeuze<br />

versus <strong>op</strong><strong>en</strong> vrag<strong>en</strong>) <strong>en</strong> <strong>het</strong> testprogramma (state assessm<strong>en</strong>t programs, toetsdoel, et cetera). De<br />

resultat<strong>en</strong> blek<strong>en</strong> zelfs niet cons<strong>is</strong>t<strong>en</strong>t over tests in <strong>het</strong>zelfde vakgebied met soortgelijke k<strong>en</strong>merk<strong>en</strong>.<br />

Desalniettemin signaler<strong>en</strong> de auteurs de volg<strong>en</strong>de algem<strong>en</strong>e tr<strong>en</strong>ds.<br />

Van de 23 studies <strong>op</strong> <strong>het</strong> gebied van rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde vond<strong>en</strong> er veerti<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong> tuss<strong>en</strong> PPT<br />

<strong>en</strong> CBT, bij acht was CBT moeilijker <strong>en</strong> bij slechts bij één studie was PPT moeilijker. Alhoewel de<br />

uitkomst<strong>en</strong> dus niet e<strong>en</strong>sluid<strong>en</strong>d war<strong>en</strong>, bleek de meerderheid van de toets<strong>en</strong> voor rek<strong>en</strong><strong>en</strong>w<strong>is</strong>kunde<br />

vergelijkbaar over de twee afnamemodi.<br />

In sommige van de studies die wel <strong>verschil</strong>l<strong>en</strong> vond<strong>en</strong>, <strong>is</strong> gekek<strong>en</strong> naar itemtyp<strong>en</strong> die <strong>het</strong><br />

moduseffect zoud<strong>en</strong> kunn<strong>en</strong> verklar<strong>en</strong> (Ito & Sykes, 2004; Sand<strong>en</strong>e et al., 2005; Johnson & Gre<strong>en</strong>,<br />

2006; B<strong>en</strong>nett et al., 2008; K<strong>en</strong>g, McClarty & Dav<strong>is</strong>, 2008). Het gaat dan om items:<br />

<br />

<br />

die uit <strong>verschil</strong>l<strong>en</strong>de del<strong>en</strong> bestaan <strong>en</strong> waarbij de kandidaat moet scroll<strong>en</strong> om <strong>het</strong> hele item te<br />

zi<strong>en</strong>;<br />

die mede tot doel hebb<strong>en</strong> om te bepal<strong>en</strong> hoe effectief de kandidaat e<strong>en</strong> fysiek hulpmiddel kan<br />

manipuler<strong>en</strong>, zoals e<strong>en</strong> liniaal of e<strong>en</strong> grad<strong>en</strong>boog;<br />

© Stichting Cito, Arnhem 2015 12


waarbij de leerling e<strong>en</strong> tek<strong>en</strong>ing moet mak<strong>en</strong>, e<strong>en</strong> grote hoeveelheid tekst moet invoer<strong>en</strong> of e<strong>en</strong><br />

w<strong>is</strong>kundige formule moet producer<strong>en</strong>;<br />

waarbij de leerling graf<strong>is</strong>ch materiaal of geometr<strong>is</strong>che manipulaties moet producer<strong>en</strong>;<br />

die e<strong>en</strong> uitgebreide handleiding (Engels: tutorial) of uitgebreide item-specifieke aanwijzing<strong>en</strong><br />

voor <strong>het</strong> beantwoord<strong>en</strong> vere<strong>is</strong><strong>en</strong>;<br />

die <strong>het</strong> gebruik van kladpapier vere<strong>is</strong><strong>en</strong> (<strong>en</strong> waarbij de leerling de vraag dus niet ‘uit <strong>het</strong> hoofd’<br />

kan beantwoord<strong>en</strong>):<br />

waarbij <strong>het</strong> itemformat ingrijp<strong>en</strong>d gewijzigd moet word<strong>en</strong> om <strong>het</strong> item geschikt te mak<strong>en</strong> voor<br />

pres<strong>en</strong>tatie via <strong>het</strong> beeldscherm;<br />

die veronderstell<strong>en</strong> dat de schermresolutie gelijk <strong>is</strong> <strong>op</strong> alle computers waar<strong>op</strong> de toets wordt<br />

afg<strong>en</strong>om<strong>en</strong>.<br />

Verder komt uit de review naar vor<strong>en</strong> dat leerling<strong>en</strong> over <strong>het</strong> algeme<strong>en</strong> hogere scores <strong>op</strong> <strong>op</strong><strong>en</strong><br />

vrag<strong>en</strong> behal<strong>en</strong> wanneer de manier waar<strong>op</strong> de toets wordt afg<strong>en</strong>om<strong>en</strong> overe<strong>en</strong>komt met de manier<br />

waar<strong>op</strong> de leerstof in de klas <strong>is</strong> onderwez<strong>en</strong> <strong>en</strong> getoetst.<br />

Daarnaast blijk<strong>en</strong> zelfs zeer kleine moduseffect<strong>en</strong> grote prakt<strong>is</strong>che consequ<strong>en</strong>ties te kunn<strong>en</strong> hebb<strong>en</strong>.<br />

E<strong>en</strong> moduseffect van slechts één punt <strong>op</strong> e<strong>en</strong> eindtoets in Texas kan ertoe leid<strong>en</strong> dat e<strong>en</strong> groot<br />

aantal kandidat<strong>en</strong> zakt <strong>en</strong> dus ge<strong>en</strong> diploma krijgt.<br />

Kingston (2009)<br />

In e<strong>en</strong> meta-analyse analyseerde Kingston (2009) de resultat<strong>en</strong> van 81 vergelijkingsstudies met<br />

meerkeuzetoets<strong>en</strong>, uitgevoerd gedur<strong>en</strong>de de periode 1997 tot 2007 bij leerling<strong>en</strong> in grade 1 tot <strong>en</strong><br />

met 12. Voor <strong>het</strong> vakgebied w<strong>is</strong>kunde werd<strong>en</strong> 31 studies geanalyseerd. PPT w<strong>is</strong>kunde werd<strong>en</strong> iets<br />

beter gemaakt dan CBT w<strong>is</strong>kunde. De gemiddelde effectgrootte was met -.06 echter zeer klein (met<br />

e<strong>en</strong> 95%-betrouwbaarheidsinterval van -.10 tot -.02). Kingston noemt <strong>het</strong> waarschijnlijk dat dit kleine<br />

<strong>verschil</strong> te mak<strong>en</strong> heeft met <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier. Zie hiervoor ook paragraaf 3.4.<br />

Individuele studies met gegev<strong>en</strong>s over vergelijkbaarheid van de rangord<strong>en</strong>ing<br />

Poggio, Glasnapp, Yang <strong>en</strong> Poggio (2005) legd<strong>en</strong> leerling<strong>en</strong> in grade 7 e<strong>en</strong> PPT- <strong>en</strong> e<strong>en</strong> CBT-versie van<br />

e<strong>en</strong> meerkeuzetoets w<strong>is</strong>kunde voor. Zij vond<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong> in gemiddeld prestati<strong>en</strong>iveau <strong>en</strong> de<br />

gemiddelde correlatie tuss<strong>en</strong> de scores <strong>op</strong> beide versies bedroeg .96.<br />

De Oregon Departm<strong>en</strong>t of Education (2007) vond ge<strong>en</strong> moduseffect <strong>op</strong> de prestaties van<br />

w<strong>is</strong>kundetoets<strong>en</strong> voor <strong>verschil</strong>l<strong>en</strong>de grades. De correlaties tuss<strong>en</strong> de PPT- <strong>en</strong> CBT-versies varieerd<strong>en</strong><br />

over de grades van .70 tot .83.<br />

Csapó, Molnár <strong>en</strong> Tóth (2009) vergelek<strong>en</strong> PPT- <strong>en</strong> CBT-versies van drie deeltests <strong>op</strong> <strong>het</strong> gebied van<br />

inductive reasoning. Op de onderdel<strong>en</strong> number analogies <strong>en</strong> number series scoorde PPT hoger dan<br />

CBT, maar <strong>op</strong> verbal analogies deed CBT <strong>het</strong> beter dan PPT. De correlaties tuss<strong>en</strong> de beide testversies<br />

bedroeg .79 voor de totaalscores over alle drie de onderdel<strong>en</strong>, .62 <strong>en</strong> .42 voor respectievelijk number<br />

analogies <strong>en</strong> number series <strong>en</strong> .80 voor verbal analogies.<br />

© Stichting Cito, Arnhem 2015 13


3.2 Het toek<strong>en</strong>n<strong>en</strong> van partial credit aan antwoord<strong>en</strong><br />

Inleiding<br />

In e<strong>en</strong> <strong>papier<strong>en</strong></strong> exam<strong>en</strong> rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde <strong>is</strong> <strong>het</strong> gebruikelijk dat kandidat<strong>en</strong> beloond word<strong>en</strong> voor<br />

gedeeltelijk goede antwoord<strong>en</strong>. De beoordelaar k<strong>en</strong>t <strong>het</strong> volledige aantal punt<strong>en</strong> toe als <strong>het</strong><br />

antwoord helemaal goed <strong>is</strong> <strong>en</strong> k<strong>en</strong>t deelscores (Engels: partial credit) toe als <strong>het</strong> antwoord<br />

gedeeltelijk goed <strong>is</strong> (McGuire & Youngson, 2002). Hoewel er voor doeleind<strong>en</strong> van formatieve toetsing<br />

in oef<strong>en</strong>omgeving<strong>en</strong> subtielere scoringswijz<strong>en</strong> beschikbaar zijn (o.a. DWO, 2013), <strong>is</strong><br />

geautomat<strong>is</strong>eerde toek<strong>en</strong>ning van partial credit aan gedeeltelijk goede antwoord<strong>en</strong> <strong>op</strong> <strong>op</strong><strong>en</strong> vrag<strong>en</strong><br />

in de meeste ons bek<strong>en</strong>de <strong>digitale</strong> high-stakes w<strong>is</strong>kunde-exam<strong>en</strong>s niet gebruikelijk. Vrijwel altijd<br />

wordt alle<strong>en</strong> <strong>het</strong> eindantwoord automat<strong>is</strong>ch gescoord als goed (één punt) of fout (nul punt<strong>en</strong>). Bij<br />

<strong>het</strong> vakgebied rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde <strong>is</strong> de meest voor de hand ligg<strong>en</strong>de vraag: “In hoeverre <strong>is</strong> <strong>het</strong><br />

mogelijk de antwoord<strong>en</strong> van kandidat<strong>en</strong> in e<strong>en</strong> automat<strong>is</strong>ch gescoord CBT-exam<strong>en</strong> <strong>op</strong> dezelfde<br />

manier te beoordel<strong>en</strong> als m<strong>en</strong>selijke beoordelaars bij e<strong>en</strong> <strong>papier<strong>en</strong></strong> exam<strong>en</strong> zoud<strong>en</strong> do<strong>en</strong>?” (McGuire<br />

& Youngson, 2002; Ashton et al., 2006).<br />

Exam<strong>en</strong>s rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde waarbij de vergelijkbaarheid van PPT- <strong>en</strong> CBT-versies tot <strong>op</strong> hed<strong>en</strong> <strong>het</strong><br />

best gereal<strong>is</strong>eerd <strong>is</strong>, zijn CBT-exam<strong>en</strong>s met alle<strong>en</strong> meerkeuzevrag<strong>en</strong> (B<strong>en</strong>nett, 2003). Dat <strong>is</strong> niet zo<br />

verwonderlijk, aangezi<strong>en</strong> beide afnamemodi van <strong>het</strong> meerkeuze-exam<strong>en</strong> doorgaans dichotoom<br />

gescoord word<strong>en</strong>. Echter, exam<strong>en</strong>s rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde bevatt<strong>en</strong> meestal meer <strong>op</strong><strong>en</strong> vrag<strong>en</strong> dan<br />

meerkeuzevrag<strong>en</strong>. E<strong>en</strong> antwoord <strong>op</strong> e<strong>en</strong> <strong>op</strong><strong>en</strong> vraag kan vele vorm<strong>en</strong> aannem<strong>en</strong>, zoals e<strong>en</strong><br />

numerieke score, e<strong>en</strong> formule of e<strong>en</strong> grafiek. Het antwoord <strong>op</strong> e<strong>en</strong> w<strong>is</strong>kundevraag vere<strong>is</strong>t doorgaans<br />

meerdere d<strong>en</strong>kstapp<strong>en</strong> of <strong>op</strong>lossingsprocess<strong>en</strong> waarvan de kandidaat er één of meer goed<br />

uitgevoerd kan hebb<strong>en</strong>. Hoewel er uitzondering<strong>en</strong> zijn (zie hierna) <strong>is</strong> <strong>het</strong> zonder speciale<br />

aanpassing<strong>en</strong> in e<strong>en</strong> CBT-exam<strong>en</strong> niet mogelijk om kandidat<strong>en</strong> voor gedeeltelijk goede antwoord<strong>en</strong><br />

punt<strong>en</strong> toe te k<strong>en</strong>n<strong>en</strong>: de computer k<strong>en</strong>t <strong>het</strong> antwoord alle<strong>en</strong> <strong>het</strong> maximale aantal punt<strong>en</strong> toe als <strong>het</strong><br />

antwoord helemaal goed <strong>is</strong> <strong>en</strong> als dat niet <strong>het</strong> geval <strong>is</strong> krijgt de kandidaat nul punt<strong>en</strong>. De CBT-versie<br />

van <strong>het</strong> exam<strong>en</strong> wijkt dan af van de PPT-versie waarbij m<strong>en</strong>selijke beoordelaars deelscores<br />

toek<strong>en</strong>n<strong>en</strong> aan gedeeltelijk goede antwoord<strong>en</strong>.<br />

Doc<strong>en</strong>t<strong>en</strong> <strong>en</strong> kandidat<strong>en</strong> beschouw<strong>en</strong> de geautomat<strong>is</strong>eerde alles-of-niets scoring van antwoord<strong>en</strong> <strong>op</strong><br />

<strong>op</strong><strong>en</strong> vrag<strong>en</strong> in e<strong>en</strong> CBT vaak als onrechtvaardig. De score nul wil immers niet zegg<strong>en</strong> dat de<br />

kandidaat ge<strong>en</strong> <strong>en</strong>kele vaardigheid bezit of ge<strong>en</strong> <strong>en</strong>kel leerdoel bereikt heeft. In e<strong>en</strong> CBT kan e<strong>en</strong><br />

rek<strong>en</strong>- of slordigheidsfoutje aan <strong>het</strong> begin van <strong>het</strong> <strong>op</strong>lossingsproces er bijvoorbeeld toe leid<strong>en</strong> dat de<br />

kandidaat voor <strong>het</strong> hele antwoord nul punt<strong>en</strong> krijgt, ook al heeft de kandidaat de vere<strong>is</strong>te strategie<br />

of formule volledig correct toegepast. En als aanwezige partiële k<strong>en</strong>n<strong>is</strong> <strong>en</strong> vaardighed<strong>en</strong> niet herk<strong>en</strong>d<br />

<strong>en</strong> beloond word<strong>en</strong>, kunn<strong>en</strong> vraagtek<strong>en</strong>s word<strong>en</strong> geplaatst bij de validiteit van de meting van<br />

w<strong>is</strong>kundige vaardighed<strong>en</strong>. Het wekt dan ook ge<strong>en</strong> verbazing dat w<strong>is</strong>kundedoc<strong>en</strong>t<strong>en</strong> <strong>het</strong> toek<strong>en</strong>n<strong>en</strong><br />

van deelscores aan gedeeltelijk goede (tuss<strong>en</strong>)antwoord<strong>en</strong> preferer<strong>en</strong> bov<strong>en</strong> e<strong>en</strong> alles-of-niets<br />

scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord. Veel doc<strong>en</strong>t<strong>en</strong> vrag<strong>en</strong> zich af in hoeverre kandidat<strong>en</strong> hogere<br />

scores behaald zoud<strong>en</strong> hebb<strong>en</strong> als deelscores wel beloond zoud<strong>en</strong> zijn <strong>en</strong> hoeveel punt<strong>en</strong> de<br />

kandidat<strong>en</strong> dan hoger zoud<strong>en</strong> scor<strong>en</strong>; bov<strong>en</strong>di<strong>en</strong> vrag<strong>en</strong> zij zich af of er e<strong>en</strong> manier <strong>is</strong> om kandidat<strong>en</strong><br />

te comp<strong>en</strong>ser<strong>en</strong> voor de t<strong>en</strong> onrechte niet gekreg<strong>en</strong> deelscores (zonder punt<strong>en</strong> weg te gev<strong>en</strong>)<br />

(Darrah et al., 2010). Bij kandidat<strong>en</strong> kan de geautomat<strong>is</strong>eerde alles-of-niets scoring van alle<strong>en</strong> <strong>het</strong><br />

eindantwoord tot bezorgdheid, wantrouw<strong>en</strong> <strong>en</strong> frustraties leid<strong>en</strong>, onder meer vanwege <strong>het</strong><br />

© Stichting Cito, Arnhem 2015 14


onpersoonlijke <strong>en</strong> anonieme karakter van de volledig geautomat<strong>is</strong>eerde beoordeling. Kandidat<strong>en</strong><br />

kunn<strong>en</strong> zich b<strong>en</strong>adeeld voel<strong>en</strong> omdat zij <strong>het</strong> idee hebb<strong>en</strong> punt<strong>en</strong> m<strong>is</strong> te l<strong>op</strong><strong>en</strong> die zij wel gekreg<strong>en</strong><br />

zoud<strong>en</strong> hebb<strong>en</strong> als hun antwoord<strong>en</strong> <strong>en</strong> uitwerking<strong>en</strong> <strong>op</strong> papier door e<strong>en</strong> m<strong>en</strong>selijke beoordelaar<br />

nagekek<strong>en</strong> zoud<strong>en</strong> zijn (McGuire & Johnson, 2002; Darrah et al., 2010).<br />

De vraag naar effect van <strong>het</strong> al dan niet toek<strong>en</strong>n<strong>en</strong> van partial credit aan gedeeltelijk goede<br />

prestaties <strong>is</strong> mogelijk ook van belang voor de interpretatie van de resultat<strong>en</strong> <strong>op</strong> de huidige<br />

Rek<strong>en</strong>toets VO. De teg<strong>en</strong>vall<strong>en</strong>de resultat<strong>en</strong> zoals geconstateerd door de Comm<strong>is</strong>sie Bosker (2014)<br />

zijn mogelijk te verklar<strong>en</strong> vanuit <strong>het</strong> gegev<strong>en</strong> dat gedeeltelijk goede antwoord in de huidige <strong>digitale</strong><br />

examinering ge<strong>en</strong> punt<strong>en</strong> <strong>op</strong>lever<strong>en</strong>. Onder constant houding van de maximumscore (<strong>en</strong> <strong>het</strong><br />

antwoordmodel) zou partial credit scoring log<strong>is</strong>cherwijs tot hogere scores moet<strong>en</strong> leid<strong>en</strong> dan allesof-niets<br />

scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord (uiteraard onder de aanname dat gedeeltelijk goede<br />

antwoord<strong>en</strong> inderdaad voorkom<strong>en</strong>). Dat <strong>het</strong> perc<strong>en</strong>tage goed <strong>op</strong> <strong>het</strong> exam<strong>en</strong> door <strong>het</strong> toek<strong>en</strong>n<strong>en</strong><br />

van deelscores hoger wordt, betek<strong>en</strong>t natuurlijk niet dat de kandidat<strong>en</strong> dan vaardiger zijn geword<strong>en</strong>.<br />

Het betek<strong>en</strong>t wel dat de resultat<strong>en</strong> <strong>op</strong> <strong>het</strong> exam<strong>en</strong> dan minder snel als teg<strong>en</strong>vall<strong>en</strong>d geïnterpreteerd<br />

zull<strong>en</strong> word<strong>en</strong>. Daarnaast zijn er wellicht implicaties voor de refer<strong>en</strong>tiecesur<strong>en</strong> <strong>en</strong> de manier waar<strong>op</strong><br />

deze via standaardsetting bepaald word<strong>en</strong>. In de begeleid<strong>en</strong>de brief aan de min<strong>is</strong>ter constateert de<br />

Comm<strong>is</strong>sie Bosker (2014) dat de refer<strong>en</strong>tiecesur<strong>en</strong> voor de niveaus 2F <strong>en</strong> 3F thans nog te hoog ligg<strong>en</strong><br />

<strong>en</strong> dus bijstelling behoev<strong>en</strong>. E<strong>en</strong> mogelijke red<strong>en</strong> waarom de lat nu zo hoog ligt, <strong>is</strong> <strong>het</strong> gegev<strong>en</strong> dat<br />

de refer<strong>en</strong>tiecesur<strong>en</strong> bepaald zijn zonder gedeeltelijk goede antwoord<strong>en</strong> in de standaardsetting te<br />

verd<strong>is</strong>conter<strong>en</strong>.<br />

In deze paragraaf gaan we na <strong>wat</strong> er bek<strong>en</strong>d <strong>is</strong> over de volg<strong>en</strong>de twee onderzoeksvrag<strong>en</strong>:<br />

<br />

<br />

In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met <strong>het</strong> al dan niet<br />

<strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van partial credit aan gedeeltelijk goede antwoord<strong>en</strong>?<br />

In hoeverre <strong>is</strong> <strong>het</strong> mogelijk de resultat<strong>en</strong> van de leerling<strong>en</strong> <strong>op</strong> e<strong>en</strong> CBT-exam<strong>en</strong> <strong>op</strong> e<strong>en</strong>zelfde<br />

manier te beoordel<strong>en</strong> als de gebruikelijke partial credit beoordeling in e<strong>en</strong> PPT-exam<strong>en</strong>?<br />

Resultat<strong>en</strong>: reviews <strong>en</strong> meta-analyses<br />

Er <strong>is</strong> nog nauwelijks onderzoek gedaan naar de mogelijkhed<strong>en</strong> van geautomat<strong>is</strong>eerde scoring van<br />

antwoord<strong>en</strong> <strong>op</strong> w<strong>is</strong>kundige problem<strong>en</strong> waarbij kandidat<strong>en</strong> beloond word<strong>en</strong> voor gedeeltelijk goede<br />

antwoord<strong>en</strong> (Darrah et al., 2010). We hebb<strong>en</strong> ge<strong>en</strong> review of meta-analyse gevond<strong>en</strong> waarin<br />

resultat<strong>en</strong> van ontwikkelingsgericht onderzoek <strong>op</strong> e<strong>en</strong> handzame wijze gesynt<strong>het</strong><strong>is</strong>eerd word<strong>en</strong>.<br />

Noodgedwong<strong>en</strong> volstaan we met e<strong>en</strong> verhal<strong>en</strong>de beschrijving van individuele studies. We beperk<strong>en</strong><br />

ons in hoofdzaak tot <strong>het</strong> beschrijv<strong>en</strong> van de belangrijkste onderzoeksresultat<strong>en</strong>.<br />

Resultat<strong>en</strong>: individuele studies<br />

Beevers, McGuire, Stirling <strong>en</strong> Wild (1995)<br />

In e<strong>en</strong> van de eerste experim<strong>en</strong>t<strong>en</strong> met geautomat<strong>is</strong>eerde partial credit scoring in e<strong>en</strong> CBT w<strong>is</strong>kunde<br />

probeerd<strong>en</strong> Beevers et al. (1995) e<strong>en</strong> <strong>op</strong>lossing te vind<strong>en</strong> voor e<strong>en</strong> bek<strong>en</strong>d nadeel van CBT met <strong>op</strong><strong>en</strong><br />

vrag<strong>en</strong>: <strong>het</strong> probleem van <strong>het</strong> niet kunn<strong>en</strong> waarder<strong>en</strong> van gedeeltelijk goede antwoord<strong>en</strong>. Om partial<br />

credit beoordeling mogelijk te mak<strong>en</strong>, ontwierp<strong>en</strong> de onderzoekers e<strong>en</strong> CBT-versie waarbij elke<br />

toetsvraag werd <strong>op</strong>gedeeld in twee à vier deelvrag<strong>en</strong>. De leerling<strong>en</strong> kond<strong>en</strong> per toetsvraag kiez<strong>en</strong> of<br />

© Stichting Cito, Arnhem 2015 15


zij van Steps gebruik wild<strong>en</strong> mak<strong>en</strong> door de kn<strong>op</strong> More steps al dan niet aan te klikk<strong>en</strong>. Om de<br />

maximumscore te behal<strong>en</strong>, moest de leerling alle deelvrag<strong>en</strong> goed beantwoord hebb<strong>en</strong>. De keuze<br />

voor Steps leidde dus niet automat<strong>is</strong>ch tot aftrek van punt<strong>en</strong>. De keuze voor Steps bleef echter niet<br />

geheel ongestraft, aangezi<strong>en</strong> de toets e<strong>en</strong> tijdslimiet k<strong>en</strong>de <strong>en</strong> de stapsgewijze bevraging meer tijd<br />

bleek te kost<strong>en</strong> dan de reguliere bevraging. Zoals verwacht blek<strong>en</strong> goede leerling<strong>en</strong> de toetsvrag<strong>en</strong><br />

vaak snel te beantwoord<strong>en</strong> zonder de tuss<strong>en</strong>stapp<strong>en</strong> te gebruik<strong>en</strong>. Sommig<strong>en</strong> van h<strong>en</strong> liep<strong>en</strong><br />

daardoor echter punt<strong>en</strong> m<strong>is</strong> die zij wel gekreg<strong>en</strong> zoud<strong>en</strong> hebb<strong>en</strong> als e<strong>en</strong> m<strong>en</strong>selijke beoordelaar hun<br />

antwoord<strong>en</strong> <strong>op</strong> papier beoordeeld zou hebb<strong>en</strong>. Zwakkere leerling<strong>en</strong> koz<strong>en</strong> veelvuldig voor Steps,<br />

bijvoorbeeld als zij niet onmiddellijk in staat war<strong>en</strong> e<strong>en</strong> ‘beginnetje’ te vind<strong>en</strong> of tuss<strong>en</strong>tijds<br />

‘vastliep<strong>en</strong>’ bij <strong>het</strong> vind<strong>en</strong> van e<strong>en</strong> antwoord. Zij verdi<strong>en</strong>d<strong>en</strong> daardoor punt<strong>en</strong> die beoordelaars van<br />

e<strong>en</strong> PPT ook gegev<strong>en</strong> zoud<strong>en</strong> hebb<strong>en</strong>. Het kwam maar weinig voor dat de zwakkere leerling<strong>en</strong> niet<br />

voor Steps koz<strong>en</strong> terwijl zij dat beter wel hadd<strong>en</strong> kunn<strong>en</strong> do<strong>en</strong>.<br />

Deze keuze om Steps al dan niet te gebruik<strong>en</strong> vere<strong>is</strong>t toetsvaardighed<strong>en</strong> die bij e<strong>en</strong> PPT niet nodig<br />

zijn. De kandidaat moet <strong>het</strong> voordeel van <strong>het</strong> uitzicht <strong>op</strong> partial credit namelijk afweg<strong>en</strong> teg<strong>en</strong> <strong>het</strong><br />

nadeel van e<strong>en</strong> to<strong>en</strong>ame van de afnametijd. De onderzoekers do<strong>en</strong> dan ook de aanbeveling om deze<br />

nieuwe toetsvaardighed<strong>en</strong> terdege te train<strong>en</strong>.<br />

McGuire, Youngson, Korabinski <strong>en</strong> McMillan (2002)<br />

Aanleiding van <strong>het</strong> onderzoek van McGuire, Youngson, Korabinski <strong>en</strong> McMillan (2002) war<strong>en</strong> de<br />

problem<strong>en</strong> met de alles-of-niets scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord in traditionele CBT. Als <strong>het</strong><br />

scoringsalgoritme de kandidaat nul punt<strong>en</strong> toek<strong>en</strong>t, betek<strong>en</strong>t dat niet automat<strong>is</strong>ch dat hij of zij over<br />

ge<strong>en</strong> <strong>en</strong>kele w<strong>is</strong>kundige vaardigheid beschikt.<br />

Modernere CBT’s die mogelijkheid bied<strong>en</strong> tot stapsgewijze aanbieding van vrag<strong>en</strong>, kunn<strong>en</strong> partial<br />

credit toek<strong>en</strong>n<strong>en</strong>, bijvoorbeeld voor <strong>het</strong> vind<strong>en</strong> van <strong>het</strong> ju<strong>is</strong>te begin van <strong>het</strong> antwoord (Engels: the<br />

correct start to the answer), voor de correcte toepassing van de formule (ook al gebruikte de<br />

kandidaat in de formule e<strong>en</strong> verkeerd getal vanwege e<strong>en</strong> rek<strong>en</strong>- of slordigheidsfoutje eerder in de<br />

<strong>op</strong>gave) of voor stapelfout<strong>en</strong> (Engels: follow-through errors) waarmee wordt voorkom<strong>en</strong> dat<br />

dezelfde fout de kandidaat meer dan één keer aangerek<strong>en</strong>d wordt.<br />

In e<strong>en</strong> zeer invloedrijk onderzoek vergelek<strong>en</strong> McGuire, Youngson, Korabinski <strong>en</strong> McMillan (2002) de<br />

<strong>digitale</strong> beoordeling van w<strong>is</strong>kundige vaardighed<strong>en</strong> met <strong>en</strong> zonder recht te do<strong>en</strong> aan gedeeltelijk<br />

goede antwoord<strong>en</strong>. In e<strong>en</strong> experim<strong>en</strong>teel onderzoeksontwerp vergelek<strong>en</strong> zij de volg<strong>en</strong>de drie versies<br />

van dezelfde w<strong>is</strong>kundetoets die <strong>verschil</strong>d<strong>en</strong> in de hoeveel hulp die de kandidaat gebod<strong>en</strong> werd:<br />

<br />

<br />

<br />

No Steps format (NS): e<strong>en</strong> traditionele CBT-versie met geautomat<strong>is</strong>eerde dichotome scoring van<br />

alle<strong>en</strong> <strong>het</strong> eindantwoord. In <strong>het</strong> No Steps format werd<strong>en</strong> gedeeltelijk goede antwoord<strong>en</strong> dus niet<br />

beloond.<br />

Compulsory Steps (CS) format: e<strong>en</strong> CBT-versie met zog<strong>en</strong>oemde Steps waarbij elke exam<strong>en</strong>vraag<br />

in e<strong>en</strong> aantal deelvrag<strong>en</strong> was <strong>op</strong>gedeeld. Om de maximumscore te behal<strong>en</strong>, moest de kandidaat<br />

zowel de antwoord<strong>en</strong> <strong>op</strong> de deelvrag<strong>en</strong> als <strong>het</strong> antwoord <strong>op</strong> de eindvraag goed hebb<strong>en</strong>. De<br />

deelvrag<strong>en</strong> kwam<strong>en</strong> bij b<strong>en</strong>adering overe<strong>en</strong> met de “method the stud<strong>en</strong>t would have to go<br />

through in order to solve the question” (p. 224). Omdat de kandidaat niet voor Steps kon kiez<strong>en</strong>,<br />

werd deze versie aangeduid met de term Compulsory Steps.<br />

Optional Steps (OS) format: e<strong>en</strong> hybride CBT-versie die <strong>het</strong> midd<strong>en</strong> hield tuss<strong>en</strong> NS <strong>en</strong> CS. De<br />

kandidaat kreeg de exam<strong>en</strong>vraag eerst in <strong>het</strong> NS-format te zi<strong>en</strong> <strong>en</strong> kon daarna desgew<strong>en</strong>st<br />

kiez<strong>en</strong> voor Steps. Had de kandidaat e<strong>en</strong>maal voor Steps gekoz<strong>en</strong>, dan moest<strong>en</strong> alle deelvrag<strong>en</strong><br />

© Stichting Cito, Arnhem 2015 16


correct beantwoord word<strong>en</strong> om de maximumscore te behal<strong>en</strong>. Net als in <strong>het</strong> hiervoor besprok<strong>en</strong><br />

onderzoek van Beevers, McGuire, Stirling <strong>en</strong> Wild (1995) leidde de keuze voor Steps niet<br />

automat<strong>is</strong>ch tot aftrek van punt<strong>en</strong>. De keuze voor Steps bleef echter niet geheel ongestraft,<br />

aangezi<strong>en</strong> de toets e<strong>en</strong> tijdslimiet k<strong>en</strong>de, de afnametijd daar Steps to<strong>en</strong>am <strong>en</strong> de kandidaat met<br />

tijdnood te mak<strong>en</strong> kon krijg<strong>en</strong>.<br />

In <strong>het</strong> OS-format werd 30% van de vrag<strong>en</strong> geprobeerd zonder van Steps gebruik te mak<strong>en</strong>. Van deze<br />

vrag<strong>en</strong> werd 42% goed beantwoord <strong>en</strong> 58% fout. Van de kandidat<strong>en</strong> gebruikte 28% Steps bij alle<br />

vrag<strong>en</strong>, 54% gebruikte Steps bij t<strong>en</strong> minste één vraag <strong>en</strong> 8% gebruikte Steps helemaal niet.<br />

De antwoord<strong>en</strong> <strong>op</strong> de vrag<strong>en</strong> van de drie CBT-versies werd<strong>en</strong> automat<strong>is</strong>ch met de computer<br />

gescoord. Als de computer e<strong>en</strong> goed antwoord niet herk<strong>en</strong>de, werd<strong>en</strong> de scores handmatig hersteld.<br />

Om de praktijk van <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van deelscores bij e<strong>en</strong> gewone PPT zo goed mogelijk na te<br />

boots<strong>en</strong>, werd<strong>en</strong> de uitwerking<strong>en</strong> <strong>op</strong> kladpapier door m<strong>en</strong>selijke beoordelaars beoordeeld. Dit<br />

resulteerde in de volg<strong>en</strong>de zev<strong>en</strong> ‘condities’ die met elkaar vergelek<strong>en</strong> werd<strong>en</strong>:<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

NS: No Steps waarbij alle<strong>en</strong> <strong>het</strong> eindantwoord automat<strong>is</strong>ch dichotoom gescoord werd;<br />

NSW: No Steps waarbij e<strong>en</strong> m<strong>en</strong>selijke beoordelaar de uitwerking<strong>en</strong> <strong>op</strong> kladpapier volg<strong>en</strong>s de<br />

partial credit methode beoordeelde;<br />

CS: Compulsory Steps automat<strong>is</strong>ch met partial credit gescoord;<br />

CSPC: Compulsory Steps waarbij e<strong>en</strong> m<strong>en</strong>selijke beoordelaar de uitwerking<strong>en</strong> <strong>op</strong> kladpapier<br />

volg<strong>en</strong>s de partial credit methode beoordeelde;<br />

OS: Optional Steps automat<strong>is</strong>ch met partial credit gescoord;<br />

OSPC: Optional Steps waarbij e<strong>en</strong> m<strong>en</strong>selijke beoordelaar ALLEEN DE VRAGEN waarbij de<br />

kandidat<strong>en</strong> ervoor koz<strong>en</strong> ge<strong>en</strong> gebruik te mak<strong>en</strong> van Steps volg<strong>en</strong>s de partial credit methode<br />

beoordeelt (<strong>op</strong> bas<strong>is</strong> van de uitwerking<strong>en</strong> <strong>op</strong> kladpapier);<br />

OSPC+S: Optional Steps waarbij e<strong>en</strong> m<strong>en</strong>selijke beoordelaar ALLE VRAGEN volg<strong>en</strong>s de partial<br />

credit methode beoordeelde (<strong>op</strong> bas<strong>is</strong> van de uitwerking<strong>en</strong> <strong>op</strong> kladpapier).<br />

Het onderscheid tuss<strong>en</strong> CS <strong>en</strong> SCPC <strong>en</strong> dat tuss<strong>en</strong> OSPC <strong>en</strong> OSPC+S motiver<strong>en</strong> McGuire et al. (2002)<br />

als volgt: “The main reason for a differ<strong>en</strong>ce betwe<strong>en</strong> CS and CSPC marks for a particular candidate<br />

was that if they gave a wrong answer to, let us say, the first part of the question and th<strong>en</strong><br />

subsequ<strong>en</strong>tly used the right method to the remaining parts, th<strong>en</strong> the computer would give no marks<br />

for the remaining parts whereas partial credit would normally accrue in paper-based examinations.<br />

The same main reason applied to a differ<strong>en</strong>ce betwe<strong>en</strong> OS and OSPC marks for any particular<br />

candidate. The differ<strong>en</strong>ces betwe<strong>en</strong> NS and NSW marks (and OSPC and OSPC+S marks) could not be<br />

assigned in such a simple way as the partial credit was awarded for making variable amounts of<br />

progress through each question.” (p. 226).<br />

De via NSW verkreg<strong>en</strong> scores werd<strong>en</strong> geacht de m<strong>en</strong>selijke beoordeling van antwoord<strong>en</strong> <strong>op</strong> papier<br />

<strong>het</strong> beste te b<strong>en</strong>ader<strong>en</strong>. De NSW-beoordeling met partial credit bleek tot aanzi<strong>en</strong>lijk hogere scores te<br />

leid<strong>en</strong> dan NS (dit wil zegg<strong>en</strong>: de gebruikelijke dichotome scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord).<br />

McGuire et al. (2002) trekk<strong>en</strong> hieruit de conclusie dat “… there <strong>is</strong> absolutely no doubt that the basic<br />

NS format <strong>is</strong> not a suitable alternative to paper-based examinations” (p. 226).<br />

De onderzoekers vergelek<strong>en</strong> ook NSW met OS <strong>en</strong> CS. De OS-scores war<strong>en</strong> gemiddeld iets lager dan<br />

de NSW-scores, maar dit <strong>verschil</strong> was stat<strong>is</strong>t<strong>is</strong>ch gezi<strong>en</strong> niet significant (<strong>op</strong> 10%-niveau). Ook de CS-<br />

© Stichting Cito, Arnhem 2015 17


scores war<strong>en</strong> iets hoger dan de NSW-scores, maar ook dit <strong>verschil</strong> was stat<strong>is</strong>t<strong>is</strong>ch gezi<strong>en</strong> niet van<br />

betek<strong>en</strong><strong>is</strong>. K<strong>en</strong>nelijk gev<strong>en</strong> de <strong>op</strong>tionele <strong>en</strong> verplichte Steps-methodes e<strong>en</strong> goede b<strong>en</strong>adering van de<br />

traditionele PPT-beoordeling met toek<strong>en</strong>ning van partial credit door m<strong>en</strong>selijke beoordelaars. Het<br />

lijkt dus goed mogelijk om de ‘gewone’ arbeidsint<strong>en</strong>sieve PPT-beoordeling met deelscores in e<strong>en</strong><br />

automat<strong>is</strong>ch gescoorde CBT met Steps na te boots<strong>en</strong><br />

Het onderzoek bood ook uitsluitsel over ev<strong>en</strong>tuele <strong>verschil</strong>l<strong>en</strong> in de gemiddelde scores zoals<br />

verkreg<strong>en</strong> met de <strong>op</strong>tionele <strong>en</strong> verplichte Steps-methode. Er war<strong>en</strong> drie vergelijking<strong>en</strong> mogelijk. De<br />

vergelijking CS versus OS gaf significantie te zi<strong>en</strong> waarbij CS gemiddeld tot iets hogere scores leidde<br />

dan OS. De vergelijking CSPC versus OSPC was ev<strong>en</strong>e<strong>en</strong>s significant waarbij CSPC wederom tot<br />

hogere scores leidde dan OSPC. Hieruit concluder<strong>en</strong> de onderzoekers dat <strong>het</strong> er<strong>op</strong> lijkt dat de<br />

verplichte steps-methode de kandidat<strong>en</strong> hulp biedt bij de keuze van de ju<strong>is</strong>te strategie (die zij bij e<strong>en</strong><br />

gewone PPT niet zoud<strong>en</strong> hebb<strong>en</strong> gekreg<strong>en</strong>). De vergelijking CSPC versus OSPC+S leverde daar<strong>en</strong>teg<strong>en</strong><br />

ge<strong>en</strong> significantie <strong>op</strong>. Dit betek<strong>en</strong>t dat <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van partial credit bij alle vrag<strong>en</strong> de CS-scores<br />

weer <strong>op</strong> gelijke hoogte br<strong>en</strong>gt met de OS-scores.<br />

Tot slot werd NS vergelek<strong>en</strong> met OS <strong>en</strong> CS. Hier war<strong>en</strong> twee vergelijking<strong>en</strong> mogelijk. De vergelijking<br />

NS versus OS gaf significantie te zi<strong>en</strong> waarbij NS tot lagere scores leidde dan OS. Ook de vergelijking<br />

NS versus CS leverde significantie <strong>op</strong> waarbij NS lager scoorde dan OS. Dit laat volg<strong>en</strong>s de<br />

onderzoekers zi<strong>en</strong> dat <strong>het</strong> gebruik van de <strong>op</strong>tionele <strong>en</strong> verplichte Steps-methode de kandidat<strong>en</strong><br />

meer mogelijkhed<strong>en</strong> biedt om hun k<strong>en</strong>n<strong>is</strong> t<strong>en</strong> toon te spreid<strong>en</strong> dan de gebruikelijke CBT-toetsing<br />

waarbij alle<strong>en</strong> <strong>het</strong> eindantwoord dichotoom gescoord wordt.<br />

McGuire et al. (2002) zijn er zich overig<strong>en</strong>s van bewust dat de Steps-method<strong>en</strong> e<strong>en</strong> deel van <strong>het</strong><br />

antwoord kunn<strong>en</strong> weggev<strong>en</strong>. Daardoor zoud<strong>en</strong> exam<strong>en</strong>vrag<strong>en</strong> met Steps e<strong>en</strong> beroep kunn<strong>en</strong> do<strong>en</strong><br />

<strong>op</strong> andere leerdoel<strong>en</strong> dan de traditionele <strong>papier<strong>en</strong></strong> beoordeling aan de hand van e<strong>en</strong><br />

antwoordmodel. Zij pleit<strong>en</strong> daarom voor vervolgonderzoek naar <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> met aftrekpunt<strong>en</strong> als<br />

straf voor <strong>het</strong> gebruik van Steps. Wel zoud<strong>en</strong> kandidat<strong>en</strong> dan gewaarschuwd moet<strong>en</strong> word<strong>en</strong> dat de<br />

keuze voor Steps niet alle<strong>en</strong> tijdverlies kan betek<strong>en</strong><strong>en</strong>, maar ook aftrekpunt<strong>en</strong>.<br />

Fiddes, Korabinski, McGuire, Youngson <strong>en</strong> McMillan (2002)<br />

In e<strong>en</strong> onderzoek dat parallel liep aan dat van McGuire, Youngson, Korabinski <strong>en</strong> McMillan (2002)<br />

vergelek<strong>en</strong> Fiddes, Korabinski, McGuire, Youngson <strong>en</strong> McMillan (2002) drie versies van dezelfde<br />

w<strong>is</strong>kundetoets:<br />

<br />

<br />

<br />

e<strong>en</strong> PPT-versie, beoordeeld volg<strong>en</strong>s de partial credit methode;<br />

e<strong>en</strong> CBT-versie, beoordeeld volg<strong>en</strong>s de alles-of-niets methode van alle<strong>en</strong> <strong>het</strong> eindantwoord;<br />

e<strong>en</strong> zog<strong>en</strong>oemde Reversed Translation versie (RT), dit wil zegg<strong>en</strong> e<strong>en</strong> scre<strong>en</strong>dump van de CBTversie<br />

(ofwel e<strong>en</strong> vanuit de CBT-versie 'terugvertaalde' PPT-versie).<br />

In de RT-versie was bij elke toetsvraag ruimte gereserveerd voor kladwerk, zodat de leerling<strong>en</strong> hun<br />

berek<strong>en</strong>ing<strong>en</strong> <strong>en</strong> dergelijk kond<strong>en</strong> uitvoer<strong>en</strong> <strong>op</strong> e<strong>en</strong> manier die vergelijkbaar was met de PPT-versie.<br />

Om <strong>het</strong> effect van herformulering onderzoeksmatig te kunn<strong>en</strong> onderscheid<strong>en</strong> van dat van de<br />

afnamemodus, werd de RT-versie <strong>op</strong> twee manier<strong>en</strong> beoordeeld:<br />

<br />

RTC. Bij de zog<strong>en</strong>oemde RTC-marking werd alle<strong>en</strong> beoordeeld of <strong>het</strong> eindantwoord goed of fout<br />

was, net als bij de CBT-versie gebeurd was;<br />

© Stichting Cito, Arnhem 2015 18


RTW. Bij de zog<strong>en</strong>oemde RTW-marking vond plaats volg<strong>en</strong>s de partial credit methode waarbij de<br />

uitwerking<strong>en</strong> <strong>op</strong> kladpapier in de beoordeling betrokk<strong>en</strong> werd<strong>en</strong> <strong>en</strong> de leerling punt<strong>en</strong> kon<br />

behal<strong>en</strong> voor gedeeltelijk goede antwoord<strong>en</strong>, zoals ook bij de PPT <strong>het</strong> geval was.<br />

Het onderzoekontwerp stelde de onderzoekers in staat om <strong>het</strong> effect van de afnamemodus te<br />

scheid<strong>en</strong> van <strong>het</strong> effect van <strong>het</strong> herformuler<strong>en</strong> van de exam<strong>en</strong>vrag<strong>en</strong>.<br />

Effect afnamemodus<br />

Omdat de formulering van de vraagstelling <strong>en</strong> de plek om <strong>het</strong> antwoord te noter<strong>en</strong> in de CBT- <strong>en</strong> RTversie<br />

exact gelijk war<strong>en</strong> <strong>en</strong> beide versies <strong>op</strong> precies dezelfde wijze beoordeeld werd<strong>en</strong> via de goedof-fout<br />

methode, geeft de vergelijking CBT-RTC inzicht in <strong>het</strong> mogelijke effect van de afnamemodus.<br />

De afnamemodus bleek ge<strong>en</strong> noem<strong>en</strong>swaardig effect <strong>op</strong> de prestaties te hebb<strong>en</strong>. K<strong>en</strong>nelijk maakt<br />

<strong>het</strong> voor de prestaties niet uit of de leerling<strong>en</strong> de originele CBT mak<strong>en</strong> of e<strong>en</strong> <strong>papier<strong>en</strong></strong> scre<strong>en</strong>dump<br />

van deze versie zolang hun antwoord<strong>en</strong> maar volg<strong>en</strong>s de alles-of-niets b<strong>en</strong>adering gescoord of<br />

beoordeeld word<strong>en</strong>.<br />

Effect herformulering<br />

Voordat de vrag<strong>en</strong> van e<strong>en</strong> PPT geschikt zijn voor gebruik in e<strong>en</strong> CBT, moet<strong>en</strong> ze vaak<br />

geherformuleerd <strong>en</strong> in e<strong>en</strong> andere lay-out gezet word<strong>en</strong>. Fiddes et al. (2002) noem<strong>en</strong> dit <strong>het</strong><br />

herformuleringseffect. De vergelijking van de PPT- met de RTW-versie, die beide volg<strong>en</strong>s de partial<br />

credit methode beoordeeld werd<strong>en</strong>, geeft inzicht in <strong>het</strong> ev<strong>en</strong>tuele effect van <strong>het</strong> herformuler<strong>en</strong> van<br />

de toetsvrag<strong>en</strong>. De herformulering van de toetsvrag<strong>en</strong> bleek e<strong>en</strong> middelgroot effect <strong>op</strong> de<br />

toetsresultat<strong>en</strong> te hebb<strong>en</strong> gehad (effectgrootte .48), waarbij de RTW-versie beter gemaakt werd dan<br />

de PPT-versie. De onderzoekers schrijv<strong>en</strong> dit <strong>verschil</strong> toe aan de herformulering van de vrag<strong>en</strong> <strong>en</strong> de<br />

<strong>verschil</strong>l<strong>en</strong> in <strong>het</strong> aantal <strong>op</strong>gav<strong>en</strong> per pagina <strong>op</strong> papier <strong>en</strong> <strong>het</strong> beeldscherm.<br />

E<strong>en</strong> alternatieve verklaring verwijst naar <strong>het</strong> gegev<strong>en</strong> dat de leerling<strong>en</strong> hun uitwerking<strong>en</strong> <strong>op</strong><br />

kladpapier in <strong>het</strong> PPT-format onder elkaar <strong>op</strong>schrev<strong>en</strong>, zodat de beoordelaar gemakkelijk kon zi<strong>en</strong><br />

waar de fout<strong>en</strong> zich voorded<strong>en</strong>. In <strong>het</strong> RTW-format kond<strong>en</strong> de leerling<strong>en</strong> hun antwoord<strong>en</strong><br />

daar<strong>en</strong>teg<strong>en</strong> niet <strong>op</strong> e<strong>en</strong> lineaire manier <strong>op</strong>schrijv<strong>en</strong>. Als de leerling bijvoorbeeld in <strong>het</strong> RTW-format<br />

twee antwoord<strong>en</strong> gaf waarvan er één fout <strong>en</strong> één goed was, was veel minder duidelijk welk<br />

antwoord de leerling als <strong>het</strong> goede antwoord bedoeld had. Bijgevolg gav<strong>en</strong> de beoordelaars de<br />

leerling<strong>en</strong> in <strong>het</strong> RTW-format vaker <strong>het</strong> voordeel van de twijfel dan in <strong>het</strong> PPT-format. De<br />

onderzoekers merk<strong>en</strong> <strong>op</strong> dat deze kwestie nader onderzoek vere<strong>is</strong>t. In <strong>het</strong> onderzoek werd ge<strong>en</strong><br />

gebruik gemaakt van stapsgewijze toetsing die de onderzoekers aanbevel<strong>en</strong> als e<strong>en</strong> geschikte manier<br />

om gedeeltelijk goede antwoord<strong>en</strong> in e<strong>en</strong> CBT te belon<strong>en</strong>.<br />

Ashton, Beevers, Korabinski, Youngson <strong>en</strong> Martin (2006)<br />

Ashton, Beevers, Korabinski, Youngson <strong>en</strong> Martin (2006) borduurd<strong>en</strong> voort <strong>op</strong> <strong>het</strong> baanbrek<strong>en</strong>de<br />

onderzoek van McGuire et al. (2002). Laatstg<strong>en</strong>oemd<strong>en</strong> vond<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong> tuss<strong>en</strong> de scores die<br />

behaald war<strong>en</strong> <strong>op</strong> e<strong>en</strong> CBT met ingebouwde stapsgewijze bevraging <strong>en</strong> e<strong>en</strong> gewone PPT waarbij<br />

m<strong>en</strong>selijke beoordelaars partial credit toek<strong>en</strong>d<strong>en</strong> aan gedeeltelijk goede antwoord<strong>en</strong> <strong>op</strong> papier.<br />

McGuire et al. (2002) war<strong>en</strong> zich er echter van bewust dat stapsgewijze bevraging zou kunn<strong>en</strong> leid<strong>en</strong><br />

tot <strong>het</strong> weggev<strong>en</strong> van de ju<strong>is</strong>te <strong>op</strong>lossingsstrategie. Dit werd als minder w<strong>en</strong>selijk ervar<strong>en</strong>, omdat <strong>het</strong><br />

vind<strong>en</strong> van de ju<strong>is</strong>te <strong>op</strong>lossingsstrategie e<strong>en</strong> belangrijk leerdoel <strong>is</strong> van <strong>het</strong> vak w<strong>is</strong>kunde in <strong>het</strong><br />

voortgezet onderwijs. Het onderzoek van Ashton, Beevers, Korabinski, Youngson <strong>en</strong> Martin (2006)<br />

© Stichting Cito, Arnhem 2015 19


had tot doel e<strong>en</strong> <strong>op</strong>lossing voor dit probleem te vind<strong>en</strong>. Zij onderzocht<strong>en</strong> de volg<strong>en</strong>de twee<br />

manier<strong>en</strong> om partial credit in e<strong>en</strong> CBT toe te k<strong>en</strong>n<strong>en</strong>:<br />

<br />

<br />

Het werk<strong>en</strong> met aftrekpunt<strong>en</strong>. Om tegemoet te kom<strong>en</strong> aan <strong>het</strong> bezwaar dat de kandidat<strong>en</strong> die<br />

voor Steps koz<strong>en</strong> in sommige gevall<strong>en</strong> de strategie cadeau kreg<strong>en</strong>, werd<strong>en</strong> de punt<strong>en</strong> die zij<br />

anders voor de strategie hadd<strong>en</strong> gekreg<strong>en</strong> <strong>op</strong> hun score in mindering gebracht; zij kond<strong>en</strong> dus<br />

alle<strong>en</strong> de rester<strong>en</strong>de punt<strong>en</strong> behal<strong>en</strong>. Hiermee ho<strong>op</strong>t<strong>en</strong> de onderzoekers <strong>het</strong> antwoordmodel<br />

van de originele PPT zo goed mogelijk na te boots<strong>en</strong> (Ashton & Youngson, 2004).<br />

Het gev<strong>en</strong> van onmiddellijke feedback <strong>op</strong> kleine foutjes. De tweede aanpak was gebaseerd <strong>op</strong> de<br />

observatie dat veel foute antwoord<strong>en</strong> in e<strong>en</strong> traditionele CBT <strong>het</strong> gevolg war<strong>en</strong> van kleine rek<strong>en</strong>of<br />

slordigheidsfoutjes die in e<strong>en</strong> PPT nauwelijks tot punt<strong>en</strong>aftrek geleid zoud<strong>en</strong> hebb<strong>en</strong>. Door de<br />

kandidaat <strong>op</strong> deze kleine foutjes te att<strong>en</strong>der<strong>en</strong>, zou deze de kans krijg<strong>en</strong> om de fout te tracer<strong>en</strong><br />

<strong>en</strong> <strong>het</strong> foute antwoord door <strong>het</strong> goede te vervang<strong>en</strong>. De feedback werd gegev<strong>en</strong> in de vorm van<br />

vinkjes <strong>en</strong> kru<strong>is</strong>jes (Engels: ticks and crosses) voor respectievelijk e<strong>en</strong> goed <strong>en</strong> e<strong>en</strong> fout antwoord.<br />

In de feedbackversie kond<strong>en</strong> de kandidat<strong>en</strong> niet voor Steps kiez<strong>en</strong>. Zie voor functioner<strong>en</strong> van<br />

deze feedback de bespreking in paragraaf 3.5.<br />

Ashton et al. (2006) ontwikkeld<strong>en</strong> drie versies van <strong>het</strong>zelfde w<strong>is</strong>kunde-exam<strong>en</strong> (waarbij elke versie<br />

uit twee deeltoets<strong>en</strong> bestond):<br />

<br />

<br />

<br />

S-versie: e<strong>en</strong> CBT met <strong>op</strong>tionele Steps waarbij de kandidat<strong>en</strong> desgew<strong>en</strong>st kond<strong>en</strong> kiez<strong>en</strong> voor<br />

stapsgewijze bevraging met punt<strong>en</strong>aftrek als straf;<br />

T-versie: e<strong>en</strong> CBT zonder Steps maar met onmiddellijke feedback via vinkjes <strong>en</strong> kru<strong>is</strong>jes <strong>op</strong> <strong>het</strong><br />

scherm;<br />

R-versie: e<strong>en</strong> scre<strong>en</strong> dump van de CBT-versie zonder Steps.<br />

Er werd<strong>en</strong> twee trials uitgevoerd. In de eerste trial werd<strong>en</strong> vrag<strong>en</strong> uit <strong>het</strong> Advanced Higher<br />

Mathematics exam<strong>en</strong> gebruikt. In de tweede trial gebruikte m<strong>en</strong> vrag<strong>en</strong> uit <strong>het</strong> Higher Mathematics<br />

exam<strong>en</strong> dat qua niveau vergelijkbaar <strong>is</strong> met <strong>het</strong> A level exam<strong>en</strong> in Engeland. In de eerste trial kreg<strong>en</strong><br />

de kandidat<strong>en</strong> alle<strong>en</strong> de S- <strong>en</strong> R-versies voorgelegd <strong>en</strong> in de tweede trial alle drie versies.<br />

Alvor<strong>en</strong>s de CBT-versie met <strong>op</strong>tionele Steps te mak<strong>en</strong>, werd<strong>en</strong> de kandidat<strong>en</strong> eraan herinnerd dat de<br />

keuze voor Steps betek<strong>en</strong>de dat zij niet de maximale score kond<strong>en</strong> behal<strong>en</strong>. Kandidat<strong>en</strong> die de<br />

feedback-versie (T) maakt<strong>en</strong>, werd<strong>en</strong> geatt<strong>en</strong>deerd <strong>op</strong> de vinkjes <strong>en</strong> kru<strong>is</strong>jes die zoud<strong>en</strong> verschijn<strong>en</strong><br />

nadat zij hun antwoord hadd<strong>en</strong> ingevoerd. All<strong>en</strong> werd gevraagd hun uitwerking<strong>en</strong> <strong>op</strong> kladpapier te<br />

noter<strong>en</strong>.<br />

Bij de afname van de CBT’s blek<strong>en</strong> zich <strong>en</strong>kele uitvoeringsproblem<strong>en</strong> voor te do<strong>en</strong>. De beide CBT’s<br />

blek<strong>en</strong> meer afnametijd te verg<strong>en</strong> dan de PPT. De kandidat<strong>en</strong> die e<strong>en</strong> CBT-versie maakt<strong>en</strong>, kwam<strong>en</strong><br />

daardoor vaak in tijdnood <strong>en</strong> kreg<strong>en</strong> <strong>het</strong> exam<strong>en</strong> niet af binn<strong>en</strong> de afnametijd van één uur. De<br />

onderzoekers noem<strong>en</strong> de volg<strong>en</strong>de oorzak<strong>en</strong>:<br />

<br />

<br />

<br />

Bij de CBT’s kostte <strong>het</strong> <strong>op</strong>start<strong>en</strong> van <strong>het</strong> exam<strong>en</strong> meer tijd dan bij de PPT. De kandidat<strong>en</strong><br />

moest<strong>en</strong> <strong>verschil</strong>l<strong>en</strong>de ker<strong>en</strong> inlogg<strong>en</strong> (in de computer, <strong>het</strong> Internet <strong>en</strong> <strong>het</strong> exam<strong>en</strong>) <strong>en</strong> de weg<br />

vind<strong>en</strong> naar de ju<strong>is</strong>te webpagina van <strong>het</strong> exam<strong>en</strong>.<br />

Het intyp<strong>en</strong> van de antwoord<strong>en</strong> <strong>is</strong> tijdrov<strong>en</strong>der dan <strong>het</strong> noter<strong>en</strong> <strong>op</strong> papier.<br />

Kandidat<strong>en</strong> die bij de CBT met <strong>op</strong>tionele Steps voor Steps koz<strong>en</strong>, gebruikt<strong>en</strong> meer afnametijd dan<br />

deg<strong>en</strong><strong>en</strong> die daar niet voor koz<strong>en</strong>.<br />

© Stichting Cito, Arnhem 2015 20


In de feedback-versie onderbrak<strong>en</strong> stud<strong>en</strong>t<strong>en</strong> wellicht hun werk om e<strong>en</strong> fout antwoord te<br />

check<strong>en</strong>.<br />

E<strong>en</strong> ander uitvoeringsprobleem had te mak<strong>en</strong> met de invoer van de antwoord<strong>en</strong> <strong>op</strong> <strong>het</strong> scherm (zie<br />

ook de bespreking van de resultat<strong>en</strong> met de T-versie in paragraaf 3.5). De computer rek<strong>en</strong>de soms<br />

antwoord<strong>en</strong> fout die e<strong>en</strong> m<strong>en</strong>selijke beoordelaar wel (gedeeltelijk) goed gerek<strong>en</strong>d zou hebb<strong>en</strong>. E<strong>en</strong><br />

voorbeeld <strong>is</strong> <strong>het</strong> <strong>op</strong> zich ju<strong>is</strong>te antwoord ‘tw<strong>en</strong>ty one and a third’ waarbij de kandidat<strong>en</strong> niet altijd<br />

w<strong>is</strong>t<strong>en</strong> hoe zij de sam<strong>en</strong>gestelde breuk (Engels: fractional part) moest<strong>en</strong> invoer<strong>en</strong> <strong>op</strong>dat de<br />

computer deze zou herk<strong>en</strong>n<strong>en</strong>. E<strong>en</strong> ander voorbeeld <strong>is</strong> <strong>het</strong> verget<strong>en</strong> van haakjes, bijvoorbeeld ’sin<br />

2x’ versus ‘sin(2x)’. Omwille van de vergelijkbaarheid van de CBT- <strong>en</strong> PPT-versies werd<strong>en</strong><br />

invoerfout<strong>en</strong> die bij e<strong>en</strong> PPT niet tot punt<strong>en</strong>aftrek zoud<strong>en</strong> leid<strong>en</strong> handmatig hersteld.<br />

Advanced Higher Mathematics<br />

Bij de Advanced Higher Mathematics trial war<strong>en</strong> er twee deeltoets<strong>en</strong>. Op de eerste deeltoets<br />

behaald<strong>en</strong> de kandidat<strong>en</strong> hogere scores <strong>op</strong> de S-versie (CBT met <strong>op</strong>tionele Steps) dan <strong>op</strong> de R-versie<br />

(scre<strong>en</strong>dump van de CBT zonder Steps). E<strong>en</strong> vraag-bij-vraag analyse liet zi<strong>en</strong> dat dit vooral<br />

veroorzaakt werd door één exam<strong>en</strong>vraag die veel mogelijkhed<strong>en</strong> bood tot <strong>het</strong> mak<strong>en</strong> van<br />

rek<strong>en</strong>foutjes die dan doorwerkt<strong>en</strong> in <strong>het</strong> vervolg van de vraag (Engels: follow-through errors). In de<br />

<strong>papier<strong>en</strong></strong> R-versie kreg<strong>en</strong> de kandidat<strong>en</strong> voor deze vraag veel follow-through partial credit, terwijl de<br />

kandidat<strong>en</strong> in de S-versie daarvoor vrijwel altijd nul punt<strong>en</strong> behaald<strong>en</strong>.<br />

Op de tweede deeltoets was <strong>het</strong> <strong>verschil</strong> tuss<strong>en</strong> de S- <strong>en</strong> R-versie niet significant. De analyse van de<br />

resultat<strong>en</strong> per vraag liet zi<strong>en</strong> dat deze tweede deeltoets net als de eerste deeltoets ook e<strong>en</strong> vraag<br />

bevatte met veel mogelijkhed<strong>en</strong> tot <strong>het</strong> mak<strong>en</strong> van stapelfout<strong>en</strong>. Anders dan bij de eerste deeltoets<br />

<strong>het</strong> geval was, <strong>verschil</strong>d<strong>en</strong> de gemiddeld<strong>en</strong> <strong>op</strong> de S- <strong>en</strong> R-versie van deze vraag niet van elkaar. E<strong>en</strong><br />

nadere inspectie bracht van de antwoord<strong>en</strong> <strong>op</strong> deze vraag bracht aan <strong>het</strong> licht dat e<strong>en</strong> foutje in <strong>het</strong><br />

begin van de vraag <strong>het</strong> vrijwel onmogelijk maakte om de vraag verder te beantwoord<strong>en</strong>, waardoor<br />

de kandidat<strong>en</strong> voor <strong>het</strong> vervolg van de vraag weinig partial credit kond<strong>en</strong> verdi<strong>en</strong><strong>en</strong> (zowel in de CBT<br />

met steps als de PPT). Dit in teg<strong>en</strong>stelling tot de eerste deeltoets waar kandidat<strong>en</strong> <strong>het</strong> geluk hadd<strong>en</strong><br />

de vraag verder te kunn<strong>en</strong> beantwoord<strong>en</strong>, al was dat dan wel met de verkeerde getall<strong>en</strong>.<br />

De onderzoekers onderzocht<strong>en</strong> ook <strong>het</strong> gebruik van Steps in de S-versie. De kandidat<strong>en</strong> blek<strong>en</strong> maar<br />

weinig gebruik te mak<strong>en</strong> van Steps, mogelijk omdat zij zich real<strong>is</strong>eerd<strong>en</strong> dat <strong>het</strong> gebruik ervan tot<br />

punt<strong>en</strong>aftrek zou leid<strong>en</strong>. Het war<strong>en</strong> vooral de zwakkere kandidat<strong>en</strong> die de meeste behoefte hadd<strong>en</strong><br />

aan hulp die dan voor Steps koz<strong>en</strong>.<br />

Volg<strong>en</strong>s de onderzoekers bevestigt <strong>het</strong> onderzoek de hypothese dat - met uitzondering van die <strong>en</strong>e<br />

vraag in de eerste deeltoets - beide versies tot dezelfde scores leid<strong>en</strong> <strong>en</strong> bov<strong>en</strong>di<strong>en</strong> e<strong>en</strong> beroep do<strong>en</strong><br />

<strong>op</strong> soortgelijke k<strong>en</strong>n<strong>is</strong>.<br />

Higher Mathematics<br />

In de Higher Mathematics trial bracht de vergelijking van de gemiddelde scores <strong>op</strong> de S-, T- <strong>en</strong> R-<br />

versie ge<strong>en</strong> significante <strong>verschil</strong>l<strong>en</strong> aan <strong>het</strong> licht. Bij e<strong>en</strong> <strong>en</strong>kele vraag was de gemiddelde score <strong>op</strong> de<br />

S-versie wel lager dan die <strong>op</strong> de R-versie. E<strong>en</strong> nadere analyse liet zi<strong>en</strong> dat de door Steps gebod<strong>en</strong><br />

hulp in de S-versie onvoldo<strong>en</strong>de comp<strong>en</strong>seerde voor de deelscores die de kandidaat bij de R-versie<br />

© Stichting Cito, Arnhem 2015 21


zou hebb<strong>en</strong> gekreg<strong>en</strong>. Voor e<strong>en</strong> bespreking van de onderzoeksresultat<strong>en</strong> met betrekking tot <strong>het</strong><br />

functioner<strong>en</strong> van de T-versie wordt verwez<strong>en</strong> naar paragraaf 3.5.<br />

Op bas<strong>is</strong> van de onderzoeksresultat<strong>en</strong> bracht<strong>en</strong> de onderzoekers ook e<strong>en</strong> verbetering aan in de S-<br />

versie (CBT met steps). In de trials w<strong>is</strong>t<strong>en</strong> kandidat<strong>en</strong> al wel dat zij punt<strong>en</strong> verliez<strong>en</strong> als zij voor Steps<br />

kiez<strong>en</strong>, maar nog niet hoeveel dat er zoud<strong>en</strong> zijn. In de verbeterde versie krijg<strong>en</strong> kandidat<strong>en</strong> alvor<strong>en</strong>s<br />

ev<strong>en</strong>tueel voor Steps te kiez<strong>en</strong> feedback over <strong>het</strong> maximale aantal rester<strong>en</strong>de punt<strong>en</strong> dat zij dan nog<br />

kunn<strong>en</strong> behal<strong>en</strong>. Voor gedetailleerde informatie over de verbetering<strong>en</strong> die in de CBT met steps zijn<br />

aangebracht wordt verwez<strong>en</strong> naar de Good Practice Guide in Question and Test Design (Pass-it,<br />

2002). De resultat<strong>en</strong> van <strong>het</strong> onderzoek mak<strong>en</strong>, aldus de onderzoekers, aannemelijk dat e<strong>en</strong><br />

verbeterde CBT-versie met steps de normale <strong>papier<strong>en</strong></strong> versie van <strong>het</strong> w<strong>is</strong>kunde-exam<strong>en</strong> kan<br />

vervang<strong>en</strong>. E<strong>en</strong> vervolgonderzoek onder high-stakes condities zou dit moet<strong>en</strong> bevestig<strong>en</strong>.<br />

Darrah, Fuller <strong>en</strong> Miller (2010)<br />

Darrah, Fuller <strong>en</strong> Miller (2010) ontwierp<strong>en</strong> e<strong>en</strong> CBT voor <strong>het</strong> examiner<strong>en</strong> van w<strong>is</strong>kundige<br />

vaardighed<strong>en</strong> bij e<strong>en</strong> Introductory Calculus Course. Het <strong>digitale</strong> exam<strong>en</strong> bood zoals te do<strong>en</strong><br />

gebruikelijk ge<strong>en</strong> mogelijkhed<strong>en</strong> tot <strong>het</strong> honorer<strong>en</strong> van gedeeltelijk goede antwoord<strong>en</strong>. Anders dan<br />

bijvoorbeeld Ashton et al. (2006) ded<strong>en</strong> Darrah et al. (2010) ge<strong>en</strong> poging<strong>en</strong> om de<br />

deelscoreb<strong>en</strong>adering in hun CBT in te bouw<strong>en</strong>. In plaats daarvan legd<strong>en</strong> zij de kandidat<strong>en</strong> aan <strong>het</strong><br />

einde van <strong>het</strong> semester e<strong>en</strong> bekn<strong>op</strong>te aanvull<strong>en</strong>de toets voor over de leerstof van <strong>het</strong> hele semester.<br />

Anders dan bij de CBT werd<strong>en</strong> gedeeltelijk goede antwoord<strong>en</strong> bij deze zog<strong>en</strong>oemde Super Quiz wel<br />

beloond. Het doel van deze eindtoets was de leerling<strong>en</strong> in de geleg<strong>en</strong>heid te stell<strong>en</strong> de bij de CBT<br />

gem<strong>is</strong>te deelscores alsnog te behal<strong>en</strong>. Aan <strong>het</strong> begin van <strong>het</strong> CBT-exam<strong>en</strong> werd de kandidat<strong>en</strong><br />

verteld dat zij al hun uitwerking<strong>en</strong> <strong>en</strong> dergelijke <strong>op</strong> kladpapier moest<strong>en</strong> noter<strong>en</strong> (<strong>en</strong> inlever<strong>en</strong><br />

voordat zij de exam<strong>en</strong>zaal verliet<strong>en</strong>). Op deze manier kon hun werk word<strong>en</strong> beoordeeld als ware <strong>het</strong><br />

e<strong>en</strong> PPT waarbij de antwoord<strong>en</strong> met de hand werd<strong>en</strong> nagekek<strong>en</strong> volg<strong>en</strong>s de partial credit methode.<br />

De veronderstelling was dat de <strong>op</strong> de Super Quiz behaalde extra punt<strong>en</strong> vergelijkbaar zoud<strong>en</strong> zijn<br />

met de extra punt<strong>en</strong> die de beoordeling van <strong>het</strong> kladwerk volg<strong>en</strong>s de partial credit methode zou<br />

<strong>op</strong>lever<strong>en</strong>.<br />

De onderzoekers vergelek<strong>en</strong> de geautomat<strong>is</strong>eerde alles-of-niets scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord<br />

<strong>op</strong> de CBT met de partial credit beoordeling van de uitwerking<strong>en</strong> <strong>op</strong> kladpapier. Zoals verwacht,<br />

bleek de partial credit beoordeling tot aanmerkelijk hogere scores te leid<strong>en</strong> dan de dichotome CBTscoring.<br />

Het <strong>verschil</strong> tuss<strong>en</strong> de gemiddeld<strong>en</strong> voor de vier deeltoets<strong>en</strong> varieerde van 3.21 tot 6.10<br />

scorepunt<strong>en</strong> (bij e<strong>en</strong> gemiddelde toetsscore variër<strong>en</strong>d van 67.76 tot 80.35 <strong>en</strong> e<strong>en</strong> standaarddeviatie<br />

van de partial credit beoordeling van 9.78; de standaarddeviatie van de CBT vermeld<strong>en</strong> de<br />

onderzoekers helaas niet).<br />

Daarnaast vergelek<strong>en</strong> de onderzoekers de scores <strong>op</strong> de Super Quiz met de partial credit beoordeling<br />

van de uitwerking<strong>en</strong> <strong>op</strong> kladpapier. Zij vond<strong>en</strong> e<strong>en</strong> significant <strong>verschil</strong> in <strong>het</strong> voordeel van de Super<br />

Quiz. Zij concludeerd<strong>en</strong> daaruit dat deze eindtoets te sterk comp<strong>en</strong>seert voor de gem<strong>is</strong>te deelscores<br />

<strong>op</strong> de dichotoom gescoorde CBT.<br />

Verder vroeg<strong>en</strong> de onderzoekers zich af in hoeverre vaardige kandidat<strong>en</strong> ev<strong>en</strong>veel profiter<strong>en</strong> van de<br />

Super Quiz <strong>en</strong> de partial credit beoordeling als de minder vaardige kandidat<strong>en</strong>. Daartoe verdeeld<strong>en</strong><br />

zij de kandidat<strong>en</strong> in twee groep<strong>en</strong>: de 20% beste <strong>en</strong> de 80% zwakste stud<strong>en</strong>t<strong>en</strong>. De groep beste<br />

© Stichting Cito, Arnhem 2015 22


kandidat<strong>en</strong> bleek bij de Super Quiz veel meer van de mogelijkheid tot <strong>het</strong> behal<strong>en</strong> van bonuspunt<strong>en</strong><br />

te profiter<strong>en</strong> dan bij de partial credit beoordeling <strong>het</strong> geval was. De onderzoekers verklar<strong>en</strong> dit door<br />

te ernaar te verwijz<strong>en</strong> dat de partial credit beoordeling voor h<strong>en</strong> relatief weinig bonuspunt<strong>en</strong> kon<br />

<strong>op</strong>lever<strong>en</strong> vanwege hun reeds relatief hoge scores <strong>op</strong> de CBT. De 20% beste stud<strong>en</strong>t<strong>en</strong> verzilverd<strong>en</strong><br />

tuss<strong>en</strong> de 0% <strong>en</strong> 50% van de extra punt<strong>en</strong> die de partial credit beoordeling maximaal kon <strong>op</strong>lever<strong>en</strong>.<br />

Omdat zij in de CBT meer vrag<strong>en</strong> gem<strong>is</strong>t hadd<strong>en</strong>, kond<strong>en</strong> de 80% zwakste kandidat<strong>en</strong> meer punt<strong>en</strong><br />

‘terugverdi<strong>en</strong><strong>en</strong>’ dan de 20% beste kandidat<strong>en</strong>. Zij blek<strong>en</strong> dat echter niet te do<strong>en</strong>, noch bij de Super<br />

Quiz, noch bij de partial credit beoordeling van hun uitwerking<strong>en</strong> <strong>op</strong> kladpapier. De onderzoekers<br />

concluder<strong>en</strong> hieruit dat de betere kandidat<strong>en</strong> meer profiter<strong>en</strong> van de partial credit beoordeling dan<br />

de zwakkere kandidat<strong>en</strong>, maar dat de rangord<strong>en</strong>ing van de kandidat<strong>en</strong> in de meeste gevall<strong>en</strong> gelijk<br />

was geblev<strong>en</strong>. Dit laatste bleek ook uit e<strong>en</strong> vergelijking van de frequ<strong>en</strong>tieverdeling<strong>en</strong> van de cijfers<br />

<strong>op</strong> bas<strong>is</strong> van de CBT <strong>en</strong> de partial credit beoordeling.<br />

In <strong>het</strong> onderzoek <strong>is</strong> de stud<strong>en</strong>t<strong>en</strong> na aflo<strong>op</strong> van <strong>het</strong> onderzoek gevraagd naar hun voorkeur voor<br />

<strong>papier<strong>en</strong></strong> <strong>en</strong> <strong>digitale</strong> examinering. Op de vraag ‘Als je zou kunn<strong>en</strong> kiez<strong>en</strong>, zou je dan de voorkeur<br />

gev<strong>en</strong> aan e<strong>en</strong> <strong>papier<strong>en</strong></strong> exam<strong>en</strong> bov<strong>en</strong> e<strong>en</strong> gecomputer<strong>is</strong>eerd exam<strong>en</strong>’ antwoordde 48% van de<br />

stud<strong>en</strong>t<strong>en</strong> met Ja, 25% met Nee <strong>en</strong> 27% had ge<strong>en</strong> voorkeur. Van de stud<strong>en</strong>t<strong>en</strong> die de <strong>op</strong><strong>en</strong> vraag<br />

Please make other comm<strong>en</strong>ts about computerized exams beantwoordd<strong>en</strong>, noemde de helft <strong>het</strong><br />

nadeel dat <strong>het</strong> <strong>digitale</strong> exam<strong>en</strong> ge<strong>en</strong> partial credit toeliet.<br />

3.3 Mogelijkhed<strong>en</strong> van item review<br />

Inleiding<br />

Volg<strong>en</strong>s de bek<strong>en</strong>de APA-richtlijn<strong>en</strong> (1986) di<strong>en</strong><strong>en</strong> kandidat<strong>en</strong> de geleg<strong>en</strong>heid te krijg<strong>en</strong> om hun<br />

antwoord<strong>en</strong> te herzi<strong>en</strong>. W<strong>is</strong>e <strong>en</strong> Plake (1989) verstaan onder item review a) <strong>het</strong> overslaan van vrag<strong>en</strong><br />

om deze later te beantwoord<strong>en</strong>, b) <strong>het</strong> bekijk<strong>en</strong> van eerder gegev<strong>en</strong> antwoord<strong>en</strong> <strong>en</strong> c) <strong>het</strong><br />

verander<strong>en</strong> van eerder gegev<strong>en</strong> antwoord<strong>en</strong>. Verondersteld wordt dat item review e<strong>en</strong> positieve<br />

bijdrage levert aan de validiteit van de meting (V<strong>is</strong>poel, 2000; Schwarz, McMorr<strong>is</strong> & DeMers, 1991).<br />

De kandidaat kan immers fout<strong>en</strong> corriger<strong>en</strong> die <strong>het</strong> gevolg zijn van a) schrijf-, notatie-, type- <strong>en</strong><br />

invoerfout<strong>en</strong>, b) <strong>het</strong> in eerste instantie verkeerd interpreter<strong>en</strong> van exam<strong>en</strong>vrag<strong>en</strong>, c) tijdelijke<br />

fluctuaties in <strong>het</strong> conc<strong>en</strong>tratievermog<strong>en</strong>, <strong>en</strong> c) <strong>het</strong> <strong>op</strong>nieuw overd<strong>en</strong>k<strong>en</strong> van eerder gegev<strong>en</strong><br />

antwoord<strong>en</strong>. Daarnaast kan <strong>het</strong> toestaan van item review toetsangst verminder<strong>en</strong>, met name bij laag<br />

vaardige leerling<strong>en</strong>. Anders dan PPT biedt de eerste-g<strong>en</strong>eratie CBT ge<strong>en</strong> mogelijkhed<strong>en</strong> tot item<br />

review. Hierna besprek<strong>en</strong> we <strong>het</strong> gevond<strong>en</strong> onderzoek naar item review <strong>en</strong> <strong>het</strong> effect ervan <strong>op</strong> de<br />

prestaties. Hierbij merk<strong>en</strong> we <strong>op</strong> dat de rek<strong>en</strong>toets<strong>en</strong> anno 2015 ruime mogelijkhed<strong>en</strong> bied<strong>en</strong> tot<br />

item review.<br />

Resultat<strong>en</strong>: reviews <strong>en</strong> meta-analyses<br />

Mueller <strong>en</strong> Wasser (1977)<br />

Mueller <strong>en</strong> Wasser (1977) analyseerd<strong>en</strong> de resultat<strong>en</strong> van achtti<strong>en</strong> studies naar <strong>het</strong> effect van item<br />

review <strong>op</strong> de prestaties van <strong>papier<strong>en</strong></strong> meerkeuzetoets<strong>en</strong>. Zij rapporter<strong>en</strong> winst-verlies ratio’s tuss<strong>en</strong><br />

de 2.3 : 1 <strong>en</strong> 5.3 : 1. Dit betek<strong>en</strong>t dat verandering<strong>en</strong> van e<strong>en</strong> fout naar e<strong>en</strong> goed antwoord twee à vijf<br />

keer zo vaak voorkom<strong>en</strong> dan verandering<strong>en</strong> van e<strong>en</strong> goed naar e<strong>en</strong> fout antwoord. De conclusie was<br />

© Stichting Cito, Arnhem 2015 23


dat item review e<strong>en</strong> positieve bijdrage aan de prestaties levert <strong>en</strong> dat de meer vaardige leerling<strong>en</strong><br />

daar meer van profiteerd<strong>en</strong> dan de minder vaardige leerling<strong>en</strong>.<br />

B<strong>en</strong>jamin, Cavell <strong>en</strong> Shall<strong>en</strong>berger (1984)<br />

B<strong>en</strong>jamin, Cavell and Shall<strong>en</strong>berger (1984) analyseerd<strong>en</strong> 33 studies naar item review bij <strong>papier<strong>en</strong></strong><br />

toets<strong>en</strong>. Hun conclusie luidde als volgt: “…after more than a half c<strong>en</strong>tury of research on th<strong>is</strong> t<strong>op</strong>ic"<br />

the evid<strong>en</strong>ce uniformly indicates that a) only a small perc<strong>en</strong>tage of answers are actually changed, b)<br />

the majority of answers are changed from wrong to right, c) most test takers are answer changers,<br />

and d) most answer changers are point gainers” (p. 133).<br />

Resultat<strong>en</strong>: individuele studies<br />

Lee <strong>en</strong> H<strong>op</strong>kins (1985)<br />

Lee <strong>en</strong> H<strong>op</strong>kins (1985) vergelek<strong>en</strong> e<strong>en</strong> PPT- <strong>en</strong> CBT-versie van e<strong>en</strong> red<strong>en</strong>eertoets w<strong>is</strong>kunde. De CBT<br />

bood ge<strong>en</strong> mogelijkhed<strong>en</strong> tot item review. De stud<strong>en</strong>t<strong>en</strong> behaald<strong>en</strong> hogere scores <strong>op</strong> de PPT dan de<br />

CBT. De onderzoekers concludeerd<strong>en</strong> dat item review van invloed <strong>is</strong> <strong>op</strong> de prestaties <strong>en</strong> betoogd<strong>en</strong><br />

dat “only software that allows the conv<strong>en</strong>i<strong>en</strong>ces of paper-and-p<strong>en</strong>cil tests, e.g., the ability to change<br />

answers and the ability to review past items, be used in future applications” (p. 9).<br />

Terzijde zij <strong>op</strong>gemerkt dat Russell, Goldberg <strong>en</strong> O’Connor (2003) melding mak<strong>en</strong> van twee andere<br />

vroege studies - naast die van Lee <strong>en</strong> H<strong>op</strong>kins uit 1985 - naar w<strong>is</strong>kundig red<strong>en</strong>er<strong>en</strong>. De resultat<strong>en</strong><br />

ervan war<strong>en</strong> w<strong>is</strong>sel<strong>en</strong>d: afname per computer bleek zowel van positieve invloed (Johnson & Mihal,<br />

1973) als van negatieve invloed (Lee, Mor<strong>en</strong>o & Sympson, 1986) <strong>op</strong> de w<strong>is</strong>kundeprestaties. Zoals we<br />

hierna zull<strong>en</strong> zi<strong>en</strong>, zijn de resultat<strong>en</strong> van Lee <strong>en</strong> H<strong>op</strong>kins (1985) in diverse studies bevestigt (V<strong>is</strong>poel,<br />

1998; W<strong>is</strong>e & Plake, 1989; 2000; V<strong>is</strong>poel, Wang, de la Torre, Bleiler & Dings, 1992).<br />

V<strong>is</strong>poel (1988, 2000) <strong>en</strong> V<strong>is</strong>poel, Wang, De la Torre, Bleiler <strong>en</strong> Dings (1992)<br />

V<strong>is</strong>poel (1988, 2000) <strong>en</strong> V<strong>is</strong>poel, Wang, De la Torre, Bleiler <strong>en</strong> Dings (1992) bestudeerd<strong>en</strong> de<br />

antwoord<strong>en</strong> van kandidat<strong>en</strong> <strong>op</strong> e<strong>en</strong> CBT-woord<strong>en</strong>schattoets voorafgaand <strong>en</strong> nadat zij de<br />

mogelijkheid tot item review hadd<strong>en</strong> gekreg<strong>en</strong>. De resultat<strong>en</strong> lat<strong>en</strong> zi<strong>en</strong> dat veel kandidat<strong>en</strong> hun<br />

antwoord<strong>en</strong> herzi<strong>en</strong>; zij do<strong>en</strong> dat echter slechts bij e<strong>en</strong> klein deel van de items. V<strong>is</strong>poel (1998) vond<br />

dat 67% van de kandidat<strong>en</strong> e<strong>en</strong> of meer antwoord<strong>en</strong> hadd<strong>en</strong> gewijzigd. In <strong>het</strong> onderzoek van<br />

V<strong>is</strong>pool (2000) maakte bijna de helft van de kandidat<strong>en</strong> (45%) gebruik van de mogelijkheid tot item<br />

review, maar minder dan 4% bracht daadwerkelijk één of meer verandering<strong>en</strong> aan.<br />

Item review in e<strong>en</strong> woord<strong>en</strong>schattoets heeft e<strong>en</strong> positief effect <strong>op</strong> de prestaties. V<strong>is</strong>poel (2000) vond<br />

bijvoorbeeld dat de kandidat<strong>en</strong> <strong>het</strong> antwoord ruim twee keer vaker van fout naar goed corrigeerd<strong>en</strong><br />

dan van goed naar fout (2.25 : 1). Wel had item review tot gevolg dat de afnametijd aanzi<strong>en</strong>lijk<br />

to<strong>en</strong>am, al ging dit minder <strong>op</strong> voor hoog dan voor laag vaardige leerling<strong>en</strong>. Naarmate kandidat<strong>en</strong><br />

vaardiger war<strong>en</strong>, nam <strong>het</strong> aantal veranderde antwoord<strong>en</strong> af e<strong>en</strong> steeg de fout-naar-goed ratio (4 : 1).<br />

Tot slot blek<strong>en</strong> de kandidat<strong>en</strong> de mogelijkheid tot item review zeer <strong>op</strong> prijs te stell<strong>en</strong>. Ook<br />

V<strong>is</strong>poel et al. (1992) concludeerd<strong>en</strong> dat <strong>het</strong> kunn<strong>en</strong> terugzi<strong>en</strong> <strong>en</strong> verander<strong>en</strong> van de antwoord<strong>en</strong> <strong>op</strong><br />

e<strong>en</strong> woord<strong>en</strong>schattoets e<strong>en</strong> positief effect had <strong>op</strong> de prestaties. Daarnaast zorgde item review voor<br />

e<strong>en</strong> kleine afname van de meetnauwkeurigheid <strong>en</strong> e<strong>en</strong> to<strong>en</strong>ame van de totale afnametijd. En<br />

wederom hadd<strong>en</strong> de kandidat<strong>en</strong> e<strong>en</strong> sterke voorkeur voor item review.<br />

© Stichting Cito, Arnhem 2015 24


W<strong>is</strong>e <strong>en</strong> Plake (1989)<br />

W<strong>is</strong>e <strong>en</strong> Plake (1989) ging<strong>en</strong> na in hoeverre <strong>het</strong> ontbrek<strong>en</strong> van de mogelijkhed<strong>en</strong> tot item review in<br />

de eerste-g<strong>en</strong>eratie CBT de prestaties nadelig beïnvloedt. Als mogelijke oorzak<strong>en</strong> voor <strong>het</strong><br />

onderstelde negatieve effect <strong>op</strong> de prestaties noem<strong>en</strong> zij: a) <strong>het</strong> niet kunn<strong>en</strong> overslaan van vrag<strong>en</strong><br />

om deze later te beantwoord<strong>en</strong>, b) <strong>het</strong> niet kunn<strong>en</strong> bekijk<strong>en</strong> van eerder gegev<strong>en</strong> antwoord<strong>en</strong> <strong>en</strong> c)<br />

<strong>het</strong> niet kunn<strong>en</strong> verander<strong>en</strong> van eerder gegev<strong>en</strong> antwoord<strong>en</strong>. Zij verwachtt<strong>en</strong> dat meer flexibiliteit<br />

zou leid<strong>en</strong> tot hogere prestaties, maar ook tot e<strong>en</strong> to<strong>en</strong>ame van de toetstijd. Het <strong>en</strong>ige onderzoek<br />

dat W<strong>is</strong>e <strong>en</strong> Plake <strong>op</strong> dit terrein kond<strong>en</strong> vind<strong>en</strong>, was <strong>het</strong> niet gepubliceerde promotie-onderzoek van<br />

Harvey (1989). Zij ontwikkelde e<strong>en</strong> CBT waarin de drie hiervoor g<strong>en</strong>oemde k<strong>en</strong>merk<strong>en</strong><br />

geïmplem<strong>en</strong>teerd war<strong>en</strong> <strong>en</strong> vergeleek deze versie met e<strong>en</strong> CBT zonder deze k<strong>en</strong>merk<strong>en</strong>. Er werd<strong>en</strong><br />

ge<strong>en</strong> significante <strong>verschil</strong>l<strong>en</strong> in de prestaties <strong>op</strong> beide versie gevond<strong>en</strong>. De resultat<strong>en</strong> moet<strong>en</strong> echter<br />

met de nodige voorzichtigheid geïnterpreteerd word<strong>en</strong> omdat de motivatie van de stud<strong>en</strong>t<strong>en</strong> te<br />

w<strong>en</strong>s<strong>en</strong> overliet.<br />

Schwartz, McMorr<strong>is</strong> <strong>en</strong> DeMers (1991)<br />

Schwartz, McMorr<strong>is</strong> and DeMers (1991) bestudeerd<strong>en</strong> de red<strong>en</strong><strong>en</strong> van kandidat<strong>en</strong> om antwoord<strong>en</strong><br />

<strong>op</strong> toetsvrag<strong>en</strong> te verander<strong>en</strong>. De meerderheid van de leerling<strong>en</strong> bleek dat te do<strong>en</strong> om <strong>wat</strong> de<br />

onderzoekers legitieme red<strong>en</strong><strong>en</strong> noem<strong>en</strong>. Bijna de helft (45%) van de leerling<strong>en</strong> zegt antwoord<strong>en</strong> te<br />

verander<strong>en</strong> omdat zij de vraagstelling na herlez<strong>en</strong> beter begrep<strong>en</strong>, bijna e<strong>en</strong> derde (31%) omdat zij<br />

de vraag daardoor beter kond<strong>en</strong> overd<strong>en</strong>k<strong>en</strong> <strong>en</strong> herconceptual<strong>is</strong>er<strong>en</strong> <strong>en</strong> e<strong>en</strong> vijfde (20%) omdat zij<br />

zich daardoor meer informatie kond<strong>en</strong> herinner<strong>en</strong>. Verder blek<strong>en</strong> de middelmatige <strong>en</strong> betere<br />

leerling<strong>en</strong> meer te profiter<strong>en</strong> van item review dan de zwakkere leerling<strong>en</strong>. Volg<strong>en</strong>s de auteurs <strong>is</strong> <strong>het</strong><br />

niet meer dan billijk dat leerling<strong>en</strong> de kans krijg<strong>en</strong> hun werkelijke k<strong>en</strong>n<strong>is</strong> te demonstrer<strong>en</strong> door hun<br />

werk te controler<strong>en</strong> <strong>op</strong> invoerfout<strong>en</strong> <strong>en</strong> ontdekte fout<strong>en</strong> te verbeter<strong>en</strong>.<br />

Lunz, Bergstrom <strong>en</strong> Wright (1992)<br />

Lunz, Bergstrom <strong>en</strong> Wright (1992) ontwikkeld<strong>en</strong> e<strong>en</strong> CAT-exam<strong>en</strong> med<strong>is</strong>che technologie. Volg<strong>en</strong>s e<strong>en</strong><br />

experim<strong>en</strong>teel onderzoeksontwerp wez<strong>en</strong> zij kandidat<strong>en</strong> random toe aan vier condities die van<br />

elkaar <strong>verschil</strong>d<strong>en</strong> in de mogelijkhed<strong>en</strong> van item review:<br />

<br />

<br />

<br />

<br />

Skip. In de zog<strong>en</strong>oemde skip condition kon de kandidaat bij elk toegewez<strong>en</strong> item ervoor kiez<strong>en</strong><br />

de vraag al dan niet te beantwoord<strong>en</strong>. Verkoos de kandidaat e<strong>en</strong> item niet te beantwoord<strong>en</strong>, dan<br />

kreeg hij of zij e<strong>en</strong> andere item van vergelijkbare moeilijkheidsgraad over <strong>het</strong>zelfde inhoudelijk<br />

gebied toegewez<strong>en</strong>. E<strong>en</strong>maal overgeslag<strong>en</strong> items mocht<strong>en</strong> niet alsnog geprobeerd word<strong>en</strong>. Deze<br />

conditie bood de kandidaat maximale controle over <strong>het</strong> exam<strong>en</strong>.<br />

Review. In de zog<strong>en</strong>oemde review condition maakte de kandidaat alle items, maar na <strong>het</strong> laatste<br />

item mocht<strong>en</strong> zij hun antwoord<strong>en</strong> bekijk<strong>en</strong> <strong>en</strong> zo nodig herzi<strong>en</strong>. De onderzoekers merk<strong>en</strong> <strong>op</strong> dat<br />

kandidat<strong>en</strong> m<strong>en</strong><strong>en</strong> recht te hebb<strong>en</strong> <strong>op</strong> item review, <strong>en</strong> daar vaak in getraind zijn.<br />

Defer. Ook in de zog<strong>en</strong>oemde defer condition moest de kandidaat alle toegewez<strong>en</strong> items<br />

beantwoord<strong>en</strong>, maar zij kond<strong>en</strong> <strong>het</strong> beantwoord<strong>en</strong> van e<strong>en</strong> item uitstell<strong>en</strong> tot aan <strong>het</strong> einde van<br />

<strong>het</strong> exam<strong>en</strong>. Was <strong>het</strong> laatste item gemaakt, kreeg de kandidaat de uitgestelde items alsnog<br />

aangebod<strong>en</strong>. De reeds beantwoorde items kreeg de kandidaat niet nogmaals te zi<strong>en</strong>. De<br />

kandidaat kon dus zelf bepal<strong>en</strong> wanneer hij of zij <strong>het</strong> item wilde beantwoord<strong>en</strong>, maar<br />

beantwoordde wel alle items.<br />

Non. In de zog<strong>en</strong>oemde non condition had de kandidaat ge<strong>en</strong> <strong>en</strong>kele controle over <strong>het</strong> exam<strong>en</strong>.<br />

Elk item werd beantwoord <strong>op</strong> <strong>het</strong> mom<strong>en</strong>t van toewijzing, <strong>en</strong> de kandidaat mocht ge<strong>en</strong> items<br />

© Stichting Cito, Arnhem 2015 25


overslaan, uitstell<strong>en</strong> of terugker<strong>en</strong> naar eerder aangebod<strong>en</strong> items. Deze vierde conditie biedt<br />

<strong>op</strong>timale psychometr<strong>is</strong>che controle over <strong>het</strong> exam<strong>en</strong>.<br />

Hoe minder de kandidaat invloed <strong>op</strong> <strong>het</strong> exam<strong>en</strong> kon uitoef<strong>en</strong><strong>en</strong>, hoe lager de prestaties. De<br />

<strong>verschil</strong>l<strong>en</strong> in gemiddelde prestaties tuss<strong>en</strong> de vier condities war<strong>en</strong> echter slechts in één geval<br />

significant (te wet<strong>en</strong>: de vergelijking van de skip- versus de non-condition).<br />

In de skip-conditie maakte bijna twee derde (64%) van de kandidat<strong>en</strong> gebruik van de mogelijkheid<br />

om items over te slaan. Daarbij werd 9% van de items daadwerkelijk overgeslag<strong>en</strong> (d.w.z. geweigerd<br />

waarna de kandidaat e<strong>en</strong> vervang<strong>en</strong>d item kreeg aangebod<strong>en</strong>). Kandidat<strong>en</strong> in de skip-conditie<br />

presteerd<strong>en</strong> significant hoger dan deg<strong>en</strong><strong>en</strong> die ge<strong>en</strong> controle hadd<strong>en</strong> over hun adaptieve toets. Ter<br />

verklaring verwijz<strong>en</strong> de onderzoekers naar <strong>het</strong> gevoel van veiligheid <strong>en</strong> <strong>het</strong> vertrouw<strong>en</strong> dat<br />

kandidat<strong>en</strong> ervar<strong>en</strong> als ze wet<strong>en</strong> dat ze hun antwoord<strong>en</strong> mog<strong>en</strong> herzi<strong>en</strong> <strong>en</strong> slordigheidsfoutjes<br />

kunn<strong>en</strong> herstell<strong>en</strong> (zie ook Bergstrom & Lunz, 1992).<br />

In de review-conditie maakte 61% van de kandidat<strong>en</strong> gebruik van de mogelijkheid om antwoord<strong>en</strong> te<br />

herzi<strong>en</strong> <strong>en</strong> zo nodig te verander<strong>en</strong>. Daarbij werd 2% van de antwoord<strong>en</strong> daadwerkelijk veranderd.<br />

Item review leidde tot e<strong>en</strong> kleine verbetering van de prestaties, alhoewel <strong>het</strong> <strong>verschil</strong> niet significant<br />

was. De meeste kandidat<strong>en</strong> die antwoord<strong>en</strong> veranderd<strong>en</strong>, ded<strong>en</strong> dat bij tuss<strong>en</strong> de één <strong>en</strong> vier items.<br />

De conclusie was dat review van minimale invloed <strong>op</strong> de prestaties <strong>is</strong>.<br />

In de defer-conditie maakte bijna de helft (45%) van de kandidat<strong>en</strong> gebruik van deze mogelijkheid.<br />

Daarbij werd bij 2.5% van de items de beantwoording uitgesteld tot aan <strong>het</strong> einde van <strong>het</strong> exam<strong>en</strong>.<br />

Kandidat<strong>en</strong> blek<strong>en</strong> vooral moeilijke items uit te stell<strong>en</strong>. Ge<strong>en</strong> van de toetsing<strong>en</strong> van de <strong>verschil</strong>l<strong>en</strong><br />

met de prestaties in de drie andere condities gaf significantie te zi<strong>en</strong>.<br />

Binn<strong>en</strong> elk van de condities war<strong>en</strong> er kandidat<strong>en</strong> die ge<strong>en</strong> gebruik maakt<strong>en</strong> van de mogelijkheid tot<br />

overslaan, uitstell<strong>en</strong> of herzi<strong>en</strong>. Tuss<strong>en</strong> de groep die dat wel <strong>en</strong> niet deed, war<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong>l<strong>en</strong> in<br />

gemiddelde prestatie aantoonbaar <strong>en</strong> dat gold binn<strong>en</strong> elk van de drie condities.<br />

Tot sluit wijz<strong>en</strong> we er<strong>op</strong> dat de resultat<strong>en</strong> van deze studie verkreg<strong>en</strong> zijn met e<strong>en</strong> CAT. In e<strong>en</strong> CAT <strong>is</strong><br />

item review om <strong>verschil</strong>l<strong>en</strong>de red<strong>en</strong><strong>en</strong> veel problemat<strong>is</strong>cher dan in e<strong>en</strong> lineaire CBT. De resultat<strong>en</strong><br />

van Lunz et al. (1992) zijn dan ook beperkt g<strong>en</strong>eral<strong>is</strong>eerbaar naar lineaire CBT.<br />

Olea, Revuelta, Ximénez <strong>en</strong> Abad (2000)<br />

Olea, Revuelta, Ximénez <strong>en</strong> Abad (2000) vergelek<strong>en</strong> twee <strong>digitale</strong> versies (met <strong>en</strong> zonder item<br />

review) van e<strong>en</strong> lineaire <strong>en</strong> e<strong>en</strong> adaptieve Engelse woord<strong>en</strong>schattoets bij e<strong>en</strong> steekproef van<br />

Spaanstalige eerste jaarstud<strong>en</strong>t<strong>en</strong> psychologie. Van alle stud<strong>en</strong>t<strong>en</strong> veranderde 82% één of meer<br />

antwoord<strong>en</strong> waarbij 14% van de antwoord<strong>en</strong> gewijzigd werd. Het toestaan van item review<br />

resulteerde in e<strong>en</strong> hoger perc<strong>en</strong>tage goede antwoord<strong>en</strong> <strong>en</strong> e<strong>en</strong> hogere vaardigheid van de<br />

leerling<strong>en</strong>, maar ook in e<strong>en</strong> aanzi<strong>en</strong>lijke to<strong>en</strong>ame van de afnametijd. De correlatie tuss<strong>en</strong> de scores<br />

zonder <strong>en</strong> met item review bedroeg .94 voor de lineaire CBT <strong>en</strong> .95 voor de adaptieve CBT (CAT).<br />

© Stichting Cito, Arnhem 2015 26


Mason, Patry <strong>en</strong> Bernstein (2001)<br />

Mason, Patry <strong>en</strong> Bernstein (2001) vergelek<strong>en</strong> de scores <strong>op</strong> PPT <strong>en</strong> CBT met e<strong>en</strong> vergelijkbare<br />

flexibiliteit. Dit wil zegg<strong>en</strong>: met vergelijkbare mogelijkhed<strong>en</strong> om terug te ker<strong>en</strong> naar eerder gemaakte<br />

vrag<strong>en</strong>, vrag<strong>en</strong> over te slaan, antwoord<strong>en</strong> <strong>op</strong>nieuw te bekijk<strong>en</strong> <strong>en</strong> zo nodig te verander<strong>en</strong> <strong>en</strong><br />

dergelijke. Aan <strong>het</strong> onderzoek nam<strong>en</strong> 27 psychologiestud<strong>en</strong>t<strong>en</strong> deel. Voor de prestaties bleek <strong>het</strong><br />

niet uit te mak<strong>en</strong> of de stud<strong>en</strong>t<strong>en</strong> de PPT of de CBT maakt<strong>en</strong>. De onderzoekers schrijv<strong>en</strong> dit toe aan<br />

<strong>het</strong> gegev<strong>en</strong> dat hun CBT de flexibiliteit van e<strong>en</strong> PPT nauwkeurig nabootste (<strong>en</strong> de motivatie van de<br />

stud<strong>en</strong>t<strong>en</strong> in beide condities ev<strong>en</strong> hoog was). De kandidat<strong>en</strong> kond<strong>en</strong> <strong>op</strong> effectieve wijze door de CBT<br />

naviger<strong>en</strong> <strong>en</strong> behaald<strong>en</strong> daardoor met PPT equival<strong>en</strong>te scores.<br />

Russell, Goldberg <strong>en</strong> O’Connor (2003)<br />

Op bas<strong>is</strong> van e<strong>en</strong> review concluder<strong>en</strong> Russell et al. (2003) dat ”admin<strong>is</strong>tration factors, such as<br />

transfer of problems from the scre<strong>en</strong> to scratchwork space, lack of scratchwork space, and inability to<br />

review and/or skip individual test items, were found to affect [computer-based] test performance<br />

significantly” (p. 282). Verder concluder<strong>en</strong> zij dat “research on some mathematics tests indicates that<br />

validity <strong>is</strong> threat<strong>en</strong>ed wh<strong>en</strong> stud<strong>en</strong>ts experi<strong>en</strong>ce difficulty accessing scratch paper in which they<br />

perform calculations” (p. 288). Voor e<strong>en</strong> bespreking van de uitkomst<strong>en</strong> van de door h<strong>en</strong> aangehaalde<br />

studies wordt de geïnteresseerde lezer verwez<strong>en</strong> naar paragraaf 3.4 <strong>en</strong> 3.5 van dit rapport.<br />

Revuelta, Ximénez <strong>en</strong> Olea (2003)<br />

Revuelta, Ximénez <strong>en</strong> Olea (2003) nam<strong>en</strong> drie versies van e<strong>en</strong> <strong>digitale</strong> test Engels voor Spaanstalige<br />

eerste-jaarstud<strong>en</strong>t<strong>en</strong> psychologie. De drie versies war<strong>en</strong> lineaire CBT, adaptieve CAT <strong>en</strong> e<strong>en</strong> CATversie<br />

(ECAT) met toewijzing van iets gemakkelijkere items dan bij de ‘gewone’ CAT. De vier condities<br />

war<strong>en</strong>: ge<strong>en</strong> item review, review alle<strong>en</strong> aan <strong>het</strong> einde van de toets, review per blok van vijf items <strong>en</strong><br />

review voor elk item.<br />

Item review resulteerde bij alle drie versies in hogere prestaties, maar ook in e<strong>en</strong> aanzi<strong>en</strong>lijke<br />

verl<strong>en</strong>ging van de toetstijd (gemiddeld over alle versies <strong>en</strong> condities met 21%). Van alle leerling<strong>en</strong><br />

maakte 90% gebruik van de mogelijkhed<strong>en</strong> tot item review, waarvan 65% van item review<br />

profiteerd<strong>en</strong>.<br />

De onderzoekers rapporter<strong>en</strong> ook de uitkomst<strong>en</strong> afzonderlijk voor de lineaire CBT-versie (die <strong>het</strong><br />

meest vergelijkbaar <strong>is</strong> met de rek<strong>en</strong>toets). Van de leerling<strong>en</strong> maakte 87% gebruik van item review.<br />

Van alle antwoord<strong>en</strong> werd 16% gewijzigd. Van de gewijzigde antwoord<strong>en</strong> werd 59% gewijzigd van<br />

fout naar fout, 32% van fout naar goed <strong>en</strong> 9% van goed naar fout. Van alle leerling<strong>en</strong> in de CBTconditie<br />

profiteerde 64% van item review.<br />

Paek (2005)<br />

Paek (2005) reviewde e<strong>en</strong> aantal K12-studies met meerkeuzetoets<strong>en</strong> die vóór <strong>en</strong> na 1993 war<strong>en</strong><br />

uitgevoerd. Zij concludeert dat de scores <strong>op</strong> rec<strong>en</strong>tere PPT <strong>en</strong> CBT vergelijkbaar zijn over leerjar<strong>en</strong> <strong>en</strong><br />

vakgebied<strong>en</strong>. Zij geeft hiervoor twee mogelijke verklaring<strong>en</strong>. E<strong>en</strong> eerste verklaring <strong>is</strong> dat kandidat<strong>en</strong><br />

teg<strong>en</strong>woordig vaardiger zijn in <strong>het</strong> gebruik van de computer dan voorhe<strong>en</strong>. Als tweede verklaring<br />

noemt zij <strong>het</strong> gegev<strong>en</strong> dat moderne toets-system<strong>en</strong> vergelijkbare mogelijkhed<strong>en</strong> bied<strong>en</strong> om vooruit<br />

<strong>en</strong> achteruit te blader<strong>en</strong>, items over te slaan <strong>en</strong> itemantwoord<strong>en</strong> te bekijk<strong>en</strong> <strong>en</strong> te verander<strong>en</strong> als<br />

traditionele <strong>papier<strong>en</strong></strong> toets<strong>en</strong>. De nieuwe navigatietools mak<strong>en</strong> <strong>het</strong> mogelijk dezelfde test-takingstrategies<br />

toe te pass<strong>en</strong> als bij <strong>papier<strong>en</strong></strong> toets<strong>en</strong>, met als resultaat meer equival<strong>en</strong>te scores. E<strong>en</strong><br />

uitzondering vorm<strong>en</strong> meerkeuze-items met lange leestekst<strong>en</strong> waar kandidat<strong>en</strong> moet<strong>en</strong> scroll<strong>en</strong>: die<br />

© Stichting Cito, Arnhem 2015 27


zijn digitaal nog steeds moeilijker dan <strong>op</strong> papier. Bij rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde zijn lange tekst<strong>en</strong> echter e<strong>en</strong><br />

zeldzaamheid, al komt <strong>het</strong> wel voor dat informatie verdeeld <strong>is</strong> over meer beeldschermpagina’s <strong>en</strong><br />

kandidat<strong>en</strong> dus moet<strong>en</strong> scroll<strong>en</strong>. Zie paragraaf 3.1 voor meer informatie over deze review.<br />

Leeson (2006)<br />

Leeson (2006) geeft e<strong>en</strong> sam<strong>en</strong>vatting van zev<strong>en</strong>tig jaar onderzoek naar <strong>het</strong> effect van <strong>het</strong> al dan niet<br />

kunn<strong>en</strong> herzi<strong>en</strong> van antwoord<strong>en</strong> <strong>op</strong> toetsvrag<strong>en</strong>. Onder item review verstaat zij de mogelijkheid om<br />

items <strong>op</strong>nieuw te bekijk<strong>en</strong>, over te slaan <strong>en</strong> gegev<strong>en</strong> antwoord<strong>en</strong> te verander<strong>en</strong>. De resultat<strong>en</strong> lat<strong>en</strong><br />

volg<strong>en</strong>s haar cons<strong>is</strong>t<strong>en</strong>t zi<strong>en</strong> dat de meerderheid van de kandidat<strong>en</strong> slechts e<strong>en</strong> klein aantal<br />

antwoord<strong>en</strong> verandert, waardoor de toetsresultat<strong>en</strong> meestal verbeter<strong>en</strong>.<br />

Leeson merkt <strong>op</strong> dat item review in de meeste lineaire CBT nog niet mogelijk <strong>is</strong>, maar dat er<br />

teg<strong>en</strong>woordig goede algoritm<strong>en</strong> bestaan die structurele review mogelijk mak<strong>en</strong>.<br />

Leeson (2006) noemt <strong>het</strong> volg<strong>en</strong>de onderzoek naar <strong>het</strong> effect van <strong>het</strong> toestaan van item review in<br />

lineaire CBT <strong>op</strong> de toetsprestaties:<br />

<br />

<br />

<br />

<br />

Van e<strong>en</strong> meerkeuze-exam<strong>en</strong> vergelek<strong>en</strong> Eaves <strong>en</strong> Smith (1986) e<strong>en</strong> PPT-versie met<br />

mogelijkhed<strong>en</strong> tot item review <strong>en</strong> e<strong>en</strong> CBT-versie zonder deze mogelijkhed<strong>en</strong> <strong>en</strong> vond<strong>en</strong> ge<strong>en</strong><br />

<strong>verschil</strong> in gemiddelde prestaties.<br />

Spray, Ackerman, Reckase <strong>en</strong> Carlson (1989) vergelek<strong>en</strong> e<strong>en</strong> PPT met e<strong>en</strong> CBT waarbij<br />

kandidat<strong>en</strong> vrij door de toets kond<strong>en</strong> naviger<strong>en</strong> <strong>en</strong> waarbij zij eerdere antwoord<strong>en</strong> kond<strong>en</strong><br />

bekijk<strong>en</strong> <strong>en</strong> verander<strong>en</strong> <strong>en</strong> vond<strong>en</strong> ge<strong>en</strong> <strong>verschil</strong> tuss<strong>en</strong> de gemiddeld<strong>en</strong> <strong>en</strong> de cumulatieve<br />

scoreverdeling<strong>en</strong>.<br />

In e<strong>en</strong> soortgelijke studie vergelek<strong>en</strong> Luecht, Hadadi, Swanson <strong>en</strong> Case (1998) e<strong>en</strong> gewone PPT<br />

met twee CBT’s: één met ingebouwde flexibiliteit <strong>en</strong> één zonder. Het ontbrek<strong>en</strong> van flexibiliteit<br />

had ge<strong>en</strong> effect <strong>op</strong> de prestaties. Wel blek<strong>en</strong> kandidat<strong>en</strong> <strong>het</strong> gebrek aan flexibiliteit maar matig<br />

te kunn<strong>en</strong> waarder<strong>en</strong>.<br />

V<strong>is</strong>poel (2000) bestudeerde de antwoord<strong>en</strong> van kandidat<strong>en</strong> <strong>op</strong> e<strong>en</strong> woord<strong>en</strong>schattoets<br />

voorafgaand <strong>en</strong> nadat zij de mogelijkheid tot item review hadd<strong>en</strong> gekreg<strong>en</strong> <strong>en</strong> vond e<strong>en</strong> positief<br />

effect <strong>op</strong> de prestaties (zie eerder in deze tekst voor e<strong>en</strong> korte bespreking van dit onderzoek).<br />

3.4 Gebruik van kladpapier<br />

Inleiding<br />

Exam<strong>en</strong>s rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde bevatt<strong>en</strong> vaak veel vrag<strong>en</strong> waarbij kandidat<strong>en</strong> iets moet<strong>en</strong> uitrek<strong>en</strong><strong>en</strong>.<br />

Het antwoord vere<strong>is</strong>t doorgaans meerdere d<strong>en</strong>kstapp<strong>en</strong> of <strong>op</strong>lossingsprocess<strong>en</strong> waarvan de<br />

kandidaat er één of meer goed uitgevoerd kan hebb<strong>en</strong>. Bij sommige typ<strong>en</strong> <strong>op</strong>gav<strong>en</strong> kan of moet de<br />

kandidaat <strong>het</strong> daartoe b<strong>en</strong>odigde rek<strong>en</strong>werk ‘uit <strong>het</strong> hoofd’ uitvoer<strong>en</strong>, bijvoorbeeld als de <strong>op</strong>gave<br />

erg e<strong>en</strong>voudig <strong>is</strong>, als er iets geschat moet word<strong>en</strong> of wanneer <strong>het</strong> hoofdrek<strong>en</strong><strong>en</strong><strong>op</strong>gav<strong>en</strong> betreft. Bij<br />

deze <strong>op</strong>gav<strong>en</strong> <strong>is</strong> e<strong>en</strong> effect van de afnamemodus minder waarschijnlijk.<br />

Bij de meer ingewikkelde <strong>op</strong>gav<strong>en</strong> zijn tuss<strong>en</strong>berek<strong>en</strong>ing<strong>en</strong>, uitwerking<strong>en</strong> <strong>en</strong> dergelijke noodzakelijk<br />

die kandidat<strong>en</strong> (nog) niet <strong>op</strong> de computer kunn<strong>en</strong> uitvoer<strong>en</strong> <strong>en</strong> docum<strong>en</strong>ter<strong>en</strong>. De kandidaat staat<br />

dan voor de keuze: doe ik <strong>het</strong> uit <strong>het</strong> hoofd of gebruik ik kladpapier (Engels: scratch paper, scrap<br />

paper, rough working)? Het kladpapier bevat als <strong>het</strong> ware de gedocum<strong>en</strong>teerde evid<strong>en</strong>tie van de<br />

gehanteerde strategieën <strong>en</strong> d<strong>en</strong>kprocess<strong>en</strong> (Johnson & Gre<strong>en</strong>, 2006).<br />

© Stichting Cito, Arnhem 2015 28


Er zijn <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> <strong>het</strong> gebruik van kladpapier in e<strong>en</strong> CBT <strong>en</strong> e<strong>en</strong> PPT die implicaties kunn<strong>en</strong><br />

hebb<strong>en</strong> voor de vergelijkbaarheid van beide afnamemodi. Achter de computer moet<strong>en</strong> leerling<strong>en</strong> als<br />

zij kladpapier gebruik<strong>en</strong> telk<strong>en</strong>s schakel<strong>en</strong> tuss<strong>en</strong> beeldscherm <strong>en</strong> papier, terwijl zij bij de <strong>papier<strong>en</strong></strong><br />

versie hun uitwerking<strong>en</strong> in de kantlijn van <strong>het</strong> toetsboekje kunn<strong>en</strong> noter<strong>en</strong>; bij e<strong>en</strong> PPT werkt de<br />

leerling in e<strong>en</strong> twee-dim<strong>en</strong>sioneel vlak, terwijl e<strong>en</strong> CBT <strong>het</strong> veelvuldig switch<strong>en</strong> tuss<strong>en</strong> beeldscherm<br />

<strong>en</strong> kladpapier in drie dim<strong>en</strong>sies vere<strong>is</strong>t (Kingston, 2009). Daardoor zoud<strong>en</strong> kandidat<strong>en</strong> bij CBT minder<br />

g<strong>en</strong>eigd zijn om kladpapier te gebruik<strong>en</strong> dan bij PPT, met als gevolg e<strong>en</strong> grotere kans <strong>op</strong> fout<strong>en</strong> <strong>en</strong><br />

lagere prestaties (Comm<strong>is</strong>sie Bosker, 2014).<br />

Er zijn aanwijzing<strong>en</strong> dat <strong>het</strong> niet gebruik<strong>en</strong> van kladpapier e<strong>en</strong> negatief effect <strong>op</strong> de prestaties heeft.<br />

Zo lat<strong>en</strong> periodieke peiling<strong>en</strong> van <strong>het</strong> onderwijsniveau in Nederland zi<strong>en</strong> dat de prestaties <strong>op</strong> <strong>het</strong><br />

onderdeel ‘bewerking<strong>en</strong>’ achteruit zijn gaan. Als belangrijkste oorzaak wordt g<strong>en</strong>oemd dat veel<br />

leerling<strong>en</strong> teg<strong>en</strong>woordig t<strong>en</strong> onrechte ge<strong>en</strong> kladpapier gebruik<strong>en</strong>, maar prober<strong>en</strong> de <strong>op</strong>gav<strong>en</strong> ‘uit <strong>het</strong><br />

hoofd’ te mak<strong>en</strong> (Janss<strong>en</strong>, Van der Schoot & Hemker, 2004; Van Putt<strong>en</strong>, 2008; Schelt<strong>en</strong>s,<br />

Hick<strong>en</strong>dorff, Egg<strong>en</strong> & Hiddink, 2014; Hick<strong>en</strong>dorff, He<strong>is</strong>er, Van Putt<strong>en</strong> & Verhelst, 2009).<br />

Rec<strong>en</strong>te vrag<strong>en</strong>lijstgegev<strong>en</strong>s (Cito, 2015a) lat<strong>en</strong> zi<strong>en</strong> dat ruim twee derde (69%) van de kandidat<strong>en</strong><br />

die deelnam<strong>en</strong> aan de Rek<strong>en</strong>toets VO naar eig<strong>en</strong> zegg<strong>en</strong> bij de meeste <strong>op</strong>gav<strong>en</strong> kladpapier gebruikte,<br />

ruim e<strong>en</strong> kwart (28%) deed dat af <strong>en</strong> toe <strong>en</strong> 3% bij ge<strong>en</strong> <strong>en</strong>kele <strong>op</strong>gave.<br />

In <strong>het</strong> vervolg van deze paragraaf besprek<strong>en</strong> we eerst <strong>en</strong>kele reviews waarin <strong>het</strong> gebruik van<br />

kladpapier ter sprake komt <strong>en</strong> vervolg<strong>en</strong>s <strong>en</strong>kele individuele studies naar <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik<br />

van kladpapier in PPT <strong>en</strong> CBT <strong>en</strong> <strong>het</strong> effect ervan <strong>op</strong> de prestaties.<br />

Resultat<strong>en</strong>: reviews <strong>en</strong> meta-analyses<br />

In e<strong>en</strong> review vond<strong>en</strong> Lee <strong>en</strong> H<strong>op</strong>kins (1985) hogere gemiddelde scores <strong>op</strong> PPT in vergelijking met<br />

CBT (zie ook paragraaf 3.1). Als belangrijke oorzaak noem<strong>en</strong> zij de beperkte ruimte voor <strong>het</strong> werk<strong>en</strong><br />

met kladpapier <strong>en</strong> <strong>het</strong> frequ<strong>en</strong>t moet<strong>en</strong> w<strong>is</strong>sel<strong>en</strong> tuss<strong>en</strong> scherm <strong>en</strong> kladpapier.<br />

Ev<strong>en</strong>e<strong>en</strong>s <strong>op</strong> bas<strong>is</strong> van e<strong>en</strong> review concluder<strong>en</strong> Russell, Goldberg <strong>en</strong> O’Connor (2003) dat<br />

”admin<strong>is</strong>tration factors, such as transfer of problems from the scre<strong>en</strong> to scratchwork space, lack of<br />

scratchwork space (….) were found to affect [computer-based] test performance significantly” (p.<br />

282). Ook concluder<strong>en</strong> zij dat “research on some mathematics tests indicates that validity <strong>is</strong><br />

threat<strong>en</strong>ed wh<strong>en</strong> stud<strong>en</strong>ts experi<strong>en</strong>ce difficulty accessing scratch paper in which they perform<br />

calculations” (p. 288).<br />

In e<strong>en</strong> meta-analyse analyseerde Kingston (2009) onder meer de resultat<strong>en</strong> van 31<br />

vergelijkingsstudies <strong>op</strong> <strong>het</strong> gebied van w<strong>is</strong>kunde. PPT w<strong>is</strong>kunde werd<strong>en</strong> gemiddeld iets beter<br />

gemaakt dan CBT w<strong>is</strong>kunde. De gemiddelde effectgrootte was met -.06 echter zeer klein (met e<strong>en</strong><br />

95%-betrouwbaarheidsinterval van -.10 tot -.02). Kingston noemt <strong>het</strong> waarschijnlijk dat dit kleine<br />

<strong>verschil</strong> te mak<strong>en</strong> heeft met <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier. Kingston spreekt de ho<strong>op</strong> uit<br />

dat toetsontwikkelaars manier<strong>en</strong> bed<strong>en</strong>k<strong>en</strong> om dit probleem te omzeil<strong>en</strong>, net zoals zij dat bij <strong>het</strong><br />

lez<strong>en</strong> van grote hoeveelhed<strong>en</strong> tekst gedaan hebb<strong>en</strong> (bijvoorbeeld door leerling<strong>en</strong> in de geleg<strong>en</strong>heid<br />

te stell<strong>en</strong> eerder gelez<strong>en</strong> tekst digitaal te marker<strong>en</strong> <strong>en</strong> te annoter<strong>en</strong>).<br />

© Stichting Cito, Arnhem 2015 29


Resultat<strong>en</strong>: individuele studies<br />

Braswell <strong>en</strong> Bridgeman (1992)<br />

De studie van Braswell <strong>en</strong> Bridgeman (1992) betreft wel<strong>is</strong>waar niet <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik van<br />

kladpapier in PPT <strong>en</strong> CBT <strong>en</strong> <strong>het</strong> effect ervan <strong>op</strong> de prestaties, maar we vermeld<strong>en</strong> de resultat<strong>en</strong> hier<br />

toch omdat <strong>het</strong> inzicht verschaft in <strong>het</strong> effect van de fysieke afstand tuss<strong>en</strong> de toetsvraag <strong>en</strong> de<br />

ruimte voor uitwerking<strong>en</strong>. De onderzoekers vergelek<strong>en</strong> twee <strong>papier<strong>en</strong></strong> 25-itemversies van de SAT-<br />

Mathematical (SAT-M): één in <strong>het</strong> standaardformat <strong>en</strong> één in datzelfde format met e<strong>en</strong> extra kolom<br />

voor kladwerk. Zij vond<strong>en</strong> ge<strong>en</strong> effect <strong>op</strong> de prestaties. In beide formats maakte de meerderheid van<br />

de kandidat<strong>en</strong> bij minimaal driekwart van de items gebruik van kladwerk. Og<strong>en</strong>schijnlijk e<strong>en</strong>voudige<br />

berek<strong>en</strong>ing<strong>en</strong>, zoals 1000 x 10, werd<strong>en</strong> daarbij vaak uitgeschrev<strong>en</strong>. Echter, zelfs als voor <strong>het</strong> kladwerk<br />

e<strong>en</strong> aparte kolom in <strong>het</strong> toetsboekje was gereserveerd, gav<strong>en</strong> de meeste kandidat<strong>en</strong> er de voorkeur<br />

aan <strong>het</strong> kladwerk bij <strong>het</strong> item zelf te noter<strong>en</strong> in plaats van <strong>op</strong> e<strong>en</strong> plek verder weg van <strong>het</strong> item.<br />

Hick<strong>en</strong>dorff, Van Putt<strong>en</strong>, Verhelst <strong>en</strong> He<strong>is</strong>er (2010)<br />

De studie van Hick<strong>en</strong>dorff, Van Putt<strong>en</strong>, Verhelst <strong>en</strong> He<strong>is</strong>er (2010) <strong>is</strong> ev<strong>en</strong>e<strong>en</strong>s niet volledig on-t<strong>op</strong>ic,<br />

maar we mak<strong>en</strong> er toch melding van omdat <strong>het</strong> inzicht geeft in <strong>het</strong> effect van strategiekeuze<br />

(m<strong>en</strong>taal versus schriftelijk) in relatie tot achtergrondk<strong>en</strong>merk<strong>en</strong> van de leerling<strong>en</strong>.<br />

Hick<strong>en</strong>dorff, Van Putt<strong>en</strong>, Verhelst <strong>en</strong> He<strong>is</strong>er (2010) toond<strong>en</strong> aan dat <strong>het</strong> vooral zwakke rek<strong>en</strong>aars <strong>en</strong><br />

jong<strong>en</strong>s zijn die bij complexe deelsomm<strong>en</strong> kiez<strong>en</strong> voor zuiver m<strong>en</strong>tale strategieën in plaats van<br />

kladpapier te gebruik<strong>en</strong> (<strong>en</strong> zichzelf daarmee b<strong>en</strong>adel<strong>en</strong>). Als m<strong>en</strong> leerling<strong>en</strong> die ‘uit <strong>het</strong> hoofd’ e<strong>en</strong><br />

som uitrek<strong>en</strong><strong>en</strong>, dwingt om kladpapier te gebruik<strong>en</strong> bij e<strong>en</strong> parallelle <strong>op</strong>gave, komt dat hun<br />

prestaties t<strong>en</strong> goede. Vandaar dat de onderzoekers de aanbeveling do<strong>en</strong> <strong>het</strong> gebruik van kladpapier<br />

bij complexe deelproblem<strong>en</strong> te stimuler<strong>en</strong>.<br />

Van d<strong>en</strong> Heuvel-Panhuiz<strong>en</strong> <strong>en</strong> Bodin-Baar<strong>en</strong>ds (2004)<br />

Van d<strong>en</strong> Heuvel-Panhuiz<strong>en</strong> <strong>en</strong> Bodin-Baar<strong>en</strong>ds (2004) nam<strong>en</strong> e<strong>en</strong> <strong>papier<strong>en</strong></strong> rek<strong>en</strong>toets af bij hoogprester<strong>en</strong>de<br />

leerling<strong>en</strong> uit <strong>het</strong> Nederlandse bas<strong>is</strong>onderwijs. De toets bevatte vijfti<strong>en</strong> puzzel-achtige<br />

<strong>op</strong>gav<strong>en</strong> zoals number riddles. De <strong>op</strong>gav<strong>en</strong> bevatt<strong>en</strong> grote hoeveelhed<strong>en</strong> gegev<strong>en</strong>s waarbij de<br />

leerling de <strong>op</strong>lossing vaak kon vind<strong>en</strong> door systemat<strong>is</strong>ch <strong>op</strong>ties uit te prober<strong>en</strong>. E<strong>en</strong> van de<br />

uitkomst<strong>en</strong> was dat deze leerling<strong>en</strong> zeld<strong>en</strong> gebruik maakt<strong>en</strong> van de ruimte voor kladwerk, waardoor<br />

zij, aldus de onderzoekers, lager dan verwacht presteerd<strong>en</strong>.<br />

Gaskill <strong>en</strong> Marshall (2006)<br />

Gaskill <strong>en</strong> Marshall (2006) ded<strong>en</strong> onderzoek naar de vergelijkbaarheid van PPT <strong>en</strong> CBT bij<br />

meerkeuzetoets<strong>en</strong> numeracy in grade 4 <strong>en</strong> 7. Bij beide versies had de leerling papier nodig om <strong>het</strong><br />

antwoord te kunn<strong>en</strong> gev<strong>en</strong>. Bij de PPT-versie kond<strong>en</strong> de leerling<strong>en</strong> hun uitwerking<strong>en</strong> <strong>en</strong><br />

berek<strong>en</strong>ing<strong>en</strong> <strong>op</strong> dezelfde pagina <strong>en</strong> vaak <strong>op</strong> dezelfde regel noter<strong>en</strong> als <strong>het</strong> item. Wel moest<strong>en</strong> zij <strong>het</strong><br />

antwoord overbr<strong>en</strong>g<strong>en</strong> naar e<strong>en</strong> antwoordblad dat zich echter in de onmiddellijke nabijheid van <strong>het</strong><br />

toetsboekje bevond. Bij de CBT-versie moest<strong>en</strong> de leerling<strong>en</strong> de b<strong>en</strong>odigde informatie eerst van <strong>het</strong><br />

scherm overbr<strong>en</strong>g<strong>en</strong> naar <strong>het</strong> kladpapier, vervolg<strong>en</strong>s de <strong>op</strong>lossing <strong>op</strong> <strong>het</strong> kladpapier uitwerk<strong>en</strong> <strong>en</strong> tot<br />

slot <strong>het</strong> resultaat weer ‘terugbr<strong>en</strong>g<strong>en</strong>’ naar <strong>het</strong> scherm. Bij de CBT-versie <strong>is</strong> de kans <strong>op</strong> <strong>het</strong> mak<strong>en</strong><br />

van fout<strong>en</strong> dus groter dan bij de PPT-versie. De veronderstelling was dan ook dat de CBT-versie tot<br />

lagere scores zou leid<strong>en</strong> dan de PPT-versie <strong>en</strong> dat <strong>het</strong> <strong>verschil</strong> groter zou zijn voor de laag dan voor<br />

de hoog vaardige leerling<strong>en</strong>. Leerling<strong>en</strong> behaald<strong>en</strong> inderdaad hogere scores <strong>op</strong> de PPT-versie van de<br />

© Stichting Cito, Arnhem 2015 30


meerkeuzetoets over rek<strong>en</strong>vaardigheid dan <strong>op</strong> de CBT-versie maar <strong>het</strong> <strong>verschil</strong> was niet groter voor<br />

de minder vaardige leerling<strong>en</strong>. Gaskill <strong>en</strong> Marshall (2006) bevel<strong>en</strong> schol<strong>en</strong> aan de <strong>digitale</strong><br />

afnamesituatie zo in te richt<strong>en</strong> dat de leerling<strong>en</strong> voldo<strong>en</strong>de ruimte hebb<strong>en</strong> om de berek<strong>en</strong>ing<strong>en</strong> <strong>op</strong><br />

papier uit te voer<strong>en</strong> <strong>en</strong> ervoor te zorg<strong>en</strong> dat zij de informatie van <strong>het</strong> scherm gemakkelijk <strong>op</strong> <strong>het</strong><br />

kladpapier kunn<strong>en</strong> overnem<strong>en</strong> (<strong>en</strong> vice versa). Verder wijz<strong>en</strong> de onderzoekers <strong>op</strong> <strong>het</strong> belang van e<strong>en</strong><br />

goede voorbereiding van de leerling<strong>en</strong> <strong>op</strong> de <strong>digitale</strong> toetsing. Zo zoud<strong>en</strong> leerling<strong>en</strong> getraind moet<strong>en</strong><br />

word<strong>en</strong> in <strong>het</strong> overnem<strong>en</strong> <strong>en</strong> controler<strong>en</strong> van informatie van <strong>het</strong> scherm naar papier (<strong>en</strong> vice versa).<br />

Johnson <strong>en</strong> Gre<strong>en</strong> (2006)<br />

Johnson <strong>en</strong> Gre<strong>en</strong> (2006) vergelek<strong>en</strong> PPT- <strong>en</strong> CBT-versies van dezelfde rek<strong>en</strong>toets bij elf-jarig<strong>en</strong> in <strong>het</strong><br />

Engelse primair onderwijs. De leerling<strong>en</strong> werd gevraagd hun tuss<strong>en</strong>berek<strong>en</strong>ing<strong>en</strong> <strong>en</strong> dergelijke zo<br />

uitgebreid mogelijk te docum<strong>en</strong>ter<strong>en</strong> in de daarvoor bestemde ruimte <strong>op</strong> <strong>het</strong> toetsboekje (PPT) of <strong>op</strong><br />

<strong>het</strong> afzonderlijk ter beschikking gestelde kladpapier (CBT). Daarnaast nam<strong>en</strong> de onderzoekers de<br />

leerling<strong>en</strong> interviews af. Daarbij werd gevraagd naar <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> beide versies van e<strong>en</strong> <strong>op</strong>gave<br />

in de manier waar<strong>op</strong> zij <strong>het</strong> probleem hadd<strong>en</strong> uitgewerkt. Bij de CBT-versie werd daarbij ook gebruik<br />

gemaakt van de Replay Option waarmee de leerling<strong>en</strong> hun antwoord<strong>en</strong> <strong>en</strong> rev<strong>is</strong>ies in chronolog<strong>is</strong>che<br />

volgorde kond<strong>en</strong> terugzi<strong>en</strong>. Verder werd<strong>en</strong> vrag<strong>en</strong> gesteld over hun voorkeur voor vraagtyp<strong>en</strong> in de<br />

<strong>en</strong>e <strong>en</strong> andere afnamemodus. Met behulp van inhoudsanalyse codeerd<strong>en</strong> de onderzoekers de<br />

gemaakte fout<strong>en</strong> aan de hand van de uitwerking<strong>en</strong> <strong>op</strong> papier. Op bas<strong>is</strong> van argum<strong>en</strong>t<strong>en</strong> zoals<br />

g<strong>en</strong>oemd in de inleiding <strong>op</strong> deze paragraaf, verondersteld<strong>en</strong> zij dat leerling<strong>en</strong> bij de CBT-versie<br />

minder g<strong>en</strong>eigd zoud<strong>en</strong> zijn tot verstrekk<strong>en</strong> van evid<strong>en</strong>tie over de gehanteerde strategieën <strong>en</strong><br />

d<strong>en</strong>kprocess<strong>en</strong> dan bij de PPT-versie.<br />

Kwantitatieve resultat<strong>en</strong><br />

Johnson <strong>en</strong> Gre<strong>en</strong> (2006) vond<strong>en</strong> dat de PPT-versie iets makkelijker was dan de CBT-versie, maar <strong>het</strong><br />

<strong>verschil</strong> tuss<strong>en</strong> de gemiddelde totaalscores was niet significant. E<strong>en</strong> analyse <strong>op</strong> itemniveau bracht<br />

aan <strong>het</strong> licht dat van de zesti<strong>en</strong> vrag<strong>en</strong> er elf significant gemakkelijker war<strong>en</strong> in de PPT-versie; slechts<br />

één vraag was significant gemakkelijker in de CBT-versie.<br />

De meest gemaakte fout<strong>en</strong> war<strong>en</strong> computation and m<strong>en</strong>tal calculation errors die leerling<strong>en</strong> maakt<strong>en</strong><br />

als uitgeschrev<strong>en</strong> uitwerking<strong>en</strong> <strong>en</strong> dergelijke ontbrak<strong>en</strong> <strong>en</strong> zij k<strong>en</strong>nelijk geprobeerd hadd<strong>en</strong> de vraag<br />

uit <strong>het</strong> hoofd te beantwoord<strong>en</strong>. In de CBT-versie werd<strong>en</strong> deze m<strong>en</strong>tale rek<strong>en</strong>fout<strong>en</strong> vaker gemaakt<br />

dan in de PPT-versie.<br />

De <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> de beide afnamemodi in <strong>het</strong> aantal gemaakte rek<strong>en</strong>fout<strong>en</strong> blek<strong>en</strong> afhankelijk<br />

van de aard van de vraag. Bij alle vrag<strong>en</strong> die e<strong>en</strong> beroep ded<strong>en</strong> <strong>op</strong> aftrekk<strong>en</strong> met substraction using<br />

decomposition, bijvoorbeeld 554-538 of 546-39, maakt<strong>en</strong> de leerling<strong>en</strong> meer m<strong>en</strong>tale rek<strong>en</strong>fout<strong>en</strong> in<br />

de <strong>digitale</strong> dan de <strong>papier<strong>en</strong></strong> versie. Verder werd<strong>en</strong> in de CBT-versies van lange<br />

verm<strong>en</strong>igvuldigingsvrag<strong>en</strong> meer <strong>op</strong>splitsfout<strong>en</strong> (Engels: partitioning errors) gemaakt dan in de PPTversies<br />

(dit wil zegg<strong>en</strong>: <strong>het</strong> splitst<strong>en</strong> van grote gehele getall<strong>en</strong> in kleine gehele getall<strong>en</strong> voorafgaand<br />

aan e<strong>en</strong> rek<strong>en</strong>kundige bewerking (Engels: <strong>op</strong>eration). Johnson <strong>en</strong> Gre<strong>en</strong> (2006) interpreteerd<strong>en</strong> dit<br />

als volgt: “Th<strong>is</strong> meant that stud<strong>en</strong>ts made more errors wh<strong>en</strong> separating out the T<strong>en</strong>s and Units<br />

compon<strong>en</strong>ts of large numbers, and t<strong>en</strong>ded to have more problems multiplying the appr<strong>op</strong>riate parts<br />

wh<strong>en</strong> working on the computer.” (p. 16).<br />

© Stichting Cito, Arnhem 2015 31


Er werd<strong>en</strong> door de bank g<strong>en</strong>om<strong>en</strong> relatief weinig transcriptiefout<strong>en</strong> gemaakt, dit wil zegg<strong>en</strong> fout<strong>en</strong><br />

bij <strong>het</strong> overnem<strong>en</strong> van gegev<strong>en</strong>s binn<strong>en</strong> dezelfde pagina of van de <strong>en</strong>e naar de andere pagina (PPT)<br />

of van <strong>het</strong> scherm naar kladpapier <strong>en</strong> vice versa (CBTP). Echter, bij de CBT-versie werd<strong>en</strong> zoals<br />

verwacht meer transcriptiefout<strong>en</strong> gemaakt dan bij de PPT-versie. Transcriptieproblem<strong>en</strong> van scherm<br />

naar papier <strong>en</strong> omgekeerd ded<strong>en</strong> zich voor bij ongeveer ti<strong>en</strong> proc<strong>en</strong>t van de leerling<strong>en</strong>. Johnson <strong>en</strong><br />

Gre<strong>en</strong> (2006) veronderstell<strong>en</strong> dat <strong>het</strong> grotere aantal transcriptiefout<strong>en</strong> sam<strong>en</strong>hangt met de grotere<br />

fysieke afstand die de informatie moet overbrugg<strong>en</strong> gedur<strong>en</strong>de de verwerking van <strong>het</strong> probleem. Bij<br />

e<strong>en</strong> <strong>papier<strong>en</strong></strong> versie zijn de locaties van de vraag, uitwerking <strong>en</strong> antwoord<strong>en</strong> in elkaars onmiddellijke<br />

nabijheid. Bij e<strong>en</strong> CBT <strong>is</strong> de fysieke afstand <strong>en</strong> daarmee de belasting van <strong>het</strong> werkgeheug<strong>en</strong><br />

daar<strong>en</strong>teg<strong>en</strong> veel groter. Eerst moet de leerling de vraag <strong>op</strong> <strong>het</strong> scherm lez<strong>en</strong>, vervolg<strong>en</strong>s moet hij of<br />

zij deze informatie vasthoud<strong>en</strong> in <strong>het</strong> werkgeheug<strong>en</strong> als de aandacht verschuift naar <strong>het</strong> kladpapier<br />

<strong>en</strong> vervolg<strong>en</strong>s weer naar <strong>het</strong> scherm, om t<strong>en</strong> slotte <strong>het</strong> antwoord in <strong>het</strong> daarvoor bestemde<br />

invoervak <strong>op</strong> <strong>het</strong> scherm in te typ<strong>en</strong>. Dat leerling<strong>en</strong> in de CBT-versies meer transcriptiefout<strong>en</strong> mak<strong>en</strong>,<br />

betek<strong>en</strong>t volg<strong>en</strong>s Johnson <strong>en</strong> Gre<strong>en</strong> (2006) dat “that their lack of success should not have be<strong>en</strong><br />

attributed to them having conceptual problems relating to the particular question within which the<br />

error was found” (p. 24). Deze bevinding roept volg<strong>en</strong>s de onderzoekers vrag<strong>en</strong> <strong>op</strong> over de validiteit<br />

van scores zoals verkreg<strong>en</strong> met <strong>digitale</strong> toets- <strong>en</strong> exam<strong>en</strong>system<strong>en</strong> die diagnost<strong>is</strong>che profiel<strong>en</strong><br />

rapporter<strong>en</strong> <strong>op</strong> bas<strong>is</strong> van fout<strong>en</strong>analyses. Hun advies <strong>is</strong> na te d<strong>en</strong>k<strong>en</strong> over de manier waar<strong>op</strong> <strong>het</strong><br />

aantal transcriptiefout<strong>en</strong> verder kan word<strong>en</strong> teruggebracht, bijvoorbeeld door leerling<strong>en</strong> in staat te<br />

stell<strong>en</strong> annotaties <strong>op</strong> <strong>het</strong> scherm te mak<strong>en</strong>.<br />

Op papier werd<strong>en</strong> meer vrag<strong>en</strong> niet beantwoord dan <strong>op</strong> <strong>het</strong> scherm, waarbij twee keer zoveel<br />

me<strong>is</strong>jes dan jong<strong>en</strong>s e<strong>en</strong> of meer vrag<strong>en</strong> onbeantwoord liet<strong>en</strong>. Waarschijnlijk vanwege <strong>het</strong><br />

gebrekkige onderscheid<strong>en</strong> vermog<strong>en</strong> - <strong>het</strong> aantal leerling<strong>en</strong> was klein - was dit <strong>verschil</strong> echter niet<br />

significant. Ter verklaring verwijz<strong>en</strong> de auteurs naar Gallagher, Bridgm<strong>en</strong> <strong>en</strong> Cahalan (2000) die<br />

veronderstell<strong>en</strong> dat CBT voor sommige leerling<strong>en</strong> e<strong>en</strong> minder bedreig<strong>en</strong>de omgeving<br />

verteg<strong>en</strong>woordigt dan PPT. Johnson <strong>en</strong> Gre<strong>en</strong> (2006) veronderstell<strong>en</strong> dat de jong<strong>en</strong>s in hun<br />

onderzoek meer g<strong>en</strong>eigd zijn to take a chance dan me<strong>is</strong>jes, ook al zijn zij er niet zeker van dat hun<br />

antwoord goed <strong>is</strong>. E<strong>en</strong> mogelijke verklaring <strong>is</strong> dat leerling<strong>en</strong> <strong>het</strong> beantwoord<strong>en</strong> van <strong>digitale</strong> vrag<strong>en</strong><br />

associër<strong>en</strong> met andere activiteit<strong>en</strong> die zij <strong>op</strong> de computer uitvoer<strong>en</strong>, zoals spelletjes, waarbij wordt<br />

uitgegaan van de filosofie van have a go and start again (Gallagher et al., 2000) of snatch and grab<br />

(Sutherland-Smith (2002).<br />

Daarnaast zoud<strong>en</strong> de <strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> de beide afnamemodi in <strong>het</strong> onbeantwoord lat<strong>en</strong> van vrag<strong>en</strong><br />

ermee te mak<strong>en</strong> kunn<strong>en</strong> hebb<strong>en</strong> dat <strong>het</strong> indi<strong>en</strong><strong>en</strong> van antwoord<strong>en</strong> via <strong>het</strong> beeldscherm als e<strong>en</strong><br />

minder persoonlijke aangeleg<strong>en</strong>heid wordt beschouwd dan <strong>het</strong> toevertrouw<strong>en</strong> van antwoord<strong>en</strong> aan<br />

<strong>het</strong> papier. Johnson <strong>en</strong> Gre<strong>en</strong> (2006) licht<strong>en</strong> dit als volgt toe: “Wh<strong>en</strong> stud<strong>en</strong>ts answer on paper their<br />

attempts and errors are made explicit and public, whereas the computer creates a more private<br />

workspace where stud<strong>en</strong>ts may be more willing to r<strong>is</strong>k being wrong. Wh<strong>en</strong> answers are submitted online<br />

there <strong>is</strong> no immediately v<strong>is</strong>ible trace of evid<strong>en</strong>ce relating to past questions which the stud<strong>en</strong>t may<br />

have struggled with, and that they need to confront each time that they look at any subsequ<strong>en</strong>t<br />

question, although th<strong>is</strong> information might be stored elsewhere for teacher analys<strong>is</strong> at a later time.<br />

Th<strong>is</strong> contrasts with the paper versions of each test, which expose a stud<strong>en</strong>t’s prior attempts at<br />

answers in the public ar<strong>en</strong>a occupied by themselves, and pot<strong>en</strong>tially their peers and teachers. Having<br />

the <strong>op</strong>portunity to submit answers in a less public <strong>en</strong>vironm<strong>en</strong>t may lead stud<strong>en</strong>ts to worry less about<br />

© Stichting Cito, Arnhem 2015 32


the type of answers that they give, perhaps <strong>en</strong>couraging them to take r<strong>is</strong>ks about which strategies to<br />

employ” (p. 28).<br />

De onderzoekers vond<strong>en</strong> ook modus-gerelateerde <strong>verschil</strong>l<strong>en</strong> in de mate waarin leerling<strong>en</strong> hun<br />

werkwijze bij de vraag docum<strong>en</strong>teerd<strong>en</strong>. Bij neg<strong>en</strong> van de zesti<strong>en</strong> vrag<strong>en</strong> gav<strong>en</strong> de leerling<strong>en</strong> bij de<br />

CBT-versie meer informatie over hun werkwijze dan bij de PPT-versie, bij vier vrag<strong>en</strong> werd de<br />

werkwijze bij de PPT-versie beter gedocum<strong>en</strong>teerd <strong>en</strong> bij drie vrag<strong>en</strong> was er ge<strong>en</strong> <strong>verschil</strong>.<br />

Kwalitatieve resultat<strong>en</strong><br />

Drie vrag<strong>en</strong> werd<strong>en</strong> <strong>op</strong> papier significant beter gemaakt dan via <strong>het</strong> beeldscherm. E<strong>en</strong> kwalitatieve<br />

analyse bracht aan <strong>het</strong> licht dat <strong>het</strong> drie van de vier vrag<strong>en</strong> betrof vrag<strong>en</strong> waarbij meer leerling<strong>en</strong><br />

hun uitwerking<strong>en</strong> aan <strong>het</strong> papier toevertrouwd<strong>en</strong> bij de PPTT- dan de CBT-versie. De onderzoekers<br />

veronderstell<strong>en</strong> dat de extra inspanning die nodig <strong>is</strong> om <strong>het</strong> d<strong>en</strong>kproces in de <strong>digitale</strong> afnamemodus<br />

<strong>op</strong> papier te docum<strong>en</strong>ter<strong>en</strong> ertoe geleid heeft dat deze leerling<strong>en</strong> de berek<strong>en</strong>ing<strong>en</strong> uit <strong>het</strong> hoofd<br />

uitvoer<strong>en</strong> (in plaats van kladpapier te gebruik<strong>en</strong>). De fout<strong>en</strong>analyse bood verdere ondersteuning<br />

voor deze veronderstelling. Bij deze drie vrag<strong>en</strong> maakt<strong>en</strong> de leerling<strong>en</strong> namelijk meer combined<br />

computational and m<strong>en</strong>tal errors in de CBT- dan in de PPT-versie. Bij deze drie vrag<strong>en</strong> zou de aversie<br />

teg<strong>en</strong> <strong>het</strong> gebruik van kladpapier er dus toe leid<strong>en</strong> dat leerling<strong>en</strong> meer <strong>op</strong> zuiver m<strong>en</strong>tale strategieën<br />

vertrouw<strong>en</strong> waardoor zij meer fout<strong>en</strong> mak<strong>en</strong> <strong>en</strong> lagere prestaties behal<strong>en</strong>.<br />

E<strong>en</strong> kwalitatieve analyse liet verder zi<strong>en</strong> dat 37% van de leerling<strong>en</strong> bij de <strong>papier<strong>en</strong></strong> <strong>en</strong> <strong>digitale</strong> versie<br />

<strong>verschil</strong>l<strong>en</strong>de <strong>op</strong>lossingsstrategieën toepast<strong>en</strong>. Zo war<strong>en</strong> leerling<strong>en</strong> bij de <strong>papier<strong>en</strong></strong> versie van vrag<strong>en</strong><br />

zoals ‘554-538’ <strong>en</strong> ‘546-30’ meer g<strong>en</strong>eigd om partitioning strategies te gebruik<strong>en</strong> dan bij de <strong>digitale</strong><br />

versie. De algehele conclusie was dat leerling<strong>en</strong> bij de PPT-versie <strong>wat</strong> vaker informele <strong>en</strong> flexibele<br />

<strong>op</strong>lossingsstrategieën hanteerd<strong>en</strong> dan bij de CBT-versie waar vaker formele <strong>en</strong> standaardstrategieën<br />

werd<strong>en</strong> toegepast. De groep die flexibele <strong>op</strong>lossingsstrategieën hanteerde, bevatte overig<strong>en</strong>s<br />

significant meer me<strong>is</strong>jes dan jong<strong>en</strong>s.<br />

Threfall, Pool, Homer <strong>en</strong> Swinnerton (2007)<br />

Threfall, Pool, Homer <strong>en</strong> Swinnerton (2007) ded<strong>en</strong> vergelijkingsonderzoek bij leerling<strong>en</strong> van 11<br />

<strong>en</strong> 14 jaar in Groot-Brittannië. Bij elfjarig<strong>en</strong> war<strong>en</strong> de totaalscores voor de 24 items bij de CBTversie<br />

3% hoger dan bij de PPT-versie <strong>en</strong> bij vierti<strong>en</strong>jarig<strong>en</strong> scoorde de CBT 5% lager dan de PPT.<br />

Hoewel Threfall et al. (2007) ge<strong>en</strong> gegev<strong>en</strong>s over de stat<strong>is</strong>t<strong>is</strong>che significantie verstrekk<strong>en</strong>,<br />

concludeerd<strong>en</strong> zij toch dat “A differ<strong>en</strong>ce of 5% or less in performance cannot be said to be<br />

indicative of an underlying effect” (p. 340).<br />

Zev<strong>en</strong> items waarbij <strong>het</strong> <strong>verschil</strong> in p-waarde tuss<strong>en</strong> CBT <strong>en</strong> PPT tuss<strong>en</strong> de 12% <strong>en</strong> 34% bedroeg,<br />

werd<strong>en</strong> nader bestudeerd. Bij vijf ervan scoorde de CBT hoger dan de PPT. Bij vier van deze vijf<br />

items moest de leerling elem<strong>en</strong>t<strong>en</strong> in de goede volgorde zett<strong>en</strong>. E<strong>en</strong> mogelijke verklaring<br />

veronderstelt dat <strong>het</strong> (<strong>op</strong> interactieve wijze) explorer<strong>en</strong> van de <strong>verschil</strong>l<strong>en</strong>de arrangem<strong>en</strong>t<strong>en</strong> <strong>op</strong><br />

de computer minder belast<strong>en</strong>d <strong>is</strong> voor <strong>het</strong> geheug<strong>en</strong> dan <strong>op</strong> papier.<br />

Op twee van de zev<strong>en</strong> items scoorde PPT hoger dan CBT. Bij beide items hadd<strong>en</strong> de leerling<strong>en</strong><br />

kladpapier nodig om <strong>het</strong> ju<strong>is</strong>te antwoord te kunn<strong>en</strong> gev<strong>en</strong>. Hoewel de leerling<strong>en</strong> e<strong>en</strong> working<br />

booklet tot hun beschikking hadd<strong>en</strong>, werd dat door maar weinig leerling<strong>en</strong> gebruikt. Anders dan<br />

in <strong>het</strong> onderzoek van Johson and Gre<strong>en</strong> (2006) <strong>het</strong> geval was, gebruikt<strong>en</strong> naar verhouding meer<br />

leerling<strong>en</strong> kladpapier bij de PPT- dan bij de CBT-versie.<br />

© Stichting Cito, Arnhem 2015 33


K<strong>en</strong>g, McClarty <strong>en</strong> Dav<strong>is</strong> (2008)<br />

K<strong>en</strong>g, McClarty <strong>en</strong> Dav<strong>is</strong> (2008) vergelek<strong>en</strong> e<strong>en</strong> PPT- <strong>en</strong> e<strong>en</strong> CBT-versie van onder meer e<strong>en</strong><br />

w<strong>is</strong>kundetoets voor grade 8 <strong>en</strong> 11. Hoewel de toets ook <strong>op</strong><strong>en</strong> vrag<strong>en</strong> bevatte, gebruikt<strong>en</strong> de<br />

onderzoekers alle<strong>en</strong> de meerkeuzevrag<strong>en</strong>. Beide versies bod<strong>en</strong> mogelijkhed<strong>en</strong> tot item review. In de<br />

<strong>papier<strong>en</strong></strong> versie kond<strong>en</strong> de leerling<strong>en</strong> hun aantek<strong>en</strong>ing<strong>en</strong> <strong>en</strong> tek<strong>en</strong>ing<strong>en</strong> direct in <strong>het</strong> toetsboekje<br />

mak<strong>en</strong>. In de online versie kon de leerling gebruik mak<strong>en</strong> van online drawing tools zoals e<strong>en</strong><br />

highlighter <strong>en</strong> e<strong>en</strong> answer eliminator.<br />

Bij vier van de vijftig w<strong>is</strong>kunde-items voor grade 8 werd e<strong>en</strong> effect van de afnamemodus gevond<strong>en</strong><br />

waarvan drie in <strong>het</strong> voordeel van de PPT-versie. Bij twee van deze drie items moest de leerling<br />

graf<strong>is</strong>che <strong>en</strong> geometr<strong>is</strong>che manipulaties uitvoer<strong>en</strong>. Ter verklaring voer<strong>en</strong> K<strong>en</strong>g et al. (2008) aan dat<br />

digitaal tek<strong>en</strong><strong>en</strong> moeilijker <strong>is</strong> dan tek<strong>en</strong><strong>en</strong> <strong>op</strong> papier. Het overzett<strong>en</strong> van de grafiekjes van<br />

beeldscherm naar papier <strong>is</strong> e<strong>en</strong> extra stap die bij de <strong>papier<strong>en</strong></strong> versie niet nodig <strong>is</strong>. Het overzett<strong>en</strong> van<br />

grafiekjes vere<strong>is</strong>t e<strong>en</strong> zekere nauwkeurigheid waardoor de CBT-versie van <strong>het</strong> item e<strong>en</strong> (onbedoeld)<br />

extra beroep zou kunn<strong>en</strong> do<strong>en</strong> <strong>op</strong> de tek<strong>en</strong>vaardigheid van de leerling. Het derde item waarbij de<br />

PPT-versie tot hogere scores leidde, k<strong>en</strong>de <strong>verschil</strong>l<strong>en</strong>de omvangrijke graphics of geometr<strong>is</strong>che<br />

vorm<strong>en</strong> waarbij de leerling moest scroll<strong>en</strong>. K<strong>en</strong>g et al. (2008) veronderstell<strong>en</strong> de CBT-versie van dat<br />

item moeilijker was omdat de leerling<strong>en</strong> om <strong>het</strong> hele item te kunn<strong>en</strong> bekijk<strong>en</strong> voortdur<strong>en</strong>d moest<strong>en</strong><br />

scroll<strong>en</strong>, terwijl ze <strong>het</strong> volledige item in hun toetsboekje <strong>op</strong> e<strong>en</strong> <strong>en</strong> dezelfde pagina kond<strong>en</strong> bekijk<strong>en</strong>.<br />

De onderzoekers vond<strong>en</strong> ge<strong>en</strong> verklaring waarom <strong>het</strong> vierde item <strong>het</strong> in de CBT-conditie beter deed<br />

dan in de PPT-conditie.<br />

De resultat<strong>en</strong> in grade 11 gav<strong>en</strong> e<strong>en</strong> vergelijkbaar beeld te zi<strong>en</strong>. Ook daar werd<strong>en</strong> items die graf<strong>is</strong>che<br />

<strong>en</strong> geometr<strong>is</strong>che manipulaties <strong>en</strong> scroll<strong>en</strong> vere<strong>is</strong>t<strong>en</strong> in <strong>het</strong> PPT-format beter gemaakt dan in <strong>het</strong> CBTformat.<br />

De onderzoekers vermeld<strong>en</strong> dat hun resultat<strong>en</strong> bij w<strong>is</strong>kunde overe<strong>en</strong>kom<strong>en</strong> met die van<br />

Sand<strong>en</strong>e et al. (2005) <strong>en</strong> Gre<strong>en</strong>wood et al. (2000). Laatstg<strong>en</strong>oemd<strong>en</strong> vond<strong>en</strong> dat items die e<strong>en</strong><br />

beroep do<strong>en</strong> <strong>op</strong> spatial and gross motor skills digitaal moeilijker zijn dan <strong>op</strong> papier.<br />

3.5 Invoer van antwoord<strong>en</strong> via beeldscherm versus papier<br />

Inleiding<br />

Onderzoek laat zi<strong>en</strong> dat <strong>verschil</strong>l<strong>en</strong> in ICT-ervaring mede verantwoordelijk kunn<strong>en</strong> zijn voor<br />

prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT (o.a. Gaskill & Marshall, 2006). Als e<strong>en</strong> mogelijke verklaring<br />

voor de teg<strong>en</strong>vall<strong>en</strong>de resultat<strong>en</strong> <strong>op</strong> de rek<strong>en</strong>toets<strong>en</strong> noemt de Comm<strong>is</strong>sie Bosker (2014) <strong>het</strong><br />

gegev<strong>en</strong> dat kandidat<strong>en</strong> over <strong>het</strong> algeme<strong>en</strong> onbek<strong>en</strong>d zijn met <strong>het</strong> digitaal afnem<strong>en</strong> van toets<strong>en</strong> <strong>en</strong><br />

exam<strong>en</strong>s. E<strong>en</strong> specifiek probleem bij CBT rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde <strong>is</strong> dat de computer specifieke e<strong>is</strong><strong>en</strong> stelt<br />

aan de invoer van de antwoord<strong>en</strong>. Kandidat<strong>en</strong> zijn daar vaak nog onvoldo<strong>en</strong>de van <strong>op</strong> de hoogte <strong>en</strong><br />

in getraind. Vel<strong>en</strong> hebb<strong>en</strong> meer ervaring met <strong>het</strong> noter<strong>en</strong> van antwoord<strong>en</strong> <strong>op</strong> papier dan met <strong>het</strong><br />

invoer<strong>en</strong> ervan via <strong>het</strong> beeldscherm (McGuire & Youngson, 2002). In e<strong>en</strong> CBT voer<strong>en</strong> de kandidat<strong>en</strong><br />

hun antwoord uiteindelijk in <strong>op</strong> <strong>het</strong> scherm, maar voor de berek<strong>en</strong>ing<strong>en</strong> <strong>en</strong> uitwerking<strong>en</strong> <strong>op</strong><br />

kladpapier moet<strong>en</strong> zij toch nog potlood <strong>en</strong> papier gebruik<strong>en</strong>. Als zij daarmee klaar zijn, moet<strong>en</strong> zij<br />

hun ‘<strong>papier<strong>en</strong></strong>’ antwoord vertal<strong>en</strong> in w<strong>is</strong>kundige symbol<strong>en</strong> die de computer kan herk<strong>en</strong>n<strong>en</strong> <strong>en</strong> dat<br />

antwoord vervolg<strong>en</strong>s transponer<strong>en</strong> naar <strong>het</strong> beeldscherm. Onder meer door e<strong>en</strong> gebrek aan ervaring<br />

met de invoermodule zoud<strong>en</strong> kandidat<strong>en</strong> bij e<strong>en</strong> CBT meer invoerfout<strong>en</strong> mak<strong>en</strong> dan bij e<strong>en</strong> PPT, met<br />

als gevolg lagere prestaties voor CBT in vergelijking met PPT. De afnamemodus introduceert hier<br />

constructirrelevante variantie die afbreuk kan do<strong>en</strong> aan de validiteit.<br />

© Stichting Cito, Arnhem 2015 34


E<strong>en</strong> hiermee sam<strong>en</strong>hang<strong>en</strong>d probleem van CBT-exam<strong>en</strong>s rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde heeft te mak<strong>en</strong> met de<br />

bezorgdheid van kandidat<strong>en</strong> dat de scoringsprogrammatuur onvoldo<strong>en</strong>de recht doet aan hun k<strong>en</strong>n<strong>is</strong><br />

<strong>en</strong> vaardighed<strong>en</strong> (o.a. McGuire & Johnson, 2002). In e<strong>en</strong> exam<strong>en</strong> rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde moet<strong>en</strong><br />

kandidat<strong>en</strong> doorgaans iets uitrek<strong>en</strong><strong>en</strong> <strong>en</strong> hun antwoord in de vorm van e<strong>en</strong> getal of e<strong>en</strong> formule aan<br />

<strong>het</strong> papier toevertrouw<strong>en</strong> of in de computer invoer<strong>en</strong>. Bij CBT-examinering van rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde<br />

mak<strong>en</strong> kandidat<strong>en</strong> zich zorg<strong>en</strong> over de volg<strong>en</strong>de problem<strong>en</strong> die niet of in mindere mate <strong>op</strong>tred<strong>en</strong> bij<br />

m<strong>en</strong>selijke beoordeling van antwoord<strong>en</strong> <strong>op</strong> papier (McGuire & Johnson, 2002):<br />

<br />

<br />

<br />

<br />

<br />

de computer interpreteert e<strong>en</strong> ingevoerd getal of e<strong>en</strong> ingevoerde formule <strong>op</strong> e<strong>en</strong> andere manier<br />

dan de kandidaat bedoeld heeft;<br />

de computer rek<strong>en</strong>t e<strong>en</strong> goed antwoord fout omdat <strong>het</strong> in <strong>het</strong> verkeerde format gegev<strong>en</strong> <strong>is</strong>;<br />

de computer herk<strong>en</strong>t e<strong>en</strong> ju<strong>is</strong>te numerieke b<strong>en</strong>adering niet als e<strong>en</strong> goed antwoord;<br />

er zijn meer goede antwoord<strong>en</strong> mogelijk, maar de computer herk<strong>en</strong>t er slechts één als ju<strong>is</strong>t;<br />

de computer rek<strong>en</strong>t gedeeltelijk goede antwoord<strong>en</strong> helemaal fout.<br />

Resultat<strong>en</strong>: reviews <strong>en</strong> meta-analyses<br />

Mazzeo and Harvey (1988)<br />

In hun review verwijz<strong>en</strong> Mazzeo and Harvey (1988) naar onderzoek waarbij de door de computer<br />

gelez<strong>en</strong> antwoord<strong>en</strong> werd<strong>en</strong> vergelek<strong>en</strong> met de antwoord<strong>en</strong> <strong>op</strong> papier. De computer bleek lang niet<br />

alle ingevoerde antwoord<strong>en</strong> correct te lez<strong>en</strong>. Ook Bunderson et al. (1989) wijz<strong>en</strong> er in hun review <strong>op</strong><br />

dat de relatief hoge scores <strong>op</strong> PPT mede veroorzaakt word<strong>en</strong> doordat de computer ju<strong>is</strong>te<br />

antwoord<strong>en</strong> van kandidat<strong>en</strong> t<strong>en</strong> onrechte als fout interpreteert. Hierna besprek<strong>en</strong> we de resultat<strong>en</strong><br />

van <strong>en</strong>kele studies waarin geprobeerd <strong>is</strong> de invoerproblematiek van CBT te minimal<strong>is</strong>er<strong>en</strong>.<br />

Resultat<strong>en</strong>: individuele studies<br />

Beevers, McGuire, Stirling <strong>en</strong> Wild (1995)<br />

In e<strong>en</strong> van de eerste experim<strong>en</strong>t<strong>en</strong> met geautomat<strong>is</strong>eerde partial credit scoring in e<strong>en</strong> CBT w<strong>is</strong>kunde<br />

via de Steps-methode (zie paragraaf 3.2) probeerd<strong>en</strong> Beevers et al. (1995) ook e<strong>en</strong> <strong>op</strong>lossing te<br />

vind<strong>en</strong> voor <strong>het</strong> probleem van <strong>wat</strong> zij de m<strong>is</strong>match tuss<strong>en</strong> antwoord<strong>en</strong> <strong>op</strong> <strong>het</strong> beeldscherm versus <strong>op</strong><br />

papier noem<strong>en</strong>. Aanleiding tot deze deelstudie was dat leerling<strong>en</strong> vaak bezorgd zijn over <strong>het</strong><br />

gegev<strong>en</strong> dat zij <strong>het</strong> invoer<strong>en</strong> van hun antwoord<strong>en</strong> syntact<strong>is</strong>che fout<strong>en</strong> mak<strong>en</strong> <strong>en</strong> dan niet in de gat<strong>en</strong><br />

hebb<strong>en</strong> dat de computer hun antwoord verkeerd interpreteert. Het probleem van de m<strong>is</strong>match<br />

tuss<strong>en</strong> antwoord<strong>en</strong> <strong>op</strong> <strong>het</strong> beeldscherm versus <strong>op</strong> paper werd aangepakt door e<strong>en</strong> Input Tool in de<br />

CBT in te bouw<strong>en</strong>. Deze <strong>op</strong>tionele tool liet de ingevoerde input - bijvoorbeeld e<strong>en</strong> antwoord met e<strong>en</strong><br />

breuk of machtsverheff<strong>en</strong> - <strong>op</strong>nieuw zi<strong>en</strong>, maar dan in e<strong>en</strong> w<strong>is</strong>kundige notatie die vergelijkbaar was<br />

met de manier waar<strong>op</strong> de stud<strong>en</strong>t de input <strong>op</strong> papier zou hebb<strong>en</strong> g<strong>en</strong>oteerd. Zo vere<strong>is</strong>te <strong>het</strong><br />

scoringsalgoritme <strong>het</strong> plaatst<strong>en</strong> van haakjes rond <strong>het</strong> argum<strong>en</strong>t van functies (Engels: the argum<strong>en</strong>t of<br />

functions). Het ju<strong>is</strong>te antwoord ‘de sinus van 2x’, dat e<strong>en</strong> m<strong>en</strong>selijke beoordelaar (gedeeltelijk) goed<br />

zou rek<strong>en</strong><strong>en</strong>, moest bijvoorbeeld word<strong>en</strong> ingetypt als ‘sin(2x)’ <strong>en</strong> niet als ‘sin 2x’. Om dit probleem<br />

<strong>op</strong> te loss<strong>en</strong>, gaf de Input Tool dan de foutmelding dat de uitdrukking verkeerd geformuleerd was.<br />

Vrijwel alle stud<strong>en</strong>t<strong>en</strong> blek<strong>en</strong> de Input Tool te gebruik<strong>en</strong>, waardoor hun bezorgdheid aanzi<strong>en</strong>lijk<br />

afnam.<br />

© Stichting Cito, Arnhem 2015 35


Beevers, Youngson, McGuire, Wild <strong>en</strong> Fiddes (1999)<br />

In de lo<strong>op</strong> der jar<strong>en</strong> <strong>is</strong> de Input Tool <strong>op</strong> bas<strong>is</strong> van onderzoek bij kandidat<strong>en</strong> aanzi<strong>en</strong>lijk verbeterd.<br />

M<strong>is</strong>interpretaties tuss<strong>en</strong> kandidaat <strong>en</strong> computer zijn verder geminimal<strong>is</strong>eerd. In e<strong>en</strong><br />

vervolgpublicatie beschrijv<strong>en</strong> Beevers et al. (1999) e<strong>en</strong> syntax checker die kandidat<strong>en</strong> ondersteunt bij<br />

<strong>het</strong> vorm<strong>en</strong> van betek<strong>en</strong><strong>is</strong>volle w<strong>is</strong>kundige uitdrukking<strong>en</strong> (Engels: meaningful expressions). De tool<br />

bevat ook e<strong>en</strong> dynam<strong>is</strong>ch d<strong>is</strong>play die de kandidaat onmiddellijk feedback geeft over hoe de computer<br />

<strong>het</strong> ingevoerde antwoord interpreteert. Als <strong>het</strong> antwoord dicht teg<strong>en</strong> <strong>het</strong> goede antwoord aanzit<br />

maar niet de vere<strong>is</strong>te vorm heeft, kan de leerling toch deelscores verdi<strong>en</strong><strong>en</strong>. Hoe dat in zijn werk<br />

gaat, wordt duidelijk uit <strong>het</strong> volg<strong>en</strong>de voorbeeld (zie voor meer voorbeeld<strong>en</strong>: Beevers et al. , 1999).<br />

Als <strong>het</strong> toegestane antwoord <strong>op</strong> e<strong>en</strong> vraag ½ <strong>is</strong> maar de leerling heeft 0.5 ingetypt, geeft de<br />

computer - als de leerling de Input Tool heeft aangezet - de boodschap ‘Je antwoord <strong>is</strong> goed, maar<br />

heeft de verkeerde vorm; geef je antwoord als e<strong>en</strong> breuk - 50% aftrek’. Leerling<strong>en</strong> blijk<strong>en</strong> de<br />

toeg<strong>en</strong>om<strong>en</strong> flexibiliteit bijzonder <strong>op</strong> prijs te stell<strong>en</strong>, terwijl hun toetsangst daardoor afneemt.<br />

Ashton, Beevers, Korabinski, Youngson <strong>en</strong> Martin (2006)<br />

E<strong>en</strong> van de doel<strong>en</strong> van <strong>het</strong> onderzoek van Ashton, Beevers, Korabinski, Youngson <strong>en</strong> Martin (2006)<br />

was <strong>het</strong> vind<strong>en</strong> van e<strong>en</strong> manier om invoerfout<strong>en</strong> in e<strong>en</strong> CBT te beperk<strong>en</strong> door de kandidaat<br />

onmiddellijke feedback te gev<strong>en</strong> <strong>op</strong> <strong>het</strong> ingevoerde antwoord. Aanleiding was de observatie dat veel<br />

foute antwoord<strong>en</strong> in e<strong>en</strong> traditionele CBT <strong>het</strong> gevolg zijn van kleine rek<strong>en</strong>- of slordigheidsfoutjes die<br />

in e<strong>en</strong> PPT nauwelijks tot punt<strong>en</strong>aftrek geleid zoud<strong>en</strong> hebb<strong>en</strong>. E<strong>en</strong> voorbeeld <strong>is</strong> <strong>het</strong> <strong>op</strong> zich ju<strong>is</strong>te<br />

antwoord tw<strong>en</strong>ty one and a third waarbij de kandidat<strong>en</strong> niet altijd w<strong>is</strong>t<strong>en</strong> hoe zij de breuk (Engels:<br />

fractional part) moest<strong>en</strong> invoer<strong>en</strong> <strong>op</strong>dat de computer deze zou herk<strong>en</strong>n<strong>en</strong>. Door de kandidaat<br />

hier<strong>op</strong> te att<strong>en</strong>der<strong>en</strong>, zou deze de kans krijg<strong>en</strong> om de fout te tracer<strong>en</strong> <strong>en</strong> <strong>het</strong> foute antwoord door<br />

<strong>het</strong> goede te vervang<strong>en</strong>.<br />

De onderzoekers ontwikkeld<strong>en</strong> e<strong>en</strong> zog<strong>en</strong>oemde T-versie van <strong>het</strong> exam<strong>en</strong> waarbij de feedback werd<br />

gegev<strong>en</strong> in de vorm van vinkjes <strong>en</strong> kru<strong>is</strong>jes (Engels: ticks and crosses) voor respectievelijk e<strong>en</strong> goed<br />

<strong>en</strong> e<strong>en</strong> fout antwoord. De gemiddelde scores <strong>op</strong> deze T-versie <strong>verschil</strong>de niet van die <strong>op</strong> de beide<br />

andere versies: Compulsory Steps (CS) <strong>en</strong> Optional Steps (OS). Zie de bespreking van de resultat<strong>en</strong><br />

met betrekking tot <strong>het</strong> effect van <strong>het</strong> al dan niet toek<strong>en</strong>n<strong>en</strong> van partial credit in paragraaf 3.2.<br />

De onderzoekers bestudeerd<strong>en</strong> ook <strong>het</strong> aantal verbeterpoging<strong>en</strong> bij de T-versie waarbij de<br />

kandidat<strong>en</strong> feedback kreg<strong>en</strong> in de vorm van vinkjes <strong>en</strong> kru<strong>is</strong>jes. De uitkomst<strong>en</strong> gav<strong>en</strong> aldus de<br />

onderzoekers aanleiding tot twijfel aan de validiteit van de meting met de T-versie. Het was de<br />

bedoeling dat de feedback kandidat<strong>en</strong> zou att<strong>en</strong>der<strong>en</strong> <strong>op</strong> kleine rek<strong>en</strong>foutjes die zij dan vervolg<strong>en</strong>s<br />

kond<strong>en</strong> herstell<strong>en</strong>. In de T-versie blek<strong>en</strong> de kandidat<strong>en</strong> nog steeds rek<strong>en</strong>foutjes te mak<strong>en</strong>, ook al<br />

war<strong>en</strong> dat er minder dan bij de S-versie (CBT met steps). Wel roep<strong>en</strong> de resultat<strong>en</strong> volg<strong>en</strong>s de<br />

onderzoekers de vraag <strong>op</strong> <strong>wat</strong> er in hoofd<strong>en</strong> van de kandidat<strong>en</strong> omging als zij met e<strong>en</strong> kru<strong>is</strong>je<br />

geconfronteerd werd<strong>en</strong> <strong>en</strong> beslot<strong>en</strong> door te gaan met de volg<strong>en</strong>de vraag of <strong>het</strong> volg<strong>en</strong>de onderdeel<br />

van de vraag. Anders dan de bedoeling was, war<strong>en</strong> er kandidat<strong>en</strong> die zeer veel poging<strong>en</strong><br />

ondernam<strong>en</strong> om e<strong>en</strong> deel van de vraag te verbeter<strong>en</strong>. De onderzoekers acht<strong>en</strong> <strong>het</strong> aannemelijk dat<br />

deze kandidat<strong>en</strong> gokgedrag vertoond<strong>en</strong> in de zin dat zij herhaaldelijk probeerd<strong>en</strong> <strong>het</strong> antwoord te<br />

verbeter<strong>en</strong> zonder inzicht in de aard van de fout. Zij <strong>op</strong>per<strong>en</strong> dat <strong>het</strong> gev<strong>en</strong> van feedback <strong>op</strong> de<br />

ju<strong>is</strong>theid van <strong>het</strong> antwoord mogelijk meer geschikt <strong>is</strong> voor formatieve dan voor summatieve<br />

evaluatie.<br />

© Stichting Cito, Arnhem 2015 36


Voor de onderzoekers war<strong>en</strong> de resultat<strong>en</strong> met de T-versie aanleiding om e<strong>en</strong> aantal verbetering<strong>en</strong><br />

in <strong>het</strong> exam<strong>en</strong> aan te br<strong>en</strong>g<strong>en</strong>. E<strong>en</strong> verbetering was dat kandidaat, na <strong>het</strong> antwoord ingevoerd te<br />

hebb<strong>en</strong>, twee weergaves van zijn of haar antwoord te zi<strong>en</strong> krijgt (gepositioneerd onder <strong>het</strong> invoervak<br />

waarin zij hun antwoord noteerd<strong>en</strong>). De eerste weergave laat <strong>het</strong> antwoord zi<strong>en</strong> in dezelfde vorm als<br />

waarin zij <strong>het</strong> hebb<strong>en</strong> ingetypt. De tweede weergave laat <strong>het</strong> antwoord zi<strong>en</strong> zoals de kandidaat dat<br />

normaal gesprok<strong>en</strong> <strong>op</strong> papier zou hebb<strong>en</strong> gegev<strong>en</strong>. Deze zog<strong>en</strong>oemde r<strong>en</strong>dered form <strong>is</strong> veel meer<br />

vertrouwd <strong>en</strong> gebruikelijk dan <strong>wat</strong> zij <strong>op</strong> <strong>het</strong> beeldscherm <strong>op</strong> één regel moet<strong>en</strong> intyp<strong>en</strong>. De tweede<br />

weergave laat zi<strong>en</strong> hoe de computer <strong>het</strong> antwoord geïnterpreteerd heeft. En als die interpretatie<br />

afwijkt van <strong>wat</strong> de kandidaat had will<strong>en</strong> invoer<strong>en</strong>, kan hij of zij <strong>het</strong> antwoord gemakkelijker<br />

verbeter<strong>en</strong>.<br />

Als tweede verbetering stell<strong>en</strong> de onderzoekers voor <strong>het</strong> maximale aantal verbeterpoging<strong>en</strong> te<br />

beperk<strong>en</strong> tot bijvoorbeeld maximaal twee. Zij wijz<strong>en</strong> er<strong>op</strong> dat dit tot nieuwe problem<strong>en</strong> kan leid<strong>en</strong>.<br />

Het komt bijvoorbeeld vaak voor dat kandidat<strong>en</strong> per ongeluk twee keer <strong>op</strong> e<strong>en</strong> icoontje klikk<strong>en</strong> <strong>wat</strong><br />

dan als twee poging<strong>en</strong> zou tell<strong>en</strong>. Hier <strong>is</strong> nader onderzoek gebod<strong>en</strong>. De onderzoekers verwacht<strong>en</strong> de<br />

geconstateerde invoerproblem<strong>en</strong> in de toekomst grot<strong>en</strong>deels te kunn<strong>en</strong> <strong>op</strong>loss<strong>en</strong>. Echter, net als er<br />

bij e<strong>en</strong> PPT altijd m<strong>is</strong>prints zull<strong>en</strong> voorkom<strong>en</strong>, zull<strong>en</strong> invoerfout<strong>en</strong> bij e<strong>en</strong> CBT nooit helemaal<br />

vermed<strong>en</strong> kunn<strong>en</strong> word<strong>en</strong>.<br />

Passmore, Brookshaw <strong>en</strong> Butler (2011)<br />

Passmore, Brookshaw <strong>en</strong> Butler (2011) ontwikkeld<strong>en</strong> e<strong>en</strong> online systeem voor <strong>het</strong> toets<strong>en</strong> van de<br />

vaardighed<strong>en</strong> van eerstejaars stud<strong>en</strong>t<strong>en</strong> in ‘algebra and calculus’. Om de antwoord<strong>en</strong> - algebraïsche<br />

input - in te voer<strong>en</strong>, hoefd<strong>en</strong> de stud<strong>en</strong>t<strong>en</strong> niet eerst e<strong>en</strong> programmeertaal te ler<strong>en</strong> of ingewikkelde<br />

invoerinstructies te bestuder<strong>en</strong>. De stud<strong>en</strong>t<strong>en</strong> gav<strong>en</strong> hun antwoord<strong>en</strong> volg<strong>en</strong>s de gebruikelijke<br />

w<strong>is</strong>kundige notatiewijz<strong>en</strong> <strong>en</strong> conv<strong>en</strong>ties. Passmore, Brookshaw <strong>en</strong> Butler (2011) ontwikkeld<strong>en</strong> e<strong>en</strong><br />

zog<strong>en</strong>oemd computer algebra system (CAS) waarmee de antwoord<strong>en</strong> werd<strong>en</strong> vergelek<strong>en</strong> met<br />

bek<strong>en</strong>de antwoord<strong>en</strong>, de input zo nodig ontleed werd om de k<strong>en</strong>merk<strong>en</strong> ervan nader te bepal<strong>en</strong> <strong>en</strong><br />

de antwoord<strong>en</strong> automat<strong>is</strong>ch gescoord werd<strong>en</strong>. De invoer via <strong>het</strong> toets<strong>en</strong>bord gebeurde in grote<br />

lijn<strong>en</strong> volg<strong>en</strong>s de informele syntax van Sangwin <strong>en</strong> Ramsd<strong>en</strong> (2007) die, aldus de onderzoekers, de<br />

gebruikelijke w<strong>is</strong>kunde notitiewijz<strong>en</strong> <strong>en</strong> conv<strong>en</strong>ties dicht b<strong>en</strong>aderde. Het CAS gaf feedback aan de<br />

hand waarvan de stud<strong>en</strong>t <strong>het</strong> antwoord kon controler<strong>en</strong> alvor<strong>en</strong>s <strong>het</strong> definitief te verstur<strong>en</strong>. E<strong>en</strong><br />

voorbeeld van e<strong>en</strong> syntact<strong>is</strong>che hint <strong>is</strong>: “A simple solution of the form x/y <strong>is</strong> expected. If you don’t<br />

supply a simple solution it will be marked incorrect” (p. 809). Het systeem voorzag ook in partial<br />

credit scoring (zie ook paragraaf 3.2).<br />

Als voordel<strong>en</strong> noem<strong>en</strong> de auteurs de efficiëntie <strong>en</strong> de snelle feedback voor stud<strong>en</strong>t<strong>en</strong> <strong>en</strong><br />

onderwijspersoneel. Stud<strong>en</strong>t<strong>en</strong> hadd<strong>en</strong> ge<strong>en</strong> klacht<strong>en</strong> over <strong>het</strong> systeem, maar sommig<strong>en</strong> war<strong>en</strong> toch<br />

nog bang dat de computer hun antwoord vanwege e<strong>en</strong> syntaxprobleem fout zou rek<strong>en</strong><strong>en</strong> (zelfs als<br />

ander onderzoek uitwees dat zij e<strong>en</strong> w<strong>is</strong>kundige fout gemaakt hadd<strong>en</strong>). Passmore, Brookshaw <strong>en</strong><br />

Butler (2011) meld<strong>en</strong> dat <strong>het</strong> perc<strong>en</strong>tage syntact<strong>is</strong>che fout<strong>en</strong> werd teruggebracht tot ongeveer 5%<br />

<strong>en</strong> dat dit minder <strong>is</strong> dan de 18% uit <strong>het</strong> onderzoek van Sangwin <strong>en</strong> Ramsd<strong>en</strong> (2007).<br />

De onderzoekers rapporter<strong>en</strong> ook <strong>en</strong>kele problem<strong>en</strong>, zoals <strong>het</strong> ontwikkel<strong>en</strong> <strong>en</strong> uittest<strong>en</strong> van goede<br />

vrag<strong>en</strong>, <strong>het</strong> specificer<strong>en</strong> van de bijbehor<strong>en</strong>de informele syntax <strong>en</strong> <strong>het</strong> gegev<strong>en</strong> dat “no system can<br />

handle perfectly all the possible answers that stud<strong>en</strong>ts may give to any question“ (p. 902).<br />

Het onderzoek van Passmore, Brookshaw <strong>en</strong> Butler (2011) <strong>is</strong> slechts één van de vele<br />

ontwerponderzoek<strong>en</strong> waarbij geprobeerd <strong>is</strong> programmatuur te ontwikkel<strong>en</strong> die overweg kan met<br />

© Stichting Cito, Arnhem 2015 37


antwoord<strong>en</strong> <strong>op</strong> andere vrag<strong>en</strong> dan meerkeuzevrag<strong>en</strong> <strong>en</strong> dan vrag<strong>en</strong> waarbij e<strong>en</strong> exacte match met<br />

<strong>het</strong> gegev<strong>en</strong> numerieke antwoord vere<strong>is</strong>t <strong>is</strong>. In <strong>het</strong> kader van onze kortdur<strong>en</strong>de studie <strong>is</strong> <strong>het</strong> helaas<br />

niet mogelijk om de vele uitgevoerde ontwerponderzoek<strong>en</strong> te tracer<strong>en</strong>, te bestuder<strong>en</strong> <strong>en</strong> sam<strong>en</strong> te<br />

vatt<strong>en</strong>.<br />

© Stichting Cito, Arnhem 2015 38


4 Conclusies<br />

In <strong>het</strong> voorgaande <strong>is</strong> verslag gedaan van de uitkomst<strong>en</strong> van e<strong>en</strong> kortdur<strong>en</strong>de literatuurstudie naar<br />

<strong>het</strong> effect van de afnamemodus (papier versus digitaal) <strong>op</strong> de hoogte van de prestaties <strong>op</strong> onder<br />

meer rek<strong>en</strong>-w<strong>is</strong>kundetoets<strong>en</strong>. Er blijk<strong>en</strong> vele honderd<strong>en</strong> studies te zijn uitgevoerd waarin de<br />

prestaties <strong>op</strong> PPT <strong>en</strong> CBT met elkaar word<strong>en</strong> vergelek<strong>en</strong>. De resultat<strong>en</strong> van dit onderzoek blijk<strong>en</strong><br />

sterk te variër<strong>en</strong> al naar gelang <strong>het</strong> vakgebied, de specifieke toets of exam<strong>en</strong>, <strong>het</strong> vraagtype, <strong>het</strong><br />

afnamesysteem <strong>en</strong> k<strong>en</strong>merk<strong>en</strong> van de p<strong>op</strong>ulatie. De overgrote meerderheid van de studies naar<br />

rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde zijn uitgevoerd met uitsluit<strong>en</strong>d meerkeuzetoets<strong>en</strong> (in low-stakes settings).<br />

Vergelijkingsstudies naar mogelijk differ<strong>en</strong>tiële effect<strong>en</strong> van partial credit scoring, <strong>het</strong> gebruik van<br />

kladpapier <strong>en</strong> de invoer van de antwoord<strong>en</strong> (beeldscherm versus papier) zijn nog nauwelijks<br />

uitgevoerd. De methodolog<strong>is</strong>che zuiverheid van deze studies laat bov<strong>en</strong>di<strong>en</strong> vaak sterk te w<strong>en</strong>s<strong>en</strong><br />

over. Met dit in ons achterhoofd vatt<strong>en</strong> we hieronder de belangrijkste conclusies van de<br />

literatuurstudie sam<strong>en</strong>.<br />

Het effect van de afnamemodus <strong>op</strong> de prestaties<br />

De eerste onderzoeksvraag luidde: “Wat <strong>is</strong> er bek<strong>en</strong>d over <strong>het</strong> effect van de afnamemodus <strong>op</strong> de<br />

hoogte van de prestaties van de kandidat<strong>en</strong>?”. Omdat <strong>het</strong> aantal uitgevoerde studies zeer groot was,<br />

hebb<strong>en</strong> we geprobeerd deze vraag te beantwoord<strong>en</strong> aan de hand van e<strong>en</strong> beperkt aantal verhal<strong>en</strong>de<br />

reviews <strong>en</strong> meta-analyses (Mazzeo & Harvey, 1988; Bunderson, Inouye & Ols<strong>en</strong>, 1989; W<strong>is</strong>e & Plake,<br />

1989; Bergstrom, 1992; Dillon, 1992; Mead <strong>en</strong> Drasgow, 1993; Kim, 1999; Russell, Goldberg &<br />

O’Connor, 2003; Paek, 2005; Gaskill & Marshall; 2006; Wang, Jiao, Young, Brooks & Olson, 2007;<br />

Texas Education Ag<strong>en</strong>cy, 2008; Kingston, 2009). De belangrijkste conclusies met betrekking tot de<br />

eerste onderzoeksvraag kunn<strong>en</strong> als volgt word<strong>en</strong> sam<strong>en</strong>gevat:<br />

<br />

<br />

<br />

de uitkomst<strong>en</strong> bij <strong>het</strong> vakgebied w<strong>is</strong>kunde gev<strong>en</strong> weinig aanleiding om e<strong>en</strong> sterk effect van de<br />

afnamemodus <strong>op</strong> de prestaties te veronderstell<strong>en</strong>; de gemiddelde effectgrootte van <strong>het</strong><br />

gemiddeld prestatie<strong>verschil</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT <strong>is</strong> meestal (verwaarloosbaar) klein <strong>en</strong> de spreiding<br />

van de effectgroottes <strong>is</strong> w<strong>is</strong>sel<strong>en</strong>d (in de <strong>en</strong>e review of meta-analyse <strong>wat</strong> groter dan in de<br />

andere);<br />

als er bij rek<strong>en</strong><strong>en</strong>-w<strong>is</strong>kunde e<strong>en</strong> significant moduseffect <strong>op</strong> de hoogte van de prestaties<br />

gevond<strong>en</strong> wordt, <strong>is</strong> dat veel vaker in <strong>het</strong> voordeel van PPT dan van CBT;<br />

<strong>het</strong> effect van de afnamemodus <strong>is</strong> sterk afhankelijk van <strong>het</strong> itemtype; er <strong>is</strong> nog weinig<br />

vergelijkingsonderzoek gedaan met andere vraagtyp<strong>en</strong> dan meerkeuzevrag<strong>en</strong>, maar de eerste<br />

resultat<strong>en</strong> lijk<strong>en</strong> er<strong>op</strong> te wijz<strong>en</strong> dat moduseffect<strong>en</strong> bij meerkeuzevrag<strong>en</strong> kleiner zijn dan bij<br />

andere itemtyp<strong>en</strong>.<br />

Het toek<strong>en</strong>n<strong>en</strong> van partial credit aan antwoord<strong>en</strong><br />

De tweede onderzoeksvraag bestond uit twee del<strong>en</strong>:<br />

<br />

<br />

In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met <strong>het</strong> al dan niet<br />

toek<strong>en</strong>n<strong>en</strong> van deelscores (partial credit) aan gedeeltelijk goede antwoord<strong>en</strong>?<br />

In hoeverre <strong>is</strong> <strong>het</strong> teg<strong>en</strong>woordig mogelijk om de resultat<strong>en</strong> van de leerling<strong>en</strong> <strong>op</strong> e<strong>en</strong> CBT-exam<strong>en</strong><br />

<strong>op</strong> e<strong>en</strong>zelfde manier te beoordel<strong>en</strong> als de gebruikelijke partial credit beoordeling in e<strong>en</strong> PPTexam<strong>en</strong><br />

door beoordelaars.<br />

© Stichting Cito, Arnhem 2015 39


De belangrijkste resultat<strong>en</strong> van de gevond<strong>en</strong> studies kunn<strong>en</strong> we als volgt sam<strong>en</strong>vatt<strong>en</strong>:<br />

<br />

<br />

<br />

Onder constant houding van de maximumscore (<strong>en</strong> <strong>het</strong> antwoordmodel) zou partial credit<br />

scoring waarbij gedeeltelijk goede antwoord<strong>en</strong> extra punt<strong>en</strong> <strong>op</strong>lever<strong>en</strong> log<strong>is</strong>cherwijs tot hogere<br />

scores moet<strong>en</strong> leid<strong>en</strong> dan alles-of-niets scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord. Niet verrass<strong>en</strong>d<br />

blijkt geautomat<strong>is</strong>eerde partial credit scoring te resulter<strong>en</strong> in hogere scores dan<br />

geautomat<strong>is</strong>eerde alles-of-niets scoring van alle<strong>en</strong> <strong>het</strong> eindantwoord. Dat <strong>het</strong> perc<strong>en</strong>tage goed<br />

<strong>op</strong> <strong>het</strong> exam<strong>en</strong> door <strong>het</strong> toek<strong>en</strong>n<strong>en</strong> van deelscores hoger wordt, betek<strong>en</strong>t natuurlijk niet dat de<br />

kandidat<strong>en</strong> dan vaardiger zijn geword<strong>en</strong>. Het betek<strong>en</strong>t wel dat de resultat<strong>en</strong> <strong>op</strong> <strong>het</strong> exam<strong>en</strong><br />

minder snel als teg<strong>en</strong>vall<strong>en</strong>d geïnterpreteerd zull<strong>en</strong> word<strong>en</strong>.<br />

De laatste dertig jaar <strong>is</strong> er ervaring <strong>op</strong>gedaan met CBT waarbij <strong>op</strong>tionele stapsgewijze bevraging<br />

wordt gecombineerd met geautomat<strong>is</strong>eerde scoring van gedeeltelijk goede antwoord<strong>en</strong>. Het<br />

blijkt mogelijk om de ‘gewone’ arbeidsint<strong>en</strong>sieve PPT-beoordeling met deelscores in e<strong>en</strong><br />

automat<strong>is</strong>ch gescoorde CBT met <strong>op</strong>tionele Steps na te boots<strong>en</strong> De resultat<strong>en</strong> wijz<strong>en</strong> er<strong>op</strong> dat<br />

deze nieuwe manier van examinering tot scores leidt die vergelijkbaar zijn met de gebruikelijke<br />

partial credit scoring van <strong>op</strong> papier gegev<strong>en</strong> antwoord<strong>en</strong> door m<strong>en</strong>selijke beoordelaars.<br />

Stapsgewijze bevraging leidt tot e<strong>en</strong> to<strong>en</strong>ame van de afnametijd.<br />

Mogelijkhed<strong>en</strong> van item review<br />

In hoeverre hang<strong>en</strong> ev<strong>en</strong>tuele prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT sam<strong>en</strong> met de <strong>verschil</strong>l<strong>en</strong>de<br />

mogelijkhed<strong>en</strong> tot item review? Onder item review wordt verstaan a) <strong>het</strong> overslaan van vrag<strong>en</strong> om<br />

deze later te beantwoord<strong>en</strong>, b) <strong>het</strong> bekijk<strong>en</strong> van eerder gegev<strong>en</strong> antwoord<strong>en</strong> <strong>en</strong> c) <strong>het</strong> verander<strong>en</strong><br />

van eerder gegev<strong>en</strong> antwoord<strong>en</strong> (W<strong>is</strong>e & Plake, 1989). Anders dan PPT biedt de eerste-g<strong>en</strong>eratie CBT<br />

ge<strong>en</strong> mogelijkhed<strong>en</strong> tot item review. De belangrijkste conclusies van <strong>het</strong> gevond<strong>en</strong> onderzoek<br />

kunn<strong>en</strong> als volgt word<strong>en</strong> sam<strong>en</strong>gevat:<br />

<br />

<br />

<br />

<br />

onderzoek met <strong>papier<strong>en</strong></strong> toets<strong>en</strong> laat zi<strong>en</strong> dat veel leerling<strong>en</strong> gebruik mak<strong>en</strong> van item review,<br />

maar dat slechts e<strong>en</strong> klein deel van de antwoord<strong>en</strong> daadwerkelijk gewijzigd wordt; <strong>en</strong> als er e<strong>en</strong><br />

antwoord gewijzigd wordt, <strong>is</strong> dat veel vaker van fout naar goed dan van goed naar fout; item<br />

review heeft hiermee e<strong>en</strong> (klein) positief effect <strong>op</strong> de prestaties;<br />

er <strong>is</strong> onvoldo<strong>en</strong>de evid<strong>en</strong>tie gevond<strong>en</strong> om de vraag naar <strong>het</strong> ev<strong>en</strong>tueel <strong>verschil</strong>l<strong>en</strong>d gebruik van<br />

item review in PPT <strong>en</strong> moderne CBT met mogelijkhed<strong>en</strong> van itemreview e<strong>en</strong>duidig te kunn<strong>en</strong><br />

beantwoord<strong>en</strong>;<br />

als reguliere PPT <strong>en</strong> modernere CBT vergelijkbare mogelijkhed<strong>en</strong> tot item review bied<strong>en</strong>, leidt<br />

dat doorgaans tot vergelijkbare resultat<strong>en</strong>;<br />

item review leidt tot e<strong>en</strong> aanzi<strong>en</strong>lijke to<strong>en</strong>ame van de afnametijd.<br />

Gebruik van kladpapier<br />

De vierde onderzoeksvraag betrof <strong>het</strong> ev<strong>en</strong>tueel <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier in PPT <strong>en</strong> CBT<br />

<strong>en</strong> <strong>het</strong> differ<strong>en</strong>tiële effect daarvan <strong>op</strong> de prestaties. De veronderstelling bij CBT minder kandidat<strong>en</strong><br />

van kladpapier gebruik mak<strong>en</strong> dan bij PPT. Hiermee sam<strong>en</strong>hang<strong>en</strong>d zoud<strong>en</strong> kandidat<strong>en</strong> bij CBT vaker<br />

van m<strong>en</strong>tale <strong>op</strong>lossingsstrategieën (‘uit <strong>het</strong> hoofd’) gebruik<strong>en</strong> t<strong>en</strong> koste van schriftelijke<br />

<strong>op</strong>lossingsstrategieën (‘<strong>op</strong> papier’). Onderzoek suggereert dat m<strong>en</strong>tale <strong>op</strong>lossingsstrategieën<br />

doorgaans minder effectief zijn dan schriftelijke <strong>op</strong>lossingsstrategieën. De resultat<strong>en</strong> van e<strong>en</strong> nog<br />

zeer beperkt aantal gevond<strong>en</strong> studies naar <strong>het</strong> mogelijk <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier in PPT <strong>en</strong><br />

CBT <strong>en</strong> <strong>het</strong> effect daarvan <strong>op</strong> de prestaties kunn<strong>en</strong> als volgt word<strong>en</strong> sam<strong>en</strong>gevat:<br />

© Stichting Cito, Arnhem 2015 40


<strong>wat</strong> betreft de vraag of kandidat<strong>en</strong> bij CBT meer of minder gebruik mak<strong>en</strong> van kladpapier dan bij<br />

PPT geeft <strong>het</strong> gevond<strong>en</strong> onderzoek teg<strong>en</strong>strijdige resultat<strong>en</strong> te zi<strong>en</strong>;<br />

echter, als gevond<strong>en</strong> wordt dat kandidat<strong>en</strong> bij CBT minder gebruik mak<strong>en</strong> van kladpapier dan bij<br />

PPT, heeft dat e<strong>en</strong> hooguit zwak negatief effect <strong>op</strong> de prestaties; bij CBT lijk<strong>en</strong> kandidat<strong>en</strong> dan<br />

<strong>wat</strong> vaker minder effectieve m<strong>en</strong>tale <strong>op</strong>lossingsstrategieën te gebruik<strong>en</strong> <strong>en</strong> <strong>wat</strong> minder vaak<br />

schriftelijke <strong>op</strong>lossingsstrategieën;<br />

ev<strong>en</strong>tuele negatieve effect<strong>en</strong> van <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier zijn mogelijk<br />

afhankelijk van de specifieke rek<strong>en</strong>vaardigheid (bij bewerking<strong>en</strong> <strong>en</strong> bij geometr<strong>is</strong>che relaties <strong>en</strong><br />

ruimtelijk red<strong>en</strong>er<strong>en</strong> groter dan bij andere rek<strong>en</strong>vaardighed<strong>en</strong>) <strong>en</strong> de sekse van de leerling (bij<br />

jong<strong>en</strong>s groter dan bij me<strong>is</strong>jes).<br />

Deze conclusies omtr<strong>en</strong>t <strong>het</strong> gebruik van kladpapier moet<strong>en</strong> als zeer voorl<strong>op</strong>ig word<strong>en</strong> beschouwd.<br />

Enerzijds omdat de literatuur search in dit geval verre van systemat<strong>is</strong>ch was waardoor <strong>het</strong><br />

waarschijnlijk <strong>is</strong> dat relevante studies over <strong>het</strong> hoofd zijn gezi<strong>en</strong>. Anderzijds omdat er nog maar<br />

weinig onderzoek lijkt te zijn gedaan waarin <strong>het</strong> <strong>verschil</strong>l<strong>en</strong>d gebruik van kladpapier <strong>op</strong> systemat<strong>is</strong>che<br />

wijze in verband wordt gebracht met prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT. Zeldzaam lijk<strong>en</strong> met<br />

name studies waarin <strong>het</strong> differ<strong>en</strong>tieel effect van kladpapier <strong>op</strong> de prestaties nauwkeurig<br />

gekwantificeerd wordt. Nog zeldzamer lijk<strong>en</strong> methodolog<strong>is</strong>ch zuivere studies waarin<br />

onderzoeksontwerp <strong>en</strong> instrum<strong>en</strong>tatie <strong>het</strong> toelat<strong>en</strong> om <strong>het</strong> effect van kladpapier systemat<strong>is</strong>ch te<br />

onderscheid<strong>en</strong> van andere verklaring<strong>en</strong> voor gevond<strong>en</strong> prestatie<strong>verschil</strong>l<strong>en</strong> tuss<strong>en</strong> PPT <strong>en</strong> CBT.<br />

Invoer van antwoord<strong>en</strong> via beeldscherm versus papier<br />

De vijfde onderzoeksvraag betrof de vraag in hoeverre prestatie<strong>verschil</strong>l<strong>en</strong> <strong>op</strong> PPT <strong>en</strong> CBT<br />

sam<strong>en</strong>hang<strong>en</strong> met de manier waar<strong>op</strong> kandidat<strong>en</strong> hun antwoord moet<strong>en</strong> gev<strong>en</strong>: via <strong>het</strong> beeldscherm<br />

versus <strong>op</strong> papier. Kandidat<strong>en</strong> hebb<strong>en</strong> doorgaans meer ervaring met <strong>het</strong> noter<strong>en</strong> van antwoord<strong>en</strong> <strong>op</strong><br />

papier dan met <strong>het</strong> invoer<strong>en</strong> van antwoord<strong>en</strong> via <strong>het</strong> beeldscherm. De computer zou t<strong>en</strong> onrechte<br />

antwoord<strong>en</strong> fout rek<strong>en</strong><strong>en</strong> die e<strong>en</strong> m<strong>en</strong>selijke beoordelaar <strong>op</strong> papier (gedeeltelijk) goed zou hebb<strong>en</strong><br />

gerek<strong>en</strong>d, met als gevolg lagere prestaties voor CBT in vergelijking met PPT. De belangrijkste, nog<br />

zeer voorl<strong>op</strong>ige conclusies van e<strong>en</strong> nog zeer klein aantal gevond<strong>en</strong> studies vatt<strong>en</strong> we als volgt sam<strong>en</strong>:<br />

<br />

<br />

<br />

er lijk<strong>en</strong> zwakke aanwijzing<strong>en</strong> te zijn dat geautomat<strong>is</strong>eerde scoringsalgoritm<strong>en</strong> antwoord<strong>en</strong> (wel<br />

e<strong>en</strong>s) fout rek<strong>en</strong><strong>en</strong> die m<strong>en</strong>selijke beoordelaars <strong>op</strong> papier (gedeeltelijk) goed zoud<strong>en</strong> rek<strong>en</strong><strong>en</strong>;<br />

er zijn echter te weinig studies gevond<strong>en</strong> om met <strong>en</strong>ige zekerheid uitsprak<strong>en</strong> te kunn<strong>en</strong> do<strong>en</strong><br />

over de mate waarin dit voorkomt <strong>en</strong> hoe groot <strong>het</strong> ev<strong>en</strong>tuele effect ervan <strong>is</strong> <strong>op</strong> de prestaties;<br />

er zijn input tools <strong>en</strong> feedback-mechan<strong>is</strong>m<strong>en</strong> ontwikkeld die m<strong>is</strong>match tuss<strong>en</strong> computer <strong>en</strong><br />

kandidaat minimal<strong>is</strong>er<strong>en</strong> <strong>en</strong> die kandidat<strong>en</strong> de mogelijkheid bied<strong>en</strong> om kleine invoerfoutjes met<br />

aftrek van punt<strong>en</strong> te herstell<strong>en</strong>; effectiviteit <strong>en</strong> ev<strong>en</strong>tuele nev<strong>en</strong>effect<strong>en</strong> (bijvoorbeeld<br />

gokgedrag) zijn ev<strong>en</strong>wel ongew<strong>is</strong>.<br />

Deze conclusies betreff<strong>en</strong>de m<strong>is</strong>communicatie tuss<strong>en</strong> computer <strong>en</strong> kandidaat bij de invoer van<br />

antwoord<strong>en</strong> <strong>en</strong> <strong>het</strong> effect ervan <strong>op</strong> de prestaties moet<strong>en</strong> als zeer voorl<strong>op</strong>ig word<strong>en</strong> beschouwd. De<br />

literatuur search was te weinig systemat<strong>is</strong>ch <strong>en</strong> <strong>het</strong> leidt ge<strong>en</strong> twijfel dat relevante studies zijn<br />

gem<strong>is</strong>t.<br />

© Stichting Cito, Arnhem 2015 41


5 Geraadpleegde literatuur<br />

Abels, M., Boon, P., & Tacoma, S. (2013). Bas<strong>is</strong>handleiding Digitale W<strong>is</strong>kunde Omgeving. Utrecht:<br />

Freud<strong>en</strong>thal Instituut.<br />

AERA American Educational Research Association (AERA), American Psychological Association (APA),<br />

and the National Council on Measurem<strong>en</strong>t in Education (NCME). (1999). Standards for educational<br />

and psychological testing. Washington, DC: AERA<br />

APA American Psychological Association Committee on Professional Standards and Committee on<br />

Psychological Tests and Assessm<strong>en</strong>t (1986). Guidelines for computer-based tests and interpretations.<br />

Washington, DC: APA.<br />

Ashton, H.S., Beevers, C.E., Korabinski, A.A. & Youngson, M.A. (2006). Incorporating partial credit in<br />

computer-aided assessm<strong>en</strong>t of mathematics in secondary education. Brit<strong>is</strong>h Journal of Educational<br />

Technology, 37, 1, 93-119.<br />

Béguin, A.A., & Wools, S. (2015). Vertical compar<strong>is</strong>on using refer<strong>en</strong>ce sets. In: R.E. Millsap, L.A. van<br />

der Ark, D.M. Bolt, & W.C. Wang (Eds.), Quantitative Psychology Research. Springer Proceedings in<br />

Mathematics & Stat<strong>is</strong>tics (pp. 195-211). New York: Springer.<br />

B<strong>en</strong>jamin, L.T., Cavell, T.A., & Shall<strong>en</strong>burger, W.R. I. (1984). Staying with initial answers on objective<br />

tests: Is it a myth? Teaching of Psychology, 11, 3, 133-141.<br />

B<strong>en</strong>nett, R.E., Braswell, J., Oranje, A., Sand<strong>en</strong>e, B., Kaplan, B., & Yan, F. (2008). Does it matter if I take<br />

my mathematics test on computer? A second empirical study of mode effects in NAEP. Journal of<br />

Technology, Learning, and Assessm<strong>en</strong>t, 6, 9.<br />

Beschikbaar via http://www.jtla.org.<br />

Bergstrom, B.A., & Lunz, M.E. (1992). Confid<strong>en</strong>ce in pass/faildec<strong>is</strong>ions for computer adaptive and<br />

paper and p<strong>en</strong>cil examinations. Evaluation and the Health Professions,15, 4, 453-464.<br />

Braswell, J.S, & Bridgeman, B. (1992). Effects of scratchwork space on SAT-M performance<br />

(ETS-report nr RM-92-10). Princeton: ETS.<br />

Bunderson, C.V., Inouye, D.K., & Ols<strong>en</strong>, J.B. (1989). The four g<strong>en</strong>erations of computerized<br />

educational measurem<strong>en</strong>t. In R.L. Linn (Ed.), Educational measurem<strong>en</strong>t, Third Edition (pp. 367-407).<br />

London: Collier Macmillan.<br />

Cito (2015a). Resultat<strong>en</strong> van de vrag<strong>en</strong>lijst voor leerling<strong>en</strong> die deelnam<strong>en</strong> aan de Rek<strong>en</strong>toets<br />

Voortgezet Onderwijs maart 2015. Arnhem: Cito.<br />

Cito (2015b). Antwoord<strong>en</strong>analyse rek<strong>en</strong>toets 2F voortgezet onderwijs. Weergave <strong>en</strong> analyse van<br />

antwoord<strong>en</strong> <strong>op</strong> de voorbeeldtoets 2F 2014. Arnhem: Cito.<br />

© Stichting Cito, Arnhem 2015 42


Csapó, B., Molnár, G., & Tóth, K. (2009). Comparing paper-and-p<strong>en</strong>cil and online assessm<strong>en</strong>t of<br />

reasoning skills: a pilot study for introducing TAO in large-scale assessm<strong>en</strong>t in Hungary. In F.<br />

Scheuermann & J. Björnsson (Eds.), The transition to computer-based assessm<strong>en</strong>t: new<br />

approaches to skills assessm<strong>en</strong>t and implications for large-scale testing (pp. 120-126)<br />

Luxembourg: Office for Official Publications of the Eur<strong>op</strong>ean Community.<br />

Beschikbaar via http://www.gesci.org/assets/files/reporttransition.pdf<br />

College voor Exam<strong>en</strong>s (2014). Tuss<strong>en</strong>rapportage c<strong>en</strong>traal ontwikkelde exam<strong>en</strong>s mbo <strong>en</strong> Rek<strong>en</strong>toets<br />

VO, 2013-2014. Utrecht: College voor Exam<strong>en</strong>s.<br />

College voor Toets<strong>en</strong> <strong>en</strong> Exam<strong>en</strong>s (2014). Rapportage refer<strong>en</strong>tiesets taal (lez<strong>en</strong>) <strong>en</strong> rek<strong>en</strong><strong>en</strong>. Utrecht:<br />

CvTE.<br />

Comm<strong>is</strong>sie Bosker (2014). Advies over de uitwerking van de refer<strong>en</strong>ti<strong>en</strong>iveaus 2F <strong>en</strong> 3F voor rek<strong>en</strong><strong>en</strong><br />

in toets<strong>en</strong> <strong>en</strong> exam<strong>en</strong>s. Enschede: SLO.<br />

Darrah, M., Fuller, E., & Miller, D. (2010). A comparative study of partial credit assessm<strong>en</strong>t and<br />

computer-based testing for mathematics. Journal of Computers in Mathematics and Sci<strong>en</strong>ce<br />

Teaching, 29, 4, 373-398.<br />

Dillon, A. (1992). Reading from paper versus scre<strong>en</strong>s: A critical review of the empirical literature.<br />

Ergonomics, 35, 1297–1326.<br />

Dimock, P.H., & Cormier, P. (1991). The effects of format differ<strong>en</strong>ces and computer experi<strong>en</strong>ce on<br />

performance and anxiety on a computer-admin<strong>is</strong>tered test. Measurem<strong>en</strong>t & Evaluation in Counseling<br />

& Devel<strong>op</strong>m<strong>en</strong>t, 24, 119–126.<br />

Eaves, R. C., & Smith, E. (1986). The effect of media and amount of microcomputer experi<strong>en</strong>ce on<br />

examination scores. Journal of Experim<strong>en</strong>tal Education, 55, 23–26.<br />

Evers, A., Lucass<strong>en</strong>, W., Meijer, R., & Sijtsma, K. (2009). COTAN beoordelingssysteem voor de kwaliteit<br />

van tests (geheel herzi<strong>en</strong>e versie). Amsterdam: Faculteit der Maatschappij- <strong>en</strong><br />

Gedragswet<strong>en</strong>schapp<strong>en</strong>.<br />

Fiddes, D.J., Korabinski, A.A., McGuire, G.R., Youngson, M.A., & McMillan, D. (2002). Does the mode<br />

of delivery affect mathematics examination results? Alt-J, 10, 1, 60-69.<br />

Gallagher, A., Bridgeman, B., & Calahan, C. (2000). The effect of computer-based tests on<br />

racial/ethnic, g<strong>en</strong>der and language groups (RR–00–8). Princeton, NJ: Educational Testing Service.<br />

Gaskill, J., & Marshall, M. (2006). Compar<strong>is</strong>ons betwe<strong>en</strong> paper- and computer-based tests: A<br />

Literature Review. Kelowna, BC, Canada: Society for the Advancem<strong>en</strong>t of Excell<strong>en</strong>ce in Education.<br />

Gre<strong>en</strong>, B.F., Bock, R.D., Humphreys, L.G., Linn, R.L, & Reckase, M.D. (1984). Technical guidelines for<br />

assessing computerized adaptive tests. Journal of Educational Measurem<strong>en</strong>t, 21, 347-359.<br />

© Stichting Cito, Arnhem 2015 43


Gre<strong>en</strong>wood, L., McBride, F., Morr<strong>is</strong>on, H., Cowan, P. & Lee, M. (2000). Can the same results be<br />

obtained using computer-mediated tests as for paper-based tests for National Curriculum<br />

Assessm<strong>en</strong>t? In Proceedings of International Confer<strong>en</strong>ce on Mathematics / Sci<strong>en</strong>ce Education and<br />

Technology 2000 (pp. 179-184). Association for the Advancem<strong>en</strong>t of Computing in Education (AACE).<br />

Greaud, V., & Gre<strong>en</strong>, B. F. (1986). Equival<strong>en</strong>ce of conv<strong>en</strong>tional and computer pres<strong>en</strong>tation of speed<br />

tests. Applied Psychological Measurem<strong>en</strong>t, 10, 23–34.<br />

Hargreaves, M., Shorrocks-Taylor, D., Swinnerton, B., Tait, K., & Threlfall, J. (2004). Computer or<br />

paper? That <strong>is</strong> the question: Does the medium in which assessm<strong>en</strong>t questions are pres<strong>en</strong>ted affect<br />

childr<strong>en</strong>’s performance in mathematics? Educational Research, 46, 29-42<br />

Harvey, A. L. (1987). Differ<strong>en</strong>ces in response behavior for high and low scores as a function of item<br />

pres<strong>en</strong>tation on a computer ass<strong>is</strong>ted test. Unpubl<strong>is</strong>hed doctoral d<strong>is</strong>sertation. Lincoln: University of<br />

Nebraska.<br />

Hamilton, L.S., Klein, S.P., & Lorie, W. (2000). Using web-based testing for large-scale assessm<strong>en</strong>t.<br />

Santa Monica, CA: RAND Corporation.<br />

Harmes, J.C., & Parshall, C.G. (2000, November). An iterative process for computerized test<br />

devel<strong>op</strong>m<strong>en</strong>t: Integrating usability methods. Paper pres<strong>en</strong>ted at the annual meeting of the<br />

Florida Educational Research Association, Tallahassee.<br />

Hick<strong>en</strong>dorff, M., He<strong>is</strong>er, W.J., Van Putt<strong>en</strong>, C.M., & Verhelst, N.D. (2009). Solution strategies and<br />

achievem<strong>en</strong>t in Dutch complex arithmetic: Lat<strong>en</strong>t variable modeling of change. Psychometrika, 74, 2,<br />

331-350.<br />

Hick<strong>en</strong>dorff, M., Putt<strong>en</strong>, C.M. van, Verhelst , N.D., & He<strong>is</strong>er, W.J. (2010). Individual differ<strong>en</strong>ces in<br />

strategy use on div<strong>is</strong>ion problems: M<strong>en</strong>tal versus writt<strong>en</strong> computation. Journal of Educational<br />

Psychology, 102, 2, 438-452.<br />

Hofer, P. J., & Gre<strong>en</strong>, B. F. (1985). The chall<strong>en</strong>ge of compet<strong>en</strong>ce and creativity in computerized<br />

psychological testing. Journal of Consulting and Clinical Psychology, 53, 826–838.<br />

International Test Comm<strong>is</strong>sion (2001). International guidelines for test use. International Journal of<br />

Testing, 1, 93–114.<br />

International Test Comm<strong>is</strong>sion (2006). International guidelines on computer-based and Internet<br />

delivered testing. International Journal of Testing, 6, 143–172.<br />

Janss<strong>en</strong>, J., Van der Schoot, F., & Hemker, B. (2005). Balans van <strong>het</strong> rek<strong>en</strong>-w<strong>is</strong>kundeonderwijs aan <strong>het</strong><br />

einde van de bas<strong>is</strong>school 4. Uitkomst<strong>en</strong> van de vierde peiling in 2004 (PPON-reeks nummer 32).<br />

Arnhem: Cito.<br />

Johnson, M., & Gre<strong>en</strong>, S. (2006). On-line mathematics assessm<strong>en</strong>t: The impact of mode on<br />

performance and question answering strategies. Journal of Technology, Learning, and<br />

© Stichting Cito, Arnhem 2015 44


Assessm<strong>en</strong>t, 4, 5, 1-34.<br />

Johnson, D.E., & Mihal, W.L. (1973). Performance of blacks and whites in computerized versus<br />

manual testing <strong>en</strong>vironm<strong>en</strong>ts. American Psycholog<strong>is</strong>t, 28, 8, 694–699.<br />

K<strong>en</strong>g, L., McClarty, K.L., & Dav<strong>is</strong>, L.L. (2008). Item-level comparative analys<strong>is</strong> of online and paper<br />

admin<strong>is</strong>trations of the Texas assessm<strong>en</strong>t of knowledge and skills. Applied Measurem<strong>en</strong>t in Education,<br />

21, 3, 207-226.<br />

Kim, J. (1999, October). Meta-analys<strong>is</strong> of equival<strong>en</strong>ce of computerized and P&P tests on ability<br />

measures. Paper pres<strong>en</strong>ted at the annual meeting of the Midwestern Educational Research<br />

Association, Chicago.<br />

Kingston (2009). Comparability of computer- and paper-admin<strong>is</strong>tered multiple-choice<br />

tests for K-12 p<strong>op</strong>ulations: A synthes<strong>is</strong>. Applied Measurem<strong>en</strong>t in Education, 22, 22-37.<br />

Kol<strong>en</strong>, M.J. (1999-2000). Threats to score comparability with applications to performance<br />

assessm<strong>en</strong>ts and computerized adaptive tests. Educational Assessm<strong>en</strong>t 6, 73-96.<br />

Lee, J. (1986). The effects of past computer experi<strong>en</strong>ce on computer aptitude test performance.<br />

Educational and Psychological Measurem<strong>en</strong>t, 46, 727–733.<br />

Lee, J. A., & H<strong>op</strong>kins, L. (1985). The effects of training on computerized aptitude test performance and<br />

anxiety. Paper pres<strong>en</strong>ted at the annual meeting of the Eastern Psychological Association (Boston,<br />

MA, March).<br />

Lee, J.A., Mor<strong>en</strong>o, K.E, & Sympson, J.B. (1986). The effects of test admin<strong>is</strong>tration on test<br />

performance. Educational and Psychological Measurem<strong>en</strong>t, 46, 2, 467-474.<br />

Leeson, H.V. (2006). The mode effect: A literature review of human and technological <strong>is</strong>sues in<br />

computerized testing. International Journal of Testing, 6, 1, 1-24.<br />

Luecht, R.M., Hadadi, A., Swanson, D. B., & Case, S.M. (1998). Testing the test: A comparative study<br />

of a compreh<strong>en</strong>sive basic sci<strong>en</strong>ce test using paper-and-p<strong>en</strong>cil and computer<strong>is</strong>ed formats. Academic<br />

Medicine, 73, 51–53.<br />

Mason, B.J., Patry, M., & Bernstein, D.J. (2001). An examination of the equival<strong>en</strong>ce betwe<strong>en</strong><br />

non-adaptive computer-based and traditional testing. Journal of Educational Computing<br />

Research, 24, 1, 29-39.<br />

Mazzeo, J., & Harvey, A. L. (1988). The equival<strong>en</strong>ce of scores from automated and conv<strong>en</strong>tional<br />

educational and psychological tests: A review of the literature (College Board Rep. No. 88-8, ETS RR<br />

No. 88-21). Princeton, NJ: Educational Testing Service.<br />

© Stichting Cito, Arnhem 2015 45


McGuire, G.R., Youngson, M.A., Korabinski, A.A., & McMillan, D. (2002). Partial credit in mathematics<br />

exams: a compar<strong>is</strong>on of traditional and CAA exams, Proceedings of the 6th International CAA<br />

Confer<strong>en</strong>ce, Loughborough University.<br />

Mueller, D.J., & Wasser, V. (1977). Implications of changing answers on objective test items. Journal<br />

of Educational Measurem<strong>en</strong>t, 14, 1, 9–14.<br />

Murphy, P.K., Long, J., Holleran, T., & Esterly, E. (2000, August). Persuasion online or on paper: A new<br />

take on an old <strong>is</strong>sue. Paper pres<strong>en</strong>ted at the annual meeting of the American Psychological<br />

Association, Washington, DC.<br />

Olea, J., Revuelta, J., Ximénez, M.C., & Abad, F.J. (2000). Psychometric and psychological effects of<br />

review on computerized fixed and adaptive tests. Psicológica, 21, 157-173.<br />

O’Malley, K.J., Kirkpatrick, R., Sherwood, W., Burdick, H.J., Hsieh, M.C., & Sanford, E.E. (2005, April).<br />

Comparability of a Paper Based and Computer Based Reading Test in Early Elem<strong>en</strong>tary Grades. Paper<br />

pres<strong>en</strong>ted at the AERA Div<strong>is</strong>ion D Graduate Stud<strong>en</strong>t Seminar, Montreal, Canada.<br />

Oregon Departm<strong>en</strong>t of Education (2007). Comparability of stud<strong>en</strong>t scores obtained from paper and<br />

computer admin<strong>is</strong>trations. Salem, OR: Oregon Departm<strong>en</strong>t of Education.<br />

Beschikbaar via<br />

http://www.ode.state.or.us/teachlearn/testing/manuals/2007/doc4.1comparabilitytesat<strong>op</strong>andp.pdf<br />

Pass-it (2002). Good practice guide in question and test design. Luton: CAA C<strong>en</strong>tre.<br />

http://www.calm.hw.ac.uk/G<strong>en</strong>eralAuthoring/031112-goodpracticeguide-hw.pdf<br />

Parshall, C.G., Spray, J.A., Kalohn, J.C., & Davey, T. (2002). Practical considerations in computer-based<br />

testing. New York: Springer-Verlag.<br />

Passmore, T., Brookshaw, L, & Butler, H. (2011). A flexible, ext<strong>en</strong>sible online testing system for<br />

mathematics. Australasian Journal of Educational Technology, 27, 6, 896-906.<br />

Paek, P. (2005). Rec<strong>en</strong>t tr<strong>en</strong>ds in comparability studies. Austin, TX: Educational Measurem<strong>en</strong>t.<br />

Pearson (2009). Computer-based & paper-p<strong>en</strong>cil test comparability studies. Test, Measurem<strong>en</strong>t &<br />

Research Services Bulletin, 9.<br />

Poggio, J., Glasnapp, D. R., Yang, X., & Poggio, A. J. (2005). A comparative evaluation of score results<br />

from computerized and paper and p<strong>en</strong>cil mathematics testing in a large scale state assessm<strong>en</strong>t<br />

program. Journal of Technology, Learning, and Assessm<strong>en</strong>t 3, 6.<br />

Beschikbaar via http://www.jtla.org<br />

Pommerich, M. (2004). Devel<strong>op</strong>ing computerized versions of paper-and-p<strong>en</strong>cil tests: Mode effects<br />

for passage-based tests. Journal of Technology, Learning, and Assessm<strong>en</strong>t 2, 6, 1-45.<br />

© Stichting Cito, Arnhem 2015 46


Putt<strong>en</strong>, C.M. van (2008). De onm<strong>is</strong>k<strong>en</strong>bare daling van <strong>het</strong> prestatiepeil bij de bewerking<strong>en</strong> sinds 1987<br />

– e<strong>en</strong> reactie. Rek<strong>en</strong>-w<strong>is</strong>kundeonderwijs: onderzoek, ontwikkeling, praktijk, 27, 1, 35 – 40.<br />

Revuelta, J., Ximénez, M.C., & Olea, J. (2003). Psychometric and psychological effects of item<br />

selection and review on computerized testing. Educational and Psychological Measurem<strong>en</strong>t, 63, 791–<br />

808.<br />

Russell, M., Goldberg, A., & O’Connor, K. (2003). Computer-based testing and validity: a look back<br />

into the future. Assessm<strong>en</strong>t in Education, 10, 3, 279–294.<br />

Sand<strong>en</strong>e, B., Horkay, N., B<strong>en</strong>nett, R., All<strong>en</strong>, N., Braswell, J., Kaplan, B., & Oranje, A. (2005). Online<br />

assessm<strong>en</strong>t in mathematics and writing: Reports from the NAEP technology-based assessm<strong>en</strong>t project<br />

(NCES 2005-457). Washington, DC: Departm<strong>en</strong>t of Education, National C<strong>en</strong>ter for Education<br />

Stat<strong>is</strong>tics.<br />

Sangwin, C.J., & Ramsd<strong>en</strong>, P. (2007). Linear syntax for communicating elem<strong>en</strong>tary mathematics.<br />

Journal of Symbolic Computation, 42, 9, 920-934.<br />

Schelt<strong>en</strong>s, F., Hick<strong>en</strong>dorff, Egg<strong>en</strong>, Th. & Hiddink, L. (2014). Hoofdrek<strong>en</strong><strong>en</strong> met papier - hoe zit dat met<br />

leerling<strong>en</strong> die score<strong>en</strong><strong>en</strong>? Rek<strong>en</strong>-w<strong>is</strong>kundeonderwijs: onderzoek, ontwikkeling, praktijk, 33, 128-140.<br />

Scheltinga, F., Keuning, J., & Kuhlemeier, H. (2014). Gericht werk<strong>en</strong> aan <strong>op</strong>br<strong>en</strong>gst<strong>en</strong> in taal- <strong>en</strong><br />

leesonderwijs: E<strong>en</strong> systemat<strong>is</strong>che review naar toetsvorm<strong>en</strong>. Cito/Expert<strong>is</strong>ec<strong>en</strong>trum Nederlands:<br />

Arnhem/Nijmeg<strong>en</strong>.<br />

Schwartz, S.P., McMorr<strong>is</strong>, R.F., & DeMers, L.P. (1991). Reasons for changing answers: An evaluation<br />

using personal interviews. Journal of Educational Measurem<strong>en</strong>t, 28, 2, 163-171.<br />

Sutherland-Smith, W. (2002). Weaving the literacy web: changes in reading from page to scre<strong>en</strong>. The<br />

Reading Teacher, 55, 7, 664–667.<br />

Spray, J.A., Ackerman, T.A., Reckase, M.D., & Carlson, J.E. (1989). Effect of the medium of item<br />

pres<strong>en</strong>tation on examinee performance and item character<strong>is</strong>tics. Journal of Educational<br />

Measurem<strong>en</strong>t, 26, 261–271.<br />

Straat, H. (@in voorbereiding@). @@@. Arnhem: Cito.<br />

Threfall, J., Pool, P., Homer, M., & Swinnerton, B. (2007). Implicit aspects of paper and p<strong>en</strong>cil<br />

mathematics assessm<strong>en</strong>t that come to light through the use of the computer. Educational Studies in<br />

Mathematics, 66, 335-348.<br />

Traub, R. (1993). On the equival<strong>en</strong>ce of the traits assessed by multiple-choice and constructedresponse<br />

tests. In B<strong>en</strong>nett, R., & Ward, W. (eds.). Construction versus choice in cognitive<br />

measurem<strong>en</strong>t (pp. 29-44). Hillsdale, NJ: Lawr<strong>en</strong>ce Erlbaum Associates.<br />

Van d<strong>en</strong> Heuvel-Panhuiz<strong>en</strong>, M., & Bodin-Baar<strong>en</strong>ds C. (2004). All or nothing: Problem solving by high<br />

achievers in mathematics. Journal of the Korea Society of Mathematical Education, 8, 3, 115-121.<br />

© Stichting Cito, Arnhem 2015 47


V<strong>is</strong>poel, W.P. (1998). Reviewing and changing answers on computer-adaptive and self-adaptive<br />

vocabulary tests. Journal of Educational Measurem<strong>en</strong>t, 35, 328–345.<br />

V<strong>is</strong>poel, W.P., Wang, T., De la Torre, R., Bleiler, T., & Dings, J. (1992). How review <strong>op</strong>tions and<br />

admin<strong>is</strong>tration modes influ<strong>en</strong>ce scores on computerized vocabulary tests. Paper pres<strong>en</strong>ted at the<br />

annual meeting of the National Council on Measurem<strong>en</strong>t in Education (San Franc<strong>is</strong>co, CA).<br />

V<strong>is</strong>poel, W.P. (2000). Reviewing and changing answers on computerized fixed-item vocabulary tests.<br />

Educational and Psychological Measurem<strong>en</strong>t, 60, 371–384.<br />

Way, W. D., Dav<strong>is</strong>, L.L., & Fitzpatrick, S. (2006). Score comparability of online and paper<br />

admin<strong>is</strong>trations of the Texas Assessm<strong>en</strong>t of Knowledge and Skills. Paper pres<strong>en</strong>ted at the Annual<br />

Meeting of the National Council on Measurem<strong>en</strong>t in Education (San Franc<strong>is</strong>co, CA).<br />

Wild, D.G., Beevers, C.E., Fiddes, D.I., McGuire, G.R. and Youngson, M.A. (1997). Interactive<br />

PastPapers for A-Level and Higher Mathematics. Glasgow: Lander Educational Software.<br />

W<strong>is</strong>e, S.L., & Plake, B.S. (1989). Research on the effects of admin<strong>is</strong>tering tests via computers.<br />

Educational Measurem<strong>en</strong>t: Issues and Practice, 8, 3, 5-10.<br />

© Stichting Cito, Arnhem 2015 48

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!