Prestaties op papieren en digitale examens wat is het verschil?

More documents

Recommendations

Info

mede veroorzaakt doordat de computer ingevoerde antwoorden van kandidaten ten onrechte als fout interpreteert terwijl een menselijke beoordelaar ze op papier goed of gedeeltelijk goed zou rekenen (zie hiervoor ook paragraaf 3.5). Een andere mogelijk bron van moduseffecten is dat het ontwerp van de interface het niet toestaat om fouten bij het invoeren van antwoorden onmiddellijk te corrigeren of om eerder ingevoerde antwoorden te bekijken en zo nodig te veranderen, zoals bij een PPT-versie van dezelfde toets uiteraard wel mogelijk is. Overigens zijn de auteurs van mening dat het hier een triviaal ontwerpprobleem betreft aangezien er ten tijde van hun review reeds verschillende goede oplossingen beschikbaar waren (die vanaf 2015 ook in de rekentoetsen geïmplementeerd zijn). Wise en Plake (1989) De review van Wise en Plake (1989) is vooral van belang voor onze derde vraagstelling naar het vermeende negatieve effect van het ontbreken van mogelijkheden tot item review in eerstegeneratie CBT op de prestaties. Vandaar dat we de resultaten ervan bespreken in paragraaf 3.3. Dillon (1992) De review van Dillon (1992) is voor ons minder interessant omdat het vooral betrekking heeft op verschillen tussen het lezen en begrijpen van grote hoeveelheden informatie op het scherm of papier. Een van de conclusies was dat het lezen van het scherm ongeveer 20% tot 30% langzamer gaat dan van papier, een conclusies die anno 2015 vanwege de grote technische verbeteringen waarschijnlijk grotendeels achterhaald is. Bergstrom (1992) Bergstrom (1992) analyseerde twintig studies zoals beschreven in acht onderzoeksrapporten waarin de prestaties op PPP werden vergeleken met die op adaptieve computertoetsen (CAT). Ondanks verschillen tussen de studies qua getoetste leerstof, de leeftijd van de proefpersonen, het gebruikte IRT-model en het onderzoekontwerp bleken PPT en CAT over het algemeen tot vergelijkbare prestaties te leiden. Na verwijdering van vijf studies die te sterk bijdroegen aan de heterogeniteit van de effectgroottes, vond zij een gemiddelde effectgrootte van -.002. In de studies waarin een significant gemiddeld verschil gevonden werd, waren de scores op de PPT hoger dan die op de CAT als de PPT als eerste was afgenomen. De auteur doet de aanbeveling nader onderzoek te doen naar scrollen als mogelijke verklaring voor de lagere prestaties op CAT. Mead en Drasgow (1993) In hun meta-analyse analyseerden Mead en Drasgow (1993) een groot aantal studies naar verschillen tussen papieren en digitale afname van power en speedtests. Voor power tests met een tijdslimiet - die in het onderwijs veel gebruikt worden - bedroeg de effectgrootte van het gemiddeld verschil tussen PPT en CBT .03 met een standaarddeviatie van .15. CBT’s zijn gemiddeld dus nauwelijks moeilijker dan PPT’s en het gemiddeld prestatieverschil varieert weinig van studie tot studie. Mead en Drasgow (1993) keken ook naar het effect van de afnamemodus op de rangordening van degenen die getoetst werden. Voor power tests was de gemiddelde correlatie (na correctie voor onbetrouwbaarheid) zeer hoog, te weten .91 over 123 geanalyseerde correlaties, wat er op wijst dat de rangordening van de leerlingen nagenoeg gelijk is. Voor speed tests was de gemiddelde correlatie veel lager, namelijk .72 over 36 correlaties. De auteurs vonden geen verschil tussen lineaire (CBT) en adaptieve (CAT) digitale toetsing. © Stichting Cito, Arnhem 2015 10
Kim (1999) In een meta-analyse bestudeerde Kim (1999) 51 studies naar de vergelijkbaarheid van scores op PPT, lineaire (CBT) en adaptieve (CAT) digitale toetsen bij een groot aantal doelgroepen en vakgebieden. Het gemiddelde over de 226 bestudeerde effectgroottes voor enerzijds CBT en CAT en anderzijds PPT bedroeg .019 (95%-betrouwbaarheidsinterval -.030 tot .068) en was statistisch niet significant. Echter, het verschil bleek sterk afhankelijk van het type CBT. Voor de vergelijking CBT-PPT bedroeg de gemiddelde effectgrootte .103 (lineaire CBT gemiddeld beter gemaakt dan PPT) en voor de vergelijking CAT-PPT ging het om -.125 (CAT gemiddeld slechter gemaakt dan PPT). Kim rapporteerde de resultaten ook apart voor verschillende leeftijdsgroepen en vakgebieden. Voor high school leerlingen bleek CBT gemiddeld makkelijker dan PPT, wat de auteur toeschreef aan hun positieve houding ten opzichte van toetsing met de computer en de ‘excitement’ die het maken van een digitale toets met zich meebracht. Russell, Goldberg en O’Connor (2003) In hun review analyseerden Russel, Goldberg en O’Connor (2003) onderzoek naar de vergelijkbaarheid van PPT- en CBT-toetsen op het gebied van schrijfvaardigheid en wiskunde. Zij maakten een onderscheid tussen onderzoek in de periode tot 1986 en de periode daarna. Hun review brengt een aantal factoren aan het licht die van invloed zijn op de hoogte van de prestaties (en de validiteit van de meting). Daartoe behoren moduseffecten die te maken hebben met de mogelijkheden om individuele items over te slaan, opnieuw te bekijken en te veranderen en de transfer van informatie tussen scherm en kladpapier. Zie hiervoor ook paragraaf 3.3 en 3.5. Andere moduseffecten die de auteurs de revue laten passeren, betreffen de presentatie van graphics en tekst op het scherm in relatie tot de ervaring van leerlingen met het werken met computers. Omdat deze mogelijke verklaringen voor het doel van onze literatuurstudie van minder groot belang zijn, laten we bespreking ervan hier verder achterwege. Paek (2005) Paek (2005) bestudeerde een aantal reviews en onderzoeken naar de vergelijkbaarheid van PPT en CBT die vóór en na 1993 waren uitgevoerd. De studies betroffen de vakgebieden rekenen-wiskunde, taal, lezen en science. Zij constateert dat de zogeheten electronic pageturners - in het Nederlandse taalgebied ook wel aangeduid als ‘rechtop gezette’ papieren toetsen - regelmatig slechter gemaakt werden dan de papieren versies. Een eerste verklaring suggereert dat leerlingen moesten wennen aan de nieuwe afnamemodus: kandidaten moesten onder high-stakes condities leren te navigeren in een interface waarmee zij nog niet vertrouwd waren. Als tweede verklaring noemt Paek (2005) dat het destijds nog niet mogelijk was om vooruit en achteruit te bladeren, items over te slaan en itemantwoorden te bekijken en te veranderen, wat in PPT en meer recente CBT natuurlijk wel mogelijk is (en wat ten goede komt aan de motivatie van de leerling). Bij de na 1993 uitgevoerde studies waren de verschillen tussen PPT en CBT kleiner dan bij het daarvoor uitgevoerde onderzoek. In de meeste recentelijk uitgevoerde studies bij zogeheten K12- leerlingen (dit wil zeggen: leerlingen van kindergarten tot en met grade 12; ofwel van 4 à 6 tot 17 à 19 jaar) bleken de scores op CBT gelijkwaardig of iets hoger dan die op PPT. Waar er verschillen tussen afnamemodi gevonden werden, waren deze lang niet altijd statistisch significant. Paek schrijft deze ogenschijnlijke afname van de verschillen tussen PPT en CBT toe aan de toegenomen ervaring © Stichting Cito, Arnhem 2015 11
Page 1 and 2: Prestaties op papieren en digitale
Page 3 and 4: 1 Inleiding De laatste decennia wor
Page 5 and 6: Onderzoeksvragen Al met al ondersch
Page 7 and 8: 2 Methode van onderzoek De literatu
Page 9: 3 Resultaten 3.1 Het effect van de
Page 13 and 14: waarbij de leerling een tekening mo
Page 15 and 16: onpersoonlijke en anonieme karakter
Page 17 and 18: correct beantwoord worden om de max
Page 19 and 20: RTW. Bij de zogenoemde RTW-marking
Page 21 and 22: In de feedback-versie onderbraken s
Page 23 and 24: kandidaten bleek bij de Super Quiz
Page 25 and 26: Wise en Plake (1989) Wise en Plake
Page 27 and 28: Mason, Patry en Bernstein (2001) Ma
Page 29 and 30: Er zijn verschillen tussen het gebr
Page 31 and 32: meerkeuzetoets over rekenvaardighei
Page 33 and 34: the type of answers that they give,
Page 35 and 36: Een hiermee samenhangend probleem v
Page 37 and 38: Voor de onderzoekers waren de resul
Page 39 and 40: 4 Conclusies In het voorgaande is v
Page 41 and 42: wat betreft de vraag of kandidaten
Page 43 and 44: Csapó, B., Molnár, G., & Tóth, K
Page 45 and 46: Assessment, 4, 5, 1-34. Johnson, D.
Page 47 and 48: Putten, C.M. van (2008). De onmiske

Prestaties op papieren en digitale examens wat is het verschil?

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?