Rekenen voor peuters - Toetswijzer

Cito | Volgsysteem jonge kind 

Wetenschappelijke verantwoording van de toets 

Rekenen voor peuters 

Marieke op den Kamp en Jos Keuning

Wetenschappelijke verantwoording van de toets 

Rekenen voor peuters 

Marieke op den Kamp 

Jos Keuning 

Cito, 

Arnhem, juli 2011 

1

© Cito B.V. Arnhem (2011) 

Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Cito B.V. worden openbaar 

gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere 

elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke 

wijze dan ook. 

2

Inhoud 

1 Inleiding 5 

2 Uitgangspunten van de toetsconstructie 7 

2.1 Meetpretentie 7 

2.2 Doelgroep 8 

2.3 Gebruiksdoel en functie 8 

2.4 Theoretische inkadering 13 

2.4.1 Inhoudelijk 13 

2.4.1.1 Rekenontwikkeling 13 

2.4.1.2 Tussendoelen en leerlijnen 14 

2.4.1.3 Het rekenaanbod op peuterspeelzalen en kinderdagverblijven 15 

2.4.2 Psychometrisch 16 

2.4.2.1 Opgavenbanken voor jonge kinderen en het primair onderwijs 16 

2.4.2.2 Het gehanteerde meetmodel 18 

3 Beschrijving van de toets 23 

3.1 Opbouw, afname van de toetsen en rapportage 23 

3.2 Inhoudsverantwoording 25 

3.2.1 Het ontwikkelproces van de Rekenen voor peuters 25 

3.2.2 De inhoud van de toets Rekenen voor peuters 26 

3.2.3 Selectie van opgaven voor de toets Rekenen voor peuters 27 

4 Het normeringsonderzoek 29 

4.1 Steekproefplan 29 

4.2 Maken van een itembank 30 

4.3 Schatten van de vaardigheidsverdelingen van de normgroepen 33 

4.4 Normeren van de uiteindelijke toets 37 

5 Betrouwbaarheid en meetnauwkeurigheid 41 

6 Validiteit 45 

6.1 Inhoudsvaliditeit 45 

6.2 Begripsvaliditeit 45 

7 Samenvatting 49 

8 Literatuur 51 

Bijlage 1: Profielanalyse met IRT, Norman Verhelst 55 

3

1 Inleiding 

Deze wetenschappelijke verantwoording heeft betrekking op de toets Rekenen voor peuters (voor driejarige 

peuters) van het Cito Volgsysteem jonge kind (voorheen PVS ofwel Peutervolgsysteem). Het toetspakket 

bestaat uit: 

– Opgavenboek 

– Toets kleur 

– Toets lichaamsdelen 

– Registratieformulieren 

– Handleiding 

– Inhoudsverantwoording 

Het Computerprogramma LOVS, dat ook gebruikt wordt bij het Cito Volgsysteem primair onderwijs, kan 

toetsresultaten geautomatiseerd verwerken en op basis hiervan verschillende rapporten en overzichten 

maken. 

Tezamen met de inhoud van het toetspakket Rekenen voor peuters (Op den Kamp, 2010) levert deze 

verantwoording alle informatie die nodig is voor een snelle en efficiënte beoordeling van de kwaliteit van het 

betreffende meetinstrument. Het genoemde materiaal maakt een beoordeling van de toets Rekenen voor 

peuters mogelijk op de volgende aspecten: 

– Uitgangspunten van de toetsconstructie 

– De kwaliteit van het toetsmateriaal 

– De kwaliteit van de handleiding 

– Normen 

– Betrouwbaarheid 

– Validiteit 

Het laatstgenoemde aspect betreft alleen begripsvaliditeit en geen criteriumvaliditeit. Omdat de toetsen van 

het Cito Volgsysteem jonge kind niet bedoeld zijn voor 'voorspellend gebruik' is criteriumvaliditeit niet van 

toepassing. 

Het voorliggende document heeft met name betrekking op de uitgangspunten van de constructie 

(hoofdstuk 2 en 3), de normen (hoofdstuk 4), de betrouwbaarheid en meetnauwkeurigheid (hoofdstuk 5) en 

de begripsvaliditeit (hoofdstuk 6) van de toets Rekenen voor peuters voor driejarige peuters in kinderdagverblijven 

en peuterspeelzalen. De kwaliteit van het toetsmateriaal en de handleiding is te bepalen door 

kennis te nemen van de inhoud van het toetspakket. 

Om de tekst leesbaar te houden wordt er een aantal algemene termen gehanteerd. 

Waar ‘kinderdagverblijven’ worden genoemd, worden ook andere vormen van kinderopvang bedoeld. 

Waar ‘locatie’ wordt genoemd, wordt een locatie van een peuterspeelzaal of kinderdagverblijf bedoeld. 

Waar we over ‘leidster(s)’ spreken, bedoelen we ook pedagogisch medewerker(s). 

5

2 Uitgangspunten van de toetsconstructie 

2.1 Meetpretentie 

De toets Rekenen voor peuters brengt de algemene rekenvaardigheid van peuters in beeld. Jonge kinderen 

verwerven al veel rekengerelateerde deelvaardigheden, zoals het ordenen van materialen op een bepaald 

kenmerk of het aanbrengen van allerlei rangordes. Deze deelvaardigheden zijn van belang voor het logisch 

leren denken. Daarnaast is tellen een belangrijke voorwaarde voor getalbegrip en rekenen. Peuters zijn 

zich volgens Van Luit (2009) al bewust van hoeveelheden en hebben een notie van het benoemen van 

aantallen voorwerpen. Naast getalbegrip is er binnen het domein rekenen aandacht voor de meer 

wiskundige aspecten meten en meetkunde. Het meten is volgens Van den Heuvel-Panhuizen & Buys 

(2004) gericht op het meetbaar maken (kwantificeren) van de fysieke omgeving. Bij peuters gaat het hierbij 

om het vergelijken van concrete voorwerpen, bijvoorbeeld op grootte. Op latere leeftijd wordt gebruikgemaakt 

van meetgetallen, bijvoorbeeld om lengte aan te geven. Bij meetkunde gaat het om het begrijpen 

van de drie- en tweedimensionale wereld om ons heen en de bijbehorende figuren en vormen. 

Het rekenaanbod in kinderdagverblijven en peuterspeelzalen aan driejarige peuters richt zich op het logisch 

leren denken en geeft kinderen geleidelijk steeds meer besef van de gecijferde wereld. Dit wordt bij peuters 

ook wel het proces van ontluikende gecijferdheid genoemd. Door SLO (2011) zijn ervarings- en 

beheersingsdoelen met betrekking tot de rekenontwikkeling van jonge kinderen in de voor- en 

vroegschoolse situatie ontwikkeld. Deze doelen zijn ingedeeld in drie domeinen: 

– Getalbegrip 

– Meten 

– Meetkunde 

In de toets Rekenen voor peuters worden de drie domeinen (Getalbegrip, Meten, Meetkunde) en de 

onderliggende doelen getoetst. Uitzondering hierbij zijn de doelen ‘Omgaan met de telrij’ en ‘Tijd’. 

De opgavenvormen uit Rekenen voor peuters zijn namelijk niet geschikt om deze tussendoelen te meten bij 

peuters. Er zijn ook een aantal deelvaardigheden die te omschrijven zijn in termen van handelingen die 

moeilijk in toetsvorm meetbaar te maken zijn. Deze handelingsvaardigheden hangen naar alle 

waarschijnlijkheid hoog samen met de vaardigheden die in de toetsen zijn geoperationaliseerd. Niettemin is 

het belangrijk dat de leidster de genoemde handelingsvaardigheden aanvullend evalueert door middel van 

authentieke observaties. 

Het doel van het Cito Volgsysteem jonge kind is het volgen van een kind in zijn ontwikkeling. Dat kan 

optimaal met objectieve en gestandaardiseerde toetsen. De toets Rekenen voor peuters levert snel een 

goed beeld op van de rekenvaardigheid in deze leeftijdsgroep. 

Relatie met andere instrumenten 

Naast Rekenen voor peuters zijn er voor de groepen 1 en 2 van het basisonderwijs de toetsen Rekenen 

voor kleuters van het Cito Volgsysteem primair onderwijs (voorheen LOVS) beschikbaar. De items uit 

Rekenen voor peuters en Rekenen voor kleuters liggen op dezelfde schaal. Er is dus sprake van één 

vaardigheidsschaal die de ontwikkeling van de algemene rekenvaardigheid representeert van peuters 

(driejarigen) tot en met kinderen in groep 2. Hierdoor is het mogelijk om de ontwikkeling van de algemene 

rekenvaardigheid bij kinderen vanaf 3 jaar tot en met het einde van groep 2 te volgen in één doorgaande 

lijn. 

7

2.2 Doelgroep 

De toets Rekenen voor peuters is bestemd voor en genormeerd bij driejarige peuters in kinderdagverblijven 

en peuterspeelzalen in Nederland. De populatieparameters van de toets zijn op twee leeftijdsgroepen 

bepaald: 

leeftijdscategorie P1 (vanaf 3 jaar tot 3 ½ jaar: 36 tot 42 maanden) en 

leeftijdscategorie P2 (vanaf 3 ½ jaar tot 4 jaar: 42 tot 48 maanden). 

De toets kan daardoor op ieder willekeurig moment in het jaar worden afgenomen, waarbij het telkens 

mogelijk is om uitspraken te doen over het niveau van de peuter ten opzichte van andere peuters in 

Nederland die een peuterspeelzaal of kinderdagverblijf bezoeken. 

Beperkingen 

De toets Rekenen voor peuters kan in principe afgenomen worden bij alle driejarige peuters die naar een 

kinderdagverblijf of peuterspeelzaal gaan. Hierbij gelden de volgende uitzonderingen. Het kan raadzaam 

zijn om nog één of twee maanden te wachten met de afname wanneer een kind pas een korte tijd in een 

peutergroep zit. Daarnaast heeft het geen zin om de toets voor te leggen aan peuters die de Nederlandse 

taal helemaal niet beheersen (zie paragraaf 2.1 van de handleiding). Verder is de toets niet geschikt voor 

kinderen jonger dan 3 jaar. 

Andere doelgroepen 

De toets Rekenen voor peuters is niet alleen bedoeld voor peuters in kinderdagverblijven en 

peuterspeelzalen, maar ook voor kinderen (vanaf 4 jaar) uit het speciaal (basis)onderwijs (bijvoorbeeld 

IOBK) en voor speciale kinderen in het reguliere onderwijs, voor wie de toetsen Rekenen voor kleuters te 

moeilijk zijn. De aanwijzingen in de handleiding bij de toetsen gelden wat de principes betreft ook voor 

gebruik bij speciale kinderen. Er zijn echter enkele onderdelen waarvoor extra aanwijzingen gelden: de 

keuze van de af te nemen toets, het afnamemoment, en het gebruik van de alternatieve leerlingrapporten. 

Voor deze leerlingen zijn geen aparte normen opgesteld. Echter, de vaardigheidsscores die met behulp van 

de gemaakte toets worden vastgesteld, zijn vergelijkbaar met de vaardigheidsverdeling die hoort bij de 

populatie van reguliere leerlingen uit groep 1 en groep 2 op de afnamemomenten januari-februari en meijuni. 

Omdat we een doorgaande lijn van driejarige peuters tot en met groep 2 hebben, kunnen we namelijk 

Rekenen voor peuters afnemen bij een kind van 4 jaar of ouder en het resultaat van het kind op de toets 

tóch vergelijken met de resultaten van leeftijdsgenootjes. Daarnaast kan het resultaat ook vergeleken 

worden met de normgroepen van de peuters om zo helder te krijgen op welk niveau de kleuter functioneert. 

Voor meer informatie daarover verwijzen we naar paragraaf 2.4.2.1 uit deze verantwoording en naar de 

handleiding bij de toets Rekenen voor peuters (en eventueel de handleiding bij de toetsen Rekenen voor 

kleuters). 

2.3 Gebruiksdoel en functie 

Rekenen voor peuters heeft twee doelen: niveaubepaling en progressiebepaling. Daarnaast wordt als extra 

service voor de leidsters de mogelijkheid geboden de door het kind gemaakte fouten te analyseren (m.b.v. 

het categorieënoverzicht of de categorieënanalyse) met het oog op het aanbieden van gerichte 

remediëring. Het maken van analyses met het categorieënoverzicht of de categorieënanalyse kent geen 

wetenschappelijke onderbouwing, maar biedt een toegevoegde functie voor leidsters om opvallende 

patronen te signaleren. 

Naast de onderwerpen ‘niveaubepaling’, ‘progressiebepaling’ en ‘signalering via categorieënoverzicht en 

categorieënanalyse’, gaan we aan het eind van deze paragraaf nog in op de onderwerpen ‘vervolgtraject’ 

en ‘extra aandacht’. 

8

Niveaubepaling 

De toetsafnamen in het kader van Rekenen voor peuters geven de leidsters informatie over het niveau van 

de rekenvaardigheid van de kinderen, individueel of als groep. Iedere behaalde vaardigheidsscore kan 

daartoe normgericht geïnterpreteerd worden op basis van de vaardigheidsverdeling in een adequate 

referentiegroep (zie paragraaf 4.2 voor de beschrijving van de referentiegroep). 

In de toetsmaterialen zijn twee niveau-indelingen opgenomen, waarmee de leidster de scores van een kind 

kan vergelijken met die van een grote groep en representatieve kinderen. 

De leidster kan een keuze maken uit: 

─ de indeling in de niveaus A tot en met E; 

─ de indeling in de niveaus I tot en met V. 

Bij de indeling in de niveaus A tot en met E is de verdeling over de groepen als volgt: 

Niveau % Interpretatie 

A 25 De 25% hoogst scorende kinderen 

B 25 

C 25 

D 15 

De 25% kinderen die net boven tot ruim 

boven het landelijk gemiddelde scoren 

De 25% kinderen die net onder tot ruim onder 

het landelijk gemiddelde scoren 

De 15% kinderen die ruim onder het landelijk 

gemiddelde scoren 

E 10 De 10% laagst scorende kinderen 

Bij de indeling in A tot en met E wordt op de overzichten de hoogst scorende groep (niveau A) nog 

onderverdeeld in twee groepen: een groep die ‘hoog’ scoort (15% van de kinderen) en een groep die het 

‘allerhoogst’ scoort (10% van de kinderen). Deze groepen worden op de registratieformulieren van elkaar 

gescheiden door een stippellijn. 

Bij de indeling in de niveaus I tot en met V wordt uitgegaan van vijf groepen van 20%: 

Niveau % Interpretatie 

I 20 Ver boven het gemiddelde 

II 20 Boven het gemiddelde 

III 20 De gemiddelde groep kinderen 

IV 20 Onder het gemiddelde 

V 20 Ver onder het gemiddelde 

Bij de indeling in I tot en met V worden op de overzichten de laagst scorende groep en de hoogst scorende 

groep nog onderverdeeld in twee groepen die ieder 10% kinderen bevatten. Deze groepen worden op de 

registratieformulieren van elkaar gescheiden door een stippellijn. 

9

In de eerste generatie van de Cito Volgsystemen (de PVS 1 - en LVS-toetsen) werd alleen de indeling A tot 

en met E gebruikt. In de praktijk bleek deze enkele nadelen te hebben. Zo is de indeling niet symmetrisch. 

Bovendien zien sommige leidsters C als de gemiddelde groep. In de indeling A tot en met E bestaat echter 

geen gemiddelde groep, alleen groepen boven (A, B) of onder (C, D, E) het gemiddelde. 

Daarom is bij de tweede generatie van het Cito Volgsysteem voor primair onderwijs (voorheen LOVS) en 

het Cito Volgsysteem voor jonge kinderen (waar de toets Rekenen voor peuters onder valt) een indeling 

toegevoegd met de niveaus I tot en met V. De indeling in de niveaus I tot en met V is symmetrisch 

opgebouwd en heeft als voordeel dat er een gemiddelde 2 groep is. Deze indeling sluit aan bij de niveauindeling 

van andere Cito-toetsinstrumenten, zoals de Entreetoetsen. 

Progressiebepaling 

De toets Rekenen voor peuters geeft de leidster informatie over de ontwikkeling van de rekenvaardigheid 

van de kinderen, individueel of als groep, gedurende het jaar dat de peuter 3 jaar is. De toets geeft 

antwoord op vragen als: is er sprake van vooruitgang, achteruitgang of van stabilisering? Is de vooruitgang 

– gelet op de gemiddelde vooruitgang in de populatie – volgens verwachting? 

Het gehanteerde meetmodel (zie paragraaf 2.4.2) maakt het mogelijk om de scores van een kind op de 

toets, op verschillende momenten afgenomen, onderling te vergelijken. De ruwe scores op de toets – het 

aantal opgaven goed – zijn daartoe te transformeren in scores op één vaardigheidsschaal (het ‘algemeen 

niveau van rekenvaardigheid’). Deze unidimensionele vaardigheidsschaal die aan de toets Rekenen voor 

peuters ten grondslag ligt, is ontwikkeld met behulp van het One Parameter Logistic Model (Verhelst, 1993; 

Verhelst & Glas, 1995; Verhelst, Glas & Verstralen, 1995). 

'Signalering' via categorieënoverzicht of categorieënanalyse 

Het doel van de toets Rekenen voor peuters is het vaststellen van het algemene niveau van 

rekenvaardigheid van kinderen. Het kan behulpzaam zijn voor een leidster om te weten welk type opgaven 

een kind fout gemaakt heeft. Daarom bestaat de mogelijkheid om rapportages te maken waarin de 

resultaten op categorieniveau worden gerapporteerd. Met behulp van deze rapportages kan gesignaleerd 

worden of (relatief) veel opgaven uit een bepaalde categorie fout gemaakt worden door het kind. 

Het signaleren van fouten op categorieniveau kan op twee verschillende manieren gebeuren. Ten eerste 

kan gesignaleerd worden of een kind vergeleken met andere kinderen veel fouten in een bepaalde 

categorie maakt. Deze wijze van signaleren wordt gehanteerd in het categorieënoverzicht (m.b.v. de 

signaalscore). Ten tweede kan gesignaleerd worden of een kind op een bepaalde categorie relatief meer 

(of minder) fouten maakt dan op grond van zijn of haar algemene vaardigheidsniveau mag worden 

verwacht. In zekere zin wordt het kind dan met zichzelf vergeleken (zie voor de details van deze werkwijze 

bijlage 1). Dat gebeurt via de categorieënanalyse. De categorieënanalyse kan alleen gemaakt worden als 

een leidster de beschikking heeft over het Computerprogramma LOVS. 

Categorieënoverzicht 

Zoals gesteld, kan de leidster met behulp van het categorieënoverzicht een beeld krijgen van de 

vaardigheid van kinderen binnen de verschillende categorieën van de toets. Met dit categorieënoverzicht 

kan gesignaleerd worden of kinderen laag scoren in een bepaalde categorie. Dit wordt gedaan door het 

‘aantal goed’ op de categorie te vergelijken met een ‘signaalscore’. Per normeringsmoment is voor elke 

categorie een signaalscore berekend. De signaalscore is bepaald door met drie zaken rekening te houden: 

de verdeling van de vaardigheid, de moeilijkheid van de opgaven én de mogelijke meetfout bij het doen van 

uitspraken over de categorieën. De signaalscore van een categorie is die score waarbij met ten minste 84% 

zekerheid (d.w.z, 1 standaardmeetfout onder de vaardigheidsscore) gesteld kan worden dat het kind een 

score heeft waarmee hij of zij tot de 20% slechtst presterende kinderen behoort binnen de eigen normgroep 

wat betreft de opgaven binnen deze categorie. 

1 

PVS staat voor Peutervolgsysteem. LVS staat voor Leerlingvolgsysteem. 

2 

Gemiddeld moet hier niet opgevat worden in statische zin. De werkelijke gemiddelde ruwe score kan in werkelijkheid behaald 

worden door kinderen die niet in groep III zitten. 

10

De signaalscore is berekend door eerst de vaardigheid te bepalen die hoort bij het grenspunt in de 

verdeling waar 20% van de kinderen onder zit (P20 in de vaardigheidsverdeling). Vervolgens is de 

standaardmeetfout bepaald bij deze categorie. Deze standaardmeetfout is van het P20-punt afgetrokken, 

hetgeen het “P20 min 1SE”-punt voor een categorie oplevert. De signaalscore is nu het maximale aantal 

goede antwoorden waarmee nog steeds met ten minste 84% zekerheid gesteld kan worden dat het kind bij 

de 20% slechts presterende kinderen op de betreffende categorie hoort. Als de opgaven gemakkelijk zijn, is 

dat maximum dus hoger. Deze berekeningen zijn voor de drie categorieën uit de toets uitgevoerd en 

leveren voor de twee normgroepen van de peuters per categorie de signaalscores op zoals weergegeven in 

tabel 2.1. 

Tabel 2.1 Signaalscores per normgroep 

Categorie 

Normgroep Getalbegrip Meten Meetkunde 

P1: 3.0 - 3.5 jaar 3 4 4 

P2: 3.6 - 4.0 jaar 5 6 5 

Tabel 2.1 laat zien dat een kind van 3 jaar en 2 maanden dat 3 of minder opgaven goed heeft op de 

categorie Getalbegrip met minimaal 84% zekerheid tot de 20% slechtst presterende kinderen hoort op die 

categorie. Als dit kind 5 opgaven goed heeft bij Meten dan scoort het kind boven de signaalscore en 

behoort het op die categorie dan dus niet tot de 20% zwakst scorende kinderen. 

De kans dat bij een categorie de score van een kind gelijk is aan de signaalscore of lager, is het grootst bij 

kinderen die een vaardigheidsniveau V (of D of E) hebben. Het behalen van een V-niveau betekent echter 

niet per definitie dat een kind dan ook op één of meer categorieën een score zal hebben die gelijk is aan of 

lager dan de signaalscore. Het kan namelijk voorkomen dat een kind over ‘de gehele linie’ lager presteert 

en dat dit niet tot uiting komt in het categorieënoverzicht. En andersom, het behalen van een hoger niveau 

dan niveau V houdt niet in dat een kind op een specifiek onderdeel niet op of onder de signaalscore zou 

kunnen zitten. Indien de leidster constateert dat een kind op één of meerdere categorieën laag scoort of 

over de gehele linie lager presteert, dan kan zij gericht kijken hoe zij haar aanbod nog beter kan laten 

aansluiten op de vaardigheid van het kind. Individuele kinderen die blijk geven van onvoldoende beheersing 

van één of meerdere categorieën zullen wellicht baat hebben bij extra hulp en gerichte oefeningen (zie ook 

paragraaf 3.1). 

Categorieënanalyse 

Naast het categorieënoverzicht kan met behulp van het Computerprogramma LOVS ook een zogenaamde 

categorieënanalyse uitgevoerd worden. Daarmee kan nagegaan worden of kinderen op een bepaald 

onderdeel meer (of minder) fouten maken dan op grond van hun algemene vaardigheidsniveau verwacht 

mag worden. Bij de rapportage van het verschil tussen waargenomen en verwachte score wordt 

aangegeven of dat een klein verschil is dat aan toeval kan worden toegeschreven of dat het een 

betekenisvol verschil is. In feite is de categorieënanalyse dus een statistische procedure waarmee we 

kijken of we een bepaald patroon kunnen vinden in de resultaten van het kind. Het gaat daarbij om de vraag 

hoe waarschijnlijk dat patroon is. Gegeven de totaalscore van het kind halen we onwaarschijnlijke patronen 

eruit. Een onwaarschijnlijk patroon zou bijvoorbeeld kunnen zijn dat het kind op 2 van de 3 categorieën een 

hoge score haalt en op 1 categorie een lage score (of andersom). In bijlage 1 wordt precies beschreven 

hoe de categorieënanalyse plaatsvindt. Net als bij het categorieënoverzicht kan de categorieënanalyse als 

basis gebruikt worden bij het geven van extra hulp. 

11

Vervolgttraject 

Naar aannleiding 

van hhet 

resultaat op o de totale tooets 

(vaardigheidsscore 

en 

niveau) en het invullen van v het 

categorieeënoverzicht 

en/of de resu ultaten van dee 

categorieën nanalyse kan de leidster beesluiten 

om verder v te 

gaan kijkken. 

Omdat heet 

aantal opgaven 

per cateegorie 

in Rek kenen voor pe euters beperkkt 

is, kan niet worden 

uitgesloteen 

dat het kinnd 

bij toeval ju uist de opgavven 

uit deze categorie c fout heeft beantwwoord. 

Om meer 

zekerheidd 

te verkrijgen 

over de beh heersing van de betreffend de categorie door dit kind of zijn 

rekenvaaardigheid 

in het 

algemeen, , kan de leidsster 

resultaten n op toetsen en e observatieelijsten 

die de e 

vaardigheid 

van het kind 

op andere e gebieden inn 

beeld breng gen naast de resultaten opp 

de toets Rek kenen 

voor peuuters 

leggen. OOok 

de indruk 

die de leidsster 

zelf van het h kind heeft en het verslaag 

van dageli ijkse 

observaties 

(bijvoorbeeeld 

weergegeven 

in een kkinderdagverblijfboekje 

of portfolio) gevven 

informatie e over 

het kind een 

zijn rekenvvaardigheid. 

Als op baasis 

van de veerzamelde 

aa anvullende informatie 

blijkt, 

dat de reke envaardigheidd 

in het algem meen of 

de beheeersing 

van ééén 

of meerder re categorieën 

inderdaad te t wensen ov verlaat, kan dee 

leidster het t kind 

extra hulp 

en/of oefennmateriaal 

aanbieden, 

bijvooorbeeld 

aan n de hand van n het Hulpboeek 

Ordenen of o het 

Hulpboekk 

Ruimte uit hhet 

Hulpprogr ramma Peuteervolgsysteem 

m. 

Extra aaandacht 

De toets Rekenen vooor 

peuters ma aakt deel uit vvan 

een syste eem waarbij indien 

nodig eextra 

aandach ht wordt 

geboden aan kinderenn 

om ze optim maal te onderrsteunen 

in hun 

ontwikkeling. 

Dat systeeem 

bestaat uit u 

materialeen 

die ingezet 

kunnen wor rden bij het cyyclische 

proce es van onder rsteuning op mmaat: 

signale eren, 

analysereen, 

handelen en terugkoppeling 

door mmiddel 

van ev valuatie. 

In paragrraaf 

4.3 van dde 

handleiding 

bij de toetss 

(Op den Kam mp, 2010) is een e korte besschrijving 

opg genomen 

van de veerschillende 

ffasen. 

Ook vindt 

men daar 

beknopte in nformatie over 

het Hulpproogramma 

Peutervoolgsysteem. 

MMet 

de Hulpbo oeken Ordeneen 

en Ruimte e uit dit progra amma kan dee 

leidster gericht 

hulp 

geven aaan 

een kind oom 

de rekenontwikkeling 

tee 

stimuleren. Voor gedetailleerde 

informmatie, 

zie Van n Kuyk 

(2005). OOndanks 

de innkadering 

van n de toets in het Hulpprogramma, 

moet 

benadrukt wworden 

dat de e toets 

zelf methhode-onafhannkelijk 

is. Omd dat het in dezze 

verantwoording 

alleen om o Rekenen voor peuters s gaat, 

volstaan we hier met eeen 

overzicht t van de mateerialen 

voor to oetsing en ex xtra hulp. 

Figuur 2. .1 Cito-maaterialen 

ten behoeve b van extra toetsing g en hulp 

12

2.4 Theoretische inkadering 

2.4.1 Inhoudelijk 

De basis voor de inhoud van de toets Rekenen voor peuters wordt gevormd door: 

– theorieën over de rekenontwikkeling bij jonge kinderen; 

– het rekenaanbod voor peuters op kinderdagverblijven en peuterspeelzalen; 

– TAL-publicaties (Tussendoelen Annex Leerlijnen) ontwikkeld door het Freudenthalinstituut en Stichting 

Leerplanontwikkeling (SLO) in samenwerking met het Centrum Educatieve Dienstverlening Rotterdam 

(CED) (1999; 2004); 

– Tussendoelen en leerlijnen (TULE), ontwikkeld door SLO (2009); 

– de vernieuwde doelen 3 met betrekking tot ‘Ontwikkeling van jonge kinderen 2-7 jaar: 

Rekenontwikkeling’ (SLO, 2011). 

In deze paragraaf gaan we eerst in op de rekenontwikkeling van jonge kinderen (zie paragraaf 2.4.1.1). 

Van leidsters wordt verwacht dat ze de rekenontwikkeling van kinderen stimuleren. Daarom gaan we 

vervolgens in paragraaf 2.4.1.2 nader in op de rekendoelen voor jonge kinderen. De doelen opgesteld door 

SLO beschrijven waarmee kinderen begin groep 1 ervaring opgedaan moeten hebben. We geven aan 

welke doelen met de toets Rekenen voor peuters kunnen worden geëvalueerd. In paragraaf 3.2.2 wordt 

uitgewerkt hoe dit er op operationeel niveau uitziet. In paragraaf 2.4.1.3 stippen we kort aan hoe het 

rekenaanbod in de peutergroepen eruit ziet. 

2.4.1.1 Rekenontwikkeling 

In de voorschoolse periode ontwikkelt de reken-wiskundige kennis van kinderen zich op een persoonlijke 

wijze die sterk is verbonden met de eigen leefomgeving (Treffers, Van den Heuvel-Panhuizen & Buys, 

1999). Kinderen proberen grip te krijgen op hun eigen leefomgeving. Door te ordenen, vergelijken en meten 

wordt de wereld voor het kind overzichtelijker. Kinderen doen dit van nature en hebben plezier in 

ontdekken, imiteren en probleem oplossen (Singer, 2009). 

Tot de leeftijd van ongeveer 7 jaar verwerven jonge kinderen al veel rekengerelateerde deelvaardigheden. 

Bijvoorbeeld de vier traditionele rekenvoorwaarden conserveren, correspondentie, classificatie en seriatie, 

gebaseerd op de voorwaarden vormgegeven door Piaget in de jaren zestig. 

– Conserveren is het doorzien dat dingen hetzelfde blijven, ook al verandert de verschijningsvorm. 

Bijvoorbeeld acht blokjes blijven acht blokjes ook al leg je ze verder uit elkaar of dichter bij elkaar. 

Een peuter zal zeggen dat er meer of minder blokjes liggen, terwijl er evenveel liggen. 

– Correspondentie, is de vaardigheid om één-één-relaties te leggen, bijvoorbeeld bij elk bord één mes en 

één servetje. 

– Classificatie is het kunnen ordenen op grond van een bepaald kenmerk (zoals kleur, aantal, grootte) en 

het kunnen afzien van andere concrete eigenschappen van de voorwerpen die geordend worden. 

Bijvoorbeeld het aanleggen van een ‘blauwe’ verzameling: grote blauwe blokken, kleine blauwe kralen, 

zachte blauwe watten enzovoort. Het gaat dan alleen om de eigenschap blauw. 

– Seriëren is het aanbrengen van allerlei rangordes, bijvoorbeeld van klein naar groot of van zwaar naar 

licht. 

3 In de handleiding en inhoudsverantwoording Rekenen voor peuters wordt gesproken over ‘tussendoelen’, ontwikkeld door 

SLO. In de definitieve uitgave van deze doelen (2011) wordt er gesproken van ‘beheersingsdoelen’ en ‘ervaringsdoelen’. 

13

Deze vier traditionele voorwaarden zijn van belang voor het logisch leren denken. Daarnaast is tellen een 

belangrijke voorwaarde voor getalbegrip en rekenen. De ontwikkeling van het tellen verloopt in stappen: 

– Het willekeurig opzeggen van de telrij. 

– Asynchroon tellen: het aanwijzen en akoestisch tellen. Hierbij worden nog voorwerpen overgeslagen, 

dubbel geteld of het aanwijstempo en teltempo verschilt. 

– Synchroon tellen: tellen volgens de gekozen volgorde. Het kind telt elk voorwerp als ‘1 erbij’ en slaat 

niets meer over. 

– Resultatief tellen: het kind kan na het tellen zeggen hoeveel het geteld heeft. Kinderen die dat nog niet 

kunnen, beginnen opnieuw te tellen als je vraagt: hoeveel knikkers liggen daar? 

– Abstractieprincipe: het kind kan iedere volgorde tellen, het kan ook verkort tellen en ziet deelgeheelrelaties. 

Hierbij leert het kind de vijfstructuur kennen, het grootste aantal dat het kind 

aanvankelijk in één keer kan overzien. 

– Ordinaalprincipe: het kind kan de volgorde aangeven (dat is de vierde stoel). 

Peuters zijn zich volgens Van Luit (2009) al bewust van hoeveelheden en hebben al een notie van het 

benoemen van aantallen voorwerpen. Door het verwerven van de rekengerelateerde deelvaardigheden 

krijgen kinderen geleidelijk steeds meer besef van de gecijferde wereld. Dit wordt ook wel het proces van 

ontluikende gecijferdheid (bij peuters) en beginnende gecijferdheid (bij kleuters) genoemd. Tijdens dit 

proces krijgen de kinderen steeds meer besef van de verschillende betekenissen, verschijningsvormen en 

gebruiksmogelijkheden van getallen. Hierin gaan ze steeds meer samenhang ontdekken (3 kan 3 jaar zijn 

of 3 rozijntjes, maar ook bus 3 of een tekst van een liedje ‘van je één, twee, drie!’). 

Naast het omgaan met getallen en hoeveelheden is er de laatste tijd meer aandacht voor de wiskundige 

aspecten meten en meetkunde. Het meten is volgens Van den Heuvel-Panhuizen & Buys (2004) gericht op 

het meetbaar maken (kwantificeren) van de fysieke omgeving. Bij peuters en kleuters gaat het hierbij eerst 

om het vergelijken van concrete voorwerpen (Welke is het grootst?). Op latere leeftijd wordt gebruik 

gemaakt van meetgetallen, bijvoorbeeld om een gewicht (1 kilo) aan te geven. Bij meetkunde gaat het om 

het begrijpen van de drie- en tweedimensionale wereld om ons heen en de bijbehorende figuren en 

vormen. De oriëntatie in de ruimte ontwikkelt zich vanuit het eigen lichaam. Het lichaam is het 

referentiepunt van waaruit relaties worden gelegd (Ik sta voor de kast). Langzamerhand neemt het kind 

afstand van zichzelf en leert dat er ook andere referentiepunten bestaan (De kast staat naast de tafel). 

Kinderen maken zich voorstellingen van eigenschappen van vormen en construeren bouwwerken met 

vormen in de ruimte (bouwen met zand of blokken). 

De rekenvaardigheid ontwikkelt zich bij kinderen in een verschillend tempo. Dit komt door verschil in 

intelligentie of omdat bijvoorbeeld niet elk kind even geïnteresseerd is in alles wat met getallen te maken 

heeft. Ook verschilt de leefomgeving van het ene kind van die van het andere (Treffers et al., 1999). 

Daarnaast zijn er ook andere factoren die de ontwikkeling van het getalbegrip en van het tellen 

beïnvloeden. Zo hebben kinderen die moeite hebben met onthouden ook vaak meer moeite met het leren 

van de telrij (Van Luit, 2009). Om de ontwikkeling van de rekenvaardigheid zo goed mogelijk te kunnen 

stimuleren, kunnen leidsters de beschrijving van de doelen die door SLO zijn opgesteld gebruiken. 

2.4.1.2 Tussendoelen en leerlijnen 

Het TAL-team (1999; 2004) heeft tussendoelen en leerlijnen geformuleerd voor de onderbouw van het 

basisonderwijs, ingedeeld in de domeinen Getalbegrip, Meten en Meetkunde. Hierin staat beschreven hoe 

(op welk wijze) en wanneer (op welke momenten en in welke achtereenvolgende stappen) rekendoelen 

(kennis, strategieën en houdingen) bij kleuters bereikt kunnen worden (Greven & Letschert, 2006). In 2010 

zijn op verzoek van het ministerie van OCW door SLO nieuwe doelen ontwikkeld met betrekking tot de 

rekenontwikkeling van jonge kinderen van twee tot zeven jaar in de voor- en vroegschoolse situatie 

(definitieve uitgave 2011). De functie van deze doelen is om het inhoudelijk repertoire van leidsters en 

leerkrachten te vergroten c.q. te versterken, zodat zij inhoudelijk verantwoorde keuzes kunnen maken en 

uitvoeren om een kwalitatief hoogstaand aanbod aan jonge kinderen te bieden, zowel aan kinderen met 

een achterstand als aan kinderen met een ontwikkelingsvoorsprong. 

14

Ook zijn deze nieuwe doelen ingedeeld in de domeinen Getalbegrip, Meten en Meetkunde en geven de 

doelen aan waar leidsters in de voorschoolse educatie aan kunnen werken om de kinderen goed aan de 

basisschool te laten beginnen. De doelen zijn voor peuters niet als beheersingsdoelen, maar als 

ervaringsdoelen geformuleerd. Er wordt namelijk geformuleerd met welke rekenvaardigheid kinderen voor 

aanvang van groep 1 ervaring moeten hebben opgedaan, zie tabel 2.2. 

Tabel 2.2 Domeinen en doelen 

Domein Doelen 

Getalbegrip Omgaan met de telrij 

Omgaan met hoeveelheden 

Omgaan met getallen 

Meten Lengte & omtrek 

Inhoud 

Tijd 

Meetkunde Oriënteren en lokaliseren 

Construeren 

Opereren met vormen en figuren 

Deze doelen kunnen als richtlijn gebruikt worden bij het werken met peuters. In de praktijk zullen de doelen 

en subdoelen, zeker bij jonge kinderen, in onderlinge samenhang aan bod komen in contextrijke en 

betekenisvolle activiteiten. Jonge kinderen ontwikkelen zo op een natuurlijke manier hun inzichten op dit 

gebied. 

Dekking van de doelen 

In de toets Rekenen voor peuters worden de drie domeinen Getalbegrip, Meten en Meetkunde 

geoperationaliseerd in opgaven. Deze domeinen worden in de toets aangeduid als categorieën. 

De opgaven van de toets zijn evenwichtig over de categorieën verdeeld. Ieder domein heeft meerdere 

onderliggende doelen, zoals ‘Lengte & omtrek’ binnen het domein Meten (zie tabel 2.2). Deze doelen 

worden gemeten met de opgaven in de toets. Uitzondering hierbij wordt gevormd door de doelen ‘Omgaan 

met de telrij’, ‘Omgaan met getallen’ en ‘tijd’. Deze worden niet gemeten met de toets Rekenen voor 

peuters. De opgavenvormen uit Rekenen voor peuters zijn namelijk niet geschikt om deze tussendoelen te 

meten bij peuters. 

Binnen deze doelen zijn verschillende aspecten van rekenen te onderscheiden. Een voorbeeld hiervan 

binnen het domein ‘Meten’ en het doel ‘Lengte & omtrek’ is: ‘het vergelijken en ontdekken van 

tegenstellingen, met passief gebruik van begrippen (grootste-kleinste, langste-kortste)’. Deze aspecten van 

rekenen zijn ook geoperationaliseerd in de opgaven van de toets. Een aantal aspecten van de doelen 

kunnen niet via Rekenen voor peuters getoetst worden, maar bijvoorbeeld wel via observaties (zoals tijdens 

het bouwen en handelen met blokken). 

2.4.1.3 Het rekenaanbod in kinderdagverblijven en peuterspeelzalen 

De toets Rekenen voor peuters is methode-onafhankelijk. Wel is het belangrijk dat de toets aansluit op het 

rekenaanbod in kinderdagverblijven en peuterspeelzalen. De rekendoelen, geformuleerd door de SLO 

(2011) vormen een richtlijn voor het werken met peuters. In het aanbod op kinderdagverblijven en 

15

peuterspeelzalen wordt regelmatig aandacht besteed aan rekengerelateerde deelvaardigheden en 

ontluikende gecijferdheid. Dit gebeurt spontaan bijvoorbeeld tijdens het samenspelen of zingen, maar ook 

via VVE-programma’s. Veelgebruikte VVE-programma’s (zoals bijvoorbeeld Piramide en Puk & Ko) 

beschrijven op hun websites dat ze veel aandacht aan het ontwikkelingsgebied Rekenen besteden en aan 

de tussendoelen. Deze programma’s zijn opgenomen in de databank effectieve jeugdinterventies van het 

NJI en voldoen in theorie aan de kwaliteitseisen die het ministerie van OC&W aan VVE-programma’s stelt. 

Eén van deze eisen is dat de methode de rekenontwikkeling moet stimuleren (Wet OKE) 4 . 

2.4.2 Psychometrisch 

2.4.2.1 Opgavenbanken voor jonge kinderen en het primair onderwijs 

Voor het samenstellen van toetsen voor kinderdagverblijven, peuterspeelzalen en het primair onderwijs 

beschikt Cito over opgavenbanken. Die liggen ten grondslag aan onder meer de Volgsystemen (Cito 

Volgsysteem jonge kind, Cito Volgsysteem primair onderwijs, de Entreetoetsen, Eindtoets basisonderwijs). 

Voor de constructie van de toets Rekenen voor peuters hebben we gebruikgemaakt van de opgavenbank 

Rekenen voor peuters en kleuters. Ook voor andere vakgebieden, bijvoorbeeld bij het volgsyteem Taal voor 

peuters en kleuters, zijn opgavenbanken in gebruik. 

Een opgavenbank is nadrukkelijk niet ‘zomaar’ een verzameling opgaven of items waaruit een 

toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te 

construeren. We geven hier kort aan wat de vereisten zijn om van een deugdelijke en psychometrisch goed 

gefundeerde opgavenbank te kunnen spreken. 

Unidimensionaal continuüm 

Het algemene uitgangspunt is dat de vaardigheid rekenen kan worden opgevat als een unidimensionaal 

continuüm (de reële lijn), en dat elk kind voorgesteld kan worden als een punt op die lijn, met andere 

woorden: als een getal. Het getal drukt de mate van rekenvaardigheid uit, waarbij een groter getal wijst op 

een grotere rekenvaardigheid. Het doel van de meetprocedure – het afnemen van een toets – is de plaats 

van het kind op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure 

bestaat strikt genomen uit twee grootheden. De eerste is de schatting van de plaats van het kind op het 

vaardigheidscontinuüm. De tweede grootheid geeft aan hoe nauwkeurig die schatting is, en heeft dus de 

status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie. 

Latente vaardigheid 

De antwoorden die een kind op de opgaven geeft, worden beschouwd als indicatoren van de vaardigheid, 

hetgeen ruwweg betekent dat men verwacht dat alle items in de bank rekenvaardigheid meten. 

De vaardigheid zelf wordt als niet-observeerbaar beschouwd, en daarom gewoonlijk omschreven als een 

latente vaardigheid. 

‘Moeilijkheid’ in de Item Respons Theorie 

Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen. 

Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt 

moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het 

item in een welbepaalde populatie van kinderen. In de Item Respons Theorie (IRT) die voor het construeren 

van de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg 

gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden. 

4 ‘Ontwikkelingskansen door kwaliteit en educatie’, 1 augustus 2010 

16

Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk: 

men kan verwachten dat de p-waarde van een item voor kinderen in leeftijdscategorie P2 groter zal zijn dan 

in leeftijdscategorie P1, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de 

moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item 

gedefinieerd in termen van de onderliggende vaardigheid, zonder enige referentie naar een bepaalde 

populatie van kinderen. Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op 

eenzelfde schaal liggen. 

Kansmodel 

De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van 

vaardigheid die nodig is om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking. 

Men zou deze omschrijving kunnen opvatten als een drempel: heeft een kind die mate van vaardigheid niet, 

dan kan hij het item niet juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd) 

het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van 

het kind, die echter in de praktijk geen stand houdt, omdat eruit volgt dat een kind dat een moeilijk item 

correct beantwoordt geen fout kan maken op een gemakkelijk item. Daarom wordt in de IRT een kansmodel 

gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord. 

De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om 

met een kans van precies een half een juist antwoord te kunnen produceren. 

Kalibratie 

In het voorgaande zijn nogal wat veronderstellingen ingevoerd (unidimensionaliteit; alle items zijn 

indicatoren voor dezelfde vaardigheid; kansmodel) die niet zonder meer voor waar kunnen worden 

aangenomen; we zullen methoden moeten bedenken om aan te tonen dat al die veronderstellingen 

deugdelijk zijn. Dit ‘aantonen’ gebeurt met statistische gereedschappen waarop we in het vervolg dieper 

zullen ingaan. Maar voor we de items in een toets kunnen gebruiken, moeten we ook proberen de waarden 

van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt 

toegepast op de itemantwoorden die bij een steekproef van kinderen zijn verzameld. Het hele proces van 

moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn, wordt kalibratie of 

ijking genoemd; de steekproef van kinderen die hiervoor wordt gebruikt noemen we kalibratiesteekproef. 

Afnamedesigns 

Een opgavenbank bevat meer items dan een doorsnee toets. Meestal is het praktisch niet doenbaar om alle 

items aan alle kinderen voor te leggen. Elk kind in de kalibratiesteekproef krijgt derhalve slechts een (klein) 

gedeelte van de items uit de opgavenbank voorgelegd. Dit gedeeltelijk voorleggen moet met de nodige 

omzichtigheid gebeuren. In hoofdstuk 4 wordt ingegaan op het afnamedesign dat voor de kalibratie van de 

rekenopgaven is gebruikt. 

Belangrijke implicaties gekalibreerde opgavenverzameling 

Als we erin slagen de kalibratie met succes uit te voeren, houden we een zogenaamde gekalibreerde 

itembank over. In dat proces worden de items die niet passen bij de verzameling uit de collectie verwijderd. 

De opgavenbank bevat voor elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische 

eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Dit houdt 

onder meer het volgende in: 

─ In principe kunnen we met een willekeurige selectie items uit de bank de vaardigheid meten bij een 

willekeurig kind. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in de 

praktijk meestal niet voldoen omdat het meetresultaat (de schatting van de vaardigheid) onvoldoende 

nauwkeurig zal zijn. Willen we een nauwkeuriger meting (bij een gegeven aantal items in de toets) dan 

zullen we de moeilijkheidsgraden van de items in overeenstemming moeten brengen met het 

vaardigheidsniveau van de kinderen. 

─ We kunnen een schatting maken van de verdeling van de vaardigheid in een welomschreven 

populatie, door selecties van items voor te leggen aan aselecte steekproeven van kinderen uit 

populaties die van belang zijn voor de normering. In het geval van de toets Rekenen voor peuters zijn 

17

dat steekproeven van kinderen uit de verschillende leeftijdscategorieën P1 en P2. Daarbij maakt het, 

behoudens wat bij het vorige punt is vermeld over nauwkeurigheid, niet uit welke selectie van items 

aan een kind binnen een normeringsgroep wordt afgenomen. Een van de eigenschappen van 

gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid van kinderen kan 

worden bepaald. In de praktijk komt dit meestal neer op het schatten van gemiddelde en 

standaardafwijking in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen 

kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie. 

In het kalibratie- en normeringsonderzoek van de toets Rekenen voor peuters hebben we ook de toets 

Rekenen voor kleuters meegenomen. Dit houdt in dat we een set met items die voor driejarige peuters 

bedoeld zijn, niet alleen hebben afgenomen bij driejarige peuters, maar deels ook bij kinderen uit 

groep 1. Tevens hebben we een deel van de items die bedoeld zijn voor groep 1 ook bij driejarige 

peuters afgenomen. Bij de analyse van de resultaten bleek dat we de peuteritems op dezelfde schaal 

konden plaatsen als de kleuteritems. De itembank bevat dus zowel peuter- als kleuteritems. 

─ Ook bij kinderen die niet tot de betreffende referentiepopulatie van driejarige peuters behoren, maar die 

ouder zijn, is het zinvol om de toets Rekenen voor peuters voor te leggen, indien de toetsen Rekenen 

voor kleuters nog te moeilijk zijn voor deze kinderen. Er is één vaardigheidsschaal gemaakt voor de 

toetsen Rekenen voor peuters en Rekenen voor kleuters. De toetsscore op deze toetsen wordt 

omgezet in een schatting van de vaardigheid. Deze schatting kan geplaatst worden in de 

vaardigheidsverdeling van de populatie waar het kind qua leeftijd het beste bij past. Een leerling met 

achterstand in groep 1 kan bijvoorbeeld de toets Rekenen voor peuters maken en zijn 

vaardigheidsschatting kan behalve met de populatie van zijn eigen groep (bijvoorbeeld in groep 1) op 

een bepaald afnamemoment (midden of eind) vergeleken worden met de populatie van oudste peuters 

(P2) met bijvoorbeeld de uitspraak: “De vaardigheid van deze leerling komt overeen met de mediane 

vaardigheid van peuters in leeftijdscategorie P2.” Immers, het kalibratie-onderzoek heeft laten zien dat 

alle items dezelfde vaardigheid meten. Met de toetsen Rekenen voor peuters en Rekenen voor 

kleuters meten we dus dezelfde vaardigheid, zodat schattingen die van verschillende toetsen afkomstig 

zijn zinvol met elkaar kunnen worden vergeleken. 

2.4.2.2 Het gehanteerde meetmodel 

In het normeringsonderzoek is gebruikgemaakt van een op de itemresponstheorie (IRT) gebaseerd 

meetmodel. Dergelijke modellen verschillen in een aantal opzichten nogal sterk van de klassieke testtheorie 

(Verhelst, 1993; Verhelst & Kleintjes, 1993; Verhelst en Glas, 1995). Bij de klassieke testtheorie staan de 

toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenaamde ware 

score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder 

dezelfde condities zou worden afgenomen. Deze klassieke testtheorie zou in dit onderzoek niet gebruikt 

kunnen worden, aangezien het normeringsonderzoek van de rekentoetsen een onvolledig design betrof: 

niet alle kinderen hadden alle opgaven gemaakt. 

Het gebruik van het IRT-model heeft enkele belangrijke voordelen. Op de eerste plaats kunnen de 

populatieschattingen onafhankelijk van de schattingen van de itemparameters plaatsvinden. Dat heeft 

voordelen bij het wegen van de verschillende groepen om te zorgen dat de steekproef geheel 

overeenkomstig de populatieverdeling is. Daarna kan met deze populatieverdeling en kennis over de 

itemparameters precies bepaald worden welke de item- en toetskarakteristieken zijn voor de populatie. 

Voor een overzicht van meer voordelen van IRT boven klassieke testtheorie wordt verwezen naar 

Hambleton, Swaminathan en Rogers (1991). 

In de IRT staat het te meten begrip of de te meten eigenschap centraal. De IRT beschouwt het antwoord op 

een item als een indicator voor de mate waarin die eigenschap aanwezig is. Het verband tussen 

eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde 

itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de 

onderliggende eigenschap of vaardigheid. Formeler: zij Xi de toevalsvariabele die het antwoord op item i 

voorstelt. X i neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord. 

18

Als symbbool 

voor de v 

is. Dat zijjn 

alleen de a 

genoemdd 

5 vaardigheid kiezen k we θ (ttheta). 

We wij jzen erop dat t θ niet rechtsstreeks 

obser rveerbaar 

antwoorden op o de opgaven. 

Dat is de reden 

waarom m θ een 'latennte' 

variabele wordt 

. De itemressponsfunctie 

fi(θ) is gedefiinieerd 

als ee en conditionele 

kans: 

Een IRT-model 

is eenn 

speciale toe epassing van (2.1) waarbij aan de functie 

fi(θ) een mmeer 

of minder 

specifiekke 

functionelee 

vorm wordt toegekend. t EEen 

eenvoudig g en zeer pop pulair voorbeeeld 

is het 

zogenaamde 

Raschmmodel 

(Rasch, , 1960) waarin 

fi(θ) gegeve en is door 

waarin βii 

de moeilijkheidsparamete 

er van item i iis. 

Dat is een onbekende grootheid g die geschat wor rdt uit de 

observaties. 

De grafieek 

van (2.2) is s weergegeveen 

in figuur 2.2 

voor twee items, i en j, ddie 

in moeilijk kheid 

verschilleen. 

Deze figuur 

illustreert dat d de itemresponsfunctie 

een stijgende 

functie is vaan 

θ: hoe gro oter de 

vaardigheid, 

des te grroter 

de kans op een juist aantwoord. 

Ind dien de latent te vaardigheidd 

precies gelijk 

is aan 

de moeiliijkheidsparammeter 

βi , krijg gen we 

Daaruit vvolgt 

onmiddeellijk 

een inter rpretatie voor r de paramete er βi : het is de 

'hoeveelheiid' 

vaardigheid 

die 

nodig is vvoor 

de kans van precies een e half om hhet 

item i juist 

te beantwoo orden. Uit de figuur blijkt duidelijk 

dat voor item j een grootere 

vaardigheid 

nodig is om diezelfde e kans te bere eiken, maar ddit 

is hetzelfde e als te 

zeggen ddat 

item j moeeilijker 

is dan item i. We kuunnen 

de parameter 

βi dus s terecht omsschrijven 

als de d 

moeilijkheidsparameteer 

van item i. De implicatiee 

van het bov venstaande is s dat 'moeilijkhheid' 

en 'vaar rdigheid' 

op dezelffde 

schaal ligggen. 

Figuur 2. .2 Twee iteemresponscu 

urven in het RRasch 

model 

5 

Dit maakkt 

duidelijk waaroom 

men de modellen 

die ressortteren 

onder de IRT, I ook wel aan nduidt met 'latennte 

trek'-modelle en. 

19 

(2.1) 

(2.2) 

(2.3)

Formule (2.2) is geen beschrijving van de werkeelijkheid, 

het is een hypoth hese over de werkelijkheid d die 

getoetst kan worden oop 

haar houdbaarheid. 

Hooe 

zo’n toetsin ng grofweg ve erloopt, is te vverduidelijken 

n aan de 

hand vann 

figuur 2.2. DDaaruit 

blijkt dat, d voor welkk 

vaardigheidsniveau 

dan ook, de kanss 

om item j juist 

te 

beantwooorden 

steedss 

kleiner is dan 

de kans opp 

een juist ant twoord op item m i. Daaruit vvolgt 

de statis stisch te 

toetsen vvoorspelling 

ddat 

de verwac chte proportiee 

juiste antwo oorden op item m j kleiner is ddan 

op item i in een 

willekeurrige 

steekproeef 

van person nen. Splitst mmen 

nu een gr rote steekproe ef in twee deeelsteekproeve 

en, een 

‘laaggroeep’, 

met de vijjftig 

procent laagste 

scorees, 

en een ‘ho ooggroep’, me et de vijftig prrocent 

hoogst te scores, 

dan kan men nagaan of de geobse erveerde p-waaarden 

van de d opgaven in n beide deelstteekproeven 

op 

dezelfde wijze geordeend 

zijn. Daar rvan kan strikkt 

genomen alleen 

sprake zijn als, in terrmen 

van de klassieke 

testtheorrie 

uitgedrukt, , alle opgaven n eenzelfde ddiscriminatie-i 

index hebben n. Dat echter blijkt lang nie et altijd zo 

te zijn. OOok 

in het gevval 

van de rek kentoetsen nieet. 

Veel van de d items blijken 

dan ook nniet 

te kunnen n worden 

beschrevven 

met het RRaschmodel. 

Daarom is bijj 

dit instrument 

gekozen voor 

een andeer 

IRT-model. . 

Alvorens het hier gebruikte 

model te introducereen, 

is eerst e 

moeilijkheidsparameteers 

in het Ras schmodel. Eeen 

vaak toege 

grootste aannemelijkhheidsmethode 

e’ (in het Engels: 

Condition 

CML). Diie 

maakt gebruik 

van het feit f dat in het Raschmodel 

statistic) bestaat voor de latente va ariabele θ, naamelijk 

de ruw 

items. Daat 

betekent grofweg 

dat, in ndien de itemmparameters 

b 

antwoorddpatroon 

overr 

de vaardigheid 

bevat, kaan 

worden sam 

verder niet 

meer toe wwelke 

opgave en goed en weelke 

fout zijn 

kans op eeen 

juist antwwoord 

op item m i, gegeven dde 

ruwe score 

itemparaameters 

en onnafhankelijk 

van v de waardee 

van θ 

functie geebruik. 

Deze methode ma aakt geen enk 

de populatie, 

en is ook 

onafhankelijk 

van de wij 

6 en kanttekening 

nodig bij het schatten van de 

epaste schatt tingsmethodee 

is de ‘condit tionele 

nal Maximum m Likelihood, vverder 

aange eduid als 

een afdoend de steekproefg fgrootheid (su ufficient 

we score of he et aantal corrrect 

beantwoo orde 

bekend zijn, alle a informatiee 

die het 

mengevat in de d ruwe score re; het doet er 

dan 

gemaakt. Hie eruit vloeit vooort 

dat de conditionele 

e, een functie e is die alleenn 

afhankelijk is 

van de 

. De CML-schattin ngsmethode mmaakt 

van de eze 

kele veronder rstelling over de verdeling van de vaard digheid in 

ze waarop de e steekproef is getrokken. 

De CML-schattingsmeethode 

is ech hter niet bij elkk 

meetmodel toepasbaar. In het zogenaaamde 

éénpa arameter 

logistischh 

model (Onee 

Parameter Logistic L Modeel, 

afgekort: OPLM) O is CML L mogelijk. Diit 

model is, an nders 

dan het RRaschmodel, 

wel bestand tegen ‘omwissseling’ 

van ‘ proporties juist’ 

in verschilllende 

steekp proeven 

(Glas & VVerhelst, 

1993; 

Eggen, 1993; 

Verhelst & Kleintjes, 1993). 

De item mresponsfuncctie 

van het OPLM O is 

gegeven door 

waarin aii 

de zogenaammde 

discrimin natie-index vaan 

het item is s. Door deze indices te bepperken 

tot (po ositieve) 

gehele getallen, 

en dooor 

ze a priori 

als constantten 

in te voer ren, is het mo ogelijk CML-scchattingen 

va an de 

itemparaameters 

βi te mmaken. 

In figu uur 2.3 is de itemresponsc curve weerge egeven van twwee 

items i en n j, die 

even moeilijk 

zijn maaar 

verschillend d discriminereen. 

6 

Een gedeetailleerde 

uiteeenzetting 

hierove er kan men vindeen 

in Verhelst, 1992. 1 

20 

(2.4)

Figuur 2. .3 Twee iteemresponscu 

urven in het OOPLM: 

zelfde moeilijkheid, verschillendee 

discriminati ie 

De schatttingen 

wordeen 

berekend met m het compputerprogramma 

OPLM (V Verhelst, Glass 

en Verstrale en, 1995). 

Dit programma 

voert ddaarnaast 

ook 

statistischee 

toetsen uit op o grond waarvan 

kan worrden 

bepaald of het 

model dee 

gegevens aadequaat 

besc chrijft. Omdatt 

een aantal van v deze toet tsen bijzondeer 

gevoelig is voor een 

verkeerde 

specificatiee 

van de discr riminatie-indicces, 

zijn de uitkomsten 

van 

deze toetseen 

bruikbaar als 

modificattie-indices: 

zee 

geven een aanwijzing a in welke richtin ng deze discriminatie-indice 

ces moeten worden w 

aangepaast 

om een beetere 

overeen nkomst tussenn 

model en ge egevens te ve erkrijgen. Kallibratie 

van ite ems 

volgens hhet 

OPLM is dan ook een iteratief procees 

waarin alte ernerend de modelfit van iitems 

wordt 

onderzoccht 

door midddel 

van statist tische toetsingg 

en de waar rden van de discriminatie-i 

d 

indices worde en 

aangepaast 

op grond vvan 

de resulta aten van dezee 

toetsen. 

Hoewel hhet 

OPLM aanzienlijk 

flexibeler 

is dan hhet 

Raschmodel, 

heeft het t met dit modeel 

toch een nadeel 

gemeen, waardoor heet 

bij het kalib breren van meeerkeuzeopga 

aven niet zon nder meer bruuikbaar 

is. Uit t de 

formules (2.2) en (2.44) 

volgt dat, in ndien θ zeer kklein 

is, de ka ans op een juist 

antwoord zzeer 

dicht in de d buurt 

van nul kkomt. 

Maar dee 

items in het t normeringsoonderzoek 

zijn 

meerkeuze e-items, zodatt 

blind gokken n een 

zekere kaans 

op een juuist 

antwoord impliceert. EEr 

bestaan mo odellen die re ekening houdeen 

met de raa adkans 

(Lord & NNovick, 

1968) ), maar die laten 

geen CMML-schattingsm 

methode toe. De ongeschiiktheid 

van he et 

Raschmoodel 

of OPLMM 

voor meerke euzevragen iss 

echter relat tief: indien de e items in verggelijking 

met de 

vaardigheid 

van het kind 

niet al te moeilijk zijn, blijkt dat het effect van het 

raden op dee 

overeenkom mst 

tussen mmodel 

en gegeevens 

klein is s. Door een veerstandige 

da ataverzamelin ngsproceduree 

toe te passe en en met 

name nieet 

te moeilijkee 

opgaven te selecteren in de toets kan n het OPLM to och toegepasst 

worden op 

meerkeuzevragen, 

waaarbij 

de over reenkomst tusssen 

model en e data de uit teindelijke dooorslag 

over die d 

geschikthheid 

moet gevven. 

Ook in de d normering wordt hier rekening 

mee gehouden. g 

Voor de sschatting 

vann 

de populatie everdeling woordt 

gebruikge emaakt van de d schattingenn 

zoals die ve erkregen 

worden mmet 

het progrramma 

SAUL (Structural AAnalysis 

(of a) ) Univariate Latent L trait; Veerhelst 

en Ve erstralen, 

2002). De 

schattingenn 

van deze methode 

lijken erg op de sc chattingen die e verkregen wworden 

met de 

‘marginale 

grootste aaannemelijkheidsmethode’ 

(in het Engels: 

Marginal Maximum M Likeelihood, 

verde er 

afgekort als MML). Heet 

voordeel va an SAUL is dat 

deze meth hode gemakke elijker werkt aals 

er groepen 

onderschheiden 

wordeen 

die op mee er dan één acchtergrondvar 

riabele van elkaar 

verschillen. 

Een ander 

voordeel is dat het nieet 

noodzakelij jk is om een nnormaalverde 

eling te veron nderstellen. 

Toetsingg 

van het IRTT-model 

Als een mmeetmodel 

geehanteerd 

wo ordt, moet ook 

onderzocht t worden of he et meetmodeel 

past bij de data. d 

De passing 

van het mmodel 

illustrere en we met figguur 

2.4 (zie Staphorsius, 

S 

1994, blz. 2339). 

Daarin be eelden we 

voor een opgave de ggegevens 

af waarop w de zoogenaamde 

Si 

–toetsen (of f kortweg S-tooetsen) 

gebas seerd zijn 

(zie handdleiding 

OPLMM: 

Verhelst; 1992). 1 Ten beehoeve 

van deze d toetsing wordt de totaale 

groep van kinderen 

die een vverzameling 

oopgaven 

gem maakt heeft, inngedeeld 

in een 

aantal (me eestal 8) zogeenaamde 

21

scoregrooepen. 

Elke groep 

bestaat uit kinderen mmet 

een onge eveer even ho oge score. Dee 

geobservee erde 

proportiees 

juiste antwooorden 

van deze d groepen (telkens gesymboliseerd 

door een x) zzijn 

door de middelste m 

stippellijnn 

verbonden. De volle lijn daarentegen 

d 

verbindt de proporties p die e op grond van 

de paramete er- 

schattingeen 

voorspeld kunnen worden. 

De twee buitenste lijne en geven het 95%-betrouwwbaarheidsinterval 

aan. De bbreedte 

van ddit 

interval is in belangrijkee 

mate afhank kelijk van het aantal kinderen 

dat de op pgave 

heeft beaantwoord. 

Uit het figuur blijkt 

heel duideelijk 

dat de ge eobserveerde e proporties, zzoals 

bedoeld d, binnen 

het 95%- 

betrouwbaarheidsinterva 

al van de (gesschatte) 

voors spelde propor rties liggen, een 

dit komt in grote 

lijnen oveereen 

met eeen 

niet-signific cante Si-toetssingsgrootheid d (Verhelst, et e al., 1994). 

Figuur 2. .4 Grafischhe 

voorstelling 

van een S-toets 

Bij de opgaven 

in onzze 

opgavenba ank hoort eenn 

grafische vo oorstelling van n de Si-toetsinng die in grote 

lijnen 

met figuuur 

2.4 overeenkomt. 

Dit is, zeker gezienn 

de relatief grote g aantallen 

observatiess 

die in het ge eding 

zijn, een zeer sterke aaanduiding 

da at het ontwikkkelde 

meetins strument en het h gebruikte meetmodel adequaat a 

zijn om hhet 

gedrag vaan 

de kinderen n te verklarenn. 

Bovendien blijkt, en dat is vanuit theooretisch 

oogp punt nog 

belangrijkker, 

dat gemeeten 

verschillen 

in gedrag tussen de kin nderen te ver rklaren zijn dooor 

één 

unidimennsionaal 

conccept. 

Hiermee is echter het laatste woord 

nog niet geezegd 

over de e validiteit, ma aar het kalibra ratieonderzoe ek brengt 

in ieder ggeval 

een esssentieel 

aspec ct van het validiteitsvraags 

stuk naar voren: 

de rechtvvaardiging 

van n wat in 

de meestte 

toetstoepaassingen 

gebr ruikelijk is, naamelijk 

het red duceren van alles wat het kind heeft 

geantwooord 

tot een ennkele 

toetssc core (of afgeleeid 

daarvan, een e enkele sc chatting van zzijn 

onderligg gende 

vaardigheid). 

De kalibbratieanalyse, 

, als puur formmeel 

proces (het ( analyseren 

van een ggrote 

onvolled dige tabel 

met nulleen 

en enen) kkan 

geen uitsp praken doen over de inhoudsvaliditeit 

of o over de connstructvalidite 

eit als 

antwoordd 

op de vraagg: 

hoe kan wo orden aangetooond 

dat het concept dat de d items in dee 

bank meten n, 

dekkend is voor en saamenvalt 

met het construcct 

‘algemene rekenvaardig 

r 

heid’ zoals daat 

in het didactisch 

en 

het wetennschappelijk 

forum wordt bedoeld? De vraag is dan in het geval van het ondeerdeel 

‘rekenvaaardigheid’: 

kaan 

het unidimensionale 

concept 

onder de d opgaven in 

de opgavennbank 

Rekenen 

voor 

peuters inderdaad 

woorden 

opgevat 

als ‘algemene 

rekenvaar rdigheid’? Hie er komen we op terug in 

hoofdstuk 

6 over validditeit. 

22

3 Beschrijving van de toets 

3.1 Opbouw, afname van de toets en rapportage 

Opbouw 

Op basis van inhoudelijke criteria (spreiding over inhoudelijk onderscheiden categorieën en het belang van 

het betreffende onderdeel in het rekenaanbod) en psychometrische criteria (met name moeilijkheidsgraad 

en discriminatieparameter) zijn opgaven geselecteerd voor de toets. De toets bestaat uit drie delen die 

overeenkomen met de categorieën die worden getoetst (getalbegrip, meten, meetkunde). De toets bestaat 

grotendeels uit receptieve opgaven (meerkeuzevragen). Daarnaast zijn er enkele productieve opgaven 

(open vragen). 

Rekenen voor peuters bestaat uit één toets voor kinderen van 3 jaar. Deze toets is primair bedoeld voor 

driejarige kinderen. De toets is voor twee leeftijdsgroepen genormeerd en kan in het jaar dat de peuter 

3 jaar is op twee momenten worden afgenomen, namelijk in de leeftijdscategorieën P1 (vanaf 3 tot 3 ½ jaar) 

en P2 (vanaf 3 ½ tot 4 jaar). 

Afname 

De toets wordt individueel bij kinderen afgenomen door een vertrouwde leidster. De leidster of het team van 

de locatie bepaalt het afnamemoment en de afnamefrequentie. Om de rekenontwikkeling te kunnen volgen 

adviseren we de toets twee keer af te nemen in het jaar dat de peuter 3 jaar oud is. De toets wordt alleen bij 

‘toetsbare’ kinderen afgenomen (zie voor meer informatie de handleiding). 

De toets bestaat uit drie delen die overeenkomen met de categorieën die getoetst worden. Elk deel van de 

toets begint met een of enkele oefenopgaven. Aan de hand van deze opgaven kan de leidster uitleggen wat 

het kind moet doen en kan het kind vertrouwd raken met de werkwijze. Vervolgens wordt de feitelijke toets 

afgenomen. Er zijn receptieve en productieve opgaven. De leidster leest de instructie en de vragen voor. 

Het kind geeft bij de receptieve opgaven antwoord door het plaatje aan te wijzen dat volgens hem het 

correcte antwoord op de vraag weergeeft. De leidster noteert op een registratieformulier welke antwoorden 

het kind geeft. Er zijn naast receptieve opgaven ook enkele productieve opgaven (open vragen). Hierbij 

moet het kind zelf een antwoord formuleren in plaats van een plaatje aanwijzen. De leidster noteert op het 

registratieformulier precies het woord of de woorden die het kind als antwoord zegt. 

Leidsters wordt geadviseerd om tijdens de afname een vlot tempo aan te houden door bijvoorbeeld niet 

meer dan 10 seconden per opgave te gebruiken. Naar verwachting duurt een toetsafname minder dan 

15 minuten (zie tabel 3.1) Voor meer informatie over de afname-instructies verwijzen we naar paragraaf 2.2 

van de handleiding bij de toets (Op den Kamp, 2010). In tabel 3.1 staat een overzicht van de afname van 

de toets Rekenen voor peuters. 

Tabel 3.1 Overzicht toets, leeftijdscategorieën, delen, aantal opgaven en afnametijd 

Toets 

Peutertoets 

Peutertoets 

Leeftijdscategorie 

P1: 36 tot 42 maanden 

P2: 42 tot 48 maanden 

Delen 

Deel 1 

Deel 2 

Deel 3 

Deel 1 

Deel 2 

Deel 3 

23 

Opgaven 

12 

12 

12 

12 

12 

12 

Afnametijd 

Totaal 

max. 15 minuten 

Totaal 

max. 15 minuten

Toetsen op maat 

De rekenvaardigheid van kinderen in een groep loopt vaak sterk uiteen. Als gevolg daarvan zal eenzelfde 

rekentoets voor een deel van de kinderen goed op niveau zijn, maar voor sommige kinderen erg moeilijk of 

erg gemakkelijk. Met name voor een aantal kinderen van niveau D en voor de kinderen van niveau E (of de 

kinderen van niveau V) zijn de toetsen van het eigenlijke afnamemoment aan de moeilijke kant. Voor een 

aantal kinderen van niveau A (of niveau I) zijn de toetsen echter aan de gemakkelijke kant. De bij de 

rekentoetsen van het Cito Volgsysteem gehanteerde meettechniek maakt het mogelijk de toetsen op het 

niveau van de kinderen af te stemmen. Omdat de toetsscores op verschillende rekentoetsen telkens naar 

eenzelfde schaal worden omgezet is het mogelijk kinderen die verschillende toetsen maken toch met elkaar 

te vergelijken. Kinderen kunnen daardoor bijvoorbeeld een toets maken die hoort bij een vorig afnamemoment 

(een kleuter maakt medio groep 2 de toets behorend bij eind groep 1) of een volgend afnamemoment 

(een kleuter maakt eind groep 1 de toets behorend bij medio groep 2). 

Bij de toets Rekenen voor peuters en de toetsen Rekenen voor kleuters is dit ‘toetsen op maat’ in mindere 

mate van toepassing dan bij de overige toetsen uit het Cito Volgsysteem voor groep 3 t/m 8. Immers, voor 

zowel de peuters als voor de kleuters hebben we maar één toets ‘per jaar’. De peutertoets wordt zowel in 

de leeftijdscategorie P1 als in de leeftijdscategorie P2 afgenomen. En de toetsen voor de groepen 1 en 2 

worden zowel voor het medio-afnamemoment (respectievelijk M1 en M2) als voor het einde-afnamemoment 

(respectievelijk E1 en E2) gebruikt. Daarnaast is er geen rekentoets voor tweejarige peuters beschikbaar 

waardoor het in de peutergroepen niet mogelijk is om een toets van een ‘lager’ niveau aan te bieden aan 

een driejarige peuter. Bij het ‘toetsen op maat’ kan de leidster eventueel wel gebruikmaken van de toets 

Rekenen voor kleuters voor groep 1. Deze toets kan ingezet worden voor peuters die heel duidelijk aan 

meer uitdaging toe zijn. Daarnaast kunnen leerkrachten van groep 1 de toets Rekenen voor peuters 

inzetten voor kleuters voor wie de toets voor groep 1 nog wat te hoog gegrepen is. 

Correctie van de toetsen 

De toets Rekenen voor peuters is zowel handmatig na te kijken en te analyseren als via de computer, met 

behulp van het Computerprogramma LOVS. Voor het handmatig nakijken van de toets kan gebruikgemaakt 

worden van een lijst met goede antwoorden, die in de bijlage van de handleiding is opgenomen. Op het 

scoreformulier staan de goede antwoorden ook aangegeven. Indien gewenst kan de leerkracht in het 

Computerprogramma LOVS de foute antwoorden aanklikken. Op basis van de totaalscore op de toets 

wordt een inschatting gemaakt van de algemene rekenvaardigheid van de kinderen. 

Verwerking resultaten en verdere analyses en interpretatie 

Na de toetsafname en het nakijken van de antwoorden kunnen de toetsresultaten door de leidster verwerkt 

worden op speciaal ontwikkelde rapportageformulieren, onder andere peuteroverzichten, groepsrapporten 

en categorieënoverzichten. In de handleiding bij het toetspakket Rekenen voor peuters (Op den Kamp, 

2010: hoofdstuk 4: Interpretatie en gebruik op niveau van kind en groep en hoofdstuk 5: Interpretatie en 

gebruik op locatieniveau) en de handleiding bij het Computerprogramma LOVS (module 

Schoolzelfevaluatie) worden de mogelijkheden besproken om handmatig en met behulp van het 

computerprogramma verschillende soorten overzichten te maken, zoals bijvoorbeeld leerlingrapporten, 

groepsrapporten, categorieënanalyse, dwarsdoorsnedes en trendanalyses. Met behulp van deze 

overzichten kan de kwaliteit van het gegeven rekenaanbod ook op groepsniveau en locatieniveau 

geanalyseerd worden. 

Categorieënanalyse 

Voor verdere analyses op kindniveau biedt het Computerprogramma LOVS naast de standaardrapportages 

ook een meer geavanceerdere rapportage: categorieënanalyse. De categorieënanalyse is bedoeld om na 

te gaan of het kind, gegeven zijn algemeen niveau, evenwichtig presteert op de verschillende onderdelen of 

categorieën van de toets. 

Bij elke afname kunnen de opgaven onderverdeeld worden in een relatief klein aantal didactisch zinvolle 

categorieën. Uit de vaardigheidsscore die het kind behaalt en het toegekende niveau (A t/m E of I t/m V) 

24

weten we of we met een sterk of zwak scorend kind van doen hebben. Met een categorieënanalyse kan 

nagegaan worden of kinderen op een bepaald onderdeel meer (of minder) fouten maken dan op grond van 

hun algemene vaardigheidsniveau verwacht mag worden. De categorieën die bij de toets Rekenen voor 

peuters worden gehanteerd staan in tabel 3.2. 

Tabel 3.2 Toets Rekenen voor peuters: categorieën en aantal opgaven per categorie 

Verkorte naam Omschrijving Aantal opgaven 

GEB Getalbegrip 12 

ME Meten 12 

MEK Meetkunde 12 

Totaal 36 

Iedere categorie wordt met evenveel items vertegenwoordigd. Voor de categorieënanalyse is een aparte 

verantwoording geschreven (zie Bijlage 1: Profielanalyse met IRT, N. Verhelst). Deze verantwoording is 

opgesteld voor het domein Rekenen-Wiskunde dat geldt voor groep 3 tot en met groep 8 in het 

basisonderwijs. De principes van de categorieënanalyse die voor Rekenen-Wiskunde gelden, zijn ook van 

toepassing op Rekenen voor peuters. In de handleiding bij het Computerprogramma LOVS is een 

uitvoerige beschrijving opgenomen van de categorieënanalyse en de interpretatie van de uitkomsten. Ook 

deze is, hoewel toegespitst op Rekenen-Wiskunde vanaf groep 3 in het basisonderwijs, van toepassing op 

Rekenen voor peuters. 

3.2 Inhoudsverantwoording 

In deze paragraaf geven we eerst een beschrijving van het toetsontwikkelingsproces van de toets Rekenen 

voor peuters. Vervolgens beschrijven we welke inhoudscategorieën zijn opgenomen in de toets. Daarna 

geven we aan welke selectiecriteria we hebben gebruikt bij het samenstellen van de toets Rekenen voor 

peuters. De informatie in deze paragraaf vormt een aanvulling op de Inhoudsverantwoording die 

opgenomen is in het toetspakket Rekenen voor peuters. Daar vindt u voorbeelden van de verschillende 

soorten opgaven die in de toets voorkomen. 

3.2.1 Het ontwikkelproces van de toets Rekenen voor peuters 

In het toetsconstructieproces zijn de volgende fasen te onderscheiden: 

Doelspecificatie 

Domeinbeschrijving en toetsspecificatie 

Itemconstructie 

Proefonderzoek: itemevaluatie, kalibratie en toetssamenstelling 

Normeringsonderzoek 

Schrijven handleiding en verantwoording 

Bij het ontwikkelen van de toets Rekenen voor peuters hebben we deze stappen ook gevolgd. De kalibratie, 

toetssamenstelling en normering heeft echter plaatsgevonden op basis van één grootschalig landelijk 

normeringsonderzoek en niet op basis van twee deelonderzoeken (proefonderzoek en 

normeringsonderzoek). 

25

De doelen Rekenen zoals geformuleerd door SLO zijn gebruikt bij het beschrijven van het domein en het 

specificeren van de toets. De doelen beschrijven met welke inhoud kinderen aan het begin van groep 1 

minimaal ervaring opgedaan moeten hebben, en geven op deze wijze sturing aan het leerproces. De 

inhoud van de toets is net zoals de doelen onderverdeeld in drie domeinen, namelijk getalbegrip, meten en 

meetkunde (zie ook paragraaf 2.4.1). Er is bepaald welke doelen met een toets als Rekenen voor peuters 

geëvalueerd kunnen worden en daarna zijn de geselecteerde doelen geoperationaliseerd in items. Dat is 

gebeurd door toetsdeskundigen van Cito. De geconstrueerde items zijn vervolgens voorgelegd aan, en 

besproken met, een panel van leerkrachten en onderwijsbegeleiders met praktijkkennis over de 

rekenontwikkeling van jonge kinderen. Indien nodig zijn de items bijgesteld of verwijderd. 

In het normeringsonderzoek van de toets Rekenen voor peuters hebben we ook de toetsen Rekenen voor 

kleuters meegenomen. Na de itemconstructie zijn de items op twee momenten in een onvolledig design 

afgenomen bij een representatieve groep van ruim 5000 kinderen in Nederland op peuterspeelzalen, 

kinderdagverblijven en in groep 1 en 2 van het basisonderwijs. In hoofdstuk 4 wordt uitgebreid ingegaan op 

de opzet en uitvoering van het normeringsonderzoek, en de representativiteit van de steekproef. Na de 

afnames zijn de antwoorden van de kinderen op de items geanalyseerd met behulp van One-Parameter 

Logistic Model (zie paragraaf 2.4.2.). In de analyses is nagegaan of de verschillende items en onderdelen 

een beroep doen op dezelfde onderliggende vaardigheid. Dat bleek het geval te zijn. Daarom is een schaal 

geconstrueerd die we de algemene rekenvaardigheidsschaal genoemd hebben. Op basis van inhoudelijke 

en psychometrische criteria zijn vervolgens drie toetsen samengesteld: een toets voor peuters, een toets 

voor groep 1 en een toets voor groep 2. Op basis van de score op elk van deze toetsen kan de algemene 

rekenvaardigheid van een kind bepaald worden. Als kinderen elk halfjaar een toets maken, kan de 

rekenvaardigheid van de kinderen gevolgd worden vanaf driejarige leeftijd tot en met het einde van groep 2. 

Op basis van de gegevens uit het normeringsonderzoek zijn ook de normtabellen gemaakt. 

3.2.2 De inhoud van de toets Rekenen voor peuters 

De verschillende leerstofonderdelen die in de toets Rekenen voor peuters aan de orde komen, hebben we 

in paragraaf 2.4.1 op conceptueel niveau beschreven. In deze paragraaf lichten we die leerstofonderdelen 

op operationeel niveau kort toe en we vatten ze samen in een tabel. Voor een uitvoerige beschrijving van 

de inhoud van de toets verwijzen we naar de Inhoudsverantwoording in het toetspakket Rekenen voor 

peuters (Op den Kamp, 2010). Daar is een uitgebreide inhoudsbeschrijving opgenomen die geïllustreerd 

wordt met voorbeeldopgaven uit de toets. 

De opgaven in de toets Rekenen voor peuters hebben betrekking op de rekenontwikkeling. In 

paragraaf 2.4.1 hebben we aangegeven dat de verschillende aspecten van rekenen voor peuters een 

samenhangend geheel vormen en dat we de volgende drie categorieën onderscheiden: 

1 Getalbegrip 

2 Meten 

3 Meetkunde 

Getalbegrip 

De categorie Getalbegrip heeft in de toets Rekenen voor peuters betrekking op Omgaan met 

hoeveelheden. Bij het onderdeel Omgaan met hoeveelheden gaat het om het herkennen of tellen van 

kleine hoeveelheden tot maximaal vijf. Dit gebeurt met receptieve opgaven, waarbij gevraagd wordt naar 

een hoeveelheid. De kinderen gebruiken hierbij hun eigen strategie. Ze kunnen de hoeveelheden op drie 

verschillende plaatjes (resultatief) tellen en als antwoord een plaatje aanwijzen. Het is ook mogelijk dat 

kinderen een hoeveelheid (bijvoorbeeld van één of twee dingen) direct herkennen, zonder deze te tellen. 

Naast de receptieve opgaven zijn er productieve opgaven waarbij de kinderen een hoeveelheid (tot 

maximaal vijf) resultatief tellen. Ze spreken het resultaat van het tellen (het getal) uit. 

Ten slotte bevat dit onderdeel ook opgaven waarbij de kinderen hoeveelheden vergelijken door het 

hanteren van hoeveelheidsbegrippen ‘veel’ en ‘weinig’. 

26

Meten 

De categorie Meten heeft betrekking op het vergelijken van Lengte en omtrek en Inhoud. In de opgaven bij 

het onderdeel Lengte en Omtrek gaat het om vergelijken van tegenstellingen over lengte en omtrek. De 

opgaven laten de kinderen passief allerlei begrippen gebruiken rond lengte en omtrek, zoals: lang, dik, dun, 

groot, klein, laag. Inhoud heeft betrekking op ‘wat er in zit’ en ‘wat er in kan’. In de opgaven van het 

onderdeel Inhoud vergelijken de kinderen tegenstellingen van verschillende inhouden. Ze gebruiken hierbij 

passief allerlei begrippen rond inhoud zoals veel, weinig, meeste, minste. 

Meetkunde 

De categorie Meetkunde heeft betrekking op de ruimte en omvat de onderdelen Oriënteren en lokaliseren, 

Construeren en Opereren met vormen en figuren. In de opgaven bij het onderdeel Oriënteren en lokaliseren 

gebruiken de kinderen passief allerlei plaatsbegrippen, zoals voor, achter, op, boven en ook begrippen die 

een beweging in de ruimte aangeven, zoals omhoog of overheen. 

Bij de opgaven van het onderdeel Construeren gaat het om het vergelijken en herkennen van eenvoudige 

meetkundige basisvormen. Hierbij gebruiken de kinderen passief enkele begrippen, zoals rond en vierkant 

en begrippen die betrekking hebben op eigenschappen van meetkundige vormen zoals stapelen en rollen. 

In de opgaven bij het onderdeel Opereren met vormen en figuren lossen kinderen eenvoudige 

probleempjes op met vormen en figuren, bijvoorbeeld door na te gaan op welke plek een vorm past in een 

blokkenstoof. Dit doen ze met behulp van receptieve opgaven, waarbij ze drie verschillende plaatjes 

vergelijken en als antwoord één van de plaatjes aanwijzen. Naast de receptieve opgaven is er een 

productieve opgave waarbij de kinderen een vorm benoemen. 

In tabel 3.3 staan eerdergenoemde onderdelen per categorie nogmaals weergegeven. 

Tabel 3.3 Opgaventypen in Rekenen voor peuters 

Categorie Onderdeel/doel Opgavenvorm 

Getalbegrip 

Meten 

Meetkunde 

Omgaan met hoeveelheden Receptief en productief 

Lengte & omtrek Receptief 

Inhoud Receptief 

Oriënteren en lokaliseren Receptief 

Construeren Receptief 

Opereren met vormen en figuren Receptief en productief 

We hebben een inhoudelijke toetssamenstelling gerealiseerd die voldoet aan de doelstelling die we met de 

toets Rekenen voor peuters voor ogen hadden. De domeinen en doelen, opgesteld door SLO (definitieve 

uitgave 2011), zijn met behulp van de toets Rekenen voor peuters meetbaar gemaakt. Uitgangspunt was 

om een toets samen te stellen waarbij de opgaven evenwichtig over de drie domeinen zijn verdeeld. Dit is 

ook gelukt. 

3.2.3 Selectie van opgaven voor de toets Rekenen voor peuters 

De proefafnames zijn uitgevoerd met het doel om informatie te verkrijgen over de moeilijkheid van elke 

opgave. Tevens konden eventuele slecht functionerende opgaven (bijvoorbeeld opgaven die vaker door 

vaardige kinderen dan door minder vaardige kinderen fout gemaakt worden) geïdentificeerd en verwijderd 

27

worden. Daarnaast hebben wij het onderzoek aangegrepen als een mogelijkheid om aan de deelnemende 

leidsters te vragen of zij inhoudelijke of andersoortige bezwaren hadden tegen bepaalde opgaven. 

Na de proefafnames is op basis van de verschillende toetsen die tijdens de proefafnames gebruikt zijn de 

definitieve toets samengesteld. Sommige opgaven die afvielen, vertoonden in het normeringsonderzoek 

een te hoge of te lage moeilijkheid (p-waarde) of een te laag discriminerend vermogen (rir-waarde). Soms 

vielen ook opgaven af die psychometrisch gezien goed functioneerden, maar die op inhoudelijke gronden 

werden afgewezen en/of tot een categorie behoorden die al voldoende vertegenwoordigd was in de 

toetsen. Daarentegen werden soms opgaven gehandhaafd die eigenlijk wat te gemakkelijk waren, maar 

waarvoor in de betreffende categorie geen beter functionerende alternatieven voorhanden waren. Bij elke 

individuele opgave vond dus een afweging plaats op zowel psychometrische als inhoudelijke gronden. 

De uiteindelijke verdeling van aantallen opgaven per categorie per afnamemoment is een zo goed mogelijk 

compromis tussen eisen van psychometrische en inhoudelijke kwaliteit en overwegingen van meer 

praktische aard (afnameduur, aantal opgaven per deel). 

Samenvattend geven we in tabel 3.4 aan hoe de opgaven over de categorieën en de onderdelen binnen 

deze categorieën in de toets Rekenen voor peuters zijn verdeeld. Deze verdeling komt overeen met wat we 

voor ogen hadden. In tabel 4.7 in het volgende hoofdstuk is te zien dat de itemeigenschappen (p-waarden, 

rit-waarden en r ir-waarden) passen bij het doel van de Cito Volgsysteem en dat de items een goede 

onderscheidende waarde hebben. De samenstelling van de toetsen is dan ook zowel inhoudelijk als 

psychometrisch geslaagd te noemen. 

Tabel 3.4 Verdeling opgaven over categorieën en onderdelen in de toets 

Categorie Onderdeel/doel Aantal opgaven 

Getalbegrip 

Meten 

Meetkunde 

Omgaan met hoeveelheden 12 

Lengte & omtrek 6 

Inhoud 6 

Oriënteren en lokaliseren 5 

Construeren 5 

Opereren met vormen en figuren 2 

28

4 Het normeringsonderzoek 

Het normeringonderzoek is uitgevoerd binnen het raamwerk van de item respons theorie (IRT), omdat deze 

werkwijze het mogelijk maakt om gebruik te maken van een structureel onvolledig afnamedesign. 

Dit betekent dat we niet alle items bij alle kinderen af hoeven te nemen om toch voor de gehele populatie 

kennis te vergaren over deze items. In paragraaf 2.4.2.2 is het item respons model dat gebruikt is bij 

Rekenen voor peuters gedetailleerd beschreven. Het gebruik van dit model brengt een aantal voordelen 

met zich mee. Ten eerste is het onder bepaalde voorwaarden mogelijk om items in verschillende toetsen op 

dezelfde onderliggende meetschaal te plaatsen (zie bijvoorbeeld Kolen & Brennan, 1995). Dit levert een 

zogenaamde itembank op. Ten tweede kunnen de gegevens van kinderen en van populaties van kinderen 

gerelateerd worden aan deze meetschaal. Hierdoor kunnen we gemakkelijk de eigenschappen van een 

toets in een bepaalde populatie berekenen, ook al is de toets niet in zijn geheel voorgelegd aan deze 

populatie. Beide voordelen zijn benut bij de normering van de toets Rekenen voor peuters. Er kunnen na de 

steekproeftrekking nog grofweg drie fasen onderscheiden worden: 

Fase 1: Maken van een itembank 

In de eerste fase zijn de antwoorden van de kinderen op de items geanalyseerd. Voor Rekenen voor 

peuters is gebruikgemaakt van het One-Parameter Logistic Model zoals voorgesteld door Verhelst en Glas 

(1995). Het resultaat van de analyse is een IRT gekalibreerde itembank. Met behulp van deze itembank kan 

de vaardigheid van kinderen met elke willekeurige deelverzameling van items op dezelfde meetschaal 

geschat worden (voor meer informatie over de eisen waaraan een itembank moet voldoen zie 

paragraaf 2.4.2.1). In het onderzoek zijn items meegenomen die zowel door peuters als peuters gemaakt 

kunnen worden. Bovendien vond de dataverzameling voor Rekenen voor peuters gelijktijdig plaats met die 

voor Rekenen voor kleuters. Bij de beschrijving van de opzet en het resultaat van het kalibratieonderzoek 

(zie paragraaf 4.2) zullen dan ook beide deelonderzoeken betrokken worden. 

Fase 2: Schatten van de vaardigheidsverdelingen van de normgroepen 

In de tweede fase worden de normgroepen geanalyseerd. In tegenstelling tot de eerste fase waarbij dankzij 

populatieonafhankelijke schattingen van de itemparameters representativiteit van de steekproef ten 

opzichte van de populatie niet noodzakelijk is, is dat tijdens deze fase wel van belang. Bij het schatten van 

de verdelingen van de te onderscheiden normgroepen op de meetschaal wordt dan ook speciaal gelet op 

representativiteit (zie paragraaf 4.2). Aangezien het in deze verantwoording alleen om Rekenen voor 

peuters gaat, wordt niet ingegaan op de resultaten van de kleuters. Die worden beschreven in de publicatie 

waarin de toets Rekenen voor kleuters wordt verantwoord (Koerhuis & Keuning, 2011). 

Fase 3: Normeren van de uiteindelijke toetsen 

In de derde en laatste fase worden de normen vastgesteld. Uit de bank met peuter- en kleuteritems is de 

toets Rekenen voor peuters samengesteld. In hoofdstuk 3 is reeds aangegeven aan welke criteria de items 

moesten voldoen voor de uiteindelijke selectie. De toets is voor twee leeftijdscategorieën genormeerd: 

‘leeftijdscategorie P1’ (peuters vanaf 36 tot 42 maanden) en ‘leeftijdscategorie P2’ (peuters vanaf 42 tot 48 

maanden). De normen zijn met behulp van IRT berekend (zie paragraaf 4.4). Voor de omschrijving en de 

normering van de kleutertoetsen verwijzen we naar de wetenschappelijke verantwoording van Rekenen 

voor kleuters (Koerhuis & Keuning, 2011). 

4.1 Steekproefplan 

Voor de normering van Rekenen voor peuters was het streven om 800 driejarige peuters mee te nemen in 

het onderzoek: 400 voor de P1-normering en 400 voor de P2-normering. Als uitgangspunt voor de 

steekproeftrekking is een lijst met populatiegegevens van marktonderzoeksbureau DUO gebruikt. In deze 

29

lijst stonden in totaal ruim 6700 kinderdagverblijven en peuterspeelzalen die beschouwd kunnen worden als 

de op dat moment bekende populatie. 

Uit de lijst zijn 500 locaties geselecteerd (250 kinderdagverblijven en 250 peuterspeelzalen) op basis van 

de postcode om zo een goede spreiding over Nederland te verkrijgen. Er is bewust een extra groot aantal 

locaties geselecteerd voor deelname. Ten eerste zitten er in groepen van kinderdagverblijven en 

peuterspeelzalen vaak maar een beperkt aantal driejarigen. Dit geldt zeker voor verticale groepen 

(leeftijdsheterogeen), maar ook voor horizontale groepen (leeftijdshomogeen). In peutergroepen mogen 

immers maximaal maar 16 kinderen zitten. Dit betekent dat er meer groepen nodig zijn dan bij een 

onderzoek in het basisonderwijs om aan het beoogde aantal kinderen te komen. Ten tweede hebben veel 

kinderdagverblijven en peuterspeelzalen op dit moment maar beperkt ervaring met het afnemen van 

toetsen. Door de onbekendheid met toetsen verwachtten we minder animo voor deelname aan het 

onderzoek. 

De kinderdagverblijven en peuterspeelzalen zijn aangeschreven met het verzoek om in mei-juni 2009 én 

januari-februari 2010 deel te nemen aan het onderzoek. De proeftoetsen werden in het onderzoek door de 

eigen leidster van het kind afgenomen net zoals bij de definitieve toets de bedoeling is. De uiteindelijke 

steekproef voor de kalibratie van de items en de normering van de toetsen bevatte 50 basisscholen en 52 

peuterspeelzalen/kinderdagverblijven. Voor de kalibratie zijn zowel de gegevens van de kinderdagverblijven 

en peuterspeelzalen als de gegevens van de basisscholen gebruikt. Bij elkaar gaat het dus om 102 

instellingen. Voor de normering van de peutertoetsen is vanzelfsprekend alleen gebruikgemaakt van de 

observaties die gedaan zijn bij peuters. 

4.2 Maken van een itembank 

Met het oog op de ontwikkeling van de toetsen Rekenen voor peuters en Rekenen voor kleuters zijn voor 

peuters en de jaargroepen 1 en 2 van het basisonderwijs items geconstrueerd. In een tweejarig 

normeringsonderzoek zijn data verzameld om de eigenschappen van de ontwikkelde items te kunnen 

bepalen. In het eerste jaar van het onderzoek (schooljaar 2008/2009) waren er afnamen in de periode meijuni, 

terwijl in het tweede jaar van het onderzoek (schooljaar 2009/2010) de afnamen in de periode januarifebruari 

plaatsvonden. Deze periodes komen overeen met de normeringsmomenten van de kleutertoetsen: 

de afname in januari-februari is het medio-moment van de normering en de afname in mei-juni het eindemoment 

van de normering. Bij de normering van de peutertoetsen is niet de afnameperiode, maar de 

leeftijd van de kinderen in de steekproef doorslaggevend geweest. 

Bij de eerste afname zijn er tien verschillende sets met items (hierna te noemen toetsboekjes) afgenomen 

bij peuters, kleuters in groep 1 en kleuters in groep 2. In het normeringsonderzoek is geen onderscheid 

gemaakt tussen jongere (P1) en oudere (P2) peuters. Met behulp van de tien toetsboekjes zijn gegevens 

verzameld over 160 items. Ieder item zat minstens in twee verschillende toetsboekjes. De reden hiervoor is 

dat de items later alleen op dezelfde meetschaal geplaatst kunnen worden als de toetsboekjes iets 

gemeenschappelijk hebben. Figuur 4.1 laat zien hoe de ‘ankering’ tussen de toetsboekjes precies 

gerealiseerd is. De figuur geeft tevens het beoogde en werkelijke aantal kinderen per toetsboekje weer. 

Zoals we kunnen zien, zijn de beoogde aantallen voor de drie verschillende groepen met kinderen over het 

algemeen ook daadwerkelijk gehaald. Slechts in enkele gevallen is een toetsboekje door nét iets minder 

kinderen gemaakt, maar door het geankerde design zijn er per item toch ruim voldoende waarnemingen. 

30

Figuur 4.1 Afnamedesign eerste afnameperiode 

Groep Boekje N beoogd N werkelijk 

Taak 

A B C D E F G H 

Peuters 1 250 353 

Peuters 2 250 319 

Peuters 3 250 313 

Groep 1 4 250 292 

Groep 1 5 250 319 

Groep 1 6 250 302 

Groep 2 7 250 246 

Groep 2 8 250 262 

Groep 2 9 250 256 

Groep 2 10 250 247 

Op basis van de data uit de eerste periode van het onderzoek werd de kwaliteit en de moeilijkheid van de 

items bepaald. Deze resultaten zijn gebruikt bij het opzetten van de tweede periode van het onderzoek. De 

tweede periode vond plaats in januari-februari van schooljaar 2009/2010. De beste 150 items uit het eerste 

onderzoek zijn aangevuld met 60 nieuwe items. Elk item werd ondergebracht in ten minste twee 

verschillende toetsboekjes. Figuur 4.2 laat zien welke afnamedesign in de tweede periode van het 

onderzoek gebruikt is. Het design lijkt sterk op het design uit de eerste periode, met één extra taak en één 

extra toetsboekje. We zien dat het werkelijke aantal deelnemers wederom dicht bij het beoogde aantal 

kinderen lag. In groep 2 hebben in werkelijkheid aanzienlijk meer kinderen meegedaan dan beoogd was. 

Figuur 4.2 Afnamedesign tweede afnameperiode 

Groep Boekje N beoogd N werkelijk 

Taak 

A B C D E F G H I 

Peuters 1 250 273 

Peuters 2 200 213 

Peuters 3 250 236 

Groep 1 4 150 135 

Groep 1 5 250 279 

Groep 1 6 200 194 

Groep 1 7 175 176 

Groep 2 8 250 247 

Groep 2 9 250 266 

Groep 2 10 275 374 

Groep 2 11 200 222 

Zoals figuur 4.1 en 4.2 laten zien heeft niet iedere leerling alle items gemaakt. Dit zijn ontbrekende 

waarnemingen by design. Dergelijke data zijn met behulp van IRT zeer goed te analyseren. Het is echter 

ook mogelijk dat er onbedoeld antwoorden op items ontbreken. Een bepaalde groep kan door 

omstandigheden bijvoorbeeld maar één taak gemaakt hebben in plaats van twee. Ook kunnen individuele 

kinderen items soms overgeslagen hebben. Het ontbreken van gehele taken kwam vooral in de eerste 

periode van het onderzoek soms voor. In de analyses is hier rekening mee gehouden door de niet 

gemaakte taak buiten beschouwing te laten. Als kinderen incidenteel items overgeslagen hadden 

31

(gemiddeld 1% per afname), is het item fout gerekend. De analyses leverden uiteindelijk een itembank op 

waarin gegevens staan van 220 items: 10 die alleen in de eerste periode zijn afgenomen, 60 die alleen in 

de tweede periode zijn afgenomen en 150 die in beide perioden zijn afgenomen. 

Bij het beoordelen van de kwaliteit van de itembank is gelet op de modelpassing. Het programma waarmee 

het item respons model geschat is (Verhelst, Glas, en Verstralen, 1995) voert een aantal statistische 

toetsen uit op grond waarvan bepaald kan worden of het model een adequate beschrijving geeft van de 

data. Belangrijk zijn de zogenaamde itemgeoriënteerde S-toets en de overall R1c-toets. De S-toets is 

asymptotisch 2 verdeeld en is gebaseerd op de verschillen tussen de geobserveerde en verwachte 

proporties antwoorden in homogene scoregroepen. Een rechthoekige verdeling van p-waarden voor de 

S-toetsen in het interval [0,1] pleit voor passing van het model. De R1c-toets heeft dezelfde onderliggende 

rationale als de S-toets en wordt over het algemeen acceptabel bevonden indien de waarde van de 

toetsingsgrootheid niet groter is dan anderhalf keer het aantal vrijheidsgraden. 

De statistische toetsen lieten zien dat de prestaties van de kinderen op 202 items adequaat beschreven 

kunnen worden door het OPLM. Ten eerste bleek de verdeling van p-waarden voor de S-toetsen voldoende 

rechthoekig verdeeld 7 : 

0.--/---/---.1-----.2-----.3-----.4-----.5-----.6-----.7-----.8-----.9-----1 

11/ 10/ 13 25 23 23 16 16 15 21 11 17 

Ten tweede bleek de verhouding tussen de R1c-bijdrage en het aantal vrijheidsgraden acceptabel, 

R1c = 4618, df = 3130, p = .00. Bij 18 items was er sprake van ‘misfit’ of itembias. Er is op drie 

verschillende niveaus naar itembias gekeken. Ten eerste is een vergelijking gemaakt tussen de 

verschillende normgroepen, ten tweede tussen kinderen met al dan niet Nederlands als thuistaal en ten 

derde tussen jongens en meisjes. De 18 items met ernstige vormen van itembias of misfit zijn uit de 

itembank verwijderd. Het slagen van de kalibratie voor de overige 202 items betekent dat we met elke 

willekeurige selectie uit deze verzameling items de vaardigheid van een leerling kunnen schatten. 

De statistische toetsen wijzen op zichzelf al op heel wat evidentie voor de validiteit van het meetmodel. 

Het is daarnaast essentieel dat de itemparameters voldoende nauwkeurig geschat kunnen worden op basis 

van de beschikbare data. Het aantal waarnemingen per item varieert van 449 tot en met 1678, met een 

gemiddelde van 1022. Voor een model dat een hybride is tussen een 1- en een 2-parameter model lijkt de 

omvang van de steekproef meer dan voldoende (COTAN-richtlijn bij een 2-parametermodel: N > 400). 

Om de nauwkeurigheid van de itemparameterschattingen te boordelen kan de maat c gebruikt worden 

(Evers, Lucassen, Meijer & Sijtsma, 2010; p 40). Deze maat is als volgt gedefinieerd: 

c = SE( i) / SD() 

waarbij SE(i) de standaardfout van de schatting van de locatieparameters is (de enige parameter die 

geschat wordt in het OPLM) en waarbij SD() de standaarddeviatie van de vaardigheid in de totale 

kalibratiepopulatie is. Bij deze itembank zijn de volgende resultaten gevonden: 

gemiddeld minimaal maximaal 

c 0.032 0.015 0.111 

De nauwkeurigheid van de geschatte parameters is goed te noemen als we uitgaan van de criteria van 

Evers et al. (2010). Het gemiddelde ligt duidelijk onder 0.10 en de waarde van c is nergens groter dan 0.12. 

In paragraaf 4.3 over de normering van de uiteindelijke toetsen volgt meer over de eigenschappen van de 

items. 

7 Voor 1 item kon de S-toets niet uitgevoerd worden, omdat kinderen vergelijkbaar scoorden op dit item 

32

Over de representativiteit van de steekproef van kinderen is tot nog toe niet gesproken. De reden hiervoor 

is dat representativiteit geen noodzakelijke voorwaarde is voor de ontwikkeling van een IRT gekalibreerde 

itembank. Binnen het raamwerk van de IRT zijn de itemparameterschattingen immers 

populatieonafhankelijk (zie ook paragraaf 2.4.2.2). De representativiteit van de steekproef ten opzichte van 

de populatie is wel van belang bij het schatten van de vaardigheidsverdelingen van de normgroepen. 

Daarom gaan we uitgebreid in op de representativiteit in de steekproef in de volgende paragraaf. 

4.3 Schatten van de vaardigheidsverdelingen van de normgroepen 

Nadat de itembank is gemaakt, kunnen we de vaardigheidsverdeling van de normgroepen schatten op de 

onderliggende meetschaal. In dit geval is dat een algemene rekenvaardigheidsschaal voor peuters en 

kleuters. Bij het schatten van vaardigheidsverdelingen is een representatieve steekproef wel noodzakelijk, 

omdat deze schattingen niet populatieonafhankelijk zijn. De schattingen zijn overigens wel 

itemonafhankelijk, waardoor het geen probleem is dat de kinderen niet allemaal dezelfde items hebben 

gemaakt. 

Voor de normering van de toetsen kunnen we gebruikmaken van de gegevens die we ook gebruikt hebben 

bij de ontwikkeling van de itembank. We konden echter niet alle kinderen meenemen. Ten eerste waren de 

gegevens van de leerlingen uit groep 1 en groep 2 niet relevant, omdat deze voor de vaardigheidsverdeling 

van de peuters geen informatie bevatten. Ten tweede bleek de kalibratiesteekproef niet helemaal 

representatief te zijn voor wat betreft regionale spreiding en mate van verstedelijking. Bij vrijwel alle 

afnamemomenten was er op deze variabelen sprake van een significant verschil tussen de verdeling van 

kinderen in de steekproef en de verdeling die op grond van de gegevens van DUO verwacht mocht worden 

in de populatie. Daarom is besloten om voor de normering een subsample uit de kalibratiesteekproef te 

trekken. Tabel 4.1 laat zien hoeveel kinderen meegenomen zijn tijdens de kalibratie en tijdens de 

normering, waarbij we de subgroepen van groep 1 en groep 2 buiten beschouwing laten. 

Tabel 4.1 Aantal kinderen dat meegenomen is voor de kalibratie en normering 

Schooljaar Afnamemoment Normgroep Kalibratie Normering 

2009/2010 Jan/feb peuters P1 en P2 722 626 

2008/2009 Mei/juni peuters P1 en P2 985 885 

2009/2010 Jan/feb groep 1 M1 784 0 

2008/2009 Mei/juni groep 1 E1 913 0 

2009/2010 Jan/feb groep 2 M2 1109 0 

2008/2009 Mei/juni groep 2 E2 1011 0 

Na de steekproeftrekking bleven er dus 1511 afnamegegevens over voor de normering van Rekenen voor 

peuters. Dit aantal is ruim voldoende om een aparte normering te maken voor jongere (P1) en oudere (P2) 

peuters. De kinderen in de steekproef zaten op 52 verschillende locaties van kinderdagverblijven en 

peuterspeelzalen in Nederland. De representativiteit van de subsample van kinderen is geëvalueerd in 

relatie tot de volgende achtergrondvariabelen: (1) regionale spreiding, (2) mate van verstedelijking, (3) 

sekse, (4) leeftijd en (5) thuistaal. 

33

Representativiteit naar regionale spreiding 

Eerst is gekeken naar de spreiding van kinderen over Nederland. Er is onderscheid gemaakt in vier regio’s. 

Regio Noord omvatte de provincies Groningen, Friesland en Drenthe; regio Oost de provincies Overijssel, 

Gelderland en Flevoland; regio West de provincies Utrecht, Noord-Holland, Zuid-Holland en Zeeland en 

regio Zuid de provincies Noord-Brabant en Limburg. De verdeling van kinderen in de populatie en onze 

steekproef naar regio staat in tabel 4.2. We zien dat de verdeling van kinderen over de vier regio’s in de 

steekproef grote gelijkenis vertoont met de verdeling van kinderen in de populatie. Statistisch gezien is er 

voor geen van de afnamemomenten een verschil tussen de aantallen kinderen per regio in onze steekproef 

en de aantallen kinderen die op grond van de gegevens van DUO in elke regio verwacht mogen worden: 

(P1) 2 = .068 ; df = 3; p = .995, (P2) 2 = 1.269 ; df = 3; p = .736. Er is met andere woorden geen evidentie 

dat de steekproef niet representatief is met betrekking tot de variabele regio. 

Tabel 4.2 Aantal en percentage kinderen in de populatie en de steekproef naar regio 

Regio P1 P2 

Aantal kinderen Percentage kinderen 

Populatie P1 P2 

Noord 82 77 10.3 10.5 10.5 

Oost 179 162 22.8 23.0 22.1 

West 361 333 46.6 46.3 45.5 

Zuid 157 160 20.3 20.2 21.9 

Totaal 779 732 

100.0 100.0 100.0 

Representativiteit naar mate van verstedelijking 

Vervolgens is de representativiteit van de steekproef beoordeeld in het licht van de achtergrondvariabele 

mate van verstedelijking. Er zijn twee groepen onderscheiden: (1) kinderen die afkomstig zijn uit een niet tot 

matig verstedelijkt gebied en (2) kinderen die afkomstig zijn uit een sterk tot zeer sterk verstedelijkt gebied. 

De verdeling van kinderen in de populatie en onze steekproef naar mate van verstelijking staat in tabel 4.3. 

De tabel laat een lichte oververtegenwoordiging van de niet tot matig verstedelijkte gebieden zien. De 

afwijkingen tussen de aantallen kinderen in onze steekproef en de aantallen kinderen die verwacht mogen 

worden op grond van de gegevens van DUO zijn echter voor geen van de afnamemomenten significant: 

(P1) 2 = 1.140 ; df = 1; p = .286, (P2) 2 = 1.161 ; df = 1; p = .281 . Er is met andere woorden geen 

evidentie dat de steekproef niet representatief is met betrekking tot de variabele mate van verstedelijking. 

Tabel 4.3 Aantal en percentage kinderen in de populatie en de steekproef naar mate van verstedelijking 

Verstedelijking P1 P2 



Niet tot matig 457 430 56.8 58.7 58.7 

Sterk tot zeer sterk 322 302 43.2 41.3 41.3 


100.0 100.0 100.0 

34

Representativiteit naar sekse 

Na het vormen van een representatieve subsample van de steekproef met betrekking tot de variabelen 

regio en mate van verstedelijking is gekeken naar de verdeling van jongens en meisjes voor dit subsample. 

De verdeling van kinderen in de populatie en onze steekproef naar sekse staat in tabel 4.4. Volgens de 

gegevens van CBS zijn er ongeveer evenveel jongens als meisjes in de populatie, namelijk 50.9 procent 

jongens tegenover 49.1 procent meisjes. In onze steekproef blijkt het aantal jongens enigszins 

oververtegenwoordigd. Ook statistisch gezien wijken de aantallen jongens en meisjes in onze steekproef 

soms af van de aantallen die op grond van de gegevens van CBS verwacht mogen worden: 

(P1) 2 = 1.434 ; df = 1; p = .231, (P2) 2 = 5.464 ; df = 1; p = .019. Omdat de verdeling van jongens en 

meisjes in onze steekproef niet altijd representatief is voor de populatie is gekeken of jongens en meisjes 

verschillen in rekenvaardigheid. Analyses lieten zien dat er op geen van de normeringsmomenten sprake is 

van een significant verschil in rekenvaardigheid tussen jongens en meisjes; het gestandaardiseerde overall 

verschil () tussen jongens en meisjes is gelijk aan .049 (z = 1.529). Er is met andere woorden geen reden 

om bij de normering terug te wegen voor sekse. 

Tabel 4.4 Aantal en percentage kinderen in de populatie en de steekproef naar sekse 

Sekse P1 P2 



Jongen 413 404 50.9 53.0 55.2 

Meisje 366 328 49.1 47.0 44.8 


100.0 100.0 100.0 

Representativiteit naar leeftijd 

Voor de normering is het van belang dat alle leeftijden behorende bij een jaargroep representatief 

vertegenwoordigd zijn, ook als de normering op basis van leeftijdsgroepen is. Het is namelijk niet wenselijk 

dat de leeftijd binnen de normgroep al te scheef verdeeld is. Dat zou bijvoorbeeld het geval zijn als de 

kinderen in normgroep P1 bijna allemaal 3 jaar en 5 maanden oud zijn. Tabel 4.5 laat voor beide 

normgroepen de verdeling van de leeftijden zien. We zien dat er in de steekproef kinderen hebben gezeten 

uit elke leeftijdscategorie. Gemiddeld zijn de kinderen in normgroep P1 3 jaar en een kleine 4 maanden 

oud. In normgroep P2 zijn de kinderen gemiddeld 3 jaar en 9 maanden oud. 

35

Tabel 4.5 Frequentie van de leeftijden per normgroep in de steekproef 

Leeftijd P1 

P2 

3.00 - 3.01 96 0 

3.01 - 3.02 111 0 

3.02 - 3.03 141 0 

3.03 - 3.04 96 0 

3.04 - 3.05 241 0 

3.05 - 3.06 94 0 

3.06 - 3.07 0 139 

3.07 - 3.08 0 180 

3.08 - 3.09 0 129 

3.09 - 3.10 0 155 

3.10 - 3.11 0 97 

3.11 - 4.00 0 32 


Representativiteit naar thuistaal 

Hoewel er op voorhand geen reden is om aan te nemen dat kinderen die thuis geen Nederlands spreken, 

zwakker presteren op het gebied van rekenen en wiskunde, is er ten behoeve van de normering informatie 

bij de deelnemende locaties opgevraagd over de taal die de kinderen thuis spreken. Er zijn aanvankelijk 

twaalf categorieën onderscheiden: (1) Nederlands, (2) Andere West-Europese taal, (3) Oost-Europese taal, 

(4) Nederlandse streektaal of Nederlands dialect, (5) Fries, (6) Turks, (7) Marokkaans, (8) Berbers, (9) 

Surinaams, (10) Hindoestaans, (11) Papiaments en (12) Overig. Op basis van deze indeling is in tweede 

instantie een indeling in twee categorieën gemaakt, namelijk in Nederlands en in Andere taal. Tabel 4.6 

geeft per afnamemoment de aantallen kinderen in onze steekproef naar thuistaal. 

Tabel 4.6 Aantal en percentage kinderen in de steekproef naar thuistaal 

Aantal kinderen 

Taal Populatie P1 P2 

36 

Percentage kinderen 


NL - 410 510 ± 89 89.3 90.3 

AT - 49 55 ± 11 10.7 9.7 

Totaal - 459 565 

100.0 100.0 100.0 

Van een aanzienlijk deel van de kinderen hebben we geen gegevens van de kinderdagverblijven en 

peuterspeelzalen over de thuistaal ontvangen (32 procent). Er is echter geen reden om aan te nemen dat 

de verdeling tussen Nederlands en in Andere taal in deze groep wezenlijk anders is. Over het geheel 

genomen zal dus rond de 10 procent van de kinderen in onze steekproef thuis een andere taal spreken dan 

het Nederlands. Deze verdeling lijkt voldoende in overeenstemming met de landelijke verdeling. Exacte 

gegevens over de landelijke verdeling voor deze doelpopulatie ontbreken echter. We baseren gegevens 

over de populatie daarom op een analyse van de populatie die in 2009 heeft deelgenomen aan de 

Eindtoets Basisonderwijs. Deze bracht een verdeling naar thuistaal van 89% (Nederlands) vs. 11% (niet-

Nederlands) aan het licht. Als we uitgaan van deze verdeling is er geen sprake van een siginifcant verschil 

tussen de verdeling van thuistaal in onze steekproef en de verdeling van thuistaal die we mogen 

verwachten in de populatie: (P1) 2 = 0.449 ; df = 1; p = .824, (P2) 2 = 0.336 ; df = 1; p = .924 

De analyses met betrekking tot de representativiteit van de steekproef geven aan dat de steekproef na de 

subsampling op regio en mate van verstedelijking voldoende representatief is voor de populatie. Op basis 

van de resultaten van de kinderen konden dus zonder problemen vaardigheidsverdelingen voor de 

normgroepen geschat worden. Zoals eerder aangegeven in paragraaf 2.4.2.2 zijn de verdelingen geschat 

met behulp van het computerprogramma SAUL. 

4.4 Normeren van de uiteindelijke toets 

Op basis van inhoudelijke criteria en gunstige psychometrische eigenschappen van de items is de toets 

Rekenen voor peuters geconstrueerd uit de totale itembank voor peuters en kleuters. Over de inhoudelijke 

criteria die ten grondslag hebben gelegen aan de samenstelling van de toets is meer te vinden in hoofdstuk 

3. Voor wat betreft de psychometrische eigenschappen is de selectie van items zodanig geweest dat er 

geen sprake is van misfit, dat de items niet gebiased zijn voor sekse, thuistaal en jaargroep, en dat er voor 

elk item voldoende waarnemingen zijn (N > 400). 

Doordat we de itemparameters kennen en een schatting hebben van de verdelingen van de vaardigheid in 

de verschillende normgroepen, kunnen we de eigenschappen van de geconstrueerde toetsen vaststellen 

voor deze normgroepen. Tabel 4.7 geeft van de p-waarden, rit-waarden en r ir-waarden het gemiddelde, de 

mediaan, het minimum, het maximum en de percentielen 10 en 90. Kijkend naar het gemiddelde en de 

mediaan van de p-waarden is te zien dat de items gemiddeld betrekkelijk gemakkelijk zijn voor de kinderen. 

Hier is bewust voor gekozen: over het algemeen wordt het als demotiverend gezien als kinderen veel items 

voorgelegd krijgen die aan de moeilijke kant zijn. Zeker bij peuters is de kans op frustratie aanzienlijk als 

items te moeilijk zijn. 

Bij de rit- en r ir-waarden valt op dat het gemiddelde en de mediaan duidelijk boven de 0.30 liggen. Dat duidt 

op goed onderscheidende items (zie Evers et.al., 2010, p. 40). De minimum en de maximum gevonden 

waarden van de ‘klassieke’ itemeigenschappen worden ook vermeld in tabel 4.7. Bij geen enkel item is de 

rit-waarde kleiner dan .20. 

Tabel 4.7 Itemeigenschappen toets Rekenen voor peuters 

Eigenschap 

P1 

p r it r ir 

P2 

p r it r ir 

Gemiddelde 0.63 0.32 0.30 0.73 0.35 0.33 

Mediaan 0.62 0.31 0.29 0.72 0.32 0.30 

Minimum 0.33 0.23 0.20 0.43 0.25 0.23 

Maximum 0.87 0.46 0.44 0.93 0.48 0.46 

P10 0.47 0.24 0.22 0.57 0.27 0.24 

P90 0.82 0.42 0.41 0.90 0.45 0.43 

Naast de toetseigenschappen kon ook de definitieve normering worden vastgesteld. Tabel 4.8 geeft de 

gemiddelden en standaarddeviaties van de vaardigheidsverdelingen zoals geschat met behulp van SAUL. 

37

Tevens zijn in tabel 4.8 enkele percentielen opgenomen die gebruikt worden om kinderen te classificeren 

(zie de indeling in de groepen A tot en met E, paragraaf 2.3). 

Tabel 4.8 Kenmerken vaardigheidsverdelingen 

Moment 

N M SD P10 P25 P50 P75 

P1 779 41.23 9.22 29.39 34.99 41.22 47.45 

P2 732 49.10 10.99 35.01 41.68 49.10 56.51 

In figuur 4.3 worden de (cumulatieve) vaardigheidsverdelingen visueel weergegeven. We kunnen zien dat 

de gemiddelde vaardigheid van de kinderen toeneemt tussen de opeenvolgende metingen. Bovendien zijn 

de afstanden tussen de gegeven percentielen steeds tamelijk groot, wat betekent dat de toets bij driejarige 

peuters twee groepen kinderen kan onderscheiden die gemiddeld een half jaar in leeftijd verschillen. 

Figuur 4.3 Cumulatieve vaardigheidsverdelingen voor de normgroepen P1 en P2 

Cumulatieve frequentie 

1,00 

0,90 

0,80 

0,70 

0,60 

0,50 

0,40 

0,30 

0,20 

0,10 

0,00 

10 20 30 40 50 60 70 80 

Vaardigheidsscore 

Bij het schatten van de verdelingen is verondersteld dat de scores van de kinderen een normale verdeling 

volgen. Het is niet zeker of deze aanname verdedigbaar is. Daarom zijn twee controles uitgevoerd. Eerst is 

voor beide normeringscategorieën de mate van overeenstemming tussen de geobserveerde en de 

verwachte frequenties onderzocht. De resultaten lieten zien dat de scores van de kinderen op alle 

afnamemomenten redelijk goed beschreven kunnen worden door een normale verdeling. Figuur 4.4 geeft 

de vergelijking tussen de geobserveerde en verwachte frequenties op P1- en P2-moment visueel weer. De 

onregelmatige rode lijnen in figuur 4.4 zijn de frequentiepolygonen van de scores van alle kinderen die 

deelnamen aan het normeringsonderzoek. De vloeiende zwarte lijn is de voorspelling of verwachting van 

deze frequenties onder de veronderstelling van een normale verdeling. We zien dat de twee lijnen sterke 

gelijkenis vertonen. 

38 

P1 

P2

Figuur 4.4 Geobserveerde en verwachte cumulatieve frequentieverdeling voor P1 en P2 

cumulatieve frequentie 

1,00 

0,80 

0,60 

0,40 

0,20 

0,00 

-1,25 -0,75 -0,25 0,25 0,75 

Vervolgens is nagegaan hoe de normering uitpakt als we deze toepassen op de steekproef van kinderen 

die heeft deelgenomen aan het onderzoek. We zijn uitgegaan van de volgende niveaus: 

A score >= P75 

B P50 =< score < P75 

C P25 =< score < P50 

D P10 =< score < P25 

E score < P10 

Vaardigheidsscore 

We verwachten dus dat op grond van de hierboven gekozen indeling 25 procent van de kinderen niveau A 

scoort, 25 procent niveau B, 25 procent niveau C, 15 procent niveau D en 10 procent niveau E. Tabel 4.9 

laat zien dat deze verdeling in voldoende mate teruggevonden wordt. De aanname van een normale 

verdeling is dus verdedigbaar. 

Tabel 4.9 Aantal en percentage kinderen in de niveaus A tot en met E 

cumulatieve frequentie 

Aantal leerlingen in niveau A-E 

Moment N E D C B A 

39 

0,00 

-1,25 -0,75 -0,25 0,25 0,75 

% Leerlingen in niveau A-E 

E D C B A 

P1 779 76 148 220 126 209 10 19 28 16 27 

P2 732 97 97 219 152 167 13 13 30 21 23 

1,00 

0,80 

0,60 

0,40 

0,20 

Vaardigheidsscore

5 Betrouwbaarheid en meetnauwkeurigheid 

In hoofdstuk 4 is aangegeven dat elk kind dat deelgenomen heeft aan het onderzoek slechts een deel van 

de items gemaakt heeft die uiteindelijk in de toets Rekenen voor peuters opgenomen zijn. 

De betrouwbaarheid van de toets in klassieke zin is dan ook niet rechtstreeks te bepalen. Het is echter wel 

mogelijk om de betrouwbaarheid van de toets te schatten door gebruik te maken van het feit dat alle items 

die zijn opgenomen in de toetsen OPLM-geschaald zijn. Ook andere beschrijvende gegevens, zoals de 

gemiddelde score en de standaardmeetfout, zijn te schatten op grond van het feit dat de toets volledig 

bestaat uit OPLM-gekalibreerde items. Om relevante beschrijvende gegevens bij de toets te verkrijgen, is 

gebruikgemaakt van het programma OPTAL (Verstralen, 1997). 

In OPTAL wordt een door Verhelst, Glas en Verstralen (1995) ontwikkelde coëfficiënt berekend die qua 

interpretatie een grote overeenkomst vertoont met de betrouwbaarheidscoëfficiënt uit de klassieke 

testtheorie. Het begrip ware score is wat meer geëxpliciteerd, namelijk als de verwachte score op een 

(vaste) toets, maar dan gezien als functie van de latente variabele . Deze verwachte waarde duiden we 

aan met (). Als we bovendien weten hoe in de populatie verdeeld is, kunnen we ook het gemiddelde en 

de variantie van de ware scores in de populatie bepalen. De variantie van de ware scores in de populatie 

duiden we aan met het symbool Var(). Tussen en () bestaat een één-op-één relatie; de ene kan 

immers uit de andere berekend worden. Het is echter niet zo dat een persoon met vaardigheid per se de 

toetsscore () moet behalen (dat is alleen zo als de toets oneindig lang gemaakt wordt). De geobserveerde 

score bij een eenmalige afname zal dan ook een afwijking vertonen van de verwachte score, waardoor we 

met een eenmalige toetsafname niet meer zonder fout de waarde van kunnen bepalen. De variantie van 

de geobserveerde toetsscore duiden we aan met Var(t | ()). Door nu gebruik te maken van de distributie 

van in de populatie kunnen we ook de gemiddelde variantie van de geobserveerde toetsscores 

berekenen: 

Var(t) = E[Var(t | ( ))] 

Deze variantie kunnen we opvatten als de (gemiddelde) meetfoutvariantie in de metriek van de 

geobserveerde scores t. In analogie met de theorie over de betrouwbaarheid definiëren we dan 

Var( ) 

MAcc= 

Var( ) + Var(t) 

waarin MAcc staat voor 'Accuracy of Measurement'. 

Tabel 5.1 bevat informatie over de meeteigenschappen van de toets Rekenen voor peuters. In de eerste 

kolom staan de leeftijdscategorieën. Daarna volgen de minimumscores en de maximumscores. 

De minimumscore is gelijk aan 0. De maximumscore is 36, gelijk aan het aantal opgaven dat deel uitmaakt 

van de totale toets. De tabel betreft namelijk de ruwe ongewogen scores, waarbij ieder goed antwoord 

1 punt oplevert. De vierde kolom geeft de geschatte gemiddelde scores van de kinderen op de toets per 

normgroep. De vijfde kolom betreft de geschatte standaarddeviatie van de scores van iedere normgroep. 

De zesde kolom bevat per normgroep informatie over de geschatte standaardmeetfout van de toets. 

De laatste kolom laat zien wat per normgroep de geschatte betrouwbaarheidscoëfficiënt (MAcc) van de 

toets is. 

De betrouwbaarheidscoëfficiënten liggen allemaal boven de 0.80. Aangezien de toetsen Rekenen voor 

peuters bedoeld zijn voor voortgangscontrole zijn de gevonden betrouwbaarheden goed te noemen 

(Evers et al., 2010). 

41

Tabel 5.1 Beschrijvende gegevens met ongewogen scores van de toets Rekenen voor peuters 

Moment 

Min 

Max 

M 

42 

SD 

SE 

MAcc 

P1 0 

36 22.5 6.1 2.60 0.82 

P2 0 36 26.4 5.8 2.36 0.84 

De hiervoor vermelde betrouwbaarheidscoëfficiënten hebben alleen betrekking op de globale 

meetnauwkeurigheid van de toets en geven geen beeld van de lokale meetnauwkeurigheid van de toets 

Rekenen voor peuters. De betrouwbaarheidstabellen 5.2a en 5.2b doen dat wel. Zo laat tabel 5.2a 

bijvoorbeeld zien dat 71.6 procent van de kinderen die volgens de P1-normering in scoregroep E vallen met 

hun geschatte vaardigheidsscore ook met hun werkelijke vaardigheidsscore in deze scoregroep vallen. 

Met andere woorden, de kans dat bij een kind terecht vaardigheidsniveau E gesignaleerd wordt, is iets 

meer dan 70 procent. Verder laat de tabel zien dat 25.6 procent van de kinderen in niveaugroep E een 

vaardigheidsscore heeft die in werkelijkheid in scoregroep D valt. 

Verdere gedetailleerde informatie over de meetnauwkeurigheid van de toetsen is te vinden in de 

handleiding van het toetspakket (Op den Kamp, 2010). In de schaalscoretabellen van bijlage 2 van die 

handleiding is een kolom opgenomen waarin het score-interval vermeld is. In deze kolom staat per 

normgroep voor iedere ruwe score de bijbehorende vaardigheidsschatting en het 68-procentsbetrouwbaarheidsinterval. 

Tabel 5.2a Betrouwbaarheidstabel op leeftijdsnormering P1 

Obs. niveau 

Ware niveau 

E 

D 

C 

B 

A 

Obs. niveau 

Ware niveau 

E 71.6 25.6 2.7 0.0 0.0 V 77.6 20.1 2.2 0.1 0.0 

D 17.0 51.0 29.7 2.3 0.0 IV 20.1 50.2 24.6 4.8 0.3 

C 1.1 17.9 54.9 23.9 2.2 III 2.1 25.0 43.5 25.2 4.1 

B 0.0 1.2 24.3 52.1 22.3 II 0.1 4.5 26.1 45.8 23.6 

A 0.0 0.0 1.9 22.7 75.4 I 0.0 0.2 3.7 24.2 72.0 

Tabel 5.2b Betrouwbaarheidstabel op leeftijdsnormeringsmoment P2 

Obs. niveau 

Ware niveau 

E 

D 

C 

B 

A 

Obs. niveau 

V 

IV 

Ware niveau 

E 76.0 22.3 1.6 0.0 0.0 V 79.9 18.2 1.8 0.1 0.0 

D 15.0 54.8 28.4 1.9 0.0 IV 18.4 52.0 24.2 5.1 0.4 

C 0.6 17.2 56.0 23.4 2.8 III 1.5 25.0 42.9 25.6 5.0 

B 0.0 1.0 24.2 50.9 23.9 II 0.1 4.6 26.5 44.0 24.8 

A 0.0 0.0 2.1 24.6 73.2 I 0.0 0.2 4.7 25.3 69.8 

V 

IV 

III 

III 

II 

II 

I 

I

Figuur 5.1 geeft nog eens grafisch weer hoe het gesteld is met de lokale meetnauwkeurigheid bij twee 

normgroepen van de toets. In dit figuur staat de grootte van de meetfout afgebeeld. Ook zijn de 

kansdichtheidsfuncties voor de normgroepen bij de verschillende leeftijdscategorieën opgenomen. Deze 

laten zien hoe de vaardigheid van de kinderen verdeeld is over de vaardigheidsschaal in de populatie die 

de toets gemaakt heeft. De figuren maken duidelijk dat de meetfout kleiner is in de lagere en gemiddelde 

vaardigheidsregionen dan in de hogere vaardigheidsregionen. Dit is bij de toetsconstructie ook nagestreefd. 

Een toets kan immers niet over het hele scorebereik dezelfde optimale nauwkeurigheid hebben. Door 

rekening te houden met itemkarakteristieken (moeilijkheidsgraad) is het discriminerend vermogen van de 

toetsen optimaal gemaakt in de vaardigheidsregionen waar dit het belangrijkste is, namelijk daar waar de 

zwakkere van de gemiddelde kinderen moeten worden onderscheiden. Dit sluit goed aan bij het doel van 

de toetsen, namelijk het vaststellen van het niveau van rekenvaardigheid en het signaleren van eventuele 

achterstanden. Veruit de meeste kinderen die de toets maken, hebben een vaardigheid waarbij de toets 

een lage standaardmeetfout heeft. 

Figuur 5.1 Meetnauwkeurigheid van de -toets voor de P1- en P2- populatie 

Standaardmeetfout 

Kansdichtheid x 1000 

50 

45 

40 

35 

30 

25 

20 

15 

10 

5 

0 

0 20 40 60 80 100 

Schaalscore 

43 

SE toets peuters 

Verdeling P1 

Verdeling P2

6 Validiteit 

De twee eisen waar de toets Rekenen voor peuters aan moet voldoen om valide te zijn kunnen aangeduid 

worden met de termen inhoudsvaliditeit en begripsvaliditeit. De inhoudsvaliditeit van een toets heeft 

betrekking op de vraag in hoeverre de items in een toets een welomschreven en afgebakend universum 

representeren van mogelijk in de toets op te nemen items. De begripsvaliditeit van een toets heeft 

betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan verklarende concepten en 

constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten 

grondslag ligt. Aangezien het beschrijven van het niveau van de vaardigheid van een kind het doel van de 

toets is, en niet het voorspellen van ander gedrag, is criteriumvaliditeit hier niet relevant. 

6.1 Inhoudsvaliditeit 

Zoals gesteld, heeft de inhoudsvaliditeit van een toets betrekking op de vraag in hoeverre de items in een 

toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen 

items. De inhoudsvaliditeit van de toets Rekenen voor peuters wordt gewaarborgd door de wijze waarop de 

items ontwikkeld zijn. In paragraaf 3.2 (inhoudsverantwoording) is al aangegeven dat aan de ontwikkeling 

van de items het vaststellen van een domeinbeschrijving is voorafgegaan. Als domeinbeschrijving hebben 

we de doelen rekenen (SLO, 2011) gehanteerd, waarmee de doelen de basis vormden voor de 

itemconstructie. De toetsen zijn zodanig samengesteld dat de relevante doelen en subcategorieën erin 

evenredig vertegenwoordigd zijn. Een verdere inhoudelijke analyse van de toets Rekenen voor peuters 

staat in paragraaf 3.2 van deze verantwoording. 

6.2 Begripsvaliditeit 

De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven 

zijn aan verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de 

ontwikkeling van de toets ten grondslag ligt. Hieronder worden vier aanwijzingen voor de begripsvaliditeit 

van de toets Rekenen voor peuters gegeven. 

Passing van het meetmodel 

De rekenitems die voor de peuters en kleuters geconstrueerd werden, zijn op basis van IRT-analyses op 

dezelfde meetschaal geplaatst. Items die niet voldeden aan de passingscriteria die we beschreven in 

paragraaf 2.4.2.2 zijn uit de verzameling verwijderd. Het ging om items waarop waarschijnlijk werd gegokt, 

om items die een slecht onderscheidend vermogen bleken te hebben, of om items die ook nog iets anders 

dan alleen rekenvaardigheid bleken te meten (DIF). Zoals eerder aangegeven is er op drie niveaus naar 

DIF gekeken. Ten eerste is een vergelijking gemaakt tussen de verschillende normgroepen, ten tweede 

tussen kinderen met al dan niet Nederlands als thuistaal en ten derde tussen jongens en meisjes. Bij 18 

van de 220 items was er sprake van ‘misfit’ of DIF. Deze items zijn uit de meetschaal gehaald. De 

overgebleven items voldeden aan de aannamen van het OPLM. Dit is een goede waarborg voor de 

begripsvaliditeit, omdat er evidentie is voor de aanname dat één en dezelfde vaardigheid ten grondslag ligt 

aan de responsen op de items (Embretson, 1983). Kalibratie-analyse als puur formeel proces laat echter 

geen uitspraken toe over de validiteit als antwoord op de vraag: hoe kan worden aangetoond dat het 

concept dat de toets beoogt te meten, samenvalt met het construct ‘rekenvaardigheid’ zoals dat in het 

didactisch en het wetenschappelijk forum wordt bedoeld. In combinatie met de inhoudelijke waarborgen uit 

de eerdere hoofdstukken lijkt deze aanname evenwel zonder meer verdedigbaar. 

45

Equivalentie met eerdere toetsen 

Rekenen voor peuters kan gezien worden als de vervanger van Ordenen en Ruimte (Van Kuyk, 2000). 

Ten behoeve van de verantwoording van deze toetsen zijn al eerder studies uitgevoerd en gerapporteerd 

(Van Kuyk & Kamphuis, 2006). De betreffende toetsen zijn destijds door de COTAN op de meeste criteria 

als goed beoordeeld. Op het criterium ‘begripsvaliditeit’ kregen de toetsen het oordeel voldoende. Door 

Rekenen voor peuters te correleren met de oude toetsen kan nagegaan worden in hoeverre we met de 

nieuwe toets dezelfde vaardigheid meten als met de oude toetsen. Aangezien bij de oude toetsen 

voldoende is aangetoond dat deze aspecten van de rekenvaardigheid bij peuters meten, mag aangenomen 

worden dat Rekenen voor peuters bij een hoge correlatie met de oude toetsen ook rekenvaardigheid bij 

peuters meet. 

Voor het onderzoek naar de relatie tussen de oude toetsen en de nieuwe toets heeft een deel van de 

kinderen tijdens deel 1 van het onderzoek naast nieuwe items ook oude items gemaakt. Op deze manier 

kan eenvoudig de samenhang tussen de verschillende sets met items bepaald worden. De latente 

correlatie tussen Rekenen voor peuters en Ordenen bleek gelijk te zijn aan 0.99. De latente correlatie 

tussen Rekenen voor peuters en Ruimte was gelijk aan 0.93. De correlaties zijn bijzonder hoog. Er is dus 

geen enkele reden om aan te nemen dat de we met de nieuwe itembank een andere vaardigheid meten 

dan met de twee oude itembanken. 

Om nog preciezer zicht te krijgen op de samenhang tussen de verschillende items zijn naast overall 

correlaties ook correlaties uitgerekend tussen een aantal inhoudelijke categorieën. De verschillende 

itembanken zijn in te delen in de volgende inhoudelijke categorieën: 

Ordenen 

Classificeren (or.1) 

Grootte (or.3) 

Kleur (or.4) 

Productieve opdrachten (or.5) 

Tellen (or.7) 

Vergelijken (or.8) 

Vorm (or.9) 

Oude toetsen (2000) Nieuwe toets (2010) 

Ruimte 

Houdingen & bewegingen (rt.1) 

Lichaamsdelen (rt.2) 

Positie in de ruimte (rt.3) 

Productieve opdrachten (rt.4) 

Richting en afstand in de ruimte (rt.5) 

46 

Rekenen 

Getalbegrip (rk.1) 

Meetkunde (rk.2) 

Meten (rk.3) 

In tabel 6.1 en 6.2 zijn de latente correlaties weergegeven. We zien dat de correlaties bijzonder hoog zijn. 

De enige uitzondering hierop zijn de categorieën kleur (uit Ordenen) en lichaamsdelen (uit Ruimte & Tijd) 

(onderstreept). Om deze reden zijn deze categorieën dan ook niet in Rekenen voor peuters opgenomen, 

maar in aanvullende toetsen die leidsters naar eigen inzicht kunnen inzetten ter controle van de kennis van 

kleuren en lichaamsdelen. Voor de overige categorieën geldt dat er geen redenen zijn om te 

veronderstellen dat er verschillende vaardigheden gemeten worden. De keuze om de oude itembanken 

voor Ordenen en Ruimte te vervangen door een nieuwe itembank voor Rekenen is dan ook zonder meer 

verdedigbaar.

Tabel 6.1 Correlaties tussen de ‘nieuwe’ categorieën Rekenen en de ‘oude’ categorieën Ruimte 

rk.1 

rk.2 

rk.3 

rt.1 

rk.1 1.00 

rk.2 0.88 1.00 

rk.3 0.91 0.90 1.00 

rt.1 0.86 0.95 0.91 1.00 

rt.2 0.65 0.73 0.67 0.75 1.00 

rt.3 0.82 0.97 0.86 0.95 0.76 1.00 

rt.4 0.92 0.90 0.91 0.86 0.68 0.84 1.00 

rt.5 0.87 0.97 0.90 0.97 0.71 0.97 0.87 1.00 

rt.2 

rt.3 

Merk op dat er bij Rekenen voor peuters bij de afzonderlijke categorieën niet gerapporteerd wordt op het 

niveau van vaardigheidsscores en vaardigheidsniveaus. De informatie in tabel 6.1 en tabel 6.2 wordt dan 

ook alleen gegeven om duidelijk te maken dat de verschillende categorieën een beroep doen op dezelfde 

onderliggende vaardigheid. Wel kunnen leidsters een categorieënoverzicht maken of (met behulp van het 

Computerprogramma LOVS) een categorieënanalyse. 

Tabel 6.2 Correlaties tussen de ‘nieuwe’ categorieën Rekenen en de ‘oude’ categorieën Ordenen 

rk.1 

rk.2 

rk.3 

or.1 

or.3 

rk.1 1.00 

rk.2 0.88 1.00 

rk.3 0.91 0.90 1.00 

or.1 0.86 0.89 0.85 1.00 

or.3 0.91 0.89 0.99 0.83 1.00 

or.4 0.78 0.77 0.76 0.85 0.74 1.00 

or.5 0.82 0.91 0.87 0.81 0.85 0.72 1.00 

or.7 0.99 0.86 0.88 0.84 0.88 0.75 0.79 1.00 

or.8 0.94 0.86 0.94 0.83 0.93 0.72 0.81 0.91 1.00 

or.9 0.86 0.96 0.86 0.89 0.85 0.77 0.78 0.84 0.83 1.00 

or.4 

Inter-item-correlaties 

Naast de correlatie tussen de vaardigheden zoals gemeten met de items uit de inhoudelijke categorieën 

kan ook op itemniveau naar de samenhang binnen de toets gekeken worden. Doordat er gewerkt is met 

een structureel onvolledig afnamedesign (zie hoofdstuk 3) zijn echter niet alle correlaties tussen de items 

bekend. Daarom is gekeken naar de gemiddelde inter-item-correlatie van items binnen categorieën en over 

categorieën heen. 

In tabel 6.3 staan voor de drie categorieën die bij Rekenen voor peuters onderscheiden worden de 

gemiddelde inter-item-correlaties. Uiteraard zijn bij de inter-item-correlaties binnen een categorie de 

correlaties van het item met zichzelf niet meegenomen. De grootte van bijna alle tussen-categoriecorrelaties 

ligt in een beperkte range van waarden, namelijk tussen 0.21 en 0.30 . Dit duidt op een redelijke 

interne samenhang waarbij een duidelijke opdeling van deelvaardigheden niet zinvol lijkt. De binnencategorie-correlaties 

zijn over het algemeen wel iets hoger dan de tussen-categorie-correlaties, maar het 

verschil is verwaarloosbaar. 

47 

rt.4 

or.5 

rt.5 

or.7 

or.8 

or.9

Tabel 6.3 Gemiddelde inter-item-correlaties in de toets 

Categorie 

rk.1 

rk.2 

rk.3 

rk.1 0.30 0.21 0.23 

rk.2 0.21 0.21 0.22 

rk.3 0.23 0.22 0.25 

Doordat de data verzameld zijn met een onvolledig design en we daarom niet alle inter-item-correlaties 

kennen, is het toepassen van een factoranalyse lastig. Een factoranalyse door middel van het 

minimaliseren van de residuen (MinRes; Harman & Jones, 1966) is wel mogelijk bij onvolledige designs, 

maar levert niet altijd stabiele resultaten op, met name in het geval van zo genoemde ‘Heywood cases’ 

(Harman & Fukuda, 1966). Dit laatste bleek het geval te zijn bij Rekenen voor peuters. 

Longitudinale vaardigheidstoename 

Wat men zou mogen verwachten in de rekenvaardigheid van peuters is dat deze toeneemt naarmate de 

kinderen ouder worden. De vaardigheid zou dus toe moeten nemen tussen de leeftijdscategorie (P1) en de 

leeftijdscategorie (P2). In tabel 6.4 zijn de gemiddelden van de geschatte vaardigheid gegeven voor de 

twee leeftijdscategorieën, evenals de standaarddeviaties. De gemiddelde vaardigheid blijkt van afname tot 

afname duidelijk toe te nemen; de effectgrootte is gelijk aan .780. 

Tabel 6.4 Vaardigheidsverdelingen Rekenen voor peuters 

Normeringsmoment Gemiddelde vaardigheid Standaarddeviatie 

P1 41.23 9.22 

P2 49.10 10.99 

Op basis van bovenstaande analyses kan het volgende geconcludeerd worden: 

– Met de nieuwe itembank en de daaruit voortkomende toets meten we in voldoende mate één 

vaardigheid. We kunnen dus spreken van één onderliggende meetschaal en mogen één totaalscore 

rapporteren. 

– Met de nieuwe toets Rekenen voor peuters (2010) meten we dezelfde vaardigheid als eerder met de 

toetsen Ordenen en Ruimte (2000). 

– Items die inhoudelijk op elkaar lijken, hangen onderling iets sterker samen, maar over het algemeen 

niet veel hoger dan over de categorieën heen. 

– Met Rekenen voor peuters zijn we in staat om veranderingen in de rekenvaardigheid te meten. 

48

7 Samenvatting 

In hoofdstuk 2 en 3 zijn de uitgangspunten bij de toetsconstructie beschreven. De opgaven van de toets zijn 

een operationalisering van de rekendoelen voor jonge kinderen, zoals opgesteld door SLO (2011). 

De functie van deze doelen is om het inhoudelijk repertoire van pedagogisch medewerkers, leidsters en 

leerkrachten te vergroten en te versterken. Daardoor kunnen zij op een inhoudelijk verantwoorde manier 

een rekenaanbod verzorgen voor alle jonge kinderen. Het feit dat in de operationalisatie van de toets en in 

de individuele aanpak in een groep dezelfde doelen worden gehanteerd, draagt ertoe bij dat het 

signaleringsmiddel en de aanpak in het onderwijs prima bij elkaar (kunnen) aansluiten. 

Het doel van de toets is het vaststellen van de rekenvaardigheid van individuele kinderen en het volgen 

ervan. Dit is een belangrijke voorwaarde om een individuele aanpak mogelijk te maken. 

In hoofdstuk 4 is ingegaan op het kalibratie- en normeringsonderzoek. De onderzoeken zijn uitgevoerd 

binnen het raamwerk van de item respons theorie. Op basis van inhoudelijke criteria en gunstige 

psychometrische eigenschappen van de items is een toets geconstrueerd uit de totale itembank die te 

gebruiken is voor jongere (P1) en oudere (P2) peuters. De toetseigenschappen blijken goed te passen bij 

de doelgroep en het doel van de toets. Het discriminerend vermogen van de items is goed te noemen. De 

analyses rondom de representativiteit van de steekproef wijzen uit dat de steekproef voor wat betreft de 

variabelen leeftijd, geslacht, etniciteit, regio en mate van verstedelijking voldoende representatief was voor 

de populatie. De gehanteerde constructie- en kalibratieprocedures enerzijds en de representativiteit van de 

normeringssteekproef anderzijds geven de toetsgebruiker voldoende aanwijzingen dat hij er op kan 

vertrouwen dat het individuele kind in de toepassing van de normtabellen recht wordt gedaan bij het 

vaststellen van zijn relatieve vaardigheidsniveau. 

In hoofdstuk 5 is ingegaan op de betrouwbaarheid van Rekenen voor peuters. De betrouwbaarheid ligt 

zowel voor jonge (P1) als oudere (P2) peuters boven de .80. Aangezien de toets bedoeld is voor 

voortgangscontrole en niet ter onderbouwing van belangrijke beslissingen zijn de gevonden 

betrouwbaarheden goed te noemen. Ook de lokale betrouwbaarheid bleek goed aan te sluiten bij het doel 

van de toets. De lokale betrouwbaarheid bleek het hoogst in de lagere en gemiddelde scoreregionen en 

nam wat af in de hogere scoreregionen. Dit betekent dat we met de toetsen Rekenen voor peuters het 

relatieve niveau adequaat kunnen vaststellen en dat de toets sensitief genoeg is om eventuele 

achterstanden op kunnen sporen. 

Over de validiteit werd in hoofdstuk 6 gerapporteerd. De toets Rekenen voor peuters sluit nauw aan bij het 

doel en de inhoud van het rekenaanbod in peutergroepen op kinderdagverblijven en peuterspeelzalen. Voor 

wat betreft de rekenontwikkeling en de ontwikkeling tot ontluikende gecijferdheid van peuters dekt Rekenen 

voor peuters de doelen (SLO, 2011). Aanvullende analyses lieten bovendien zien dat de items in de toets 

een beroep doen op dezelfde onderliggende vaardigheid, dat de items niet gebiased zijn voor sekse, 

thuistaal en jaargroep, en dat de toets in staat is om veranderingen in rekenvaardigheid te meten. Tot slot 

bleek de toets sterk samen te hangen met een tweetal toetsen die hetzelfde construct pretenderen te 

meten. De latente correlatie tussen Rekenen voor peuters en Ordenen is gelijk aan .99 en de correlatie 

tussen Rekenen voor peuters en Ruimte is gelijk aan .93. De correlaties met andere aspecten van de 

ontwikkeling die minder duidelijk aan rekenvaardigheid gerelateerd zijn (en om die reden ook buiten de 

toets zijn gehouden) zijn duidelijk lager (< .80). Ook de resultaten met betrekking tot de convergente en 

divergente validiteit zijn dus bevredigend. 

49

8 Literatuur 

Bügel, K. & Sanders, P.F. (1998). Richtlijnen voor de ontwikkeling van onpartijdige toetsen. Arnhem: 

Cito. 

Cito (z.j.). Computerprogramma LOVS. Arnhem: Cito. 

Cito (z.j.). Handleiding Computerprogramma LOVS. Arnhem: Cito. 

Eggen, T.J.H.M., (1993). Itemresponstheorie en onvolledige gegevens. In: T.J.H.M. Eggen & P.F. 

Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito. 

Embretson, S.E. (1983). Construct representation and nomothetic span. Psychological Bulletin, 93, 

179-179. 

Evers, A., Lucassen, W., Meijer, R. & Sijtsma, K. (2010). COTAN Beoordelingssysteem voor de 

kwaliteit van tests. Amsterdam, NIP/COTAN. 

Gelderblom, G. (2008). Naar effectief rekenonderwijs. Didactief nr. 8, oktober 2008. 

Glas, C.A.W. & Verhelst, N.D., (1993). Een overzicht van itemresponsmodellen. In: T.J.H.M. Eggen & 

P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 179-238). Arnhem: Cito. 

Greven, J. & Letschert, J.F.M. (2006). Kerndoelen primair onderwijs. Den Haag: Ministerie van 

Onderwijs, Cultuur en Wetenschap. 

Groenestijn, M. van (2010). Openbare les ‘Op weg naar gecijferdheid’. Hardinxveld-Giessendam: 

Grafisch Bedrijf Tuijtel. 

Hambleton, R.K., Swaminathan, H. & Rogers, H.J. (1991). Fundamentals of Item response Theory. 

Newbury Park, CA: Sage. 

Harman, H.H., & Jones, W.H. (1966). Factor analysis by minimizing residuals (minres). Psychometrika, 

31, 351-368. 

Harman, H.H., & Fukuda, Y. (1966). Resolution of the heywood case in the minres solution. 

Psychometrika, 31, 563-571. 

Heuvel-Panhuizen, M. van den & Buys, K. Tal-team (2004). Jonge kinderen leren meten en 

meetkunde. Groningen: Wolters-Noordhoff. 

Hoenisch, N. & Niggemeyer, E. (2008). Mathekings. Jonge kinderen aan de slag met wiskunde. 

Amsterdam: B.V. Uitgeverij SWP. 

Kamp, M. op den (2010). Rekenen voor peuters. Arnhem: Cito. 

Koerhuis, I. (2010). Rekenen voor kleuters. Arnhem: Cito. 

Kohnstamm, R. (2002). Kleine ontwikkelingspsychologie. Deel 1 Het jonge kind. Houten/Diegem: Bohn 

Stafleu Van Loghum. 

51

Kolen, M.J. & Brennan, R.L. (1995). Test equating: Methods and practices. New York: Springer-Verlag. 

Kuyk, J.J. van (1996). Ordenen. Arnhem: Cito. 

Kuyk, J.J. van (1996). Ruimte en Tijd. Arnhem: Cito. 

Kuyk, J.J. van & Kamphuis, F. (2006). Verantwoording van de toetsen Ruimte, Taal en Ordenen van 

het Peutervolgsysteem. Arnhem: Citogroep. 

Kuyk, J.J. van (2000). Peutervolgsysteem. Arnhem: Cito. 

Kuyk, J.J. van (2003). Piramide-boek 02, hoofdstuk 19. Arnhem: Citogroep. 

Kuyk, J.J. van (2005). Hulpprogramma Peutervolgsysteem. Arnhem: Cito. 

Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison- 

Wesley. 

Luit, J.E.H. van (2009). De ontwikkeling van tellen en getalbegrip bij kleuters. Utrecht: Projectbureau 

Kwaliteit PO Raad. 

Noteboom, A. en J. Klep (2005). Als kleuters leren tellen; peilen en stimuleren van getalbegrip bij jonge 

kinderen. Enschede: SLO. 

Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, 

Denmark: Nielsen & Lydiche. 

Singer, E. & Klerekoper, L. (2009). Pedagogisch kader kindercentra 0-4 jaar. Maarssen: Elsevier 

gezondheidszorg. 

SLO, Projectgroep Jonge Kind (2011). Ontwikkeling van jonge kinderen van 2-7 jaar: 

Rekenontwikkeling. Enschede: SLO. 

SOM Onderwijsadviseurs (2008). Spelend rekenen met peuters en kleuters. Drunen: Delubas. 

Treffers, A., Heuvel-Panhuizen, M. van den & Buys, K. Tal-team (1999). Jonge kinderen leren rekenen. 

Groningen: Wolters-Noordhoff. 

Verhelst, N.D., & Glas, C.A.W. (1995). The one-parameter logistic model. In: G.H. Fischer & I.W. 

Molenaar (Eds.), Rasch models. Foundations, recent developments, and applications. New York: 

Springer-Verlag. 

Verhelst, N.D., & Verstralen, H.H.F.M. (2002). Structural Analysis of a Univariate Latent Variable: 

Theory and a Computer Program. Arnhem: Cito. 

Verhelst N.D., Glas, C.A.W., & Verstralen, H.H.F.M. (1995). OPLM: Computer program and manual. 

Arnhem: Cito. 

Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een 

handleiding bij het computerprogramma. Arnhem: Cito. 

Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in 

de praktijk. (pp. 83-178). Arnhem: Cito. 

52

Verhelst, N.D. & Kleintjes, F.G.M. (1993). Toepassingen van itemresponsetheorie. In: T.J.H.M. Eggen 

en P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: Cito. 

Verhelst, N.D., Verstralen, H.H.F.M., & Eggen, T.H.J.M. (1991). Finding starting values for the item 

parameters and suitable discrimination indices in the one-parameter logistic model. Measurement and 

Research Department Reports 91-10. Arnhem: Cito. 

Verhelst, N. D. & Verstralen, H. H. F. M. (2002). Structural analysis of a univariate latent variable 

(SAUL): Theory and a computer program. Arnhem: Cito. 

Verstralen, H.H.F.M. (1997). OPTAL: Inverse OPLAT and item and test characteristics in populations. 

Arnhem, The Netherlands: Cito. 

Websites 

http://www.minocw.nl/kerndoelen/index.html 

http://tule.slo.nl 

http://www.fi.uu.nl 

53

Bijlage 1 Profielanalyse met IRT, Norman Verhelst 

Profielanalyse met Item Respons Theorie 

Norman Verhelst 

Cito, maart 2007 

1

© Stichting Cito Instituut voor Toetsontwikkeling Arnhem (2007) 

Niets uit dit werk mag zonder voorafgaande schriftelijke toestemming van Stichting Cito 

Instituut voor Toetsontwikkeling worden openbaar gemaakt en/of verveelvoudigd door 

middel van druk, fotografie, scanning, computersoftware of andere elektronische 

verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op 

welke wijze dan ook. 

2

Inleiding 

In een aantal projecten binnen Cito is het de gewoonte toetsgegevens te analyseren met een 

unidimensionaal IRT model, zoals het Raschmodel of OPLM. In het PPON project is de 

inhoudelijke bepaling van de verzameling items die aldus wordt geanalyseerd vrij beperkt. 

In andere toepassingen, bijvoorbeeld het LVS, wordt een soortgelijk model toegepast op een 

inhoudelijk veel breder domein van items. In het domein Rekenen-Wiskunde bijvoorbeeld, 

worden aan het eind van het basisonderwijs 24 verschillende schalen onderscheiden binnen 

PPON, terwijl in het LVS gestreefd wordt om alle onderdelen uit het domein op een enkele 

schaal onder te brengen. 

Deze op het eerste gezicht niet consistente aanpak heeft praktische en historische redenen die 

hier niet aan de orde zullen worden gesteld; wat ons hier zal bezighouden is de vraag of en in 

welke mate twee zo duidelijk verschillende wijzen van analyseren psychometrisch kunnen 

worden verantwoord. 

Het probleem wordt aangepakt vanuit een praktische vraagstelling: indien we de items uit een 

breed domein indelen in een aantal (inhoudelijk of op anderszins zinvolle manier bepaalde) 

categorieën, welk nut en welke zin heeft het bestuderen van de deelscores op deze onderdelen 

als we het hele domein als een unidimensionale verzameling beschouwen. Een rijtje 

deelscores uit de verschillende subdomeinen wordt een profiel genoemd, vandaar de titel van 

dit rapport. 

Het rapport bestaat essentieel uit twee delen. In het eerste deel wordt beargumenteerd in 

welke zin het bestuderen van profielen zinvol is bij het gebruik van een unidimensionaal 

model. In het tweede deel wordt nader ingegaan op de technische uitwerking van zo’n 

profielanalyse. Dit gedeelte wordt dan meteen ook geïllustreerd met voorbeelden uit de 

Citopraktijk. 

Functie van de profielanalyse 

Men zou het volgende standpunt kunnen innemen: indien alle items uit een breed domein 

inderdaad een enkele latente dimensie aanspreken (een enkel concept) en we zijn in staat 

nauwkeurig te specificeren op welke wijze dit ‘aanspreken’ moet worden begrepen, dan heeft 

het bestuderen van profielen weinig of geen zin.We kunnen dan immers de positie van een 

leerling op het latente continuum (met een gekende nauwkeurigheid) bepalen aan de hand van 

antwoorden op een willekeurige deelverzameling van items uit het brede domein, waarbij 

moet worden aangetekend dat de graad van nauwkeurigheid afhangt van welke items men 

kiest – en meer in het bijzonder van het aantal items dat men kiest. Om concreet te maken wat 

hier precies wordt bedoeld, lichten we het voorgaande toe met een voorbeeld. 

Veronderstel dat we het brede domein Rekenen kunnen opdelen in twee deeldomeinen – 

breuken en meetkunde. Zeggen dat breuken en meetkunde-items hetzelfde concept 

aanspreken betekent dat de prestatie van een leerling op beide deeldomeinen alleen afhangt 

van eenzelfde vaardigheid, die we hier voor het gemak rekenvaardigheid noemen. 

Dit impliceert dat we de rekenvaardigheid van een leerling kunnen bepalen door hem een 

toets voor te leggen die uitsluitend items met breuken bevat, of uitsluitend meetkunde-items 

of een willekeurig mengsel van breuken en meetkunde-items. Dit is een belangrijk principe in 

de psychometrie, dat soms wordt aangeduid met de term ‘specifieke objectiviteit’. 

Daarmee is natuurlijk niet alles gezegd over de meetnauwkeurigheid. Stel dat in de hele 

itembank met meetkunde-items en breuken items, deze laatste categorie gemiddeld genomen 

substantieel moeilijker is dan de eerste, en wel zodanig dat hele zwakke leerlingen bijna geen 

enkel breuken-item correct kunnen beantwoorden, en dat heel vaardige leerlingen bijna geen 

fouten maken op de meetkunde-items. Dan ligt het een beetje voor de hand dat we voor een 

3

nauwkeurige vaardigheidsbepaling van een zwakke leerling het beste uit zullen zijn met een 

toets die hoofdzakelijk meetkunde-items bevat, en voor een sterke leerling met een toets die 

vooral breuken-items bevat. Maar daaruit volgt niet dat meetkunde en breuken verschillende 

vaardigheden aanspreken. Ook de bevinding dat in een feitelijke itembank het onderscheid 

moeilijk – gemakkelijk goeddeels samenvalt met het onderscheid meetkunde – breuken hoeft 

niets te betekenen: het zou kunnen zijn dat dit samengaan wijst op een intrinsieke samenhang 

(‘breuken zijn op theoretische gronden moeilijker dan meetkunde-items’) of op een min of 

meer toevallige samenloop van omstandigheden: de constructeurs waren niet in staat om 

moeilijke meetkunde-items en gemakkelijke breuken-items te construeren. Maar deze vraag – 

hoe belangwekkend die in sommige contexten ook mag zijn – heeft niets te maken met de 

vraag of het beantwoorden van zulke items nu gestuurd wordt vanuit een enkele vaardigheid 

of vanuit twee verschillende vaardigheden. 

Het voorgaande is eigenlijk een parafrase van wat doorgaans met veel moeilijke woorden aan 

discussies wordt gevoerd in psychometrische kringen onder het hoofdje ‘Eigenschappen van 

meetmodellen’. Het is prettig als we met meetmodellen kunnen werken die zulke 

eigenschappen hebben, want die staan garant voor de eigenschap dat we verschillende 

leerlingen met verschillende toetsen kunnen testen en de resultaten toch op een zinvolle 

manier kunnen vergelijken. Maar tezelfdertijd ligt hier ook de kern van een groot 

misverstand: het Raschmodel en OPLM hebben die eigenschappen, maar dit impliceert 

geenszins dat het voldoende is testgegevens door een Raschprogramma of het OPLM 

programma te halen om in de praktijk van die eigenschappen verzekerd te zijn. Wat we 

moeten aantonen is dat het gebruikte meetmodel geldig (valide) is voor de item-antwoorden 

die ermee worden geanalyseerd. En dit aantonen is niet eenvoudig; eigenlijk zouden we 

kunnen zeggen dat het principieel onmogelijk is. 

Statistisch gezien heeft het gebruikte meetmodel de status van een nulhypothese, en het 

statistisch toetsen van een meetmodel is er dus eigenlijk op gericht tot een verwerping van die 

nulhypothese te komen. Dit is de logische status van de statistische procedures in 

experimenteel onderzoek. Bij het evidentie zoeken ten voordele van een gebruikt model wordt 

deze werkwijze omgekeerd, en men spreekt van toetsen voor ‘goodness-of-fit’. 

Als protagonist van een bepaald model heeft men er dus belang bij dat de toets niet 

significant uitvalt. Maar het niet-significant zijn van een zulk een statistische toets heeft niet 

dezelfde argumentatiekracht als een significantie in het experimenteel onderzoek. Dit is 

gemakkelijk in te zien door zich toetsen voor te stellen waarvan de analyse gebaseerd is op 

een triviaal klein aantal observaties: de kans dat die een statistisch significant resultaat 

opleveren is meestal heel erg klein, ook in gevallen waar het veronderstelde meetmodel in 

belangrijke mate fout is. In statistisch jargon heet het dan dat de statistische toets geen 

onderscheidend vermogen of ‘power’ heeft. 

Gegeven een bepaalde statistische procedure (bijvoorbeeld een t-toets om de hypothese van 

gelijkheid van twee gemiddelden te toetsen) is het opdrijven van de steekproefgrootte de 

belangrijkste manier om de power te vergroten. Maar bij het ontwerpen van toetsen voor 

goodness-of-fit speelt er meestal nog een andere kwestie. 

Het gebruikte meetmodel (bijvoorbeeld OPLM) is een complexe nulhypothese, en het heeft 

helemaal geen zin om te spreken over de statistische procedure om de houdbaarheid van het 

model te toetsen. Er zijn talloze toetsen te verzinnen en de nulhypothese (het meetmodel) kan 

op talloze manieren onwaar zijn. Voor sommige mankementen aan het model zullen bepaalde 

toetsprocedures veel power hebben, terwijl voor andere tekortkomingen andere procedures 

4

meer zijn aangewezen. In het programma OPLM zijn standaard enkele toetsen voor goodnessof-fit 

ingebouwd, en deze toetsen hebben vooral een goed onderscheidend vermogen om te 

ontdekken of de discriminatieparameters wel goed zijn ingeschat. Maar voor sommige 

schendingen van het model hebben deze toetsen weinig of geen power. Hier is een voorbeeld: 

een paar jaar geleden is op het Cito de Interessetest gemaakt voor leerlingen van groep 8. 

Een standaardanalyse met OPLM op de vier deelschalen van de test (Techniek, Economie, 

Taal en Cultuur en Zorg en Welzijn) gaf een erg goede fit van het model te zien. Nader 

onderzoek om te achterhalen of de test op dezelfde manier kon worden gebruikt voor jongens 

en voor meisjes bracht duidelijk aan het licht dat dit niet het geval was. De procedure die 

werd gebruikt om dit aan het licht te brengen was een statistische toets voor goodness-of-fit 

die speciaal is ontworpen om verschillen in functioneren van het model in verschillende 

deelpopulaties (hier: jongens en meisjes) te ontdekken. 

Het voorbeeld kan een paar zaken duidelijk maken: uit de bespreking van het voorbeeld 

kunnen we niet opmaken hoe de testprocedure in elkaar steekt. Het is hier ook niet de plaats 

om dit te doen, want het betreft een puur statistisch probleem dat redelijk ingewikkeld is. 

Wat wel belangrijk is dat in de analyse van de Interessetest de statistische procedure is 

uitgevoerd voor jongens en meisjes, en niet, bijvoorbeeld, voor leerlingen die in de eerste zes 

maanden van het jaar zijn geboren tegenover leerlingen die in de laatste zes maanden zijn 

geboren. De reden hiervoor is dat er vooraf een vermoeden bestond dat er voor interesses wel 

eens een verschil zou kunnen zijn tussen jongens en meisjes, terwijl er geen duidelijke 

redenen zijn om aan te nemen dat de geboortemaand er iets toe doet. Meer algemeen betekent 

dit dat een doordacht gebruik van statistische procedures gestuurd dient te worden vanuit een 

inhoudelijk geïnspireerd vermoeden dat er wel eens iets mis zou kunnen zijn met het 

gebruikte meetmodel. 

In het voorbeeld van de Interessetest werd ervan uitgegaan dat de populatie waarvoor de test 

is bedoeld niet homogeen was in termen van het meetmodel: dezelfde test meet blijkbaar iets 

anders bij jongens dan bij meisjes. Maar er bestaat ook een heel andere klasse van 

veronderstellingen waarbij men ervan uitgaat dat de verzameling items in de toets niet 

homogeen is met betrekking tot het meetmodel. De profielanalyse die in de volgende sectie 

wordt uitgewerkt behoort tot deze klasse. Voor we aan de specifieke uitwerking beginnen 

wijden we enige aandacht aan het algemene probleem van niet homogene itemverzamelingen. 

In het algemeen zou men kunnen zeggen dat een gebrek aan homogeniteit van de itemverzameling 

een voorbeeld is van multidimensionaliteit. Daar is weinig tegen in te brengen 

tenzij dat het begrip multidimensionaliteit zelf niet duidelijk gedefinieerd is. Meestal denkt 

men aan een specifiek geval waarbij de bestudeerde itemverzameling uiteenvalt in twee of 

drie deelverzamelingen die op zichzelf wel door een unidimensionaal model (bijvoorbeeld 

OPLM) kunnen worden beschreven, maar er kunnen ook andere gevallen van multidimensionaliteit 

worden onderscheiden. Bovendien is het van belang bij multidimensionaliteit 

niet alleen te onderzoeken of er al dan niet sprake is van meer dan een dimensie, maar ook in 

welke mate de multidimensionaliteit afwijkt van de unidimensionaliteit. Bij de Eindtoets 

Basisonderwijs wordt voor de items Rekenen meestal een unidimensionaal model gebruikt, 

maar in de rapportage wordt een onderscheid gemaakt naar drie deeldomeinen: Getallen en 

Bewerkingen, Meten, Tijd en Geld en Breuken, Procenten Verhoudingen. Als de items uit 

deze drie deeldomeinen afzonderlijk met een unidimensionaal model worden geschat en 

naderhand wordt de correlatie tussen deze drie vaardigheden geschat, dan blijken alle 

correlaties groter te zijn dan 0.96. Dit betekent dat er evidentie is dat de drie vaardigheden 

niet samenvallen, maar tezelfdertijd dat de onderlinge correlatie dermate hoog is dat het 

5

toelaatbaar kan worden geacht een unidimensionaal model voor de drie deelvaardigheden te 

gebruiken. Dit brengt ons op een probleem dat direct met de toetspraktijk heeft te maken. 

Bij het schatten van de modelparameters wordt maar ten dele gebruik gemaakt van de 

informatie die in de data aanwezig is. Voor het OPLM bijvoorbeeld gebruiken we alleen de 

randtotalen van de gegevenstabel: van elk item het aantal keren dat het correct is beantwoord 

en van elke leerling zijn score op de toets (ongewogen bij het Raschmodel en gewogen in het 

OPLM). De overblijvende informatie wordt dan gebruikt om het model (statistisch) te toetsen: 

als de parameters (redelijk) nauwkeurig geschat zijn, kunnen allerlei eigenschappen van de 

datamatrix worden voorspeld, en deze voorspellingen kunnen worden vergeleken met de 

werkelijke eigenschappen van de datamatrix. Een voorbeeld: voor alle leerlingen met een 

bepaalde score op de toets (bijvoorbeeld 25) kan men voorspellen welke proportie van die 

leerlingen een bepaald item (bijv. item 1) correct heeft beantwoord, en deze voorspelde 

proportie kan men vergelijken met de proportie in de data, die men kan vinden door een 

simpele telling. Het probleem is echter dat er talloos veel verschillende voorspellingen 

kunnen worden gemaakt, en dat de overeenkomst tussen data en voorspelling soms 

minder goed zal zijn dan men zou willen, puur door toeval. Het heeft dus weinig zin om 

hap snap enkele voorspellingen eruit te pikken en de overeenkomst met de data te 

beoordelen. Het is wel zinvol om weloverwogen de voorspellingen te kiezen vanuit 

theoretische of didactische overwegingen en te overwegen wat men zou moeten of 

kunnen doen in geval de overeenkomst tussen data en voorspellingen niet goed is. 

Profielanalyse zoals hier verder zal worden uitgewerkt past in deze opvatting. Een profiel is 

een rijtje deelscores op bepaalde categorieën van items, maar men kan in principe de 

categorizering definiëren zoals men wil. Men zou inhoudelijke categorieën kunnen bepalen 

(zoals meetkunde, breuken, getalsrelaties, etc.), maar men kan ook andere categoriedefinities 

hanteren, zoals de even genummerde items tegenover de oneven genummerde, om maar een 

dwaas voorbeeld te noemen. Een goede categorisering is geen psychometrisch of statistisch 

probleem, maar een inhoudelijk probleem, en het is aan de inhoudelijke medewerkers 

hierover na te denken en een verantwoorde keuze te maken. In het genoemde voorbeeld van 

de rekenitems (in deeldomeinen) zou men een aantal overwegingen kunnen aanvoeren voor 

de gekozen categorisering: 

• Het bestaan van aparte methoden voor de genoemde onderdelen; 

• De noodzaak van bepaalde psychologische vaardigheden voor sommige onderdelen 

(zoals ruimtelijk inzicht voor meetkunde); 

• Het bestaan van didactische praktijken waarbij onderdelen ook echt bloksgewijs 

worden onderwezen; 

• De mogelijkheid van (partiële) incompetentie van (sommige) leerkrachten, etc. 

De eigenlijke profielanalyse bestaat dan uit drie onderdelen: 

• Het berekenen van het verwachte profiel met gebruikmaking van de parameters van 

het meetmodel; 

• De vergelijking van individuele geobserveerde profielen met dit verwachte profiel. 

Bij deze vergelijking kan men verschillende standpunten innemen: 

o Als de afwijking tussen geobserveerde en verwachte profielen erg groot is voor 

zeer veel leerlingen kan men de validiteit van het meetmodel in twijfel gaan 

trekken, en eventueel een herziening en/of uitbreiding van het meetmodel 

overwegen. Dit is eigenlijk een taak die behoort tot het monitoren van het hele 

systeem. 

6

o Men kan echter ook afwijkingen aggregeren op een hoger niveau, bijvoorbeeld 

de school of de klas, en bijvoorbeeld vinden dat in een bepaalde school de 

afwijkingen van het verwachte profiel voor alle leerlingen in dezelfde richting 

wijzen zoals een relatief lage deelscore op het onderdeel breuken in 

vergelijking met de andere onderdelen. Dit te ontdekken, ordelijk te 

beschrijven en te rapporteren is een monitoring functie op school- of 

klasniveau. Om dit goed en op een verantwoorde manier te doen is geen 

triviale taak en er is nog behoorlijk veel werk te doen om op dit niveau goede 

service aan de scholen te kunnen aanbieden. 

o Natuurlijk kan men ook de afwijking tussen een individueel profiel (van een 

leerling) en het verwachte profiel bepalen en tot een (beschrijvend) besluit 

komen, ongeveer met de uitspraak dat de afwijking bij leerling A groot is en 

bij leerling B klein. In het tweede deel van dit rapport wordt uiteengezet hoe 

men op een rationele manier grote afwijkingen kan definiëren. 

• De moeilijkste taak is echter het formuleren van besluiten en adviezen. Afwijkende 

patronen kunnen ook bij toeval ontstaan en hoeven niet per se op een probleem te 

wijzen bij de leerling. In de statistiek spreekt men van fouten van de eerste soort, soms 

ook aangeduid als vals alarm. Omgekeerd zullen niet alle problemen door een 

profielanalyse aan het licht komen. In het eerste geval is het botweg adviseren tot 

bijles of remediërende programma’s niet altijd een wijze handeling. Als een probleem 

gesignaleerd wordt (op statistische wijze) is het meestal verstandiger eerst bijkomende 

evidentie te zoeken dat het inderdaad om een probleem gaat. In een systeem als het 

LVS worden bijvoorbeeld mogelijkheden geboden omdat daar gegevens van dezelfde 

leerling op verschillende tijdstippen beschikbaar zijn. Maar het uitwerken van een 

geschikte procedure voor een aggregatie van profielen over de tijd is niet op stel en 

sprong gemaakt. Er ligt dus nog een groot onontgonnen veld van nadenken en 

uitwerken voor ons. 

Profielanalyse op individueel niveau 

Als een leerling een toets maakt kunnen we deelscores berekenen op willekeurige onderdelen 

van de toets. We zullen aannemen dat de toetsitems in p (> 1) categorieën zijn onderverdeeld, 

waarbij elk item in niet meer dan een categorie valt. Voor elke categorie kunnen we de deelscore 

van de leerling berekenen en het rijtje van p deelscores noemen we het geobserveerde 

profiel. De deelscores kunnen gewone tellingen zijn: hoeveel items van elke categorie heeft 

de leerling correct beantwoord, of het kunnen gewogen scores zijn omdat niet alle items 

hetzelfde gewicht hebben. In Figuur 1 staat een voorbeeld uit de Eindtoets Basisonderwijs 

2006 voor het onderdeel Rekenen, waarbij drie categorieën zijn onderscheiden. De verticale 

as geeft de gewogen score weer op de drie onderdelen. De gewogen score op het hele 

onderdeel Rekenen bedraagt voor de betrokken leerling 120 punten. 

7

gewogen score 

80 

60 

40 

20 

0 

getal meten breuken 

Figuur 1. Een geobserveerd profiel met gewogen scores 

Het hele onderdeel Rekenen bestaat uit 60 items en de maximale gewogen score bedraagt 270. 

Op het eerste gezicht zou men kunnen zeggen dat de leerling zwak presteert op de categorie 

‘meten’ en sterk op de categorie ‘breuken’, maar elke grond voor zulk een interpretatie 

ontbreekt: we weten immers niet hoeveel items er in elke categorie zijn en we kennen het 

gewicht van de afzonderlijke items niet. Geven we deze informatie erbij, dan kunnen we al 

iets van het probleem wegnemen. In figuur 2 is weer een profiel gegeven (van de zelfde 

leerling als in Figuur 1), maar nu zijn de resultaten uitgedrukt als percentage van de 

maximumscore in elke categorie, zodat de dubbelzinnigheid veroorzaakt door verschillende 

aantallen items of verschillende gewichten in ieder geval is weggenomen. 

procent van de maximale score 

80 

60 

40 

20 

0 


Figuur 2. Geobserveerd profiel uitgedrukt als percentage van de maximumscore 

In Figuur 2 lijkt de zwakste prestatie nu in de categorie getallen, maar ook dit resultaat kan 

misleidend zijn, want het zou zo kunnen zijn dat de items in de categorie ‘getallen’ veel 

moeilijker zijn dan in de twee andere categorieën. 

De spontane interpretatie bij een visuele weergave van een profiel is het nemen van de nullijn 

(of een willekeurige andere horizontale lijn in de figuur) als referentielijn, en dat kan 

aanleiding geven tot niet gerechtvaardigde interpretaties of conclusies. 

8

Het referentieprofiel 

Om terdege rekening te houden met de verschillen in moeilijkheid van de onderscheiden 

categorieën kunnen we het beste een soort verwacht profiel gaan nemen als referentielijn. 

Maar we dienen goed te formuleren wat we met ‘verwachting’ bedoelen. Nemen we 

bijvoorbeeld als verwachting de gemiddelde categoriescore in de populatie van leerlingen van 

groep acht die deelnemen aan de Eindtoets, dan wordt de vergelijking weer gecompliceerd 

omdat het aldus gedefinieerde verwachte profiel in twee opzichten kan verschillen van het 

geobserveerde profiel uit Figuur 1: het kan verschillen door het algemene niveau (in het 

voorbeeld doet het dit ook, want een gewogen score van 120 op het onderdeel Rekenen is een 

tamelijk lage score) en het kan ook verschillen qua vorm. De directe visuele interpretatie van 

beide profielen wordt daardoor bemoeilijkt. We kunnen het probleem vereenvoudigen door 

een specifiek geobserveerd profiel te vergelijken met een gemiddeld profiel van alle 

leerlingen die op de hele toets (d.i. op het hele onderdeel Rekenen) dezelfde of ongeveer 

dezelfde score behalen als de score van het geobserveerde profiel. 

Dit verwachte profiel kunnen we op twee manieren bepalen: empirisch of theoretisch. 

Empirisch betekent dat we in het databestand van de Eindtoets het gemiddelde profiel bepalen 

van alle leerlingen met dezelfde score op het hele onderdeel Rekenen als de onderzochte 

leerling. Voor het onderzoek naar een andere leerling met een andere gewogen score op het 

onderdeel Rekenen kunnen we hetzelfde doen. We moeten deze hele procedure dus uitvoeren 

voor alle mogelijke scores op het onderdeel Rekenen. Drukken we het geobserveerde profiel 

uit met gewogen scores, dan moeten we deze procedure toepassen voor alle mogelijke 

gewogen scores. In termen van computertijd is dit niet zo’n groot probleem, maar wel in 

termen van statistische stabiliteit. Immers de frequentie van sommige gewogen scores zal 

behoorlijk groot zijn, maar voor andere scores zullen we onvermijdelijk te maken krijgen met 

kleine tot zeer kleine frequenties. De statistische stabiliteit van de verwachte profielen zal dan 

van score tot score gaan verschillen en dit is een onwenselijke situatie. Bovendien komt er 

nog een probleem bij als we een dergelijke werkwijze zouden willen toepassen in het LVS. 

Bij de Eindtoets worden de data centraal verzameld op het Cito, maar bij het LVS is dat niet 

zo. De data die daar beschikbaar zijn betreffen alleen de leerlingen van de school zelf en dan 

wordt de empirische aanpak wel heel problematisch. 

Als de gegevens met OPLM gecalibreerd zijn kunnen we ook theoretisch het verwachte 

profiel afleiden. De verwachte (gewogen) score voor elke categorie is een (nogal 

ingewikkelde) functie van de itemparameters (de discriminatie-indices en de moeilijkheidsparameters). 

Details over hoe die verwachte waarden worden berekend worden gegeven in 

Appendix A van dit rapport. In Figuur 3a wordt hetzelfde geobserveerde profiel afgebeeld als 

in Figuur 2, maar nu samen met het verwachte profiel. In Figuur 3b zijn beide profielen 

omgezet als percentage van de maximum te behalen score op elke categorie. 

9

gewogen score 

80 

60 

40 

20 

0 

obs 

exp 


10 

procent v.d. maximum score 

80 

60 

40 

20 

0 

%obs 

%exp 


Figuur 3a. Profielen met gewogen scores Figuur 3b. Profielen met procenten 

De visuele aanblik van beide figuren verschilt in bepaalde opzichten: in Figuur 3a zien we een 

dipje voor ‘meten’ dat in Figuur 3b verdwenen is, maar dat komt omdat de categorie ‘meten’ 

het minste items bevat met daarenboven nog eens het kleinste gemiddeld gewicht. Er zijn 

echter ook bepaalde eigenschappen die in beide figuren onveranderd blijven: op de categorie 

‘getal’ doet de leerling het slechter dan verwacht; op de categorie ‘breuken’ doet hij het beter 

dan verwacht en op de categorie ‘meten’ is de geobserveerde prestatie zeer gelijkend aan de 

verwachte prestatie. En dit is precies de informatie die we nodig hebben, zodat het er eigenlijk 

niet veel toe doet of we Figuur 3a dan wel 3b kiezen. 

verschil geobs. min verw. (in %) 

20 

15 

10 

5 

0 

-5 

-10 

-15 

-20 


Figuur 4. Afwijkingen van het verwachte profiel (in percentages) 

Samenvattend: het verwachte profiel is wat we gemiddeld kunnen verwachten van leerlingen 

die dezelfde gewogen toetsscore behalen als in het geobserveerde profiel (in het voorbeeld 

van Figuur 3 is dat 120). Voor elke categorie kunnen we met een simpele visuele inspectie 

nagaan of de leerling boven of onder de verwachting presteert, gezien zijn algemene niveau. 

In Figuur 4 geven we nog een andere visuele presentatie van de verschillen zoals afgebeeld in 

Figuur 3b: daar geven we aan (in procenten) hoever de leerling afwijkt van het verwachte 

percentage voor elke categorie. De nullijn komt dus overeen met het verwachte profiel. 

Door de wijze waarop het profiel (met gewogen scores) is gedefinieerd is het 

noodzakelijkerwijze zo dat de som van de categoriescores van het geobserveerde profiel 

gelijk is aan de som bij het verwachte profiel. Het kan dus nooit voorkomen dat het ene 

profiel volledig boven het andere ligt. Bij de afbeelding van de percentages geldt dat ook, 

maar daar is het niet noodzakelijk dat de som van de percentages in een profiel gelijk is aan 

100, omdat de gewogen scores per categorie gedeeld worden door de maximumscore van die

categorie en die maxima zullen in de regel niet gelijk zijn aan elkaar. Daardoor is de som van 

de percentages in Figuur 4 ook niet gelijk aan nul. 

Afstand tussen twee profielen 

De verschillen tussen geobserveerd en verwacht profiel zoals in Figuur 3a zijn wel verbaal 

omschreven, maar voor verder onderzoek is het noodzakelijk dat die verschillen ook 

gekwantificeerd worden en bij voorkeur zo compact mogelijk. Het liefste met één getal dat op 

een of andere manier de afstand uitdrukt tussen de twee profielen. 

Er zijn veel mogelijke manieren om de afstand tussen twee profielen uit te drukken en wij 

kiezen er een die in de statistiek populair is, namelijk de chi-kwadraatafstand. We illustreren 

dit met de twee profielen uit Figuur 3a, waarvan de numerieke gegevens zijn ondergebracht in 

Tabel 1. De getalswaarden die overeenkomen met Figuur 3a zijn weergegeven in de rij 

‘behaald’, waarbij de verwachte score tussen haakjes staat. Zoals te doen gebruikelijk bij 

contingentietabellen wordt deze rij echter ook gecompleteerd door een rij ‘niet behaald’: bij 

de categorie ‘getal’ is de maximale score 107, de geobserveerde score is 35, dus heeft de 

leerling 107 – 35 = 72 punten niet behaald. 

behaald 

niet behaald 

Tabel 1. Geobserveerd en verwacht profiel 

getal meten breuken totaal 

35 

(49.94) 

72 

(57.06) 

24 

(26.42) 

37 

(34.58) 

11 

61 

(43.65) 

41 

(58.36) 

120 

150 

totaal 107 61 102 270 

Elk van de zes grijsgekleurde cellen in Tabel 1 bevat een geobserveerde score (Oi) en een 

verwachte score (Ei) en de chi-kwadraatafstand tussen de twee profielen wordt gedefinieerd 

als 

6 

2 

2 ( O − E ) i i 

X = ∑ = 20.83 

i= 1 Ei 

waarbij meteen de uitkomst van de formule voor de gegevens van Tabel 1 is ingevuld. 

Het voordeel van een afstandsmaat is dat alle geobserveerde profielen met eenzelfde 

totaalscore nu kunnen worden geordend in termen van hun gelijkenis met het verwachte 

profiel (dat voor iedereen hetzelfde is). Maar we kunnen de profielen niet zomaar inwisselen 

tegen de afstand tot het verwachte profiel: immers twee profielen die op dezelfde afstand 

liggen van het verwachte profiel kunnen heel erg goed op elkaar lijken maar onderling ook 

heel verschillend zijn. Wat het geval is, kunnen we niet meer uit de afstandsmaat afleiden. 

Met de afstandsmaat op zichzelf kunnen we trouwens ook niet veel doen. In het voorbeeld 

bedraagt de afstand 20.83, maar daarmee weten we nog niet of dit nu heel gewoon is of 

eigenlijk toch wel een beetje aan de kleine kant of uitzonderlijk groot. Om zo een vraag zinvol 

te kunnen beantwoorden, moeten we antwoord geven op de volgende vraag: hoe ziet de 

verdeling van de chi-kwadraat afstanden eruit bij een totaalscore van 120 (en in de 

veronderstelling dat het gehanteerde OPLM model geldig is)? Of meer in het algemeen: 

kunnen we de overschrijdingskans van de gevonden waarde van 20.83 in die verdeling 

bepalen?

Indien die overschrijdingskans heel erg klein is, zeg 1%, dan weten we dat een chikwadraatafstand 

van 20.83 of groter slechts in 1% van de gevallen voorkomt indien het model 

voor deze leerling geldig is. Op grond van dit kleine percentage kunnen we ons geloof in het 

model (voor die leerling) opzeggen, en besluiten dat er wat aan de hand is met die leerling. 

Als de overschrijdingskans echter behoorlijk groot is, zeg 35%, betekent dit dat onder het 

model een chi-kwadraatafstand van 20.83 of groter voorkomt in 35 % van de gevallen, en ons 

besluit zal (waarschijnlijk) zijn dat we hier geen reden hebben om iets speciaals te signaleren. 

Maar wat hier met een hoop woorden is omschreven is niets anders dan een statistische toets. 

Hoe we die toets in concreto moeten uitvoeren beschrijven we hierna. 

De verdeling van de chi-kwadraatafstanden tussen geobserveerde en verwachte profielen 

De gedaante van Tabel 1 en van de formule die er op volgt zou kunnen suggereren dat de chikwadraatafstand 

de theoretische chi-kwadraatverdeling volgt. Dat zou zo zijn indien de 

rekentoets 270 items zou bevatten (het aantal items gelijk aan het grand total van de tabel), 

maar hier is dat niet zo: het onderdeel Rekenen in de Eindtoets bestaat slechts uit 60 items. 

We hebben dus geen theoretische basis om te beweren dat we de theoretische chi-kwadraatverdeling 

(met 2 vrijheidsgraden) kunnen gaan gebruiken. De theoretische verdeling op 

theoretische gronden afleiden is een moeilijke onderneming, maar gelukkig kunnen we 

dankzij de beschikbaarheid van snelle computers de theoretische verdeling willekeurig dicht 

benaderen door simulatietechnieken. We beschrijven kort hoe dit wordt gedaan. 

We vertrekken van een gegeven totaalscore, bijvoorbeeld 120 zoals in het voorbeeld 

hierboven. Als we de parameters van alle items in het OPLM model kennen kunnen we 

berekenen hoe groot de kans is dat iemand met een totaalscore van 120 item 1 (met een 

gewicht van 4) correct beantwoordt. Stel dat die kans 0.6 is. Dan gooien we (electronisch) een 

muntstuk op dat precies een kans van 0.6 heeft om ‘Munt’ op te leveren. Gebeurt dit, dan 

noteren we een correct antwoord op item 1, gebeurt het niet dan noteren we een fout 

antwoord. Als het antwoord op het eerste item correct was, dan moet de gesimuleerde leerling 

nog 120 – 4 = 116 punten behalen op de 59 overblijvende items; was het eerste item fout dan 

moet hij op de overblijvende 59 items alsnog een score van 120 behalen. En de procedure kan 

zich dus herhalen voor item 2, enzovoort tot alle items beantwoord zijn. Als de gesimuleerde 

persoon alle items heeft beantwoord kunnen we zijn geobserveerd profiel berekenen en dus 

ook de chi-kwadraatafstand tot het verwachte profiel. De details over het berekenen van de 

kans op een goed antwoord worden beschreven in Appendix B van dit rapport. 

Als we de hele procedure van de vorige alinea een groot aantal keren herhalen, bijvoorbeeld 

30,000 keer, dan beschikken we over 30,000 chi-kwadraatafstanden waarvan we de 

cumulatieve frequentieverdeling kunnen tekenen. Dit hebben we ook inderdaad gedaan, en het 

resultaat staat in Figuur 5, samen met de theoretische cumulatieve chi-kwadraatverdeling met 

twee vrijheidsgraden. 

12

cumulatief percentage 


100 

75 

50 

25 

0 

0 10 20 30 40 

Chi-kwadraatafstand 

Figuur 5. Gesimuleerde verdeling voor een totaalscore van 120 en 

de theoretische chi-kwadraatverdeling met twee vrijheidsgraden 

13 

score = 120 

chi2(2) 

We merken twee zaken op bij Figuur 5: 

1. De twee verdelingen verschillen heel erg van elkaar en er kan geen sprake van zijn de 

theoretische chi-kwadraatverdeling te beschouwen als een goede benadering van de 

werkelijke (of gesimuleerde) verdeling. De mediaan bijvoorbeeld, (het punt waar de 

horizontale rasterlijn met label ‘50’ de curve snijdt) bedraagt 6.06 bij de gesimuleerde 

verdeling en 1.39 bij de theoretische chi-kwadraatverdeling. 

2. De curve van de gesimuleerde verdeling is minder glad dan de curve van de theoretische 

verdeling. Dit wordt veroorzaakt door twee factoren. De eerste is dat het aantal 

gesimuleerde leerlingen weliswaar behoorlijk groot is maar toch eindig. Een deel van de 

onregelmatigheden zouden kunnen worden weggepoetst door bijvoorbeeld een steekproef 

te nemen die tien keer zo groot is. Maar er zouden toch nog onregelmatigheden 

overblijven omdat de chi-kwadraatafstanden die we berekenen geen continue grootheid 

zijn, maar discreet. Voor praktische doeleinden echter, is de gesimuleerde curve glad 

genoeg. Percentiel 90 bijvoorbeeld bedraagt 19.65 en de geobserveerde chikwadraatafstand 

in het voorbeeld bedraagt 20.83 (aangegeven door de positie van de 

verticale streepjeslijn), waardoor we weten dat deze waarde een overschrijdingskans heeft 

van minder dan 10%. Percentiel 95 in de gesimuleerde verdeling bedraagt 25.32 en de 

overschrijdingskans van de geobserveerde chi-kwadraatafstand is dus groter dan 5%. 

Deze waarde kan worden afgelezen aan de positie van de horizontale streepjeslijn: het 

cumulatieve percentage van de chi-kwadraatafstand 20.83 is ongeveer 91%, zodat de 

overschrijdingskans ongeveer 9% is. 

In principe zijn we nu klaar met de leerling uit het voorbeeld: Figuur 3 geeft duidelijk het 

verwachte en geobserveerde profiel aan, en de statistische toets vertelt ons dat het verschil 

significant is op het 10% niveau maar niet op het 5% niveau. En hier houdt de functie van de 

statistiek op. Of we dit resultaat nu aan de leerkracht moeten melden met groot alarm of klein 

alarm of geen alarm is in wezen een arbitraire kwestie waar de statistiek geen uitspraak kan 

over doen.

Tot hiertoe hebben we alleen de verdeling bestudeerd voor een geobserveerde totaalscore van 

120, maar het spreekt vanzelf dat we iets dergelijks moeten doen voor bijna alle mogelijke 

totaalscores. We kunnen dit in principe doen voor alle mogelijke totaalscores, maar dit heeft 

niet veel zin. Het gemiddelde gewicht van de items Rekenen in de Eindtoets 2006 ligt tussen 4 

en 5. Dit betekent dat een leerling met een gewogen totaalscore van 15 drie of vier juiste 

antwoorden heeft gegeven. Het is dus vrij zinloos om voor zo’n lage score een profielanalyse 

te doen met drie categorieën. Een soortgelijk argument geldt natuurlijk ook voor zeer hoge 

totaalscores: het heeft weinig zin een profielanalyse te maken voor een leerling die maar twee 

of drie foute antwoorden heeft gegeven. 

In Figuur 6 staat een (stukje van) de cumulatieve gesimuleerde verdelingen voor een vijftal 

totaalscores. Voor elke verdeling zijn weerom 30,000 gesimuleerde leerlingen gebruikt. 

We merken dat de curves vrij goed op elkaar lijken, maar dan toch niet weer zo goed dat we 

met een gerust hart kunnen zeggen dat ze ‘eigenlijk’ aan elkaar gelijk zijn (waarbij we dan 

haarfijn zouden moeten uitleggen wat we met ‘eigenlijk’ bedoelen.) Wat we wel kunnen 

zeggen is dat de curves dermate op elkaar lijken dat het onmogelijk is in Figuur 6 een patroon 

te ontdekken, gesteld dat dit er al zou zijn. 


80 

60 

40 

20 

0 

0 3 6 9 12 



14 

score = 40 

score = 80 

score = 120 

score = 160 

score = 200 

Figuur 6. Gesimuleerde cumulatieve verdelingen voor vijf verschillende totaalscores 

Om een mogelijk patroon te kunnen ontdekken is Figuur 7 gemaakt. Daar zijn voor alle 

totaalscores in het interval [25, 245] de percentielen 50, 75, 90, 95, 97 en 99 grafisch 

weergegeven. Bemerk dat de percentielen hier moeten worden afgelezen op de verticale as. 

Over mogelijke patronen in die figuur merken we het volgende op: 

1. Voor de allerlaagste gerapporteerde scores (25 en 26) zien we dat de curves omhoog 

schieten. Zo’n gekke uitschieters zien we bij nog lagere scores en ook bij extreem hoge 

scores. Dit geeft ons nog een extra reden om profielanalyse bij extreme scores gewoon 

achterwege te laten. 

2. De percentielen 50 en 75 zijn merkwaardig constant op respectievelijk de waarden 6 en 12

3. Voor de andere geplotte percentielen zien we duidelijk een patroon: ze bereiken de 

hoogste waarde in het middengebied en worden kleiner naarmate de score groter of 

kleiner wordt. 

4. Het feit dat de curves voor de hoge percentielen onregelmatiger verlopen dan voor de 

percentielen 50 en 75 moet waarschijnlijk worden geweten aan het discrete karakter van 

de chi-kwadraatafstand. 


40 

32 

24 

16 

8 

0 

25 50 75 100 125 150 175 200 225 

toetsscore 

Figuur 7. Zes percentielen van de verdelingen van de chi-kwadraatafstanden 

Moeten we nu met alle details zoals die zijn weergegeven in Figuur 7 gaan rekening houden 

als we profielen zouden willen rapporteren in het LVS bijvoorbeeld? Dit lijkt wat overdreven. 

Stel dat we een overschrijdingskans van 10% of minder de moeite waard vinden om aan de 

leerkracht te rapporteren dat de desbetreffende leerling een atypisch antwoordprofiel heeft. 

Uit Figuur 7 kunnen we gemakkelijk afleiden dat we een goede benadering krijgen als we 

signaleren bij een chi-kwadraatafstand groter dan 20 (of 19.5 voor de preciezen). Voor de 

extreme scores (zeg tussen 25 en 50 en tussen 225 en 245) zal overschrijdingskans dan wel 

iets kleiner zijn dan 10% en zo men wil zou men de drempel voor die scores iets lager kunnen 

zetten. 

We moeten echter niet gaan overdrijven, want anders vinden we schijnnauwkeurigheid zoals 

zal blijken in de volgende sectie. 

Profielanalyse als modeltoets 

Alle analyses die we tot hiertoe hebben gerapporteerd zijn uitgevoerd in de veronderstelling 

dat het OPLM model (met de parameterschattingen uit de calibratie) geldig is voor alle 

leerlingen. Maar als dat zo is, dan moet ongeveer 10% van alle leerlingen die aan de Eindtoets 

hebben deelgenomen een profiel chi-kwadraatafstand opleveren die significant is op het 10% 

niveau. Dat kunnen we empirisch nagaan. Voor alle leerlingen die aan de Eindtoets 

Basisonderwijs 2006 hebben deelgenomen en die op het onderdeel rekenen een totaalscore 

hadden groter dan 35 en kleiner dan 246 hebben we de chi-kwadraatafstand uitgerekend en 

15 

p50 

p75 

p90 

p95 

p97 

p99

geclassificeerd in een van vier categorieën: een overschrijdingskans niet groter dan 50%; 

tussen 25% en 50%; tussen 10% en 25% en kleiner dan 10%. De resultaten zijn weergegeven 

in Tabel 2. De rechterkolom geeft voor elk van de vier categorieën het verwachte percentage 

aan. De andere kolommen geven voor verschillende score-intervallen (aangegeven in de bovenste 

rij) de geobserveerde percentages aan. In elke kolom tellen de percentages op tot 100. 

Tabel 2. Percentages leerlingen in de Eindtoets Basisonderwijs 2006 

36-75 76-105 106-135 135-165 166-195 196-225 226-245 totaal verwacht 

47.09 46.34 43.80 44.17 43.81 44.42 45.06 44.53 50 

24.63 24.24 24.92 25.01 25.01 25.13 25.97 25.16 25 

16.20 15.84 16.20 15.94 16.39 16.49 16.58 16.32 15 

12.08 13.58 15.08 14.87 14.79 13.96 12.39 13.99 10 

Het is voldoende om naar de onderste rij in Tabel 2 te kijken om te zien dat er behoorlijk meer 

significanties op het 10% niveau zijn dan we op grond van het OPLM model mogen 

verwachten. Daaruit we moeten besluiten dat het model niet geldig is. 

Wat nu? Als we een beter model hadden (en een computerprogramma waarmee we de hele 

calibratie met een onvolledig design) konden overdoen, dan zou dat de aangewezen weg zijn: 

gebruik niet een slecht model als je een beter hebt. Maar het ziet er niet naar uit dat dit een 

realistische optie is; dus zullen we op een of andere manier een compromis moeten zien te 

vinden. 

Stel dat we in het geval van de individuele profielanalyse een profiel als atypisch hadden 

willen aanmerken bij een overschrijdingskans van 10% (dus bij een chi-kwadraatafstand 

groter dan 20 (of 19.5 voor de preciezen)). Dan zouden we (voor de populatie die aan de 

Eindtoets deelnam) dat niet doen in 10% van de gevallen maar in 14% (voorlaatste kolom, 

onderste rij in Tabel 7). Als we dit te veel vinden dan moeten we de drempel hoger gaan 

stellen; als we dit nog aanvaardbaar vinden dan weten we dat we in meer dan 10% een 

boodschap zullen afgeven. Als we dit op een adequate wijze aan het onderwijsveld weten mee 

te delen, dan kan dit heel aanvaardbaar zijn. 

Er zit echter een klein addertje onder het gras. De gegevens voor Tabel 2 komen van de 

Eindtoets, maar de profielanalyse is in eerste instantie bedoeld voor het LVS en niemand weet 

of een soortgelijke tabel voor het LVS ook soortgelijke percentages als die in Tabel 2 zal 

opleveren, want we hebben geen gegevens van het LVS. 

Een aantal losse opmerkingen 

Het profiel dat we als voorbeeld hebben behandeld (zie bijv. Figuur 3) heeft drie categorieën. 

De statistische analyse laat zien dat het geobserveerde profiel significant (op 10% niveau) van 

het verwachte profiel afwijkt. Deze uitkomst vertelt niet waaruit deze afwijking precies 

bestaat en waar (eventueel) het meeste aandacht moet worden aan besteed. Maar een visuele 

inspectie van de afwijkingen (bijvoorbeeld aan de hand van Figuur 4) laat hierover weinig 

twijfel bestaan. Omdat profielen ipsatief zijn (d.w.z. hun som is constant) is het aantal 

mogelijke ‘vormen van de afwijkingen’ redelijk beperkt, en lijkt de interpretatie behoorlijk 

eenvoudig. Wanneer echter het aantal categorieën toeneemt gaan de restricties die volgen uit 

de ipsativiteit steeds minder een rol spelen, en krijgen we een groeiend aantal mogelijke 

patronen van de afwijkingen tussen geobserveerd en verwacht profiel waarbij de interpretatie 

soms niet zo voor de hand liggend zal zijn. Het verdient daarom aanbeveling het aantal 

categorieën beperkt te houden. In de praktijk moeten we denken aan drie of vier. 

16

Complementair hiermee is het wellicht nuttig een ander mogelijk probleem te signaleren: als 

het aantal categorieën toeneemt zal het gemiddeld aantal items per categorie afnemen. Maar 

categorieën met een klein aantal items kunnen een misleidende (visuele) indruk maken bij een 

presentatie zoals in Figuur 4. Veronderstel dat een categorie maar drie items bevat (van 

hetzelfde gewicht), dan kan in het geobserveerde profiel het percentage op die categorie maar 

vier verschillende waarden aannemen: nul, 33.3, 66.7 en 100, en wat ook de waarde is van het 

percentage juist in het verwachte profiel, minstens twee van de vier mogelijke uitkomsten 

zullen een grote afwijking te zien geven die op zichzelf niet veel hoeft te betekenen. Bij het 

definiëren van de categorieën is het raadzaam hier aandacht aan te besteden. 

Stel dat men er niet in slaagt een klein aantal evenwichtig verdeelde categorieën te definiëren, 

omdat er een inhoudelijk zinvolle restcategorie blijkt te bestaan die echter slechts een zeer 

klein aantal items bevat. Men kan dan zonder problemen die items uit de profielanalyse 

weglaten, met dien verstande dat de toetsscore en de verwachte profielen alleen op de andere 

items worden berekend. Men dient echter goed uit te kijken hier: twee leerlingen met dezelfde 

score op de niet uitgesloten items hebben dan hetzelfde verwachte profiel, maar dat impliceert 

niet dat die twee leerlingen dezelfde score hebben op de hele toets. 

Algebraïsch en statistisch is er ook geen enkel probleem om een item in meer dan een 

categorie op te nemen, maar als men dit doet bepaalt men het verwachte profiel conditioneel 

op een toetsscore waarbij het tweemaal gecategoriseerde item ook twee keer meetelt. Het is 

dus de vraag of een dergelijke werkwijze de interpreteerbaarheid van de profielen en hun 

afwijkingen ten goede komt. 

17

Appendix A: verwachte profielen 

Het OPLM wordt gekarakteriseerd door de volgende item respons functie voor item i: 

exp[ a ( θ − β )] 

i i 

f ( θ) = P( X = 1| θ) 

= i i 

1+ exp[ a ( θ −β)] 

i i 

We definiëren 

ε = exp( − a β ) 

i i i 

Veronderstel dat de items zijn opgedeeld in C categorieën, en voor elke categorie c definiëren 

we de verzameling 

E = { ε | item i behoort tot categorie c} 

c i 

en haar complement 

Ec= { ε | ε ∉ E } 

i i c 

De verzameling parameters voor alle items in de toets duiden we aan met E. Uit de theorie 

over de conditionele maximum likelihood schatting in het OPLM zijn genoegzaam de zogenaamde 

combinatorische basisfuncties bekend: 

k 

xi 

γ ( ε , … , ε ) = ε 

s 1 k ∑∏ i 

waarin 

k 

∑ 

i= 

1 

18 

(*) i= 

1 

(*) betekent: ax = s, ( x∈{0,1}) 

i i i 

Het argument van deze functies is dus een rijtjeε ’s, en de functie is symmetrisch; derhalve 

kunnen we voor een willekeurige verzamelingε -parameters ook kortweg de functie 

aanduiden als ( ) s E γ . Voor een gewogen score s kleiner dan nul of groter dan de maximaal te 

behalen score definiëren we dat de functie de waarde nul aanneemt. Op die manier is de 

functie gedefinieerd voor alle gehele getallen. 

Voor een gegeven toetsscore s en een deelscore sc op de deeltoets die bestaat uit de items van 

categorie c is de kans op sc conditioneel op s gegeven door 

γ ( E ) γ ( E ) 

sc c s−s c 

c 

PS ( = s| s) 

= 

c c 

γ ( E) 

s 

waaruit dan direct volgt dat de verwachte waarde van de deelscore op categorie c items 

conditioneel op de totaalscore s gegeven is door 

Mc 

∑ 

ES ( | s) = jPS ( = j| s) 

c c 

j= 

0 

waarin Mc de maximale deelscore is in categorie c. 

Het is wellicht instructief het speciale geval te beschouwen waar alle items hetzelfde gewicht 

en dezelfde moeilijkheid hebben. Zij k het totaal aantal items in de toets, en kc het aantal items 

in categorie c, dan is de kans op deelscore sc gegeven door 

⎛kc⎞⎛k−kc⎞ ⎜ ⎟⎜ ⎟ 

s s−s c c 

PS ( = s| s) 

= 

⎝ ⎠⎝ ⎠ 

c c 

⎛k⎞ ⎜ ⎟ 

⎝s⎠ d.w.z., Sc volgt de hypergeometrische verdeling.

Appendix B. Steekproeftrekken onder restricties 

We beschouwen alleen het geval van binaire items. Het algoritme werkt sequentieel. Als op 

een bepaald item succes wordt geboekt wordt de lopende score met het gewicht van dat item 

verminderd. We definiëren S als de score die nog moet behaald worden na het beantwoorden 

van een gedeelte van de items. Bij aanvang van het algoritme is S de totaalscore. 

Na beëindiging heeft S de waarde nul. We definiëren E0 als de verzamelingε -parameters voor 

de gehele toets met k items en Ei als 

E = E− { ε , … , ε },( i< k) 

i 1 i 

Voor i = 1,…,k passen we sequentieel de volgende procedure toe 

1. bereken Pi: 

ε γ ( E ) 

i s−ai i 

P = i 

γ ( E ) s i−1 

2. Trek een uniform verdeeld random getal z uit (0,1). 

a. Indien z > Pi is een fout antwoord gegeven: Xi=0; 

b. Indien z ≤ Pi is een correct antwoord gegeven: Xi=1 en de lopende score wordt met 

ai verminderd: s := s-ai. 

Het algoritme kan voortijdig worden afgebroken in twee gevallen. Als de lopende score s 

gelijk is aan nul zijn de resterende items fout beantwoord; als de lopende score gelijk is aan de 

som der gewichten van de resterende items zijn al die items noodzakelijkerwijze goed 

beantwoord. 

19

Cito 

Amsterdamseweg 13 

Postbus 1034 

6801 MG Arnhem 

T (026) 352 11 11 

F (026) 352 13 56 

www.cito.nl 

Klantenservice 

T (026) 352 11 11 

F (026) 352 11 35 

klantenservice@cito.nl 

Fotografie: Ron Steemers 

Cito maakt wereldwijd werk van goed en 

eerlijk toetsen en beoordelen. Met de 

meet- en volgmethoden van Cito krijgen 

mensen een objectief beeld van kennis, 

vaardigheden en competenties. 

Hierdoor zijn verantwoorde keuzes op het 

gebied van persoonlijke en professionele 

ontwikkeling mogelijk. Onze expertise 

zetten we niet alleen in voor ons eigen 

werk maar ook om advies, ondersteuning 

en onderzoek te bieden aan anderen.

Rekenen voor peuters - Toetswijzer

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?