14.09.2013 Views

Rekenen voor peuters - Toetswijzer

Rekenen voor peuters - Toetswijzer

Rekenen voor peuters - Toetswijzer

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Cito | Volgsysteem jonge kind<br />

Wetenschappelijke verantwoording van de toets<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

Marieke op den Kamp en Jos Keuning


Wetenschappelijke verantwoording van de toets<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

Marieke op den Kamp<br />

Jos Keuning<br />

Cito,<br />

Arnhem, juli 2011<br />

1


© Cito B.V. Arnhem (2011)<br />

Niets uit dit werk mag zonder <strong>voor</strong>afgaande schriftelijke toestemming van Cito B.V. worden openbaar<br />

gemaakt en/of verveelvoudigd door middel van druk, fotografie, scanning, computersoftware of andere<br />

elektronische verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op welke<br />

wijze dan ook.<br />

2


Inhoud<br />

1 Inleiding 5<br />

2 Uitgangspunten van de toetsconstructie 7<br />

2.1 Meetpretentie 7<br />

2.2 Doelgroep 8<br />

2.3 Gebruiksdoel en functie 8<br />

2.4 Theoretische inkadering 13<br />

2.4.1 Inhoudelijk 13<br />

2.4.1.1 Rekenontwikkeling 13<br />

2.4.1.2 Tussendoelen en leerlijnen 14<br />

2.4.1.3 Het rekenaanbod op <strong>peuters</strong>peelzalen en kinderdagverblijven 15<br />

2.4.2 Psychometrisch 16<br />

2.4.2.1 Opgavenbanken <strong>voor</strong> jonge kinderen en het primair onderwijs 16<br />

2.4.2.2 Het gehanteerde meetmodel 18<br />

3 Beschrijving van de toets 23<br />

3.1 Opbouw, afname van de toetsen en rapportage 23<br />

3.2 Inhoudsverantwoording 25<br />

3.2.1 Het ontwikkelproces van de <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> 25<br />

3.2.2 De inhoud van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> 26<br />

3.2.3 Selectie van opgaven <strong>voor</strong> de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> 27<br />

4 Het normeringsonderzoek 29<br />

4.1 Steekproefplan 29<br />

4.2 Maken van een itembank 30<br />

4.3 Schatten van de vaardigheidsverdelingen van de normgroepen 33<br />

4.4 Normeren van de uiteindelijke toets 37<br />

5 Betrouwbaarheid en meetnauwkeurigheid 41<br />

6 Validiteit 45<br />

6.1 Inhoudsvaliditeit 45<br />

6.2 Begripsvaliditeit 45<br />

7 Samenvatting 49<br />

8 Literatuur 51<br />

Bijlage 1: Profielanalyse met IRT, Norman Verhelst 55<br />

3


1 Inleiding<br />

Deze wetenschappelijke verantwoording heeft betrekking op de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> (<strong>voor</strong> driejarige<br />

<strong>peuters</strong>) van het Cito Volgsysteem jonge kind (<strong>voor</strong>heen PVS ofwel Peutervolgsysteem). Het toetspakket<br />

bestaat uit:<br />

– Opgavenboek<br />

– Toets kleur<br />

– Toets lichaamsdelen<br />

– Registratieformulieren<br />

– Handleiding<br />

– Inhoudsverantwoording<br />

Het Computerprogramma LOVS, dat ook gebruikt wordt bij het Cito Volgsysteem primair onderwijs, kan<br />

toetsresultaten geautomatiseerd verwerken en op basis hiervan verschillende rapporten en overzichten<br />

maken.<br />

Tezamen met de inhoud van het toetspakket <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> (Op den Kamp, 2010) levert deze<br />

verantwoording alle informatie die nodig is <strong>voor</strong> een snelle en efficiënte beoordeling van de kwaliteit van het<br />

betreffende meetinstrument. Het genoemde materiaal maakt een beoordeling van de toets <strong>Rekenen</strong> <strong>voor</strong><br />

<strong>peuters</strong> mogelijk op de volgende aspecten:<br />

– Uitgangspunten van de toetsconstructie<br />

– De kwaliteit van het toetsmateriaal<br />

– De kwaliteit van de handleiding<br />

– Normen<br />

– Betrouwbaarheid<br />

– Validiteit<br />

Het laatstgenoemde aspect betreft alleen begripsvaliditeit en geen criteriumvaliditeit. Omdat de toetsen van<br />

het Cito Volgsysteem jonge kind niet bedoeld zijn <strong>voor</strong> '<strong>voor</strong>spellend gebruik' is criteriumvaliditeit niet van<br />

toepassing.<br />

Het <strong>voor</strong>liggende document heeft met name betrekking op de uitgangspunten van de constructie<br />

(hoofdstuk 2 en 3), de normen (hoofdstuk 4), de betrouwbaarheid en meetnauwkeurigheid (hoofdstuk 5) en<br />

de begripsvaliditeit (hoofdstuk 6) van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> <strong>voor</strong> driejarige <strong>peuters</strong> in kinderdagverblijven<br />

en <strong>peuters</strong>peelzalen. De kwaliteit van het toetsmateriaal en de handleiding is te bepalen door<br />

kennis te nemen van de inhoud van het toetspakket.<br />

Om de tekst leesbaar te houden wordt er een aantal algemene termen gehanteerd.<br />

Waar ‘kinderdagverblijven’ worden genoemd, worden ook andere vormen van kinderopvang bedoeld.<br />

Waar ‘locatie’ wordt genoemd, wordt een locatie van een <strong>peuters</strong>peelzaal of kinderdagverblijf bedoeld.<br />

Waar we over ‘leidster(s)’ spreken, bedoelen we ook pedagogisch medewerker(s).<br />

5


2 Uitgangspunten van de toetsconstructie<br />

2.1 Meetpretentie<br />

De toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> brengt de algemene rekenvaardigheid van <strong>peuters</strong> in beeld. Jonge kinderen<br />

verwerven al veel rekengerelateerde deelvaardigheden, zoals het ordenen van materialen op een bepaald<br />

kenmerk of het aanbrengen van allerlei rangordes. Deze deelvaardigheden zijn van belang <strong>voor</strong> het logisch<br />

leren denken. Daarnaast is tellen een belangrijke <strong>voor</strong>waarde <strong>voor</strong> getalbegrip en rekenen. Peuters zijn<br />

zich volgens Van Luit (2009) al bewust van hoeveelheden en hebben een notie van het benoemen van<br />

aantallen <strong>voor</strong>werpen. Naast getalbegrip is er binnen het domein rekenen aandacht <strong>voor</strong> de meer<br />

wiskundige aspecten meten en meetkunde. Het meten is volgens Van den Heuvel-Panhuizen & Buys<br />

(2004) gericht op het meetbaar maken (kwantificeren) van de fysieke omgeving. Bij <strong>peuters</strong> gaat het hierbij<br />

om het vergelijken van concrete <strong>voor</strong>werpen, bij<strong>voor</strong>beeld op grootte. Op latere leeftijd wordt gebruikgemaakt<br />

van meetgetallen, bij<strong>voor</strong>beeld om lengte aan te geven. Bij meetkunde gaat het om het begrijpen<br />

van de drie- en tweedimensionale wereld om ons heen en de bijbehorende figuren en vormen.<br />

Het rekenaanbod in kinderdagverblijven en <strong>peuters</strong>peelzalen aan driejarige <strong>peuters</strong> richt zich op het logisch<br />

leren denken en geeft kinderen geleidelijk steeds meer besef van de gecijferde wereld. Dit wordt bij <strong>peuters</strong><br />

ook wel het proces van ontluikende gecijferdheid genoemd. Door SLO (2011) zijn ervarings- en<br />

beheersingsdoelen met betrekking tot de rekenontwikkeling van jonge kinderen in de <strong>voor</strong>- en<br />

vroegschoolse situatie ontwikkeld. Deze doelen zijn ingedeeld in drie domeinen:<br />

– Getalbegrip<br />

– Meten<br />

– Meetkunde<br />

In de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> worden de drie domeinen (Getalbegrip, Meten, Meetkunde) en de<br />

onderliggende doelen getoetst. Uitzondering hierbij zijn de doelen ‘Omgaan met de telrij’ en ‘Tijd’.<br />

De opgavenvormen uit <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> zijn namelijk niet geschikt om deze tussendoelen te meten bij<br />

<strong>peuters</strong>. Er zijn ook een aantal deelvaardigheden die te omschrijven zijn in termen van handelingen die<br />

moeilijk in toetsvorm meetbaar te maken zijn. Deze handelingsvaardigheden hangen naar alle<br />

waarschijnlijkheid hoog samen met de vaardigheden die in de toetsen zijn geoperationaliseerd. Niettemin is<br />

het belangrijk dat de leidster de genoemde handelingsvaardigheden aanvullend evalueert door middel van<br />

authentieke observaties.<br />

Het doel van het Cito Volgsysteem jonge kind is het volgen van een kind in zijn ontwikkeling. Dat kan<br />

optimaal met objectieve en gestandaardiseerde toetsen. De toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> levert snel een<br />

goed beeld op van de rekenvaardigheid in deze leeftijdsgroep.<br />

Relatie met andere instrumenten<br />

Naast <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> zijn er <strong>voor</strong> de groepen 1 en 2 van het basisonderwijs de toetsen <strong>Rekenen</strong><br />

<strong>voor</strong> kleuters van het Cito Volgsysteem primair onderwijs (<strong>voor</strong>heen LOVS) beschikbaar. De items uit<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> en <strong>Rekenen</strong> <strong>voor</strong> kleuters liggen op dezelfde schaal. Er is dus sprake van één<br />

vaardigheidsschaal die de ontwikkeling van de algemene rekenvaardigheid representeert van <strong>peuters</strong><br />

(driejarigen) tot en met kinderen in groep 2. Hierdoor is het mogelijk om de ontwikkeling van de algemene<br />

rekenvaardigheid bij kinderen vanaf 3 jaar tot en met het einde van groep 2 te volgen in één doorgaande<br />

lijn.<br />

7


2.2 Doelgroep<br />

De toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> is bestemd <strong>voor</strong> en genormeerd bij driejarige <strong>peuters</strong> in kinderdagverblijven<br />

en <strong>peuters</strong>peelzalen in Nederland. De populatieparameters van de toets zijn op twee leeftijdsgroepen<br />

bepaald:<br />

leeftijdscategorie P1 (vanaf 3 jaar tot 3 ½ jaar: 36 tot 42 maanden) en<br />

leeftijdscategorie P2 (vanaf 3 ½ jaar tot 4 jaar: 42 tot 48 maanden).<br />

De toets kan daardoor op ieder willekeurig moment in het jaar worden afgenomen, waarbij het telkens<br />

mogelijk is om uitspraken te doen over het niveau van de peuter ten opzichte van andere <strong>peuters</strong> in<br />

Nederland die een <strong>peuters</strong>peelzaal of kinderdagverblijf bezoeken.<br />

Beperkingen<br />

De toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> kan in principe afgenomen worden bij alle driejarige <strong>peuters</strong> die naar een<br />

kinderdagverblijf of <strong>peuters</strong>peelzaal gaan. Hierbij gelden de volgende uitzonderingen. Het kan raadzaam<br />

zijn om nog één of twee maanden te wachten met de afname wanneer een kind pas een korte tijd in een<br />

peutergroep zit. Daarnaast heeft het geen zin om de toets <strong>voor</strong> te leggen aan <strong>peuters</strong> die de Nederlandse<br />

taal helemaal niet beheersen (zie paragraaf 2.1 van de handleiding). Verder is de toets niet geschikt <strong>voor</strong><br />

kinderen jonger dan 3 jaar.<br />

Andere doelgroepen<br />

De toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> is niet alleen bedoeld <strong>voor</strong> <strong>peuters</strong> in kinderdagverblijven en<br />

<strong>peuters</strong>peelzalen, maar ook <strong>voor</strong> kinderen (vanaf 4 jaar) uit het speciaal (basis)onderwijs (bij<strong>voor</strong>beeld<br />

IOBK) en <strong>voor</strong> speciale kinderen in het reguliere onderwijs, <strong>voor</strong> wie de toetsen <strong>Rekenen</strong> <strong>voor</strong> kleuters te<br />

moeilijk zijn. De aanwijzingen in de handleiding bij de toetsen gelden wat de principes betreft ook <strong>voor</strong><br />

gebruik bij speciale kinderen. Er zijn echter enkele onderdelen waar<strong>voor</strong> extra aanwijzingen gelden: de<br />

keuze van de af te nemen toets, het afnamemoment, en het gebruik van de alternatieve leerlingrapporten.<br />

Voor deze leerlingen zijn geen aparte normen opgesteld. Echter, de vaardigheidsscores die met behulp van<br />

de gemaakte toets worden vastgesteld, zijn vergelijkbaar met de vaardigheidsverdeling die hoort bij de<br />

populatie van reguliere leerlingen uit groep 1 en groep 2 op de afnamemomenten januari-februari en meijuni.<br />

Omdat we een doorgaande lijn van driejarige <strong>peuters</strong> tot en met groep 2 hebben, kunnen we namelijk<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> afnemen bij een kind van 4 jaar of ouder en het resultaat van het kind op de toets<br />

tóch vergelijken met de resultaten van leeftijdsgenootjes. Daarnaast kan het resultaat ook vergeleken<br />

worden met de normgroepen van de <strong>peuters</strong> om zo helder te krijgen op welk niveau de kleuter functioneert.<br />

Voor meer informatie daarover verwijzen we naar paragraaf 2.4.2.1 uit deze verantwoording en naar de<br />

handleiding bij de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> (en eventueel de handleiding bij de toetsen <strong>Rekenen</strong> <strong>voor</strong><br />

kleuters).<br />

2.3 Gebruiksdoel en functie<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> heeft twee doelen: niveaubepaling en progressiebepaling. Daarnaast wordt als extra<br />

service <strong>voor</strong> de leidsters de mogelijkheid geboden de door het kind gemaakte fouten te analyseren (m.b.v.<br />

het categorieënoverzicht of de categorieënanalyse) met het oog op het aanbieden van gerichte<br />

remediëring. Het maken van analyses met het categorieënoverzicht of de categorieënanalyse kent geen<br />

wetenschappelijke onderbouwing, maar biedt een toegevoegde functie <strong>voor</strong> leidsters om opvallende<br />

patronen te signaleren.<br />

Naast de onderwerpen ‘niveaubepaling’, ‘progressiebepaling’ en ‘signalering via categorieënoverzicht en<br />

categorieënanalyse’, gaan we aan het eind van deze paragraaf nog in op de onderwerpen ‘vervolgtraject’<br />

en ‘extra aandacht’.<br />

8


Niveaubepaling<br />

De toetsafnamen in het kader van <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> geven de leidsters informatie over het niveau van<br />

de rekenvaardigheid van de kinderen, individueel of als groep. Iedere behaalde vaardigheidsscore kan<br />

daartoe normgericht geïnterpreteerd worden op basis van de vaardigheidsverdeling in een adequate<br />

referentiegroep (zie paragraaf 4.2 <strong>voor</strong> de beschrijving van de referentiegroep).<br />

In de toetsmaterialen zijn twee niveau-indelingen opgenomen, waarmee de leidster de scores van een kind<br />

kan vergelijken met die van een grote groep en representatieve kinderen.<br />

De leidster kan een keuze maken uit:<br />

─ de indeling in de niveaus A tot en met E;<br />

─ de indeling in de niveaus I tot en met V.<br />

Bij de indeling in de niveaus A tot en met E is de verdeling over de groepen als volgt:<br />

Niveau % Interpretatie<br />

A 25 De 25% hoogst scorende kinderen<br />

B 25<br />

C 25<br />

D 15<br />

De 25% kinderen die net boven tot ruim<br />

boven het landelijk gemiddelde scoren<br />

De 25% kinderen die net onder tot ruim onder<br />

het landelijk gemiddelde scoren<br />

De 15% kinderen die ruim onder het landelijk<br />

gemiddelde scoren<br />

E 10 De 10% laagst scorende kinderen<br />

Bij de indeling in A tot en met E wordt op de overzichten de hoogst scorende groep (niveau A) nog<br />

onderverdeeld in twee groepen: een groep die ‘hoog’ scoort (15% van de kinderen) en een groep die het<br />

‘allerhoogst’ scoort (10% van de kinderen). Deze groepen worden op de registratieformulieren van elkaar<br />

gescheiden door een stippellijn.<br />

Bij de indeling in de niveaus I tot en met V wordt uitgegaan van vijf groepen van 20%:<br />

Niveau % Interpretatie<br />

I 20 Ver boven het gemiddelde<br />

II 20 Boven het gemiddelde<br />

III 20 De gemiddelde groep kinderen<br />

IV 20 Onder het gemiddelde<br />

V 20 Ver onder het gemiddelde<br />

Bij de indeling in I tot en met V worden op de overzichten de laagst scorende groep en de hoogst scorende<br />

groep nog onderverdeeld in twee groepen die ieder 10% kinderen bevatten. Deze groepen worden op de<br />

registratieformulieren van elkaar gescheiden door een stippellijn.<br />

9


In de eerste generatie van de Cito Volgsystemen (de PVS 1 - en LVS-toetsen) werd alleen de indeling A tot<br />

en met E gebruikt. In de praktijk bleek deze enkele nadelen te hebben. Zo is de indeling niet symmetrisch.<br />

Bovendien zien sommige leidsters C als de gemiddelde groep. In de indeling A tot en met E bestaat echter<br />

geen gemiddelde groep, alleen groepen boven (A, B) of onder (C, D, E) het gemiddelde.<br />

Daarom is bij de tweede generatie van het Cito Volgsysteem <strong>voor</strong> primair onderwijs (<strong>voor</strong>heen LOVS) en<br />

het Cito Volgsysteem <strong>voor</strong> jonge kinderen (waar de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> onder valt) een indeling<br />

toegevoegd met de niveaus I tot en met V. De indeling in de niveaus I tot en met V is symmetrisch<br />

opgebouwd en heeft als <strong>voor</strong>deel dat er een gemiddelde 2 groep is. Deze indeling sluit aan bij de niveauindeling<br />

van andere Cito-toetsinstrumenten, zoals de Entreetoetsen.<br />

Progressiebepaling<br />

De toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> geeft de leidster informatie over de ontwikkeling van de rekenvaardigheid<br />

van de kinderen, individueel of als groep, gedurende het jaar dat de peuter 3 jaar is. De toets geeft<br />

antwoord op vragen als: is er sprake van <strong>voor</strong>uitgang, achteruitgang of van stabilisering? Is de <strong>voor</strong>uitgang<br />

– gelet op de gemiddelde <strong>voor</strong>uitgang in de populatie – volgens verwachting?<br />

Het gehanteerde meetmodel (zie paragraaf 2.4.2) maakt het mogelijk om de scores van een kind op de<br />

toets, op verschillende momenten afgenomen, onderling te vergelijken. De ruwe scores op de toets – het<br />

aantal opgaven goed – zijn daartoe te transformeren in scores op één vaardigheidsschaal (het ‘algemeen<br />

niveau van rekenvaardigheid’). Deze unidimensionele vaardigheidsschaal die aan de toets <strong>Rekenen</strong> <strong>voor</strong><br />

<strong>peuters</strong> ten grondslag ligt, is ontwikkeld met behulp van het One Parameter Logistic Model (Verhelst, 1993;<br />

Verhelst & Glas, 1995; Verhelst, Glas & Verstralen, 1995).<br />

'Signalering' via categorieënoverzicht of categorieënanalyse<br />

Het doel van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> is het vaststellen van het algemene niveau van<br />

rekenvaardigheid van kinderen. Het kan behulpzaam zijn <strong>voor</strong> een leidster om te weten welk type opgaven<br />

een kind fout gemaakt heeft. Daarom bestaat de mogelijkheid om rapportages te maken waarin de<br />

resultaten op categorieniveau worden gerapporteerd. Met behulp van deze rapportages kan gesignaleerd<br />

worden of (relatief) veel opgaven uit een bepaalde categorie fout gemaakt worden door het kind.<br />

Het signaleren van fouten op categorieniveau kan op twee verschillende manieren gebeuren. Ten eerste<br />

kan gesignaleerd worden of een kind vergeleken met andere kinderen veel fouten in een bepaalde<br />

categorie maakt. Deze wijze van signaleren wordt gehanteerd in het categorieënoverzicht (m.b.v. de<br />

signaalscore). Ten tweede kan gesignaleerd worden of een kind op een bepaalde categorie relatief meer<br />

(of minder) fouten maakt dan op grond van zijn of haar algemene vaardigheidsniveau mag worden<br />

verwacht. In zekere zin wordt het kind dan met zichzelf vergeleken (zie <strong>voor</strong> de details van deze werkwijze<br />

bijlage 1). Dat gebeurt via de categorieënanalyse. De categorieënanalyse kan alleen gemaakt worden als<br />

een leidster de beschikking heeft over het Computerprogramma LOVS.<br />

Categorieënoverzicht<br />

Zoals gesteld, kan de leidster met behulp van het categorieënoverzicht een beeld krijgen van de<br />

vaardigheid van kinderen binnen de verschillende categorieën van de toets. Met dit categorieënoverzicht<br />

kan gesignaleerd worden of kinderen laag scoren in een bepaalde categorie. Dit wordt gedaan door het<br />

‘aantal goed’ op de categorie te vergelijken met een ‘signaalscore’. Per normeringsmoment is <strong>voor</strong> elke<br />

categorie een signaalscore berekend. De signaalscore is bepaald door met drie zaken rekening te houden:<br />

de verdeling van de vaardigheid, de moeilijkheid van de opgaven én de mogelijke meetfout bij het doen van<br />

uitspraken over de categorieën. De signaalscore van een categorie is die score waarbij met ten minste 84%<br />

zekerheid (d.w.z, 1 standaardmeetfout onder de vaardigheidsscore) gesteld kan worden dat het kind een<br />

score heeft waarmee hij of zij tot de 20% slechtst presterende kinderen behoort binnen de eigen normgroep<br />

wat betreft de opgaven binnen deze categorie.<br />

1<br />

PVS staat <strong>voor</strong> Peutervolgsysteem. LVS staat <strong>voor</strong> Leerlingvolgsysteem.<br />

2<br />

Gemiddeld moet hier niet opgevat worden in statische zin. De werkelijke gemiddelde ruwe score kan in werkelijkheid behaald<br />

worden door kinderen die niet in groep III zitten.<br />

10


De signaalscore is berekend door eerst de vaardigheid te bepalen die hoort bij het grenspunt in de<br />

verdeling waar 20% van de kinderen onder zit (P20 in de vaardigheidsverdeling). Vervolgens is de<br />

standaardmeetfout bepaald bij deze categorie. Deze standaardmeetfout is van het P20-punt afgetrokken,<br />

hetgeen het “P20 min 1SE”-punt <strong>voor</strong> een categorie oplevert. De signaalscore is nu het maximale aantal<br />

goede antwoorden waarmee nog steeds met ten minste 84% zekerheid gesteld kan worden dat het kind bij<br />

de 20% slechts presterende kinderen op de betreffende categorie hoort. Als de opgaven gemakkelijk zijn, is<br />

dat maximum dus hoger. Deze berekeningen zijn <strong>voor</strong> de drie categorieën uit de toets uitgevoerd en<br />

leveren <strong>voor</strong> de twee normgroepen van de <strong>peuters</strong> per categorie de signaalscores op zoals weergegeven in<br />

tabel 2.1.<br />

Tabel 2.1 Signaalscores per normgroep<br />

Categorie<br />

Normgroep Getalbegrip Meten Meetkunde<br />

P1: 3.0 - 3.5 jaar 3 4 4<br />

P2: 3.6 - 4.0 jaar 5 6 5<br />

Tabel 2.1 laat zien dat een kind van 3 jaar en 2 maanden dat 3 of minder opgaven goed heeft op de<br />

categorie Getalbegrip met minimaal 84% zekerheid tot de 20% slechtst presterende kinderen hoort op die<br />

categorie. Als dit kind 5 opgaven goed heeft bij Meten dan scoort het kind boven de signaalscore en<br />

behoort het op die categorie dan dus niet tot de 20% zwakst scorende kinderen.<br />

De kans dat bij een categorie de score van een kind gelijk is aan de signaalscore of lager, is het grootst bij<br />

kinderen die een vaardigheidsniveau V (of D of E) hebben. Het behalen van een V-niveau betekent echter<br />

niet per definitie dat een kind dan ook op één of meer categorieën een score zal hebben die gelijk is aan of<br />

lager dan de signaalscore. Het kan namelijk <strong>voor</strong>komen dat een kind over ‘de gehele linie’ lager presteert<br />

en dat dit niet tot uiting komt in het categorieënoverzicht. En andersom, het behalen van een hoger niveau<br />

dan niveau V houdt niet in dat een kind op een specifiek onderdeel niet op of onder de signaalscore zou<br />

kunnen zitten. Indien de leidster constateert dat een kind op één of meerdere categorieën laag scoort of<br />

over de gehele linie lager presteert, dan kan zij gericht kijken hoe zij haar aanbod nog beter kan laten<br />

aansluiten op de vaardigheid van het kind. Individuele kinderen die blijk geven van onvoldoende beheersing<br />

van één of meerdere categorieën zullen wellicht baat hebben bij extra hulp en gerichte oefeningen (zie ook<br />

paragraaf 3.1).<br />

Categorieënanalyse<br />

Naast het categorieënoverzicht kan met behulp van het Computerprogramma LOVS ook een zogenaamde<br />

categorieënanalyse uitgevoerd worden. Daarmee kan nagegaan worden of kinderen op een bepaald<br />

onderdeel meer (of minder) fouten maken dan op grond van hun algemene vaardigheidsniveau verwacht<br />

mag worden. Bij de rapportage van het verschil tussen waargenomen en verwachte score wordt<br />

aangegeven of dat een klein verschil is dat aan toeval kan worden toegeschreven of dat het een<br />

betekenisvol verschil is. In feite is de categorieënanalyse dus een statistische procedure waarmee we<br />

kijken of we een bepaald patroon kunnen vinden in de resultaten van het kind. Het gaat daarbij om de vraag<br />

hoe waarschijnlijk dat patroon is. Gegeven de totaalscore van het kind halen we onwaarschijnlijke patronen<br />

eruit. Een onwaarschijnlijk patroon zou bij<strong>voor</strong>beeld kunnen zijn dat het kind op 2 van de 3 categorieën een<br />

hoge score haalt en op 1 categorie een lage score (of andersom). In bijlage 1 wordt precies beschreven<br />

hoe de categorieënanalyse plaatsvindt. Net als bij het categorieënoverzicht kan de categorieënanalyse als<br />

basis gebruikt worden bij het geven van extra hulp.<br />

11


Vervolgttraject<br />

Naar aannleiding<br />

van hhet<br />

resultaat op o de totale tooets<br />

(vaardigheidsscore<br />

en<br />

niveau) en het invullen van v het<br />

categorieeënoverzicht<br />

en/of de resu ultaten van dee<br />

categorieën nanalyse kan de leidster beesluiten<br />

om verder v te<br />

gaan kijkken.<br />

Omdat heet<br />

aantal opgaven<br />

per cateegorie<br />

in Rek kenen <strong>voor</strong> pe euters beperkkt<br />

is, kan niet worden<br />

uitgesloteen<br />

dat het kinnd<br />

bij toeval ju uist de opgavven<br />

uit deze categorie c fout heeft beantwwoord.<br />

Om meer<br />

zekerheidd<br />

te verkrijgen<br />

over de beh heersing van de betreffend de categorie door dit kind of zijn<br />

rekenvaaardigheid<br />

in het<br />

algemeen, , kan de leidsster<br />

resultaten n op toetsen en e observatieelijsten<br />

die de e<br />

vaardigheid<br />

van het kind<br />

op andere e gebieden inn<br />

beeld breng gen naast de resultaten opp<br />

de toets Rek kenen<br />

<strong>voor</strong> peuuters<br />

leggen. OOok<br />

de indruk<br />

die de leidsster<br />

zelf van het h kind heeft en het verslaag<br />

van dageli ijkse<br />

observaties<br />

(bij<strong>voor</strong>beeeld<br />

weergegeven<br />

in een kkinderdagverblijfboekje<br />

of portfolio) gevven<br />

informatie e over<br />

het kind een<br />

zijn rekenvvaardigheid.<br />

Als op baasis<br />

van de veerzamelde<br />

aa anvullende informatie<br />

blijkt,<br />

dat de reke envaardigheidd<br />

in het algem meen of<br />

de beheeersing<br />

van ééén<br />

of meerder re categorieën<br />

inderdaad te t wensen ov verlaat, kan dee<br />

leidster het t kind<br />

extra hulp<br />

en/of oefennmateriaal<br />

aanbieden,<br />

bijvooorbeeld<br />

aan n de hand van n het Hulpboeek<br />

Ordenen of o het<br />

Hulpboekk<br />

Ruimte uit hhet<br />

Hulpprogr ramma Peuteervolgsysteem<br />

m.<br />

Extra aaandacht<br />

De toets <strong>Rekenen</strong> vooor<br />

<strong>peuters</strong> ma aakt deel uit vvan<br />

een syste eem waarbij indien<br />

nodig eextra<br />

aandach ht wordt<br />

geboden aan kinderenn<br />

om ze optim maal te onderrsteunen<br />

in hun<br />

ontwikkeling.<br />

Dat systeeem<br />

bestaat uit u<br />

materialeen<br />

die ingezet<br />

kunnen wor rden bij het cyyclische<br />

proce es van onder rsteuning op mmaat:<br />

signale eren,<br />

analysereen,<br />

handelen en terugkoppeling<br />

door mmiddel<br />

van ev valuatie.<br />

In paragrraaf<br />

4.3 van dde<br />

handleiding<br />

bij de toetss<br />

(Op den Kam mp, 2010) is een e korte besschrijving<br />

opg genomen<br />

van de veerschillende<br />

ffasen.<br />

Ook vindt<br />

men daar<br />

beknopte in nformatie over<br />

het Hulpproogramma<br />

Peutervoolgsysteem.<br />

MMet<br />

de Hulpbo oeken Ordeneen<br />

en Ruimte e uit dit progra amma kan dee<br />

leidster gericht<br />

hulp<br />

geven aaan<br />

een kind oom<br />

de rekenontwikkeling<br />

tee<br />

stimuleren. Voor gedetailleerde<br />

informmatie,<br />

zie Van n Kuyk<br />

(2005). OOndanks<br />

de innkadering<br />

van n de toets in het Hulpprogramma,<br />

moet<br />

benadrukt wworden<br />

dat de e toets<br />

zelf methhode-onafhannkelijk<br />

is. Omd dat het in dezze<br />

verantwoording<br />

alleen om o <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> s gaat,<br />

volstaan we hier met eeen<br />

overzicht t van de mateerialen<br />

<strong>voor</strong> to oetsing en ex xtra hulp.<br />

Figuur 2. .1 Cito-maaterialen<br />

ten behoeve b van extra toetsing g en hulp<br />

12


2.4 Theoretische inkadering<br />

2.4.1 Inhoudelijk<br />

De basis <strong>voor</strong> de inhoud van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> wordt gevormd door:<br />

– theorieën over de rekenontwikkeling bij jonge kinderen;<br />

– het rekenaanbod <strong>voor</strong> <strong>peuters</strong> op kinderdagverblijven en <strong>peuters</strong>peelzalen;<br />

– TAL-publicaties (Tussendoelen Annex Leerlijnen) ontwikkeld door het Freudenthalinstituut en Stichting<br />

Leerplanontwikkeling (SLO) in samenwerking met het Centrum Educatieve Dienstverlening Rotterdam<br />

(CED) (1999; 2004);<br />

– Tussendoelen en leerlijnen (TULE), ontwikkeld door SLO (2009);<br />

– de vernieuwde doelen 3 met betrekking tot ‘Ontwikkeling van jonge kinderen 2-7 jaar:<br />

Rekenontwikkeling’ (SLO, 2011).<br />

In deze paragraaf gaan we eerst in op de rekenontwikkeling van jonge kinderen (zie paragraaf 2.4.1.1).<br />

Van leidsters wordt verwacht dat ze de rekenontwikkeling van kinderen stimuleren. Daarom gaan we<br />

vervolgens in paragraaf 2.4.1.2 nader in op de rekendoelen <strong>voor</strong> jonge kinderen. De doelen opgesteld door<br />

SLO beschrijven waarmee kinderen begin groep 1 ervaring opgedaan moeten hebben. We geven aan<br />

welke doelen met de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> kunnen worden geëvalueerd. In paragraaf 3.2.2 wordt<br />

uitgewerkt hoe dit er op operationeel niveau uitziet. In paragraaf 2.4.1.3 stippen we kort aan hoe het<br />

rekenaanbod in de peutergroepen eruit ziet.<br />

2.4.1.1 Rekenontwikkeling<br />

In de <strong>voor</strong>schoolse periode ontwikkelt de reken-wiskundige kennis van kinderen zich op een persoonlijke<br />

wijze die sterk is verbonden met de eigen leefomgeving (Treffers, Van den Heuvel-Panhuizen & Buys,<br />

1999). Kinderen proberen grip te krijgen op hun eigen leefomgeving. Door te ordenen, vergelijken en meten<br />

wordt de wereld <strong>voor</strong> het kind overzichtelijker. Kinderen doen dit van nature en hebben plezier in<br />

ontdekken, imiteren en probleem oplossen (Singer, 2009).<br />

Tot de leeftijd van ongeveer 7 jaar verwerven jonge kinderen al veel rekengerelateerde deelvaardigheden.<br />

Bij<strong>voor</strong>beeld de vier traditionele reken<strong>voor</strong>waarden conserveren, correspondentie, classificatie en seriatie,<br />

gebaseerd op de <strong>voor</strong>waarden vormgegeven door Piaget in de jaren zestig.<br />

– Conserveren is het doorzien dat dingen hetzelfde blijven, ook al verandert de verschijningsvorm.<br />

Bij<strong>voor</strong>beeld acht blokjes blijven acht blokjes ook al leg je ze verder uit elkaar of dichter bij elkaar.<br />

Een peuter zal zeggen dat er meer of minder blokjes liggen, terwijl er evenveel liggen.<br />

– Correspondentie, is de vaardigheid om één-één-relaties te leggen, bij<strong>voor</strong>beeld bij elk bord één mes en<br />

één servetje.<br />

– Classificatie is het kunnen ordenen op grond van een bepaald kenmerk (zoals kleur, aantal, grootte) en<br />

het kunnen afzien van andere concrete eigenschappen van de <strong>voor</strong>werpen die geordend worden.<br />

Bij<strong>voor</strong>beeld het aanleggen van een ‘blauwe’ verzameling: grote blauwe blokken, kleine blauwe kralen,<br />

zachte blauwe watten enzo<strong>voor</strong>t. Het gaat dan alleen om de eigenschap blauw.<br />

– Seriëren is het aanbrengen van allerlei rangordes, bij<strong>voor</strong>beeld van klein naar groot of van zwaar naar<br />

licht.<br />

3 In de handleiding en inhoudsverantwoording <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> wordt gesproken over ‘tussendoelen’, ontwikkeld door<br />

SLO. In de definitieve uitgave van deze doelen (2011) wordt er gesproken van ‘beheersingsdoelen’ en ‘ervaringsdoelen’.<br />

13


Deze vier traditionele <strong>voor</strong>waarden zijn van belang <strong>voor</strong> het logisch leren denken. Daarnaast is tellen een<br />

belangrijke <strong>voor</strong>waarde <strong>voor</strong> getalbegrip en rekenen. De ontwikkeling van het tellen verloopt in stappen:<br />

– Het willekeurig opzeggen van de telrij.<br />

– Asynchroon tellen: het aanwijzen en akoestisch tellen. Hierbij worden nog <strong>voor</strong>werpen overgeslagen,<br />

dubbel geteld of het aanwijstempo en teltempo verschilt.<br />

– Synchroon tellen: tellen volgens de gekozen volgorde. Het kind telt elk <strong>voor</strong>werp als ‘1 erbij’ en slaat<br />

niets meer over.<br />

– Resultatief tellen: het kind kan na het tellen zeggen hoeveel het geteld heeft. Kinderen die dat nog niet<br />

kunnen, beginnen opnieuw te tellen als je vraagt: hoeveel knikkers liggen daar?<br />

– Abstractieprincipe: het kind kan iedere volgorde tellen, het kan ook verkort tellen en ziet deelgeheelrelaties.<br />

Hierbij leert het kind de vijfstructuur kennen, het grootste aantal dat het kind<br />

aanvankelijk in één keer kan overzien.<br />

– Ordinaalprincipe: het kind kan de volgorde aangeven (dat is de vierde stoel).<br />

Peuters zijn zich volgens Van Luit (2009) al bewust van hoeveelheden en hebben al een notie van het<br />

benoemen van aantallen <strong>voor</strong>werpen. Door het verwerven van de rekengerelateerde deelvaardigheden<br />

krijgen kinderen geleidelijk steeds meer besef van de gecijferde wereld. Dit wordt ook wel het proces van<br />

ontluikende gecijferdheid (bij <strong>peuters</strong>) en beginnende gecijferdheid (bij kleuters) genoemd. Tijdens dit<br />

proces krijgen de kinderen steeds meer besef van de verschillende betekenissen, verschijningsvormen en<br />

gebruiksmogelijkheden van getallen. Hierin gaan ze steeds meer samenhang ontdekken (3 kan 3 jaar zijn<br />

of 3 rozijntjes, maar ook bus 3 of een tekst van een liedje ‘van je één, twee, drie!’).<br />

Naast het omgaan met getallen en hoeveelheden is er de laatste tijd meer aandacht <strong>voor</strong> de wiskundige<br />

aspecten meten en meetkunde. Het meten is volgens Van den Heuvel-Panhuizen & Buys (2004) gericht op<br />

het meetbaar maken (kwantificeren) van de fysieke omgeving. Bij <strong>peuters</strong> en kleuters gaat het hierbij eerst<br />

om het vergelijken van concrete <strong>voor</strong>werpen (Welke is het grootst?). Op latere leeftijd wordt gebruik<br />

gemaakt van meetgetallen, bij<strong>voor</strong>beeld om een gewicht (1 kilo) aan te geven. Bij meetkunde gaat het om<br />

het begrijpen van de drie- en tweedimensionale wereld om ons heen en de bijbehorende figuren en<br />

vormen. De oriëntatie in de ruimte ontwikkelt zich vanuit het eigen lichaam. Het lichaam is het<br />

referentiepunt van waaruit relaties worden gelegd (Ik sta <strong>voor</strong> de kast). Langzamerhand neemt het kind<br />

afstand van zichzelf en leert dat er ook andere referentiepunten bestaan (De kast staat naast de tafel).<br />

Kinderen maken zich <strong>voor</strong>stellingen van eigenschappen van vormen en construeren bouwwerken met<br />

vormen in de ruimte (bouwen met zand of blokken).<br />

De rekenvaardigheid ontwikkelt zich bij kinderen in een verschillend tempo. Dit komt door verschil in<br />

intelligentie of omdat bij<strong>voor</strong>beeld niet elk kind even geïnteresseerd is in alles wat met getallen te maken<br />

heeft. Ook verschilt de leefomgeving van het ene kind van die van het andere (Treffers et al., 1999).<br />

Daarnaast zijn er ook andere factoren die de ontwikkeling van het getalbegrip en van het tellen<br />

beïnvloeden. Zo hebben kinderen die moeite hebben met onthouden ook vaak meer moeite met het leren<br />

van de telrij (Van Luit, 2009). Om de ontwikkeling van de rekenvaardigheid zo goed mogelijk te kunnen<br />

stimuleren, kunnen leidsters de beschrijving van de doelen die door SLO zijn opgesteld gebruiken.<br />

2.4.1.2 Tussendoelen en leerlijnen<br />

Het TAL-team (1999; 2004) heeft tussendoelen en leerlijnen geformuleerd <strong>voor</strong> de onderbouw van het<br />

basisonderwijs, ingedeeld in de domeinen Getalbegrip, Meten en Meetkunde. Hierin staat beschreven hoe<br />

(op welk wijze) en wanneer (op welke momenten en in welke achtereenvolgende stappen) rekendoelen<br />

(kennis, strategieën en houdingen) bij kleuters bereikt kunnen worden (Greven & Letschert, 2006). In 2010<br />

zijn op verzoek van het ministerie van OCW door SLO nieuwe doelen ontwikkeld met betrekking tot de<br />

rekenontwikkeling van jonge kinderen van twee tot zeven jaar in de <strong>voor</strong>- en vroegschoolse situatie<br />

(definitieve uitgave 2011). De functie van deze doelen is om het inhoudelijk repertoire van leidsters en<br />

leerkrachten te vergroten c.q. te versterken, zodat zij inhoudelijk verantwoorde keuzes kunnen maken en<br />

uitvoeren om een kwalitatief hoogstaand aanbod aan jonge kinderen te bieden, zowel aan kinderen met<br />

een achterstand als aan kinderen met een ontwikkelings<strong>voor</strong>sprong.<br />

14


Ook zijn deze nieuwe doelen ingedeeld in de domeinen Getalbegrip, Meten en Meetkunde en geven de<br />

doelen aan waar leidsters in de <strong>voor</strong>schoolse educatie aan kunnen werken om de kinderen goed aan de<br />

basisschool te laten beginnen. De doelen zijn <strong>voor</strong> <strong>peuters</strong> niet als beheersingsdoelen, maar als<br />

ervaringsdoelen geformuleerd. Er wordt namelijk geformuleerd met welke rekenvaardigheid kinderen <strong>voor</strong><br />

aanvang van groep 1 ervaring moeten hebben opgedaan, zie tabel 2.2.<br />

Tabel 2.2 Domeinen en doelen<br />

Domein Doelen<br />

Getalbegrip Omgaan met de telrij<br />

Omgaan met hoeveelheden<br />

Omgaan met getallen<br />

Meten Lengte & omtrek<br />

Inhoud<br />

Tijd<br />

Meetkunde Oriënteren en lokaliseren<br />

Construeren<br />

Opereren met vormen en figuren<br />

Deze doelen kunnen als richtlijn gebruikt worden bij het werken met <strong>peuters</strong>. In de praktijk zullen de doelen<br />

en subdoelen, zeker bij jonge kinderen, in onderlinge samenhang aan bod komen in contextrijke en<br />

betekenisvolle activiteiten. Jonge kinderen ontwikkelen zo op een natuurlijke manier hun inzichten op dit<br />

gebied.<br />

Dekking van de doelen<br />

In de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> worden de drie domeinen Getalbegrip, Meten en Meetkunde<br />

geoperationaliseerd in opgaven. Deze domeinen worden in de toets aangeduid als categorieën.<br />

De opgaven van de toets zijn evenwichtig over de categorieën verdeeld. Ieder domein heeft meerdere<br />

onderliggende doelen, zoals ‘Lengte & omtrek’ binnen het domein Meten (zie tabel 2.2). Deze doelen<br />

worden gemeten met de opgaven in de toets. Uitzondering hierbij wordt gevormd door de doelen ‘Omgaan<br />

met de telrij’, ‘Omgaan met getallen’ en ‘tijd’. Deze worden niet gemeten met de toets <strong>Rekenen</strong> <strong>voor</strong><br />

<strong>peuters</strong>. De opgavenvormen uit <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> zijn namelijk niet geschikt om deze tussendoelen te<br />

meten bij <strong>peuters</strong>.<br />

Binnen deze doelen zijn verschillende aspecten van rekenen te onderscheiden. Een <strong>voor</strong>beeld hiervan<br />

binnen het domein ‘Meten’ en het doel ‘Lengte & omtrek’ is: ‘het vergelijken en ontdekken van<br />

tegenstellingen, met passief gebruik van begrippen (grootste-kleinste, langste-kortste)’. Deze aspecten van<br />

rekenen zijn ook geoperationaliseerd in de opgaven van de toets. Een aantal aspecten van de doelen<br />

kunnen niet via <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> getoetst worden, maar bij<strong>voor</strong>beeld wel via observaties (zoals tijdens<br />

het bouwen en handelen met blokken).<br />

2.4.1.3 Het rekenaanbod in kinderdagverblijven en <strong>peuters</strong>peelzalen<br />

De toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> is methode-onafhankelijk. Wel is het belangrijk dat de toets aansluit op het<br />

rekenaanbod in kinderdagverblijven en <strong>peuters</strong>peelzalen. De rekendoelen, geformuleerd door de SLO<br />

(2011) vormen een richtlijn <strong>voor</strong> het werken met <strong>peuters</strong>. In het aanbod op kinderdagverblijven en<br />

15


<strong>peuters</strong>peelzalen wordt regelmatig aandacht besteed aan rekengerelateerde deelvaardigheden en<br />

ontluikende gecijferdheid. Dit gebeurt spontaan bij<strong>voor</strong>beeld tijdens het samenspelen of zingen, maar ook<br />

via VVE-programma’s. Veelgebruikte VVE-programma’s (zoals bij<strong>voor</strong>beeld Piramide en Puk & Ko)<br />

beschrijven op hun websites dat ze veel aandacht aan het ontwikkelingsgebied <strong>Rekenen</strong> besteden en aan<br />

de tussendoelen. Deze programma’s zijn opgenomen in de databank effectieve jeugdinterventies van het<br />

NJI en voldoen in theorie aan de kwaliteitseisen die het ministerie van OC&W aan VVE-programma’s stelt.<br />

Eén van deze eisen is dat de methode de rekenontwikkeling moet stimuleren (Wet OKE) 4 .<br />

2.4.2 Psychometrisch<br />

2.4.2.1 Opgavenbanken <strong>voor</strong> jonge kinderen en het primair onderwijs<br />

Voor het samenstellen van toetsen <strong>voor</strong> kinderdagverblijven, <strong>peuters</strong>peelzalen en het primair onderwijs<br />

beschikt Cito over opgavenbanken. Die liggen ten grondslag aan onder meer de Volgsystemen (Cito<br />

Volgsysteem jonge kind, Cito Volgsysteem primair onderwijs, de Entreetoetsen, Eindtoets basisonderwijs).<br />

Voor de constructie van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> hebben we gebruikgemaakt van de opgavenbank<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> en kleuters. Ook <strong>voor</strong> andere vakgebieden, bij<strong>voor</strong>beeld bij het volgsyteem Taal <strong>voor</strong><br />

<strong>peuters</strong> en kleuters, zijn opgavenbanken in gebruik.<br />

Een opgavenbank is nadrukkelijk niet ‘zomaar’ een verzameling opgaven of items waaruit een<br />

toetsconstructeur min of meer naar willekeur een aantal items selecteert om een nieuwe toets te<br />

construeren. We geven hier kort aan wat de vereisten zijn om van een deugdelijke en psychometrisch goed<br />

gefundeerde opgavenbank te kunnen spreken.<br />

Unidimensionaal continuüm<br />

Het algemene uitgangspunt is dat de vaardigheid rekenen kan worden opgevat als een unidimensionaal<br />

continuüm (de reële lijn), en dat elk kind <strong>voor</strong>gesteld kan worden als een punt op die lijn, met andere<br />

woorden: als een getal. Het getal drukt de mate van rekenvaardigheid uit, waarbij een groter getal wijst op<br />

een grotere rekenvaardigheid. Het doel van de meetprocedure – het afnemen van een toets – is de plaats<br />

van het kind op dit continuüm zo nauwkeurig mogelijk te bepalen. De uitkomst van de meetprocedure<br />

bestaat strikt genomen uit twee grootheden. De eerste is de schatting van de plaats van het kind op het<br />

vaardigheidscontinuüm. De tweede grootheid geeft aan hoe nauwkeurig die schatting is, en heeft dus de<br />

status van een standaardfout, te vergelijken met de standaardmeetfout uit de klassieke testtheorie.<br />

Latente vaardigheid<br />

De antwoorden die een kind op de opgaven geeft, worden beschouwd als indicatoren van de vaardigheid,<br />

hetgeen ruwweg betekent dat men verwacht dat alle items in de bank rekenvaardigheid meten.<br />

De vaardigheid zelf wordt als niet-observeerbaar beschouwd, en daarom gewoonlijk omschreven als een<br />

latente vaardigheid.<br />

‘Moeilijkheid’ in de Item Respons Theorie<br />

Hoewel items dezelfde vaardigheid meten, kunnen ze toch systematisch van elkaar verschillen.<br />

Het belangrijkste verschil tussen de items is hun moeilijkheidsgraad. In de klassieke testtheorie wordt<br />

moeilijkheidsgraad uitgedrukt met een zogenaamde p-waarde, de proportie correcte antwoorden op het<br />

item in een welbepaalde populatie van kinderen. In de Item Respons Theorie (IRT) die <strong>voor</strong> het construeren<br />

van de opgavenbanken werd gebruikt, hanteert men echter een andere definitie van moeilijkheid: ruwweg<br />

gesproken is het de mate van vaardigheid die nodig is om het item goed te kunnen beantwoorden.<br />

4 ‘Ontwikkelingskansen door kwaliteit en educatie’, 1 augustus 2010<br />

16


Dit verschil in definitie van de moeilijkheidsgraad tussen klassieke theorie en IRT is uitermate belangrijk:<br />

men kan verwachten dat de p-waarde van een item <strong>voor</strong> kinderen in leeftijdscategorie P2 groter zal zijn dan<br />

in leeftijdscategorie P1, waardoor duidelijk wordt dat de p-waarde een relatief begrip is: ze geeft de<br />

moeilijkheid aan van een item in een bepaalde populatie. Binnen de IRT is de moeilijkheid van een item<br />

gedefinieerd in termen van de onderliggende vaardigheid, zonder enige referentie naar een bepaalde<br />

populatie van kinderen. Zo kan men ook de uitspraak begrijpen dat in de IRT vaardigheid en moeilijkheid op<br />

eenzelfde schaal liggen.<br />

Kansmodel<br />

De ruwe omschrijving van de moeilijkheidsgraad die in de vorige alinea werd gehanteerd (de mate van<br />

vaardigheid die nodig is om het item goed te kunnen beantwoorden) behoeft enige verdere uitwerking.<br />

Men zou deze omschrijving kunnen opvatten als een drempel: heeft een kind die mate van vaardigheid niet,<br />

dan kan hij het item niet juist beantwoorden; heeft hij die drempel wel gehaald, dan geeft hij (gegarandeerd)<br />

het juiste antwoord. Deze interpretatie weerspiegelt een deterministische kijk op het antwoordgedrag van<br />

het kind, die echter in de praktijk geen stand houdt, omdat eruit volgt dat een kind dat een moeilijk item<br />

correct beantwoordt geen fout kan maken op een gemakkelijk item. Daarom wordt in de IRT een kansmodel<br />

gebruikt: hoe groter de vaardigheid, des te groter de kans dat een item juist wordt beantwoord.<br />

De moeilijkheidsgraad van een item wordt dan gedefinieerd als de mate van vaardigheid die nodig is om<br />

met een kans van precies een half een juist antwoord te kunnen produceren.<br />

Kalibratie<br />

In het <strong>voor</strong>gaande zijn nogal wat veronderstellingen ingevoerd (unidimensionaliteit; alle items zijn<br />

indicatoren <strong>voor</strong> dezelfde vaardigheid; kansmodel) die niet zonder meer <strong>voor</strong> waar kunnen worden<br />

aangenomen; we zullen methoden moeten bedenken om aan te tonen dat al die veronderstellingen<br />

deugdelijk zijn. Dit ‘aantonen’ gebeurt met statistische gereedschappen waarop we in het vervolg dieper<br />

zullen ingaan. Maar <strong>voor</strong> we de items in een toets kunnen gebruiken, moeten we ook proberen de waarden<br />

van de moeilijkheidsgraden te achterhalen. Dit gebeurt met een statistische schattingsmethode die wordt<br />

toegepast op de itemantwoorden die bij een steekproef van kinderen zijn verzameld. Het hele proces van<br />

moeilijkheidsgraden schatten en verifiëren of de modelveronderstellingen houdbaar zijn, wordt kalibratie of<br />

ijking genoemd; de steekproef van kinderen die hier<strong>voor</strong> wordt gebruikt noemen we kalibratiesteekproef.<br />

Afnamedesigns<br />

Een opgavenbank bevat meer items dan een doorsnee toets. Meestal is het praktisch niet doenbaar om alle<br />

items aan alle kinderen <strong>voor</strong> te leggen. Elk kind in de kalibratiesteekproef krijgt derhalve slechts een (klein)<br />

gedeelte van de items uit de opgavenbank <strong>voor</strong>gelegd. Dit gedeeltelijk <strong>voor</strong>leggen moet met de nodige<br />

omzichtigheid gebeuren. In hoofdstuk 4 wordt ingegaan op het afnamedesign dat <strong>voor</strong> de kalibratie van de<br />

rekenopgaven is gebruikt.<br />

Belangrijke implicaties gekalibreerde opgavenverzameling<br />

Als we erin slagen de kalibratie met succes uit te voeren, houden we een zogenaamde gekalibreerde<br />

itembank over. In dat proces worden de items die niet passen bij de verzameling uit de collectie verwijderd.<br />

De opgavenbank bevat <strong>voor</strong> elk item niet alleen zijn feitelijke inhoud, maar ook zijn psychometrische<br />

eigenschappen, en de statistische zekerheid dat alle items dezelfde vaardigheid aanspreken. Dit houdt<br />

onder meer het volgende in:<br />

─ In principe kunnen we met een willekeurige selectie items uit de bank de vaardigheid meten bij een<br />

willekeurig kind. In principe, want een willekeurige toets die uit de itembank wordt getrokken zal in de<br />

praktijk meestal niet voldoen omdat het meetresultaat (de schatting van de vaardigheid) onvoldoende<br />

nauwkeurig zal zijn. Willen we een nauwkeuriger meting (bij een gegeven aantal items in de toets) dan<br />

zullen we de moeilijkheidsgraden van de items in overeenstemming moeten brengen met het<br />

vaardigheidsniveau van de kinderen.<br />

─ We kunnen een schatting maken van de verdeling van de vaardigheid in een welomschreven<br />

populatie, door selecties van items <strong>voor</strong> te leggen aan aselecte steekproeven van kinderen uit<br />

populaties die van belang zijn <strong>voor</strong> de normering. In het geval van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> zijn<br />

17


dat steekproeven van kinderen uit de verschillende leeftijdscategorieën P1 en P2. Daarbij maakt het,<br />

behoudens wat bij het vorige punt is vermeld over nauwkeurigheid, niet uit welke selectie van items<br />

aan een kind binnen een normeringsgroep wordt afgenomen. Een van de eigenschappen van<br />

gekalibreerde itembanken is immers dat met elke selectie items de vaardigheid van kinderen kan<br />

worden bepaald. In de praktijk komt dit meestal neer op het schatten van gemiddelde en<br />

standaardafwijking in de veronderstelling dat de vaardigheid normaal verdeeld is. Met deze schattingen<br />

kunnen dan ook schattingen gemaakt worden van de percentielen in de populatie.<br />

In het kalibratie- en normeringsonderzoek van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> hebben we ook de toets<br />

<strong>Rekenen</strong> <strong>voor</strong> kleuters meegenomen. Dit houdt in dat we een set met items die <strong>voor</strong> driejarige <strong>peuters</strong><br />

bedoeld zijn, niet alleen hebben afgenomen bij driejarige <strong>peuters</strong>, maar deels ook bij kinderen uit<br />

groep 1. Tevens hebben we een deel van de items die bedoeld zijn <strong>voor</strong> groep 1 ook bij driejarige<br />

<strong>peuters</strong> afgenomen. Bij de analyse van de resultaten bleek dat we de peuteritems op dezelfde schaal<br />

konden plaatsen als de kleuteritems. De itembank bevat dus zowel peuter- als kleuteritems.<br />

─ Ook bij kinderen die niet tot de betreffende referentiepopulatie van driejarige <strong>peuters</strong> behoren, maar die<br />

ouder zijn, is het zinvol om de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> <strong>voor</strong> te leggen, indien de toetsen <strong>Rekenen</strong><br />

<strong>voor</strong> kleuters nog te moeilijk zijn <strong>voor</strong> deze kinderen. Er is één vaardigheidsschaal gemaakt <strong>voor</strong> de<br />

toetsen <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> en <strong>Rekenen</strong> <strong>voor</strong> kleuters. De toetsscore op deze toetsen wordt<br />

omgezet in een schatting van de vaardigheid. Deze schatting kan geplaatst worden in de<br />

vaardigheidsverdeling van de populatie waar het kind qua leeftijd het beste bij past. Een leerling met<br />

achterstand in groep 1 kan bij<strong>voor</strong>beeld de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> maken en zijn<br />

vaardigheidsschatting kan behalve met de populatie van zijn eigen groep (bij<strong>voor</strong>beeld in groep 1) op<br />

een bepaald afnamemoment (midden of eind) vergeleken worden met de populatie van oudste <strong>peuters</strong><br />

(P2) met bij<strong>voor</strong>beeld de uitspraak: “De vaardigheid van deze leerling komt overeen met de mediane<br />

vaardigheid van <strong>peuters</strong> in leeftijdscategorie P2.” Immers, het kalibratie-onderzoek heeft laten zien dat<br />

alle items dezelfde vaardigheid meten. Met de toetsen <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> en <strong>Rekenen</strong> <strong>voor</strong><br />

kleuters meten we dus dezelfde vaardigheid, zodat schattingen die van verschillende toetsen afkomstig<br />

zijn zinvol met elkaar kunnen worden vergeleken.<br />

2.4.2.2 Het gehanteerde meetmodel<br />

In het normeringsonderzoek is gebruikgemaakt van een op de itemresponstheorie (IRT) gebaseerd<br />

meetmodel. Dergelijke modellen verschillen in een aantal opzichten nogal sterk van de klassieke testtheorie<br />

(Verhelst, 1993; Verhelst & Kleintjes, 1993; Verhelst en Glas, 1995). Bij de klassieke testtheorie staan de<br />

toets en de toetsscore centraal. Het theoretisch belangrijkste begrip in deze theorie is de zogenaamde ware<br />

score, de gemiddelde score die de persoon zou behalen indien de test een oneindig aantal keren onder<br />

dezelfde condities zou worden afgenomen. Deze klassieke testtheorie zou in dit onderzoek niet gebruikt<br />

kunnen worden, aangezien het normeringsonderzoek van de rekentoetsen een onvolledig design betrof:<br />

niet alle kinderen hadden alle opgaven gemaakt.<br />

Het gebruik van het IRT-model heeft enkele belangrijke <strong>voor</strong>delen. Op de eerste plaats kunnen de<br />

populatieschattingen onafhankelijk van de schattingen van de itemparameters plaatsvinden. Dat heeft<br />

<strong>voor</strong>delen bij het wegen van de verschillende groepen om te zorgen dat de steekproef geheel<br />

overeenkomstig de populatieverdeling is. Daarna kan met deze populatieverdeling en kennis over de<br />

itemparameters precies bepaald worden welke de item- en toetskarakteristieken zijn <strong>voor</strong> de populatie.<br />

Voor een overzicht van meer <strong>voor</strong>delen van IRT boven klassieke testtheorie wordt verwezen naar<br />

Hambleton, Swaminathan en Rogers (1991).<br />

In de IRT staat het te meten begrip of de te meten eigenschap centraal. De IRT beschouwt het antwoord op<br />

een item als een indicator <strong>voor</strong> de mate waarin die eigenschap aanwezig is. Het verband tussen<br />

eigenschap en itemantwoord is van probabilistische aard en wordt weergegeven in de zogenaamde<br />

itemresponsfunctie. Die geeft aan hoe groot de kans is op een correct antwoord als functie van de<br />

onderliggende eigenschap of vaardigheid. Formeler: zij Xi de toevalsvariabele die het antwoord op item i<br />

<strong>voor</strong>stelt. X i neemt de waarde 1 aan in geval van een correct antwoord en 0 in geval van een fout antwoord.<br />

18


Als symbbool<br />

<strong>voor</strong> de v<br />

is. Dat zijjn<br />

alleen de a<br />

genoemdd<br />

5 vaardigheid kiezen k we θ (ttheta).<br />

We wij jzen erop dat t θ niet rechtsstreeks<br />

obser rveerbaar<br />

antwoorden op o de opgaven.<br />

Dat is de reden<br />

waarom m θ een 'latennte'<br />

variabele wordt<br />

. De itemressponsfunctie<br />

fi(θ) is gedefiinieerd<br />

als ee en conditionele<br />

kans:<br />

Een IRT-model<br />

is eenn<br />

speciale toe epassing van (2.1) waarbij aan de functie<br />

fi(θ) een mmeer<br />

of minder<br />

specifiekke<br />

functionelee<br />

vorm wordt toegekend. t EEen<br />

eenvoudig g en zeer pop pulair <strong>voor</strong>beeeld<br />

is het<br />

zogenaamde<br />

Raschmmodel<br />

(Rasch, , 1960) waarin<br />

fi(θ) gegeve en is door<br />

waarin βii<br />

de moeilijkheidsparamete<br />

er van item i iis.<br />

Dat is een onbekende grootheid g die geschat wor rdt uit de<br />

observaties.<br />

De grafieek<br />

van (2.2) is s weergegeveen<br />

in figuur 2.2<br />

<strong>voor</strong> twee items, i en j, ddie<br />

in moeilijk kheid<br />

verschilleen.<br />

Deze figuur<br />

illustreert dat d de itemresponsfunctie<br />

een stijgende<br />

functie is vaan<br />

θ: hoe gro oter de<br />

vaardigheid,<br />

des te grroter<br />

de kans op een juist aantwoord.<br />

Ind dien de latent te vaardigheidd<br />

precies gelijk<br />

is aan<br />

de moeiliijkheidsparammeter<br />

βi , krijg gen we<br />

Daaruit vvolgt<br />

onmiddeellijk<br />

een inter rpretatie <strong>voor</strong> r de paramete er βi : het is de<br />

'hoeveelheiid'<br />

vaardigheid<br />

die<br />

nodig is v<strong>voor</strong><br />

de kans van precies een e half om hhet<br />

item i juist<br />

te beantwoo orden. Uit de figuur blijkt duidelijk<br />

dat <strong>voor</strong> item j een grootere<br />

vaardigheid<br />

nodig is om diezelfde e kans te bere eiken, maar ddit<br />

is hetzelfde e als te<br />

zeggen ddat<br />

item j moeeilijker<br />

is dan item i. We kuunnen<br />

de parameter<br />

βi dus s terecht omsschrijven<br />

als de d<br />

moeilijkheidsparameteer<br />

van item i. De implicatiee<br />

van het bov venstaande is s dat 'moeilijkhheid'<br />

en 'vaar rdigheid'<br />

op dezelffde<br />

schaal ligggen.<br />

Figuur 2. .2 Twee iteemresponscu<br />

urven in het RRasch<br />

model<br />

5<br />

Dit maakkt<br />

duidelijk waaroom<br />

men de modellen<br />

die ressortteren<br />

onder de IRT, I ook wel aan nduidt met 'latennte<br />

trek'-modelle en.<br />

19<br />

(2.1)<br />

(2.2)<br />

(2.3)


Formule (2.2) is geen beschrijving van de werkeelijkheid,<br />

het is een hypoth hese over de werkelijkheid d die<br />

getoetst kan worden oop<br />

haar houdbaarheid.<br />

Hooe<br />

zo’n toetsin ng grofweg ve erloopt, is te vverduidelijken<br />

n aan de<br />

hand vann<br />

figuur 2.2. DDaaruit<br />

blijkt dat, d <strong>voor</strong> welkk<br />

vaardigheidsniveau<br />

dan ook, de kanss<br />

om item j juist<br />

te<br />

beantwooorden<br />

steedss<br />

kleiner is dan<br />

de kans opp<br />

een juist ant twoord op item m i. Daaruit vvolgt<br />

de statis stisch te<br />

toetsen v<strong>voor</strong>spelling<br />

ddat<br />

de verwac chte proportiee<br />

juiste antwo oorden op item m j kleiner is ddan<br />

op item i in een<br />

willekeurrige<br />

steekproeef<br />

van person nen. Splitst mmen<br />

nu een gr rote steekproe ef in twee deeelsteekproeve<br />

en, een<br />

‘laaggroeep’,<br />

met de vijjftig<br />

procent laagste<br />

scorees,<br />

en een ‘ho ooggroep’, me et de vijftig prrocent<br />

hoogst te scores,<br />

dan kan men nagaan of de geobse erveerde p-waaarden<br />

van de d opgaven in n beide deelstteekproeven<br />

op<br />

dezelfde wijze geordeend<br />

zijn. Daar rvan kan strikkt<br />

genomen alleen<br />

sprake zijn als, in terrmen<br />

van de klassieke<br />

testtheorrie<br />

uitgedrukt, , alle opgaven n eenzelfde ddiscriminatie-i<br />

index hebben n. Dat echter blijkt lang nie et altijd zo<br />

te zijn. OOok<br />

in het gevval<br />

van de rek kentoetsen nieet.<br />

Veel van de d items blijken<br />

dan ook nniet<br />

te kunnen n worden<br />

beschrevven<br />

met het RRaschmodel.<br />

Daarom is bijj<br />

dit instrument<br />

gekozen <strong>voor</strong><br />

een andeer<br />

IRT-model. .<br />

Alvorens het hier gebruikte<br />

model te introducereen,<br />

is eerst e<br />

moeilijkheidsparameteers<br />

in het Ras schmodel. Eeen<br />

vaak toege<br />

grootste aannemelijkhheidsmethode<br />

e’ (in het Engels:<br />

Condition<br />

CML). Diie<br />

maakt gebruik<br />

van het feit f dat in het Raschmodel<br />

statistic) bestaat <strong>voor</strong> de latente va ariabele θ, naamelijk<br />

de ruw<br />

items. Daat<br />

betekent grofweg<br />

dat, in ndien de itemmparameters<br />

b<br />

antwoorddpatroon<br />

overr<br />

de vaardigheid<br />

bevat, kaan<br />

worden sam<br />

verder niet<br />

meer toe wwelke<br />

opgave en goed en weelke<br />

fout zijn<br />

kans op eeen<br />

juist antwwoord<br />

op item m i, gegeven dde<br />

ruwe score<br />

itemparaameters<br />

en onnafhankelijk<br />

van v de waardee<br />

van θ<br />

functie geebruik.<br />

Deze methode ma aakt geen enk<br />

de populatie,<br />

en is ook<br />

onafhankelijk<br />

van de wij<br />

6 en kanttekening<br />

nodig bij het schatten van de<br />

epaste schatt tingsmethodee<br />

is de ‘condit tionele<br />

nal Maximum m Likelihood, vverder<br />

aange eduid als<br />

een afdoend de steekproefg fgrootheid (su ufficient<br />

we score of he et aantal corrrect<br />

beantwoo orde<br />

bekend zijn, alle a informatiee<br />

die het<br />

mengevat in de d ruwe score re; het doet er<br />

dan<br />

gemaakt. Hie eruit vloeit vooort<br />

dat de conditionele<br />

e, een functie e is die alleenn<br />

afhankelijk is<br />

van de<br />

. De CML-schattin ngsmethode mmaakt<br />

van de eze<br />

kele veronder rstelling over de verdeling van de vaard digheid in<br />

ze waarop de e steekproef is getrokken.<br />

De CML-schattingsmeethode<br />

is ech hter niet bij elkk<br />

meetmodel toepasbaar. In het zogenaaamde<br />

éénpa arameter<br />

logistischh<br />

model (Onee<br />

Parameter Logistic L Modeel,<br />

afgekort: OPLM) O is CML L mogelijk. Diit<br />

model is, an nders<br />

dan het RRaschmodel,<br />

wel bestand tegen ‘omwissseling’<br />

van ‘ proporties juist’<br />

in verschilllende<br />

steekp proeven<br />

(Glas & VVerhelst,<br />

1993;<br />

Eggen, 1993;<br />

Verhelst & Kleintjes, 1993).<br />

De item mresponsfuncctie<br />

van het OPLM O is<br />

gegeven door<br />

waarin aii<br />

de zogenaammde<br />

discrimin natie-index vaan<br />

het item is s. Door deze indices te bepperken<br />

tot (po ositieve)<br />

gehele getallen,<br />

en dooor<br />

ze a priori<br />

als constantten<br />

in te voer ren, is het mo ogelijk CML-scchattingen<br />

va an de<br />

itemparaameters<br />

βi te mmaken.<br />

In figu uur 2.3 is de itemresponsc curve weerge egeven van twwee<br />

items i en n j, die<br />

even moeilijk<br />

zijn maaar<br />

verschillend d discriminereen.<br />

6<br />

Een gedeetailleerde<br />

uiteeenzetting<br />

hierove er kan men vindeen<br />

in Verhelst, 1992. 1<br />

20<br />

(2.4)


Figuur 2. .3 Twee iteemresponscu<br />

urven in het OOPLM:<br />

zelfde moeilijkheid, verschillendee<br />

discriminati ie<br />

De schatttingen<br />

wordeen<br />

berekend met m het compputerprogramma<br />

OPLM (V Verhelst, Glass<br />

en Verstrale en, 1995).<br />

Dit programma<br />

voert ddaarnaast<br />

ook<br />

statistischee<br />

toetsen uit op o grond waarvan<br />

kan worrden<br />

bepaald of het<br />

model dee<br />

gegevens aadequaat<br />

besc chrijft. Omdatt<br />

een aantal van v deze toet tsen bijzondeer<br />

gevoelig is <strong>voor</strong> een<br />

verkeerde<br />

specificatiee<br />

van de discr riminatie-indicces,<br />

zijn de uitkomsten<br />

van<br />

deze toetseen<br />

bruikbaar als<br />

modificattie-indices:<br />

zee<br />

geven een aanwijzing a in welke richtin ng deze discriminatie-indice<br />

ces moeten worden w<br />

aangepaast<br />

om een beetere<br />

overeen nkomst tussenn<br />

model en ge egevens te ve erkrijgen. Kallibratie<br />

van ite ems<br />

volgens hhet<br />

OPLM is dan ook een iteratief procees<br />

waarin alte ernerend de modelfit van iitems<br />

wordt<br />

onderzoccht<br />

door midddel<br />

van statist tische toetsingg<br />

en de waar rden van de discriminatie-i<br />

d<br />

indices worde en<br />

aangepaast<br />

op grond vvan<br />

de resulta aten van dezee<br />

toetsen.<br />

Hoewel hhet<br />

OPLM aanzienlijk<br />

flexibeler<br />

is dan hhet<br />

Raschmodel,<br />

heeft het t met dit modeel<br />

toch een nadeel<br />

gemeen, waardoor heet<br />

bij het kalib breren van meeerkeuzeopga<br />

aven niet zon nder meer bruuikbaar<br />

is. Uit t de<br />

formules (2.2) en (2.44)<br />

volgt dat, in ndien θ zeer kklein<br />

is, de ka ans op een juist<br />

antwoord zzeer<br />

dicht in de d buurt<br />

van nul kkomt.<br />

Maar dee<br />

items in het t normeringsoonderzoek<br />

zijn<br />

meerkeuze e-items, zodatt<br />

blind gokken n een<br />

zekere kaans<br />

op een juuist<br />

antwoord impliceert. EEr<br />

bestaan mo odellen die re ekening houdeen<br />

met de raa adkans<br />

(Lord & NNovick,<br />

1968) ), maar die laten<br />

geen CMML-schattingsm<br />

methode toe. De ongeschiiktheid<br />

van he et<br />

Raschmoodel<br />

of OPLMM<br />

<strong>voor</strong> meerke euzevragen iss<br />

echter relat tief: indien de e items in verggelijking<br />

met de<br />

vaardigheid<br />

van het kind<br />

niet al te moeilijk zijn, blijkt dat het effect van het<br />

raden op dee<br />

overeenkom mst<br />

tussen mmodel<br />

en gegeevens<br />

klein is s. Door een veerstandige<br />

da ataverzamelin ngsproceduree<br />

toe te passe en en met<br />

name nieet<br />

te moeilijkee<br />

opgaven te selecteren in de toets kan n het OPLM to och toegepasst<br />

worden op<br />

meerkeuzevragen,<br />

waaarbij<br />

de over reenkomst tusssen<br />

model en e data de uit teindelijke dooorslag<br />

over die d<br />

geschikthheid<br />

moet gevven.<br />

Ook in de d normering wordt hier rekening<br />

mee gehouden. g<br />

Voor de sschatting<br />

vann<br />

de populatie everdeling woordt<br />

gebruikge emaakt van de d schattingenn<br />

zoals die ve erkregen<br />

worden mmet<br />

het progrramma<br />

SAUL (Structural AAnalysis<br />

(of a) ) Univariate Latent L trait; Veerhelst<br />

en Ve erstralen,<br />

2002). De<br />

schattingenn<br />

van deze methode<br />

lijken erg op de sc chattingen die e verkregen wworden<br />

met de<br />

‘marginale<br />

grootste aaannemelijkheidsmethode’<br />

(in het Engels:<br />

Marginal Maximum M Likeelihood,<br />

verde er<br />

afgekort als MML). Heet<br />

<strong>voor</strong>deel va an SAUL is dat<br />

deze meth hode gemakke elijker werkt aals<br />

er groepen<br />

onderschheiden<br />

wordeen<br />

die op mee er dan één acchtergrondvar<br />

riabele van elkaar<br />

verschillen.<br />

Een ander<br />

<strong>voor</strong>deel is dat het nieet<br />

noodzakelij jk is om een nnormaalverde<br />

eling te veron nderstellen.<br />

Toetsingg<br />

van het IRTT-model<br />

Als een mmeetmodel<br />

geehanteerd<br />

wo ordt, moet ook<br />

onderzocht t worden of he et meetmodeel<br />

past bij de data. d<br />

De passing<br />

van het mmodel<br />

illustrere en we met figguur<br />

2.4 (zie Staphorsius,<br />

S<br />

1994, blz. 2339).<br />

Daarin be eelden we<br />

<strong>voor</strong> een opgave de ggegevens<br />

af waarop w de zoogenaamde<br />

Si<br />

–toetsen (of f kortweg S-tooetsen)<br />

gebas seerd zijn<br />

(zie handdleiding<br />

OPLMM:<br />

Verhelst; 1992). 1 Ten beehoeve<br />

van deze d toetsing wordt de totaale<br />

groep van kinderen<br />

die een vverzameling<br />

oopgaven<br />

gem maakt heeft, inngedeeld<br />

in een<br />

aantal (me eestal 8) zogeenaamde<br />

21


scoregrooepen.<br />

Elke groep<br />

bestaat uit kinderen mmet<br />

een onge eveer even ho oge score. Dee<br />

geobservee erde<br />

proportiees<br />

juiste antwooorden<br />

van deze d groepen (telkens gesymboliseerd<br />

door een x) zzijn<br />

door de middelste m<br />

stippellijnn<br />

verbonden. De volle lijn daarentegen<br />

d<br />

verbindt de proporties p die e op grond van<br />

de paramete er-<br />

schattingeen<br />

<strong>voor</strong>speld kunnen worden.<br />

De twee buitenste lijne en geven het 95%-betrouwwbaarheidsinterval<br />

aan. De bbreedte<br />

van ddit<br />

interval is in belangrijkee<br />

mate afhank kelijk van het aantal kinderen<br />

dat de op pgave<br />

heeft beaantwoord.<br />

Uit het figuur blijkt<br />

heel duideelijk<br />

dat de ge eobserveerde e proporties, zzoals<br />

bedoeld d, binnen<br />

het 95%-<br />

betrouwbaarheidsinterva<br />

al van de (gesschatte)<br />

<strong>voor</strong>s spelde propor rties liggen, een<br />

dit komt in grote<br />

lijnen oveereen<br />

met eeen<br />

niet-signific cante Si-toetssingsgrootheid d (Verhelst, et e al., 1994).<br />

Figuur 2. .4 Grafischhe<br />

<strong>voor</strong>stelling<br />

van een S-toets<br />

Bij de opgaven<br />

in onzze<br />

opgavenba ank hoort eenn<br />

grafische vo oorstelling van n de Si-toetsinng die in grote<br />

lijnen<br />

met figuuur<br />

2.4 overeenkomt.<br />

Dit is, zeker gezienn<br />

de relatief grote g aantallen<br />

observatiess<br />

die in het ge eding<br />

zijn, een zeer sterke aaanduiding<br />

da at het ontwikkkelde<br />

meetins strument en het h gebruikte meetmodel adequaat a<br />

zijn om hhet<br />

gedrag vaan<br />

de kinderen n te verklarenn.<br />

Bovendien blijkt, en dat is vanuit theooretisch<br />

oogp punt nog<br />

belangrijkker,<br />

dat gemeeten<br />

verschillen<br />

in gedrag tussen de kin nderen te ver rklaren zijn dooor<br />

één<br />

unidimennsionaal<br />

conccept.<br />

Hiermee is echter het laatste woord<br />

nog niet geezegd<br />

over de e validiteit, ma aar het kalibra ratieonderzoe ek brengt<br />

in ieder ggeval<br />

een esssentieel<br />

aspec ct van het validiteitsvraags<br />

stuk naar voren:<br />

de rechtvvaardiging<br />

van n wat in<br />

de meestte<br />

toetstoepaassingen<br />

gebr ruikelijk is, naamelijk<br />

het red duceren van alles wat het kind heeft<br />

geantwooord<br />

tot een ennkele<br />

toetssc core (of afgeleeid<br />

daarvan, een e enkele sc chatting van zzijn<br />

onderligg gende<br />

vaardigheid).<br />

De kalibbratieanalyse,<br />

, als puur formmeel<br />

proces (het ( analyseren<br />

van een ggrote<br />

onvolled dige tabel<br />

met nulleen<br />

en enen) kkan<br />

geen uitsp praken doen over de inhoudsvaliditeit<br />

of o over de connstructvalidite<br />

eit als<br />

antwoordd<br />

op de vraagg:<br />

hoe kan wo orden aangetooond<br />

dat het concept dat de d items in dee<br />

bank meten n,<br />

dekkend is <strong>voor</strong> en saamenvalt<br />

met het construcct<br />

‘algemene rekenvaardig<br />

r<br />

heid’ zoals daat<br />

in het didactisch<br />

en<br />

het wetennschappelijk<br />

forum wordt bedoeld? De vraag is dan in het geval van het ondeerdeel<br />

‘rekenvaaardigheid’:<br />

kaan<br />

het unidimensionale<br />

concept<br />

onder de d opgaven in<br />

de opgavennbank<br />

<strong>Rekenen</strong><br />

<strong>voor</strong><br />

<strong>peuters</strong> inderdaad<br />

woorden<br />

opgevat<br />

als ‘algemene<br />

rekenvaar rdigheid’? Hie er komen we op terug in<br />

hoofdstuk<br />

6 over validditeit.<br />

22


3 Beschrijving van de toets<br />

3.1 Opbouw, afname van de toets en rapportage<br />

Opbouw<br />

Op basis van inhoudelijke criteria (spreiding over inhoudelijk onderscheiden categorieën en het belang van<br />

het betreffende onderdeel in het rekenaanbod) en psychometrische criteria (met name moeilijkheidsgraad<br />

en discriminatieparameter) zijn opgaven geselecteerd <strong>voor</strong> de toets. De toets bestaat uit drie delen die<br />

overeenkomen met de categorieën die worden getoetst (getalbegrip, meten, meetkunde). De toets bestaat<br />

grotendeels uit receptieve opgaven (meerkeuzevragen). Daarnaast zijn er enkele productieve opgaven<br />

(open vragen).<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> bestaat uit één toets <strong>voor</strong> kinderen van 3 jaar. Deze toets is primair bedoeld <strong>voor</strong><br />

driejarige kinderen. De toets is <strong>voor</strong> twee leeftijdsgroepen genormeerd en kan in het jaar dat de peuter<br />

3 jaar is op twee momenten worden afgenomen, namelijk in de leeftijdscategorieën P1 (vanaf 3 tot 3 ½ jaar)<br />

en P2 (vanaf 3 ½ tot 4 jaar).<br />

Afname<br />

De toets wordt individueel bij kinderen afgenomen door een vertrouwde leidster. De leidster of het team van<br />

de locatie bepaalt het afnamemoment en de afnamefrequentie. Om de rekenontwikkeling te kunnen volgen<br />

adviseren we de toets twee keer af te nemen in het jaar dat de peuter 3 jaar oud is. De toets wordt alleen bij<br />

‘toetsbare’ kinderen afgenomen (zie <strong>voor</strong> meer informatie de handleiding).<br />

De toets bestaat uit drie delen die overeenkomen met de categorieën die getoetst worden. Elk deel van de<br />

toets begint met een of enkele oefenopgaven. Aan de hand van deze opgaven kan de leidster uitleggen wat<br />

het kind moet doen en kan het kind vertrouwd raken met de werkwijze. Vervolgens wordt de feitelijke toets<br />

afgenomen. Er zijn receptieve en productieve opgaven. De leidster leest de instructie en de vragen <strong>voor</strong>.<br />

Het kind geeft bij de receptieve opgaven antwoord door het plaatje aan te wijzen dat volgens hem het<br />

correcte antwoord op de vraag weergeeft. De leidster noteert op een registratieformulier welke antwoorden<br />

het kind geeft. Er zijn naast receptieve opgaven ook enkele productieve opgaven (open vragen). Hierbij<br />

moet het kind zelf een antwoord formuleren in plaats van een plaatje aanwijzen. De leidster noteert op het<br />

registratieformulier precies het woord of de woorden die het kind als antwoord zegt.<br />

Leidsters wordt geadviseerd om tijdens de afname een vlot tempo aan te houden door bij<strong>voor</strong>beeld niet<br />

meer dan 10 seconden per opgave te gebruiken. Naar verwachting duurt een toetsafname minder dan<br />

15 minuten (zie tabel 3.1) Voor meer informatie over de afname-instructies verwijzen we naar paragraaf 2.2<br />

van de handleiding bij de toets (Op den Kamp, 2010). In tabel 3.1 staat een overzicht van de afname van<br />

de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong>.<br />

Tabel 3.1 Overzicht toets, leeftijdscategorieën, delen, aantal opgaven en afnametijd<br />

Toets<br />

Peutertoets<br />

Peutertoets<br />

Leeftijdscategorie<br />

P1: 36 tot 42 maanden<br />

P2: 42 tot 48 maanden<br />

Delen<br />

Deel 1<br />

Deel 2<br />

Deel 3<br />

Deel 1<br />

Deel 2<br />

Deel 3<br />

23<br />

Opgaven<br />

12<br />

12<br />

12<br />

12<br />

12<br />

12<br />

Afnametijd<br />

Totaal<br />

max. 15 minuten<br />

Totaal<br />

max. 15 minuten


Toetsen op maat<br />

De rekenvaardigheid van kinderen in een groep loopt vaak sterk uiteen. Als gevolg daarvan zal eenzelfde<br />

rekentoets <strong>voor</strong> een deel van de kinderen goed op niveau zijn, maar <strong>voor</strong> sommige kinderen erg moeilijk of<br />

erg gemakkelijk. Met name <strong>voor</strong> een aantal kinderen van niveau D en <strong>voor</strong> de kinderen van niveau E (of de<br />

kinderen van niveau V) zijn de toetsen van het eigenlijke afnamemoment aan de moeilijke kant. Voor een<br />

aantal kinderen van niveau A (of niveau I) zijn de toetsen echter aan de gemakkelijke kant. De bij de<br />

rekentoetsen van het Cito Volgsysteem gehanteerde meettechniek maakt het mogelijk de toetsen op het<br />

niveau van de kinderen af te stemmen. Omdat de toetsscores op verschillende rekentoetsen telkens naar<br />

eenzelfde schaal worden omgezet is het mogelijk kinderen die verschillende toetsen maken toch met elkaar<br />

te vergelijken. Kinderen kunnen daardoor bij<strong>voor</strong>beeld een toets maken die hoort bij een vorig afnamemoment<br />

(een kleuter maakt medio groep 2 de toets behorend bij eind groep 1) of een volgend afnamemoment<br />

(een kleuter maakt eind groep 1 de toets behorend bij medio groep 2).<br />

Bij de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> en de toetsen <strong>Rekenen</strong> <strong>voor</strong> kleuters is dit ‘toetsen op maat’ in mindere<br />

mate van toepassing dan bij de overige toetsen uit het Cito Volgsysteem <strong>voor</strong> groep 3 t/m 8. Immers, <strong>voor</strong><br />

zowel de <strong>peuters</strong> als <strong>voor</strong> de kleuters hebben we maar één toets ‘per jaar’. De peutertoets wordt zowel in<br />

de leeftijdscategorie P1 als in de leeftijdscategorie P2 afgenomen. En de toetsen <strong>voor</strong> de groepen 1 en 2<br />

worden zowel <strong>voor</strong> het medio-afnamemoment (respectievelijk M1 en M2) als <strong>voor</strong> het einde-afnamemoment<br />

(respectievelijk E1 en E2) gebruikt. Daarnaast is er geen rekentoets <strong>voor</strong> tweejarige <strong>peuters</strong> beschikbaar<br />

waardoor het in de peutergroepen niet mogelijk is om een toets van een ‘lager’ niveau aan te bieden aan<br />

een driejarige peuter. Bij het ‘toetsen op maat’ kan de leidster eventueel wel gebruikmaken van de toets<br />

<strong>Rekenen</strong> <strong>voor</strong> kleuters <strong>voor</strong> groep 1. Deze toets kan ingezet worden <strong>voor</strong> <strong>peuters</strong> die heel duidelijk aan<br />

meer uitdaging toe zijn. Daarnaast kunnen leerkrachten van groep 1 de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

inzetten <strong>voor</strong> kleuters <strong>voor</strong> wie de toets <strong>voor</strong> groep 1 nog wat te hoog gegrepen is.<br />

Correctie van de toetsen<br />

De toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> is zowel handmatig na te kijken en te analyseren als via de computer, met<br />

behulp van het Computerprogramma LOVS. Voor het handmatig nakijken van de toets kan gebruikgemaakt<br />

worden van een lijst met goede antwoorden, die in de bijlage van de handleiding is opgenomen. Op het<br />

scoreformulier staan de goede antwoorden ook aangegeven. Indien gewenst kan de leerkracht in het<br />

Computerprogramma LOVS de foute antwoorden aanklikken. Op basis van de totaalscore op de toets<br />

wordt een inschatting gemaakt van de algemene rekenvaardigheid van de kinderen.<br />

Verwerking resultaten en verdere analyses en interpretatie<br />

Na de toetsafname en het nakijken van de antwoorden kunnen de toetsresultaten door de leidster verwerkt<br />

worden op speciaal ontwikkelde rapportageformulieren, onder andere peuteroverzichten, groepsrapporten<br />

en categorieënoverzichten. In de handleiding bij het toetspakket <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> (Op den Kamp,<br />

2010: hoofdstuk 4: Interpretatie en gebruik op niveau van kind en groep en hoofdstuk 5: Interpretatie en<br />

gebruik op locatieniveau) en de handleiding bij het Computerprogramma LOVS (module<br />

Schoolzelfevaluatie) worden de mogelijkheden besproken om handmatig en met behulp van het<br />

computerprogramma verschillende soorten overzichten te maken, zoals bij<strong>voor</strong>beeld leerlingrapporten,<br />

groepsrapporten, categorieënanalyse, dwarsdoorsnedes en trendanalyses. Met behulp van deze<br />

overzichten kan de kwaliteit van het gegeven rekenaanbod ook op groepsniveau en locatieniveau<br />

geanalyseerd worden.<br />

Categorieënanalyse<br />

Voor verdere analyses op kindniveau biedt het Computerprogramma LOVS naast de standaardrapportages<br />

ook een meer geavanceerdere rapportage: categorieënanalyse. De categorieënanalyse is bedoeld om na<br />

te gaan of het kind, gegeven zijn algemeen niveau, evenwichtig presteert op de verschillende onderdelen of<br />

categorieën van de toets.<br />

Bij elke afname kunnen de opgaven onderverdeeld worden in een relatief klein aantal didactisch zinvolle<br />

categorieën. Uit de vaardigheidsscore die het kind behaalt en het toegekende niveau (A t/m E of I t/m V)<br />

24


weten we of we met een sterk of zwak scorend kind van doen hebben. Met een categorieënanalyse kan<br />

nagegaan worden of kinderen op een bepaald onderdeel meer (of minder) fouten maken dan op grond van<br />

hun algemene vaardigheidsniveau verwacht mag worden. De categorieën die bij de toets <strong>Rekenen</strong> <strong>voor</strong><br />

<strong>peuters</strong> worden gehanteerd staan in tabel 3.2.<br />

Tabel 3.2 Toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong>: categorieën en aantal opgaven per categorie<br />

Verkorte naam Omschrijving Aantal opgaven<br />

GEB Getalbegrip 12<br />

ME Meten 12<br />

MEK Meetkunde 12<br />

Totaal 36<br />

Iedere categorie wordt met evenveel items vertegenwoordigd. Voor de categorieënanalyse is een aparte<br />

verantwoording geschreven (zie Bijlage 1: Profielanalyse met IRT, N. Verhelst). Deze verantwoording is<br />

opgesteld <strong>voor</strong> het domein <strong>Rekenen</strong>-Wiskunde dat geldt <strong>voor</strong> groep 3 tot en met groep 8 in het<br />

basisonderwijs. De principes van de categorieënanalyse die <strong>voor</strong> <strong>Rekenen</strong>-Wiskunde gelden, zijn ook van<br />

toepassing op <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong>. In de handleiding bij het Computerprogramma LOVS is een<br />

uitvoerige beschrijving opgenomen van de categorieënanalyse en de interpretatie van de uitkomsten. Ook<br />

deze is, hoewel toegespitst op <strong>Rekenen</strong>-Wiskunde vanaf groep 3 in het basisonderwijs, van toepassing op<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong>.<br />

3.2 Inhoudsverantwoording<br />

In deze paragraaf geven we eerst een beschrijving van het toetsontwikkelingsproces van de toets <strong>Rekenen</strong><br />

<strong>voor</strong> <strong>peuters</strong>. Vervolgens beschrijven we welke inhoudscategorieën zijn opgenomen in de toets. Daarna<br />

geven we aan welke selectiecriteria we hebben gebruikt bij het samenstellen van de toets <strong>Rekenen</strong> <strong>voor</strong><br />

<strong>peuters</strong>. De informatie in deze paragraaf vormt een aanvulling op de Inhoudsverantwoording die<br />

opgenomen is in het toetspakket <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong>. Daar vindt u <strong>voor</strong>beelden van de verschillende<br />

soorten opgaven die in de toets <strong>voor</strong>komen.<br />

3.2.1 Het ontwikkelproces van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

In het toetsconstructieproces zijn de volgende fasen te onderscheiden:<br />

Doelspecificatie<br />

Domeinbeschrijving en toetsspecificatie<br />

Itemconstructie<br />

Proefonderzoek: itemevaluatie, kalibratie en toetssamenstelling<br />

Normeringsonderzoek<br />

Schrijven handleiding en verantwoording<br />

Bij het ontwikkelen van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> hebben we deze stappen ook gevolgd. De kalibratie,<br />

toetssamenstelling en normering heeft echter plaatsgevonden op basis van één grootschalig landelijk<br />

normeringsonderzoek en niet op basis van twee deelonderzoeken (proefonderzoek en<br />

normeringsonderzoek).<br />

25


De doelen <strong>Rekenen</strong> zoals geformuleerd door SLO zijn gebruikt bij het beschrijven van het domein en het<br />

specificeren van de toets. De doelen beschrijven met welke inhoud kinderen aan het begin van groep 1<br />

minimaal ervaring opgedaan moeten hebben, en geven op deze wijze sturing aan het leerproces. De<br />

inhoud van de toets is net zoals de doelen onderverdeeld in drie domeinen, namelijk getalbegrip, meten en<br />

meetkunde (zie ook paragraaf 2.4.1). Er is bepaald welke doelen met een toets als <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

geëvalueerd kunnen worden en daarna zijn de geselecteerde doelen geoperationaliseerd in items. Dat is<br />

gebeurd door toetsdeskundigen van Cito. De geconstrueerde items zijn vervolgens <strong>voor</strong>gelegd aan, en<br />

besproken met, een panel van leerkrachten en onderwijsbegeleiders met praktijkkennis over de<br />

rekenontwikkeling van jonge kinderen. Indien nodig zijn de items bijgesteld of verwijderd.<br />

In het normeringsonderzoek van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> hebben we ook de toetsen <strong>Rekenen</strong> <strong>voor</strong><br />

kleuters meegenomen. Na de itemconstructie zijn de items op twee momenten in een onvolledig design<br />

afgenomen bij een representatieve groep van ruim 5000 kinderen in Nederland op <strong>peuters</strong>peelzalen,<br />

kinderdagverblijven en in groep 1 en 2 van het basisonderwijs. In hoofdstuk 4 wordt uitgebreid ingegaan op<br />

de opzet en uitvoering van het normeringsonderzoek, en de representativiteit van de steekproef. Na de<br />

afnames zijn de antwoorden van de kinderen op de items geanalyseerd met behulp van One-Parameter<br />

Logistic Model (zie paragraaf 2.4.2.). In de analyses is nagegaan of de verschillende items en onderdelen<br />

een beroep doen op dezelfde onderliggende vaardigheid. Dat bleek het geval te zijn. Daarom is een schaal<br />

geconstrueerd die we de algemene rekenvaardigheidsschaal genoemd hebben. Op basis van inhoudelijke<br />

en psychometrische criteria zijn vervolgens drie toetsen samengesteld: een toets <strong>voor</strong> <strong>peuters</strong>, een toets<br />

<strong>voor</strong> groep 1 en een toets <strong>voor</strong> groep 2. Op basis van de score op elk van deze toetsen kan de algemene<br />

rekenvaardigheid van een kind bepaald worden. Als kinderen elk halfjaar een toets maken, kan de<br />

rekenvaardigheid van de kinderen gevolgd worden vanaf driejarige leeftijd tot en met het einde van groep 2.<br />

Op basis van de gegevens uit het normeringsonderzoek zijn ook de normtabellen gemaakt.<br />

3.2.2 De inhoud van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

De verschillende leerstofonderdelen die in de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> aan de orde komen, hebben we<br />

in paragraaf 2.4.1 op conceptueel niveau beschreven. In deze paragraaf lichten we die leerstofonderdelen<br />

op operationeel niveau kort toe en we vatten ze samen in een tabel. Voor een uitvoerige beschrijving van<br />

de inhoud van de toets verwijzen we naar de Inhoudsverantwoording in het toetspakket <strong>Rekenen</strong> <strong>voor</strong><br />

<strong>peuters</strong> (Op den Kamp, 2010). Daar is een uitgebreide inhoudsbeschrijving opgenomen die geïllustreerd<br />

wordt met <strong>voor</strong>beeldopgaven uit de toets.<br />

De opgaven in de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> hebben betrekking op de rekenontwikkeling. In<br />

paragraaf 2.4.1 hebben we aangegeven dat de verschillende aspecten van rekenen <strong>voor</strong> <strong>peuters</strong> een<br />

samenhangend geheel vormen en dat we de volgende drie categorieën onderscheiden:<br />

1 Getalbegrip<br />

2 Meten<br />

3 Meetkunde<br />

Getalbegrip<br />

De categorie Getalbegrip heeft in de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> betrekking op Omgaan met<br />

hoeveelheden. Bij het onderdeel Omgaan met hoeveelheden gaat het om het herkennen of tellen van<br />

kleine hoeveelheden tot maximaal vijf. Dit gebeurt met receptieve opgaven, waarbij gevraagd wordt naar<br />

een hoeveelheid. De kinderen gebruiken hierbij hun eigen strategie. Ze kunnen de hoeveelheden op drie<br />

verschillende plaatjes (resultatief) tellen en als antwoord een plaatje aanwijzen. Het is ook mogelijk dat<br />

kinderen een hoeveelheid (bij<strong>voor</strong>beeld van één of twee dingen) direct herkennen, zonder deze te tellen.<br />

Naast de receptieve opgaven zijn er productieve opgaven waarbij de kinderen een hoeveelheid (tot<br />

maximaal vijf) resultatief tellen. Ze spreken het resultaat van het tellen (het getal) uit.<br />

Ten slotte bevat dit onderdeel ook opgaven waarbij de kinderen hoeveelheden vergelijken door het<br />

hanteren van hoeveelheidsbegrippen ‘veel’ en ‘weinig’.<br />

26


Meten<br />

De categorie Meten heeft betrekking op het vergelijken van Lengte en omtrek en Inhoud. In de opgaven bij<br />

het onderdeel Lengte en Omtrek gaat het om vergelijken van tegenstellingen over lengte en omtrek. De<br />

opgaven laten de kinderen passief allerlei begrippen gebruiken rond lengte en omtrek, zoals: lang, dik, dun,<br />

groot, klein, laag. Inhoud heeft betrekking op ‘wat er in zit’ en ‘wat er in kan’. In de opgaven van het<br />

onderdeel Inhoud vergelijken de kinderen tegenstellingen van verschillende inhouden. Ze gebruiken hierbij<br />

passief allerlei begrippen rond inhoud zoals veel, weinig, meeste, minste.<br />

Meetkunde<br />

De categorie Meetkunde heeft betrekking op de ruimte en omvat de onderdelen Oriënteren en lokaliseren,<br />

Construeren en Opereren met vormen en figuren. In de opgaven bij het onderdeel Oriënteren en lokaliseren<br />

gebruiken de kinderen passief allerlei plaatsbegrippen, zoals <strong>voor</strong>, achter, op, boven en ook begrippen die<br />

een beweging in de ruimte aangeven, zoals omhoog of overheen.<br />

Bij de opgaven van het onderdeel Construeren gaat het om het vergelijken en herkennen van eenvoudige<br />

meetkundige basisvormen. Hierbij gebruiken de kinderen passief enkele begrippen, zoals rond en vierkant<br />

en begrippen die betrekking hebben op eigenschappen van meetkundige vormen zoals stapelen en rollen.<br />

In de opgaven bij het onderdeel Opereren met vormen en figuren lossen kinderen eenvoudige<br />

probleempjes op met vormen en figuren, bij<strong>voor</strong>beeld door na te gaan op welke plek een vorm past in een<br />

blokkenstoof. Dit doen ze met behulp van receptieve opgaven, waarbij ze drie verschillende plaatjes<br />

vergelijken en als antwoord één van de plaatjes aanwijzen. Naast de receptieve opgaven is er een<br />

productieve opgave waarbij de kinderen een vorm benoemen.<br />

In tabel 3.3 staan eerdergenoemde onderdelen per categorie nogmaals weergegeven.<br />

Tabel 3.3 Opgaventypen in <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

Categorie Onderdeel/doel Opgavenvorm<br />

Getalbegrip<br />

Meten<br />

Meetkunde<br />

Omgaan met hoeveelheden Receptief en productief<br />

Lengte & omtrek Receptief<br />

Inhoud Receptief<br />

Oriënteren en lokaliseren Receptief<br />

Construeren Receptief<br />

Opereren met vormen en figuren Receptief en productief<br />

We hebben een inhoudelijke toetssamenstelling gerealiseerd die voldoet aan de doelstelling die we met de<br />

toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> <strong>voor</strong> ogen hadden. De domeinen en doelen, opgesteld door SLO (definitieve<br />

uitgave 2011), zijn met behulp van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> meetbaar gemaakt. Uitgangspunt was<br />

om een toets samen te stellen waarbij de opgaven evenwichtig over de drie domeinen zijn verdeeld. Dit is<br />

ook gelukt.<br />

3.2.3 Selectie van opgaven <strong>voor</strong> de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

De proefafnames zijn uitgevoerd met het doel om informatie te verkrijgen over de moeilijkheid van elke<br />

opgave. Tevens konden eventuele slecht functionerende opgaven (bij<strong>voor</strong>beeld opgaven die vaker door<br />

vaardige kinderen dan door minder vaardige kinderen fout gemaakt worden) geïdentificeerd en verwijderd<br />

27


worden. Daarnaast hebben wij het onderzoek aangegrepen als een mogelijkheid om aan de deelnemende<br />

leidsters te vragen of zij inhoudelijke of andersoortige bezwaren hadden tegen bepaalde opgaven.<br />

Na de proefafnames is op basis van de verschillende toetsen die tijdens de proefafnames gebruikt zijn de<br />

definitieve toets samengesteld. Sommige opgaven die afvielen, vertoonden in het normeringsonderzoek<br />

een te hoge of te lage moeilijkheid (p-waarde) of een te laag discriminerend vermogen (rir-waarde). Soms<br />

vielen ook opgaven af die psychometrisch gezien goed functioneerden, maar die op inhoudelijke gronden<br />

werden afgewezen en/of tot een categorie behoorden die al voldoende vertegenwoordigd was in de<br />

toetsen. Daarentegen werden soms opgaven gehandhaafd die eigenlijk wat te gemakkelijk waren, maar<br />

waar<strong>voor</strong> in de betreffende categorie geen beter functionerende alternatieven <strong>voor</strong>handen waren. Bij elke<br />

individuele opgave vond dus een afweging plaats op zowel psychometrische als inhoudelijke gronden.<br />

De uiteindelijke verdeling van aantallen opgaven per categorie per afnamemoment is een zo goed mogelijk<br />

compromis tussen eisen van psychometrische en inhoudelijke kwaliteit en overwegingen van meer<br />

praktische aard (afnameduur, aantal opgaven per deel).<br />

Samenvattend geven we in tabel 3.4 aan hoe de opgaven over de categorieën en de onderdelen binnen<br />

deze categorieën in de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> zijn verdeeld. Deze verdeling komt overeen met wat we<br />

<strong>voor</strong> ogen hadden. In tabel 4.7 in het volgende hoofdstuk is te zien dat de itemeigenschappen (p-waarden,<br />

rit-waarden en r ir-waarden) passen bij het doel van de Cito Volgsysteem en dat de items een goede<br />

onderscheidende waarde hebben. De samenstelling van de toetsen is dan ook zowel inhoudelijk als<br />

psychometrisch geslaagd te noemen.<br />

Tabel 3.4 Verdeling opgaven over categorieën en onderdelen in de toets<br />

Categorie Onderdeel/doel Aantal opgaven<br />

Getalbegrip<br />

Meten<br />

Meetkunde<br />

Omgaan met hoeveelheden 12<br />

Lengte & omtrek 6<br />

Inhoud 6<br />

Oriënteren en lokaliseren 5<br />

Construeren 5<br />

Opereren met vormen en figuren 2<br />

28


4 Het normeringsonderzoek<br />

Het normeringonderzoek is uitgevoerd binnen het raamwerk van de item respons theorie (IRT), omdat deze<br />

werkwijze het mogelijk maakt om gebruik te maken van een structureel onvolledig afnamedesign.<br />

Dit betekent dat we niet alle items bij alle kinderen af hoeven te nemen om toch <strong>voor</strong> de gehele populatie<br />

kennis te vergaren over deze items. In paragraaf 2.4.2.2 is het item respons model dat gebruikt is bij<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> gedetailleerd beschreven. Het gebruik van dit model brengt een aantal <strong>voor</strong>delen<br />

met zich mee. Ten eerste is het onder bepaalde <strong>voor</strong>waarden mogelijk om items in verschillende toetsen op<br />

dezelfde onderliggende meetschaal te plaatsen (zie bij<strong>voor</strong>beeld Kolen & Brennan, 1995). Dit levert een<br />

zogenaamde itembank op. Ten tweede kunnen de gegevens van kinderen en van populaties van kinderen<br />

gerelateerd worden aan deze meetschaal. Hierdoor kunnen we gemakkelijk de eigenschappen van een<br />

toets in een bepaalde populatie berekenen, ook al is de toets niet in zijn geheel <strong>voor</strong>gelegd aan deze<br />

populatie. Beide <strong>voor</strong>delen zijn benut bij de normering van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong>. Er kunnen na de<br />

steekproeftrekking nog grofweg drie fasen onderscheiden worden:<br />

Fase 1: Maken van een itembank<br />

In de eerste fase zijn de antwoorden van de kinderen op de items geanalyseerd. Voor <strong>Rekenen</strong> <strong>voor</strong><br />

<strong>peuters</strong> is gebruikgemaakt van het One-Parameter Logistic Model zoals <strong>voor</strong>gesteld door Verhelst en Glas<br />

(1995). Het resultaat van de analyse is een IRT gekalibreerde itembank. Met behulp van deze itembank kan<br />

de vaardigheid van kinderen met elke willekeurige deelverzameling van items op dezelfde meetschaal<br />

geschat worden (<strong>voor</strong> meer informatie over de eisen waaraan een itembank moet voldoen zie<br />

paragraaf 2.4.2.1). In het onderzoek zijn items meegenomen die zowel door <strong>peuters</strong> als <strong>peuters</strong> gemaakt<br />

kunnen worden. Bovendien vond de dataverzameling <strong>voor</strong> <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> gelijktijdig plaats met die<br />

<strong>voor</strong> <strong>Rekenen</strong> <strong>voor</strong> kleuters. Bij de beschrijving van de opzet en het resultaat van het kalibratieonderzoek<br />

(zie paragraaf 4.2) zullen dan ook beide deelonderzoeken betrokken worden.<br />

Fase 2: Schatten van de vaardigheidsverdelingen van de normgroepen<br />

In de tweede fase worden de normgroepen geanalyseerd. In tegenstelling tot de eerste fase waarbij dankzij<br />

populatieonafhankelijke schattingen van de itemparameters representativiteit van de steekproef ten<br />

opzichte van de populatie niet noodzakelijk is, is dat tijdens deze fase wel van belang. Bij het schatten van<br />

de verdelingen van de te onderscheiden normgroepen op de meetschaal wordt dan ook speciaal gelet op<br />

representativiteit (zie paragraaf 4.2). Aangezien het in deze verantwoording alleen om <strong>Rekenen</strong> <strong>voor</strong><br />

<strong>peuters</strong> gaat, wordt niet ingegaan op de resultaten van de kleuters. Die worden beschreven in de publicatie<br />

waarin de toets <strong>Rekenen</strong> <strong>voor</strong> kleuters wordt verantwoord (Koerhuis & Keuning, 2011).<br />

Fase 3: Normeren van de uiteindelijke toetsen<br />

In de derde en laatste fase worden de normen vastgesteld. Uit de bank met peuter- en kleuteritems is de<br />

toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> samengesteld. In hoofdstuk 3 is reeds aangegeven aan welke criteria de items<br />

moesten voldoen <strong>voor</strong> de uiteindelijke selectie. De toets is <strong>voor</strong> twee leeftijdscategorieën genormeerd:<br />

‘leeftijdscategorie P1’ (<strong>peuters</strong> vanaf 36 tot 42 maanden) en ‘leeftijdscategorie P2’ (<strong>peuters</strong> vanaf 42 tot 48<br />

maanden). De normen zijn met behulp van IRT berekend (zie paragraaf 4.4). Voor de omschrijving en de<br />

normering van de kleutertoetsen verwijzen we naar de wetenschappelijke verantwoording van <strong>Rekenen</strong><br />

<strong>voor</strong> kleuters (Koerhuis & Keuning, 2011).<br />

4.1 Steekproefplan<br />

Voor de normering van <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> was het streven om 800 driejarige <strong>peuters</strong> mee te nemen in<br />

het onderzoek: 400 <strong>voor</strong> de P1-normering en 400 <strong>voor</strong> de P2-normering. Als uitgangspunt <strong>voor</strong> de<br />

steekproeftrekking is een lijst met populatiegegevens van marktonderzoeksbureau DUO gebruikt. In deze<br />

29


lijst stonden in totaal ruim 6700 kinderdagverblijven en <strong>peuters</strong>peelzalen die beschouwd kunnen worden als<br />

de op dat moment bekende populatie.<br />

Uit de lijst zijn 500 locaties geselecteerd (250 kinderdagverblijven en 250 <strong>peuters</strong>peelzalen) op basis van<br />

de postcode om zo een goede spreiding over Nederland te verkrijgen. Er is bewust een extra groot aantal<br />

locaties geselecteerd <strong>voor</strong> deelname. Ten eerste zitten er in groepen van kinderdagverblijven en<br />

<strong>peuters</strong>peelzalen vaak maar een beperkt aantal driejarigen. Dit geldt zeker <strong>voor</strong> verticale groepen<br />

(leeftijdsheterogeen), maar ook <strong>voor</strong> horizontale groepen (leeftijdshomogeen). In peutergroepen mogen<br />

immers maximaal maar 16 kinderen zitten. Dit betekent dat er meer groepen nodig zijn dan bij een<br />

onderzoek in het basisonderwijs om aan het beoogde aantal kinderen te komen. Ten tweede hebben veel<br />

kinderdagverblijven en <strong>peuters</strong>peelzalen op dit moment maar beperkt ervaring met het afnemen van<br />

toetsen. Door de onbekendheid met toetsen verwachtten we minder animo <strong>voor</strong> deelname aan het<br />

onderzoek.<br />

De kinderdagverblijven en <strong>peuters</strong>peelzalen zijn aangeschreven met het verzoek om in mei-juni 2009 én<br />

januari-februari 2010 deel te nemen aan het onderzoek. De proeftoetsen werden in het onderzoek door de<br />

eigen leidster van het kind afgenomen net zoals bij de definitieve toets de bedoeling is. De uiteindelijke<br />

steekproef <strong>voor</strong> de kalibratie van de items en de normering van de toetsen bevatte 50 basisscholen en 52<br />

<strong>peuters</strong>peelzalen/kinderdagverblijven. Voor de kalibratie zijn zowel de gegevens van de kinderdagverblijven<br />

en <strong>peuters</strong>peelzalen als de gegevens van de basisscholen gebruikt. Bij elkaar gaat het dus om 102<br />

instellingen. Voor de normering van de peutertoetsen is vanzelfsprekend alleen gebruikgemaakt van de<br />

observaties die gedaan zijn bij <strong>peuters</strong>.<br />

4.2 Maken van een itembank<br />

Met het oog op de ontwikkeling van de toetsen <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> en <strong>Rekenen</strong> <strong>voor</strong> kleuters zijn <strong>voor</strong><br />

<strong>peuters</strong> en de jaargroepen 1 en 2 van het basisonderwijs items geconstrueerd. In een tweejarig<br />

normeringsonderzoek zijn data verzameld om de eigenschappen van de ontwikkelde items te kunnen<br />

bepalen. In het eerste jaar van het onderzoek (schooljaar 2008/2009) waren er afnamen in de periode meijuni,<br />

terwijl in het tweede jaar van het onderzoek (schooljaar 2009/2010) de afnamen in de periode januarifebruari<br />

plaatsvonden. Deze periodes komen overeen met de normeringsmomenten van de kleutertoetsen:<br />

de afname in januari-februari is het medio-moment van de normering en de afname in mei-juni het eindemoment<br />

van de normering. Bij de normering van de peutertoetsen is niet de afnameperiode, maar de<br />

leeftijd van de kinderen in de steekproef doorslaggevend geweest.<br />

Bij de eerste afname zijn er tien verschillende sets met items (hierna te noemen toetsboekjes) afgenomen<br />

bij <strong>peuters</strong>, kleuters in groep 1 en kleuters in groep 2. In het normeringsonderzoek is geen onderscheid<br />

gemaakt tussen jongere (P1) en oudere (P2) <strong>peuters</strong>. Met behulp van de tien toetsboekjes zijn gegevens<br />

verzameld over 160 items. Ieder item zat minstens in twee verschillende toetsboekjes. De reden hier<strong>voor</strong> is<br />

dat de items later alleen op dezelfde meetschaal geplaatst kunnen worden als de toetsboekjes iets<br />

gemeenschappelijk hebben. Figuur 4.1 laat zien hoe de ‘ankering’ tussen de toetsboekjes precies<br />

gerealiseerd is. De figuur geeft tevens het beoogde en werkelijke aantal kinderen per toetsboekje weer.<br />

Zoals we kunnen zien, zijn de beoogde aantallen <strong>voor</strong> de drie verschillende groepen met kinderen over het<br />

algemeen ook daadwerkelijk gehaald. Slechts in enkele gevallen is een toetsboekje door nét iets minder<br />

kinderen gemaakt, maar door het geankerde design zijn er per item toch ruim voldoende waarnemingen.<br />

30


Figuur 4.1 Afnamedesign eerste afnameperiode<br />

Groep Boekje N beoogd N werkelijk<br />

Taak<br />

A B C D E F G H<br />

Peuters 1 250 353<br />

Peuters 2 250 319<br />

Peuters 3 250 313<br />

Groep 1 4 250 292<br />

Groep 1 5 250 319<br />

Groep 1 6 250 302<br />

Groep 2 7 250 246<br />

Groep 2 8 250 262<br />

Groep 2 9 250 256<br />

Groep 2 10 250 247<br />

Op basis van de data uit de eerste periode van het onderzoek werd de kwaliteit en de moeilijkheid van de<br />

items bepaald. Deze resultaten zijn gebruikt bij het opzetten van de tweede periode van het onderzoek. De<br />

tweede periode vond plaats in januari-februari van schooljaar 2009/2010. De beste 150 items uit het eerste<br />

onderzoek zijn aangevuld met 60 nieuwe items. Elk item werd ondergebracht in ten minste twee<br />

verschillende toetsboekjes. Figuur 4.2 laat zien welke afnamedesign in de tweede periode van het<br />

onderzoek gebruikt is. Het design lijkt sterk op het design uit de eerste periode, met één extra taak en één<br />

extra toetsboekje. We zien dat het werkelijke aantal deelnemers wederom dicht bij het beoogde aantal<br />

kinderen lag. In groep 2 hebben in werkelijkheid aanzienlijk meer kinderen meegedaan dan beoogd was.<br />

Figuur 4.2 Afnamedesign tweede afnameperiode<br />

Groep Boekje N beoogd N werkelijk<br />

Taak<br />

A B C D E F G H I<br />

Peuters 1 250 273<br />

Peuters 2 200 213<br />

Peuters 3 250 236<br />

Groep 1 4 150 135<br />

Groep 1 5 250 279<br />

Groep 1 6 200 194<br />

Groep 1 7 175 176<br />

Groep 2 8 250 247<br />

Groep 2 9 250 266<br />

Groep 2 10 275 374<br />

Groep 2 11 200 222<br />

Zoals figuur 4.1 en 4.2 laten zien heeft niet iedere leerling alle items gemaakt. Dit zijn ontbrekende<br />

waarnemingen by design. Dergelijke data zijn met behulp van IRT zeer goed te analyseren. Het is echter<br />

ook mogelijk dat er onbedoeld antwoorden op items ontbreken. Een bepaalde groep kan door<br />

omstandigheden bij<strong>voor</strong>beeld maar één taak gemaakt hebben in plaats van twee. Ook kunnen individuele<br />

kinderen items soms overgeslagen hebben. Het ontbreken van gehele taken kwam <strong>voor</strong>al in de eerste<br />

periode van het onderzoek soms <strong>voor</strong>. In de analyses is hier rekening mee gehouden door de niet<br />

gemaakte taak buiten beschouwing te laten. Als kinderen incidenteel items overgeslagen hadden<br />

31


(gemiddeld 1% per afname), is het item fout gerekend. De analyses leverden uiteindelijk een itembank op<br />

waarin gegevens staan van 220 items: 10 die alleen in de eerste periode zijn afgenomen, 60 die alleen in<br />

de tweede periode zijn afgenomen en 150 die in beide perioden zijn afgenomen.<br />

Bij het beoordelen van de kwaliteit van de itembank is gelet op de modelpassing. Het programma waarmee<br />

het item respons model geschat is (Verhelst, Glas, en Verstralen, 1995) voert een aantal statistische<br />

toetsen uit op grond waarvan bepaald kan worden of het model een adequate beschrijving geeft van de<br />

data. Belangrijk zijn de zogenaamde itemgeoriënteerde S-toets en de overall R1c-toets. De S-toets is<br />

asymptotisch 2 verdeeld en is gebaseerd op de verschillen tussen de geobserveerde en verwachte<br />

proporties antwoorden in homogene scoregroepen. Een rechthoekige verdeling van p-waarden <strong>voor</strong> de<br />

S-toetsen in het interval [0,1] pleit <strong>voor</strong> passing van het model. De R1c-toets heeft dezelfde onderliggende<br />

rationale als de S-toets en wordt over het algemeen acceptabel bevonden indien de waarde van de<br />

toetsingsgrootheid niet groter is dan anderhalf keer het aantal vrijheidsgraden.<br />

De statistische toetsen lieten zien dat de prestaties van de kinderen op 202 items adequaat beschreven<br />

kunnen worden door het OPLM. Ten eerste bleek de verdeling van p-waarden <strong>voor</strong> de S-toetsen voldoende<br />

rechthoekig verdeeld 7 :<br />

0.--/---/---.1-----.2-----.3-----.4-----.5-----.6-----.7-----.8-----.9-----1<br />

11/ 10/ 13 25 23 23 16 16 15 21 11 17<br />

Ten tweede bleek de verhouding tussen de R1c-bijdrage en het aantal vrijheidsgraden acceptabel,<br />

R1c = 4618, df = 3130, p = .00. Bij 18 items was er sprake van ‘misfit’ of itembias. Er is op drie<br />

verschillende niveaus naar itembias gekeken. Ten eerste is een vergelijking gemaakt tussen de<br />

verschillende normgroepen, ten tweede tussen kinderen met al dan niet Nederlands als thuistaal en ten<br />

derde tussen jongens en meisjes. De 18 items met ernstige vormen van itembias of misfit zijn uit de<br />

itembank verwijderd. Het slagen van de kalibratie <strong>voor</strong> de overige 202 items betekent dat we met elke<br />

willekeurige selectie uit deze verzameling items de vaardigheid van een leerling kunnen schatten.<br />

De statistische toetsen wijzen op zichzelf al op heel wat evidentie <strong>voor</strong> de validiteit van het meetmodel.<br />

Het is daarnaast essentieel dat de itemparameters voldoende nauwkeurig geschat kunnen worden op basis<br />

van de beschikbare data. Het aantal waarnemingen per item varieert van 449 tot en met 1678, met een<br />

gemiddelde van 1022. Voor een model dat een hybride is tussen een 1- en een 2-parameter model lijkt de<br />

omvang van de steekproef meer dan voldoende (COTAN-richtlijn bij een 2-parametermodel: N > 400).<br />

Om de nauwkeurigheid van de itemparameterschattingen te boordelen kan de maat c gebruikt worden<br />

(Evers, Lucassen, Meijer & Sijtsma, 2010; p 40). Deze maat is als volgt gedefinieerd:<br />

c = SE( i) / SD()<br />

waarbij SE(i) de standaardfout van de schatting van de locatieparameters is (de enige parameter die<br />

geschat wordt in het OPLM) en waarbij SD() de standaarddeviatie van de vaardigheid in de totale<br />

kalibratiepopulatie is. Bij deze itembank zijn de volgende resultaten gevonden:<br />

gemiddeld minimaal maximaal<br />

c 0.032 0.015 0.111<br />

De nauwkeurigheid van de geschatte parameters is goed te noemen als we uitgaan van de criteria van<br />

Evers et al. (2010). Het gemiddelde ligt duidelijk onder 0.10 en de waarde van c is nergens groter dan 0.12.<br />

In paragraaf 4.3 over de normering van de uiteindelijke toetsen volgt meer over de eigenschappen van de<br />

items.<br />

7 Voor 1 item kon de S-toets niet uitgevoerd worden, omdat kinderen vergelijkbaar scoorden op dit item<br />

32


Over de representativiteit van de steekproef van kinderen is tot nog toe niet gesproken. De reden hier<strong>voor</strong><br />

is dat representativiteit geen noodzakelijke <strong>voor</strong>waarde is <strong>voor</strong> de ontwikkeling van een IRT gekalibreerde<br />

itembank. Binnen het raamwerk van de IRT zijn de itemparameterschattingen immers<br />

populatieonafhankelijk (zie ook paragraaf 2.4.2.2). De representativiteit van de steekproef ten opzichte van<br />

de populatie is wel van belang bij het schatten van de vaardigheidsverdelingen van de normgroepen.<br />

Daarom gaan we uitgebreid in op de representativiteit in de steekproef in de volgende paragraaf.<br />

4.3 Schatten van de vaardigheidsverdelingen van de normgroepen<br />

Nadat de itembank is gemaakt, kunnen we de vaardigheidsverdeling van de normgroepen schatten op de<br />

onderliggende meetschaal. In dit geval is dat een algemene rekenvaardigheidsschaal <strong>voor</strong> <strong>peuters</strong> en<br />

kleuters. Bij het schatten van vaardigheidsverdelingen is een representatieve steekproef wel noodzakelijk,<br />

omdat deze schattingen niet populatieonafhankelijk zijn. De schattingen zijn overigens wel<br />

itemonafhankelijk, waardoor het geen probleem is dat de kinderen niet allemaal dezelfde items hebben<br />

gemaakt.<br />

Voor de normering van de toetsen kunnen we gebruikmaken van de gegevens die we ook gebruikt hebben<br />

bij de ontwikkeling van de itembank. We konden echter niet alle kinderen meenemen. Ten eerste waren de<br />

gegevens van de leerlingen uit groep 1 en groep 2 niet relevant, omdat deze <strong>voor</strong> de vaardigheidsverdeling<br />

van de <strong>peuters</strong> geen informatie bevatten. Ten tweede bleek de kalibratiesteekproef niet helemaal<br />

representatief te zijn <strong>voor</strong> wat betreft regionale spreiding en mate van verstedelijking. Bij vrijwel alle<br />

afnamemomenten was er op deze variabelen sprake van een significant verschil tussen de verdeling van<br />

kinderen in de steekproef en de verdeling die op grond van de gegevens van DUO verwacht mocht worden<br />

in de populatie. Daarom is besloten om <strong>voor</strong> de normering een subsample uit de kalibratiesteekproef te<br />

trekken. Tabel 4.1 laat zien hoeveel kinderen meegenomen zijn tijdens de kalibratie en tijdens de<br />

normering, waarbij we de subgroepen van groep 1 en groep 2 buiten beschouwing laten.<br />

Tabel 4.1 Aantal kinderen dat meegenomen is <strong>voor</strong> de kalibratie en normering<br />

Schooljaar Afnamemoment Normgroep Kalibratie Normering<br />

2009/2010 Jan/feb <strong>peuters</strong> P1 en P2 722 626<br />

2008/2009 Mei/juni <strong>peuters</strong> P1 en P2 985 885<br />

2009/2010 Jan/feb groep 1 M1 784 0<br />

2008/2009 Mei/juni groep 1 E1 913 0<br />

2009/2010 Jan/feb groep 2 M2 1109 0<br />

2008/2009 Mei/juni groep 2 E2 1011 0<br />

Na de steekproeftrekking bleven er dus 1511 afnamegegevens over <strong>voor</strong> de normering van <strong>Rekenen</strong> <strong>voor</strong><br />

<strong>peuters</strong>. Dit aantal is ruim voldoende om een aparte normering te maken <strong>voor</strong> jongere (P1) en oudere (P2)<br />

<strong>peuters</strong>. De kinderen in de steekproef zaten op 52 verschillende locaties van kinderdagverblijven en<br />

<strong>peuters</strong>peelzalen in Nederland. De representativiteit van de subsample van kinderen is geëvalueerd in<br />

relatie tot de volgende achtergrondvariabelen: (1) regionale spreiding, (2) mate van verstedelijking, (3)<br />

sekse, (4) leeftijd en (5) thuistaal.<br />

33


Representativiteit naar regionale spreiding<br />

Eerst is gekeken naar de spreiding van kinderen over Nederland. Er is onderscheid gemaakt in vier regio’s.<br />

Regio Noord omvatte de provincies Groningen, Friesland en Drenthe; regio Oost de provincies Overijssel,<br />

Gelderland en Flevoland; regio West de provincies Utrecht, Noord-Holland, Zuid-Holland en Zeeland en<br />

regio Zuid de provincies Noord-Brabant en Limburg. De verdeling van kinderen in de populatie en onze<br />

steekproef naar regio staat in tabel 4.2. We zien dat de verdeling van kinderen over de vier regio’s in de<br />

steekproef grote gelijkenis vertoont met de verdeling van kinderen in de populatie. Statistisch gezien is er<br />

<strong>voor</strong> geen van de afnamemomenten een verschil tussen de aantallen kinderen per regio in onze steekproef<br />

en de aantallen kinderen die op grond van de gegevens van DUO in elke regio verwacht mogen worden:<br />

(P1) 2 = .068 ; df = 3; p = .995, (P2) 2 = 1.269 ; df = 3; p = .736. Er is met andere woorden geen evidentie<br />

dat de steekproef niet representatief is met betrekking tot de variabele regio.<br />

Tabel 4.2 Aantal en percentage kinderen in de populatie en de steekproef naar regio<br />

Regio P1 P2<br />

Aantal kinderen Percentage kinderen<br />

Populatie P1 P2<br />

Noord 82 77 10.3 10.5 10.5<br />

Oost 179 162 22.8 23.0 22.1<br />

West 361 333 46.6 46.3 45.5<br />

Zuid 157 160 20.3 20.2 21.9<br />

Totaal 779 732<br />

100.0 100.0 100.0<br />

Representativiteit naar mate van verstedelijking<br />

Vervolgens is de representativiteit van de steekproef beoordeeld in het licht van de achtergrondvariabele<br />

mate van verstedelijking. Er zijn twee groepen onderscheiden: (1) kinderen die afkomstig zijn uit een niet tot<br />

matig verstedelijkt gebied en (2) kinderen die afkomstig zijn uit een sterk tot zeer sterk verstedelijkt gebied.<br />

De verdeling van kinderen in de populatie en onze steekproef naar mate van verstelijking staat in tabel 4.3.<br />

De tabel laat een lichte oververtegenwoordiging van de niet tot matig verstedelijkte gebieden zien. De<br />

afwijkingen tussen de aantallen kinderen in onze steekproef en de aantallen kinderen die verwacht mogen<br />

worden op grond van de gegevens van DUO zijn echter <strong>voor</strong> geen van de afnamemomenten significant:<br />

(P1) 2 = 1.140 ; df = 1; p = .286, (P2) 2 = 1.161 ; df = 1; p = .281 . Er is met andere woorden geen<br />

evidentie dat de steekproef niet representatief is met betrekking tot de variabele mate van verstedelijking.<br />

Tabel 4.3 Aantal en percentage kinderen in de populatie en de steekproef naar mate van verstedelijking<br />

Verstedelijking P1 P2<br />

Aantal kinderen Percentage kinderen<br />

Populatie P1 P2<br />

Niet tot matig 457 430 56.8 58.7 58.7<br />

Sterk tot zeer sterk 322 302 43.2 41.3 41.3<br />

Totaal 779 732<br />

100.0 100.0 100.0<br />

34


Representativiteit naar sekse<br />

Na het vormen van een representatieve subsample van de steekproef met betrekking tot de variabelen<br />

regio en mate van verstedelijking is gekeken naar de verdeling van jongens en meisjes <strong>voor</strong> dit subsample.<br />

De verdeling van kinderen in de populatie en onze steekproef naar sekse staat in tabel 4.4. Volgens de<br />

gegevens van CBS zijn er ongeveer evenveel jongens als meisjes in de populatie, namelijk 50.9 procent<br />

jongens tegenover 49.1 procent meisjes. In onze steekproef blijkt het aantal jongens enigszins<br />

oververtegenwoordigd. Ook statistisch gezien wijken de aantallen jongens en meisjes in onze steekproef<br />

soms af van de aantallen die op grond van de gegevens van CBS verwacht mogen worden:<br />

(P1) 2 = 1.434 ; df = 1; p = .231, (P2) 2 = 5.464 ; df = 1; p = .019. Omdat de verdeling van jongens en<br />

meisjes in onze steekproef niet altijd representatief is <strong>voor</strong> de populatie is gekeken of jongens en meisjes<br />

verschillen in rekenvaardigheid. Analyses lieten zien dat er op geen van de normeringsmomenten sprake is<br />

van een significant verschil in rekenvaardigheid tussen jongens en meisjes; het gestandaardiseerde overall<br />

verschil () tussen jongens en meisjes is gelijk aan .049 (z = 1.529). Er is met andere woorden geen reden<br />

om bij de normering terug te wegen <strong>voor</strong> sekse.<br />

Tabel 4.4 Aantal en percentage kinderen in de populatie en de steekproef naar sekse<br />

Sekse P1 P2<br />

Aantal kinderen Percentage kinderen<br />

Populatie P1 P2<br />

Jongen 413 404 50.9 53.0 55.2<br />

Meisje 366 328 49.1 47.0 44.8<br />

Totaal 779 732<br />

100.0 100.0 100.0<br />

Representativiteit naar leeftijd<br />

Voor de normering is het van belang dat alle leeftijden behorende bij een jaargroep representatief<br />

vertegenwoordigd zijn, ook als de normering op basis van leeftijdsgroepen is. Het is namelijk niet wenselijk<br />

dat de leeftijd binnen de normgroep al te scheef verdeeld is. Dat zou bij<strong>voor</strong>beeld het geval zijn als de<br />

kinderen in normgroep P1 bijna allemaal 3 jaar en 5 maanden oud zijn. Tabel 4.5 laat <strong>voor</strong> beide<br />

normgroepen de verdeling van de leeftijden zien. We zien dat er in de steekproef kinderen hebben gezeten<br />

uit elke leeftijdscategorie. Gemiddeld zijn de kinderen in normgroep P1 3 jaar en een kleine 4 maanden<br />

oud. In normgroep P2 zijn de kinderen gemiddeld 3 jaar en 9 maanden oud.<br />

35


Tabel 4.5 Frequentie van de leeftijden per normgroep in de steekproef<br />

Leeftijd P1<br />

P2<br />

3.00 - 3.01 96 0<br />

3.01 - 3.02 111 0<br />

3.02 - 3.03 141 0<br />

3.03 - 3.04 96 0<br />

3.04 - 3.05 241 0<br />

3.05 - 3.06 94 0<br />

3.06 - 3.07 0 139<br />

3.07 - 3.08 0 180<br />

3.08 - 3.09 0 129<br />

3.09 - 3.10 0 155<br />

3.10 - 3.11 0 97<br />

3.11 - 4.00 0 32<br />

Totaal 779 732<br />

Representativiteit naar thuistaal<br />

Hoewel er op <strong>voor</strong>hand geen reden is om aan te nemen dat kinderen die thuis geen Nederlands spreken,<br />

zwakker presteren op het gebied van rekenen en wiskunde, is er ten behoeve van de normering informatie<br />

bij de deelnemende locaties opgevraagd over de taal die de kinderen thuis spreken. Er zijn aanvankelijk<br />

twaalf categorieën onderscheiden: (1) Nederlands, (2) Andere West-Europese taal, (3) Oost-Europese taal,<br />

(4) Nederlandse streektaal of Nederlands dialect, (5) Fries, (6) Turks, (7) Marokkaans, (8) Berbers, (9)<br />

Surinaams, (10) Hindoestaans, (11) Papiaments en (12) Overig. Op basis van deze indeling is in tweede<br />

instantie een indeling in twee categorieën gemaakt, namelijk in Nederlands en in Andere taal. Tabel 4.6<br />

geeft per afnamemoment de aantallen kinderen in onze steekproef naar thuistaal.<br />

Tabel 4.6 Aantal en percentage kinderen in de steekproef naar thuistaal<br />

Aantal kinderen<br />

Taal Populatie P1 P2<br />

36<br />

Percentage kinderen<br />

Populatie P1 P2<br />

NL - 410 510 ± 89 89.3 90.3<br />

AT - 49 55 ± 11 10.7 9.7<br />

Totaal - 459 565<br />

100.0 100.0 100.0<br />

Van een aanzienlijk deel van de kinderen hebben we geen gegevens van de kinderdagverblijven en<br />

<strong>peuters</strong>peelzalen over de thuistaal ontvangen (32 procent). Er is echter geen reden om aan te nemen dat<br />

de verdeling tussen Nederlands en in Andere taal in deze groep wezenlijk anders is. Over het geheel<br />

genomen zal dus rond de 10 procent van de kinderen in onze steekproef thuis een andere taal spreken dan<br />

het Nederlands. Deze verdeling lijkt voldoende in overeenstemming met de landelijke verdeling. Exacte<br />

gegevens over de landelijke verdeling <strong>voor</strong> deze doelpopulatie ontbreken echter. We baseren gegevens<br />

over de populatie daarom op een analyse van de populatie die in 2009 heeft deelgenomen aan de<br />

Eindtoets Basisonderwijs. Deze bracht een verdeling naar thuistaal van 89% (Nederlands) vs. 11% (niet-


Nederlands) aan het licht. Als we uitgaan van deze verdeling is er geen sprake van een siginifcant verschil<br />

tussen de verdeling van thuistaal in onze steekproef en de verdeling van thuistaal die we mogen<br />

verwachten in de populatie: (P1) 2 = 0.449 ; df = 1; p = .824, (P2) 2 = 0.336 ; df = 1; p = .924<br />

De analyses met betrekking tot de representativiteit van de steekproef geven aan dat de steekproef na de<br />

subsampling op regio en mate van verstedelijking voldoende representatief is <strong>voor</strong> de populatie. Op basis<br />

van de resultaten van de kinderen konden dus zonder problemen vaardigheidsverdelingen <strong>voor</strong> de<br />

normgroepen geschat worden. Zoals eerder aangegeven in paragraaf 2.4.2.2 zijn de verdelingen geschat<br />

met behulp van het computerprogramma SAUL.<br />

4.4 Normeren van de uiteindelijke toets<br />

Op basis van inhoudelijke criteria en gunstige psychometrische eigenschappen van de items is de toets<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> geconstrueerd uit de totale itembank <strong>voor</strong> <strong>peuters</strong> en kleuters. Over de inhoudelijke<br />

criteria die ten grondslag hebben gelegen aan de samenstelling van de toets is meer te vinden in hoofdstuk<br />

3. Voor wat betreft de psychometrische eigenschappen is de selectie van items zodanig geweest dat er<br />

geen sprake is van misfit, dat de items niet gebiased zijn <strong>voor</strong> sekse, thuistaal en jaargroep, en dat er <strong>voor</strong><br />

elk item voldoende waarnemingen zijn (N > 400).<br />

Doordat we de itemparameters kennen en een schatting hebben van de verdelingen van de vaardigheid in<br />

de verschillende normgroepen, kunnen we de eigenschappen van de geconstrueerde toetsen vaststellen<br />

<strong>voor</strong> deze normgroepen. Tabel 4.7 geeft van de p-waarden, rit-waarden en r ir-waarden het gemiddelde, de<br />

mediaan, het minimum, het maximum en de percentielen 10 en 90. Kijkend naar het gemiddelde en de<br />

mediaan van de p-waarden is te zien dat de items gemiddeld betrekkelijk gemakkelijk zijn <strong>voor</strong> de kinderen.<br />

Hier is bewust <strong>voor</strong> gekozen: over het algemeen wordt het als demotiverend gezien als kinderen veel items<br />

<strong>voor</strong>gelegd krijgen die aan de moeilijke kant zijn. Zeker bij <strong>peuters</strong> is de kans op frustratie aanzienlijk als<br />

items te moeilijk zijn.<br />

Bij de rit- en r ir-waarden valt op dat het gemiddelde en de mediaan duidelijk boven de 0.30 liggen. Dat duidt<br />

op goed onderscheidende items (zie Evers et.al., 2010, p. 40). De minimum en de maximum gevonden<br />

waarden van de ‘klassieke’ itemeigenschappen worden ook vermeld in tabel 4.7. Bij geen enkel item is de<br />

rit-waarde kleiner dan .20.<br />

Tabel 4.7 Itemeigenschappen toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

Eigenschap<br />

P1<br />

p r it r ir<br />

P2<br />

p r it r ir<br />

Gemiddelde 0.63 0.32 0.30 0.73 0.35 0.33<br />

Mediaan 0.62 0.31 0.29 0.72 0.32 0.30<br />

Minimum 0.33 0.23 0.20 0.43 0.25 0.23<br />

Maximum 0.87 0.46 0.44 0.93 0.48 0.46<br />

P10 0.47 0.24 0.22 0.57 0.27 0.24<br />

P90 0.82 0.42 0.41 0.90 0.45 0.43<br />

Naast de toetseigenschappen kon ook de definitieve normering worden vastgesteld. Tabel 4.8 geeft de<br />

gemiddelden en standaarddeviaties van de vaardigheidsverdelingen zoals geschat met behulp van SAUL.<br />

37


Tevens zijn in tabel 4.8 enkele percentielen opgenomen die gebruikt worden om kinderen te classificeren<br />

(zie de indeling in de groepen A tot en met E, paragraaf 2.3).<br />

Tabel 4.8 Kenmerken vaardigheidsverdelingen<br />

Moment<br />

N M SD P10 P25 P50 P75<br />

P1 779 41.23 9.22 29.39 34.99 41.22 47.45<br />

P2 732 49.10 10.99 35.01 41.68 49.10 56.51<br />

In figuur 4.3 worden de (cumulatieve) vaardigheidsverdelingen visueel weergegeven. We kunnen zien dat<br />

de gemiddelde vaardigheid van de kinderen toeneemt tussen de opeenvolgende metingen. Bovendien zijn<br />

de afstanden tussen de gegeven percentielen steeds tamelijk groot, wat betekent dat de toets bij driejarige<br />

<strong>peuters</strong> twee groepen kinderen kan onderscheiden die gemiddeld een half jaar in leeftijd verschillen.<br />

Figuur 4.3 Cumulatieve vaardigheidsverdelingen <strong>voor</strong> de normgroepen P1 en P2<br />

Cumulatieve frequentie<br />

1,00<br />

0,90<br />

0,80<br />

0,70<br />

0,60<br />

0,50<br />

0,40<br />

0,30<br />

0,20<br />

0,10<br />

0,00<br />

10 20 30 40 50 60 70 80<br />

Vaardigheidsscore<br />

Bij het schatten van de verdelingen is verondersteld dat de scores van de kinderen een normale verdeling<br />

volgen. Het is niet zeker of deze aanname verdedigbaar is. Daarom zijn twee controles uitgevoerd. Eerst is<br />

<strong>voor</strong> beide normeringscategorieën de mate van overeenstemming tussen de geobserveerde en de<br />

verwachte frequenties onderzocht. De resultaten lieten zien dat de scores van de kinderen op alle<br />

afnamemomenten redelijk goed beschreven kunnen worden door een normale verdeling. Figuur 4.4 geeft<br />

de vergelijking tussen de geobserveerde en verwachte frequenties op P1- en P2-moment visueel weer. De<br />

onregelmatige rode lijnen in figuur 4.4 zijn de frequentiepolygonen van de scores van alle kinderen die<br />

deelnamen aan het normeringsonderzoek. De vloeiende zwarte lijn is de <strong>voor</strong>spelling of verwachting van<br />

deze frequenties onder de veronderstelling van een normale verdeling. We zien dat de twee lijnen sterke<br />

gelijkenis vertonen.<br />

38<br />

P1<br />

P2


Figuur 4.4 Geobserveerde en verwachte cumulatieve frequentieverdeling <strong>voor</strong> P1 en P2<br />

cumulatieve frequentie<br />

1,00<br />

0,80<br />

0,60<br />

0,40<br />

0,20<br />

0,00<br />

-1,25 -0,75 -0,25 0,25 0,75<br />

Vervolgens is nagegaan hoe de normering uitpakt als we deze toepassen op de steekproef van kinderen<br />

die heeft deelgenomen aan het onderzoek. We zijn uitgegaan van de volgende niveaus:<br />

A score >= P75<br />

B P50 =< score < P75<br />

C P25 =< score < P50<br />

D P10 =< score < P25<br />

E score < P10<br />

Vaardigheidsscore<br />

We verwachten dus dat op grond van de hierboven gekozen indeling 25 procent van de kinderen niveau A<br />

scoort, 25 procent niveau B, 25 procent niveau C, 15 procent niveau D en 10 procent niveau E. Tabel 4.9<br />

laat zien dat deze verdeling in voldoende mate teruggevonden wordt. De aanname van een normale<br />

verdeling is dus verdedigbaar.<br />

Tabel 4.9 Aantal en percentage kinderen in de niveaus A tot en met E<br />

cumulatieve frequentie<br />

Aantal leerlingen in niveau A-E<br />

Moment N E D C B A<br />

39<br />

0,00<br />

-1,25 -0,75 -0,25 0,25 0,75<br />

% Leerlingen in niveau A-E<br />

E D C B A<br />

P1 779 76 148 220 126 209 10 19 28 16 27<br />

P2 732 97 97 219 152 167 13 13 30 21 23<br />

1,00<br />

0,80<br />

0,60<br />

0,40<br />

0,20<br />

Vaardigheidsscore


5 Betrouwbaarheid en meetnauwkeurigheid<br />

In hoofdstuk 4 is aangegeven dat elk kind dat deelgenomen heeft aan het onderzoek slechts een deel van<br />

de items gemaakt heeft die uiteindelijk in de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> opgenomen zijn.<br />

De betrouwbaarheid van de toets in klassieke zin is dan ook niet rechtstreeks te bepalen. Het is echter wel<br />

mogelijk om de betrouwbaarheid van de toets te schatten door gebruik te maken van het feit dat alle items<br />

die zijn opgenomen in de toetsen OPLM-geschaald zijn. Ook andere beschrijvende gegevens, zoals de<br />

gemiddelde score en de standaardmeetfout, zijn te schatten op grond van het feit dat de toets volledig<br />

bestaat uit OPLM-gekalibreerde items. Om relevante beschrijvende gegevens bij de toets te verkrijgen, is<br />

gebruikgemaakt van het programma OPTAL (Verstralen, 1997).<br />

In OPTAL wordt een door Verhelst, Glas en Verstralen (1995) ontwikkelde coëfficiënt berekend die qua<br />

interpretatie een grote overeenkomst vertoont met de betrouwbaarheidscoëfficiënt uit de klassieke<br />

testtheorie. Het begrip ware score is wat meer geëxpliciteerd, namelijk als de verwachte score op een<br />

(vaste) toets, maar dan gezien als functie van de latente variabele . Deze verwachte waarde duiden we<br />

aan met (). Als we bovendien weten hoe in de populatie verdeeld is, kunnen we ook het gemiddelde en<br />

de variantie van de ware scores in de populatie bepalen. De variantie van de ware scores in de populatie<br />

duiden we aan met het symbool Var(). Tussen en () bestaat een één-op-één relatie; de ene kan<br />

immers uit de andere berekend worden. Het is echter niet zo dat een persoon met vaardigheid per se de<br />

toetsscore () moet behalen (dat is alleen zo als de toets oneindig lang gemaakt wordt). De geobserveerde<br />

score bij een eenmalige afname zal dan ook een afwijking vertonen van de verwachte score, waardoor we<br />

met een eenmalige toetsafname niet meer zonder fout de waarde van kunnen bepalen. De variantie van<br />

de geobserveerde toetsscore duiden we aan met Var(t | ()). Door nu gebruik te maken van de distributie<br />

van in de populatie kunnen we ook de gemiddelde variantie van de geobserveerde toetsscores<br />

berekenen:<br />

Var(t) = E[Var(t | ( ))]<br />

Deze variantie kunnen we opvatten als de (gemiddelde) meetfoutvariantie in de metriek van de<br />

geobserveerde scores t. In analogie met de theorie over de betrouwbaarheid definiëren we dan<br />

Var( )<br />

MAcc=<br />

Var( ) + Var(t)<br />

waarin MAcc staat <strong>voor</strong> 'Accuracy of Measurement'.<br />

Tabel 5.1 bevat informatie over de meeteigenschappen van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong>. In de eerste<br />

kolom staan de leeftijdscategorieën. Daarna volgen de minimumscores en de maximumscores.<br />

De minimumscore is gelijk aan 0. De maximumscore is 36, gelijk aan het aantal opgaven dat deel uitmaakt<br />

van de totale toets. De tabel betreft namelijk de ruwe ongewogen scores, waarbij ieder goed antwoord<br />

1 punt oplevert. De vierde kolom geeft de geschatte gemiddelde scores van de kinderen op de toets per<br />

normgroep. De vijfde kolom betreft de geschatte standaarddeviatie van de scores van iedere normgroep.<br />

De zesde kolom bevat per normgroep informatie over de geschatte standaardmeetfout van de toets.<br />

De laatste kolom laat zien wat per normgroep de geschatte betrouwbaarheidscoëfficiënt (MAcc) van de<br />

toets is.<br />

De betrouwbaarheidscoëfficiënten liggen allemaal boven de 0.80. Aangezien de toetsen <strong>Rekenen</strong> <strong>voor</strong><br />

<strong>peuters</strong> bedoeld zijn <strong>voor</strong> <strong>voor</strong>tgangscontrole zijn de gevonden betrouwbaarheden goed te noemen<br />

(Evers et al., 2010).<br />

41


Tabel 5.1 Beschrijvende gegevens met ongewogen scores van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

Moment<br />

Min<br />

Max<br />

M<br />

42<br />

SD<br />

SE<br />

MAcc<br />

P1 0<br />

36 22.5 6.1 2.60 0.82<br />

P2 0 36 26.4 5.8 2.36 0.84<br />

De hier<strong>voor</strong> vermelde betrouwbaarheidscoëfficiënten hebben alleen betrekking op de globale<br />

meetnauwkeurigheid van de toets en geven geen beeld van de lokale meetnauwkeurigheid van de toets<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong>. De betrouwbaarheidstabellen 5.2a en 5.2b doen dat wel. Zo laat tabel 5.2a<br />

bij<strong>voor</strong>beeld zien dat 71.6 procent van de kinderen die volgens de P1-normering in scoregroep E vallen met<br />

hun geschatte vaardigheidsscore ook met hun werkelijke vaardigheidsscore in deze scoregroep vallen.<br />

Met andere woorden, de kans dat bij een kind terecht vaardigheidsniveau E gesignaleerd wordt, is iets<br />

meer dan 70 procent. Verder laat de tabel zien dat 25.6 procent van de kinderen in niveaugroep E een<br />

vaardigheidsscore heeft die in werkelijkheid in scoregroep D valt.<br />

Verdere gedetailleerde informatie over de meetnauwkeurigheid van de toetsen is te vinden in de<br />

handleiding van het toetspakket (Op den Kamp, 2010). In de schaalscoretabellen van bijlage 2 van die<br />

handleiding is een kolom opgenomen waarin het score-interval vermeld is. In deze kolom staat per<br />

normgroep <strong>voor</strong> iedere ruwe score de bijbehorende vaardigheidsschatting en het 68-procentsbetrouwbaarheidsinterval.<br />

Tabel 5.2a Betrouwbaarheidstabel op leeftijdsnormering P1<br />

Obs. niveau<br />

Ware niveau<br />

E<br />

D<br />

C<br />

B<br />

A<br />

Obs. niveau<br />

Ware niveau<br />

E 71.6 25.6 2.7 0.0 0.0 V 77.6 20.1 2.2 0.1 0.0<br />

D 17.0 51.0 29.7 2.3 0.0 IV 20.1 50.2 24.6 4.8 0.3<br />

C 1.1 17.9 54.9 23.9 2.2 III 2.1 25.0 43.5 25.2 4.1<br />

B 0.0 1.2 24.3 52.1 22.3 II 0.1 4.5 26.1 45.8 23.6<br />

A 0.0 0.0 1.9 22.7 75.4 I 0.0 0.2 3.7 24.2 72.0<br />

Tabel 5.2b Betrouwbaarheidstabel op leeftijdsnormeringsmoment P2<br />

Obs. niveau<br />

Ware niveau<br />

E<br />

D<br />

C<br />

B<br />

A<br />

Obs. niveau<br />

V<br />

IV<br />

Ware niveau<br />

E 76.0 22.3 1.6 0.0 0.0 V 79.9 18.2 1.8 0.1 0.0<br />

D 15.0 54.8 28.4 1.9 0.0 IV 18.4 52.0 24.2 5.1 0.4<br />

C 0.6 17.2 56.0 23.4 2.8 III 1.5 25.0 42.9 25.6 5.0<br />

B 0.0 1.0 24.2 50.9 23.9 II 0.1 4.6 26.5 44.0 24.8<br />

A 0.0 0.0 2.1 24.6 73.2 I 0.0 0.2 4.7 25.3 69.8<br />

V<br />

IV<br />

III<br />

III<br />

II<br />

II<br />

I<br />

I


Figuur 5.1 geeft nog eens grafisch weer hoe het gesteld is met de lokale meetnauwkeurigheid bij twee<br />

normgroepen van de toets. In dit figuur staat de grootte van de meetfout afgebeeld. Ook zijn de<br />

kansdichtheidsfuncties <strong>voor</strong> de normgroepen bij de verschillende leeftijdscategorieën opgenomen. Deze<br />

laten zien hoe de vaardigheid van de kinderen verdeeld is over de vaardigheidsschaal in de populatie die<br />

de toets gemaakt heeft. De figuren maken duidelijk dat de meetfout kleiner is in de lagere en gemiddelde<br />

vaardigheidsregionen dan in de hogere vaardigheidsregionen. Dit is bij de toetsconstructie ook nagestreefd.<br />

Een toets kan immers niet over het hele scorebereik dezelfde optimale nauwkeurigheid hebben. Door<br />

rekening te houden met itemkarakteristieken (moeilijkheidsgraad) is het discriminerend vermogen van de<br />

toetsen optimaal gemaakt in de vaardigheidsregionen waar dit het belangrijkste is, namelijk daar waar de<br />

zwakkere van de gemiddelde kinderen moeten worden onderscheiden. Dit sluit goed aan bij het doel van<br />

de toetsen, namelijk het vaststellen van het niveau van rekenvaardigheid en het signaleren van eventuele<br />

achterstanden. Veruit de meeste kinderen die de toets maken, hebben een vaardigheid waarbij de toets<br />

een lage standaardmeetfout heeft.<br />

Figuur 5.1 Meetnauwkeurigheid van de -toets <strong>voor</strong> de P1- en P2- populatie<br />

Standaardmeetfout<br />

Kansdichtheid x 1000<br />

50<br />

45<br />

40<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

0 20 40 60 80 100<br />

Schaalscore<br />

43<br />

SE toets <strong>peuters</strong><br />

Verdeling P1<br />

Verdeling P2


6 Validiteit<br />

De twee eisen waar de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> aan moet voldoen om valide te zijn kunnen aangeduid<br />

worden met de termen inhoudsvaliditeit en begripsvaliditeit. De inhoudsvaliditeit van een toets heeft<br />

betrekking op de vraag in hoeverre de items in een toets een welomschreven en afgebakend universum<br />

representeren van mogelijk in de toets op te nemen items. De begripsvaliditeit van een toets heeft<br />

betrekking op de vraag in hoeverre de toetsscores toe te schrijven zijn aan verklarende concepten en<br />

constructen die deel uitmaken van het theoretische kader dat aan de ontwikkeling van de toets ten<br />

grondslag ligt. Aangezien het beschrijven van het niveau van de vaardigheid van een kind het doel van de<br />

toets is, en niet het <strong>voor</strong>spellen van ander gedrag, is criteriumvaliditeit hier niet relevant.<br />

6.1 Inhoudsvaliditeit<br />

Zoals gesteld, heeft de inhoudsvaliditeit van een toets betrekking op de vraag in hoeverre de items in een<br />

toets een welomschreven en afgebakend universum representeren van mogelijk in de toets op te nemen<br />

items. De inhoudsvaliditeit van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> wordt gewaarborgd door de wijze waarop de<br />

items ontwikkeld zijn. In paragraaf 3.2 (inhoudsverantwoording) is al aangegeven dat aan de ontwikkeling<br />

van de items het vaststellen van een domeinbeschrijving is <strong>voor</strong>afgegaan. Als domeinbeschrijving hebben<br />

we de doelen rekenen (SLO, 2011) gehanteerd, waarmee de doelen de basis vormden <strong>voor</strong> de<br />

itemconstructie. De toetsen zijn zodanig samengesteld dat de relevante doelen en subcategorieën erin<br />

evenredig vertegenwoordigd zijn. Een verdere inhoudelijke analyse van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

staat in paragraaf 3.2 van deze verantwoording.<br />

6.2 Begripsvaliditeit<br />

De begripsvaliditeit van een toets heeft betrekking op de vraag in hoeverre de toetsscores toe te schrijven<br />

zijn aan verklarende concepten en constructen die deel uitmaken van het theoretische kader dat aan de<br />

ontwikkeling van de toets ten grondslag ligt. Hieronder worden vier aanwijzingen <strong>voor</strong> de begripsvaliditeit<br />

van de toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> gegeven.<br />

Passing van het meetmodel<br />

De rekenitems die <strong>voor</strong> de <strong>peuters</strong> en kleuters geconstrueerd werden, zijn op basis van IRT-analyses op<br />

dezelfde meetschaal geplaatst. Items die niet voldeden aan de passingscriteria die we beschreven in<br />

paragraaf 2.4.2.2 zijn uit de verzameling verwijderd. Het ging om items waarop waarschijnlijk werd gegokt,<br />

om items die een slecht onderscheidend vermogen bleken te hebben, of om items die ook nog iets anders<br />

dan alleen rekenvaardigheid bleken te meten (DIF). Zoals eerder aangegeven is er op drie niveaus naar<br />

DIF gekeken. Ten eerste is een vergelijking gemaakt tussen de verschillende normgroepen, ten tweede<br />

tussen kinderen met al dan niet Nederlands als thuistaal en ten derde tussen jongens en meisjes. Bij 18<br />

van de 220 items was er sprake van ‘misfit’ of DIF. Deze items zijn uit de meetschaal gehaald. De<br />

overgebleven items voldeden aan de aannamen van het OPLM. Dit is een goede waarborg <strong>voor</strong> de<br />

begripsvaliditeit, omdat er evidentie is <strong>voor</strong> de aanname dat één en dezelfde vaardigheid ten grondslag ligt<br />

aan de responsen op de items (Embretson, 1983). Kalibratie-analyse als puur formeel proces laat echter<br />

geen uitspraken toe over de validiteit als antwoord op de vraag: hoe kan worden aangetoond dat het<br />

concept dat de toets beoogt te meten, samenvalt met het construct ‘rekenvaardigheid’ zoals dat in het<br />

didactisch en het wetenschappelijk forum wordt bedoeld. In combinatie met de inhoudelijke waarborgen uit<br />

de eerdere hoofdstukken lijkt deze aanname evenwel zonder meer verdedigbaar.<br />

45


Equivalentie met eerdere toetsen<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> kan gezien worden als de vervanger van Ordenen en Ruimte (Van Kuyk, 2000).<br />

Ten behoeve van de verantwoording van deze toetsen zijn al eerder studies uitgevoerd en gerapporteerd<br />

(Van Kuyk & Kamphuis, 2006). De betreffende toetsen zijn destijds door de COTAN op de meeste criteria<br />

als goed beoordeeld. Op het criterium ‘begripsvaliditeit’ kregen de toetsen het oordeel voldoende. Door<br />

<strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> te correleren met de oude toetsen kan nagegaan worden in hoeverre we met de<br />

nieuwe toets dezelfde vaardigheid meten als met de oude toetsen. Aangezien bij de oude toetsen<br />

voldoende is aangetoond dat deze aspecten van de rekenvaardigheid bij <strong>peuters</strong> meten, mag aangenomen<br />

worden dat <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> bij een hoge correlatie met de oude toetsen ook rekenvaardigheid bij<br />

<strong>peuters</strong> meet.<br />

Voor het onderzoek naar de relatie tussen de oude toetsen en de nieuwe toets heeft een deel van de<br />

kinderen tijdens deel 1 van het onderzoek naast nieuwe items ook oude items gemaakt. Op deze manier<br />

kan eenvoudig de samenhang tussen de verschillende sets met items bepaald worden. De latente<br />

correlatie tussen <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> en Ordenen bleek gelijk te zijn aan 0.99. De latente correlatie<br />

tussen <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> en Ruimte was gelijk aan 0.93. De correlaties zijn bijzonder hoog. Er is dus<br />

geen enkele reden om aan te nemen dat de we met de nieuwe itembank een andere vaardigheid meten<br />

dan met de twee oude itembanken.<br />

Om nog preciezer zicht te krijgen op de samenhang tussen de verschillende items zijn naast overall<br />

correlaties ook correlaties uitgerekend tussen een aantal inhoudelijke categorieën. De verschillende<br />

itembanken zijn in te delen in de volgende inhoudelijke categorieën:<br />

Ordenen<br />

Classificeren (or.1)<br />

Grootte (or.3)<br />

Kleur (or.4)<br />

Productieve opdrachten (or.5)<br />

Tellen (or.7)<br />

Vergelijken (or.8)<br />

Vorm (or.9)<br />

Oude toetsen (2000) Nieuwe toets (2010)<br />

Ruimte<br />

Houdingen & bewegingen (rt.1)<br />

Lichaamsdelen (rt.2)<br />

Positie in de ruimte (rt.3)<br />

Productieve opdrachten (rt.4)<br />

Richting en afstand in de ruimte (rt.5)<br />

46<br />

<strong>Rekenen</strong><br />

Getalbegrip (rk.1)<br />

Meetkunde (rk.2)<br />

Meten (rk.3)<br />

In tabel 6.1 en 6.2 zijn de latente correlaties weergegeven. We zien dat de correlaties bijzonder hoog zijn.<br />

De enige uitzondering hierop zijn de categorieën kleur (uit Ordenen) en lichaamsdelen (uit Ruimte & Tijd)<br />

(onderstreept). Om deze reden zijn deze categorieën dan ook niet in <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> opgenomen,<br />

maar in aanvullende toetsen die leidsters naar eigen inzicht kunnen inzetten ter controle van de kennis van<br />

kleuren en lichaamsdelen. Voor de overige categorieën geldt dat er geen redenen zijn om te<br />

veronderstellen dat er verschillende vaardigheden gemeten worden. De keuze om de oude itembanken<br />

<strong>voor</strong> Ordenen en Ruimte te vervangen door een nieuwe itembank <strong>voor</strong> <strong>Rekenen</strong> is dan ook zonder meer<br />

verdedigbaar.


Tabel 6.1 Correlaties tussen de ‘nieuwe’ categorieën <strong>Rekenen</strong> en de ‘oude’ categorieën Ruimte<br />

rk.1<br />

rk.2<br />

rk.3<br />

rt.1<br />

rk.1 1.00<br />

rk.2 0.88 1.00<br />

rk.3 0.91 0.90 1.00<br />

rt.1 0.86 0.95 0.91 1.00<br />

rt.2 0.65 0.73 0.67 0.75 1.00<br />

rt.3 0.82 0.97 0.86 0.95 0.76 1.00<br />

rt.4 0.92 0.90 0.91 0.86 0.68 0.84 1.00<br />

rt.5 0.87 0.97 0.90 0.97 0.71 0.97 0.87 1.00<br />

rt.2<br />

rt.3<br />

Merk op dat er bij <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> bij de afzonderlijke categorieën niet gerapporteerd wordt op het<br />

niveau van vaardigheidsscores en vaardigheidsniveaus. De informatie in tabel 6.1 en tabel 6.2 wordt dan<br />

ook alleen gegeven om duidelijk te maken dat de verschillende categorieën een beroep doen op dezelfde<br />

onderliggende vaardigheid. Wel kunnen leidsters een categorieënoverzicht maken of (met behulp van het<br />

Computerprogramma LOVS) een categorieënanalyse.<br />

Tabel 6.2 Correlaties tussen de ‘nieuwe’ categorieën <strong>Rekenen</strong> en de ‘oude’ categorieën Ordenen<br />

rk.1<br />

rk.2<br />

rk.3<br />

or.1<br />

or.3<br />

rk.1 1.00<br />

rk.2 0.88 1.00<br />

rk.3 0.91 0.90 1.00<br />

or.1 0.86 0.89 0.85 1.00<br />

or.3 0.91 0.89 0.99 0.83 1.00<br />

or.4 0.78 0.77 0.76 0.85 0.74 1.00<br />

or.5 0.82 0.91 0.87 0.81 0.85 0.72 1.00<br />

or.7 0.99 0.86 0.88 0.84 0.88 0.75 0.79 1.00<br />

or.8 0.94 0.86 0.94 0.83 0.93 0.72 0.81 0.91 1.00<br />

or.9 0.86 0.96 0.86 0.89 0.85 0.77 0.78 0.84 0.83 1.00<br />

or.4<br />

Inter-item-correlaties<br />

Naast de correlatie tussen de vaardigheden zoals gemeten met de items uit de inhoudelijke categorieën<br />

kan ook op itemniveau naar de samenhang binnen de toets gekeken worden. Doordat er gewerkt is met<br />

een structureel onvolledig afnamedesign (zie hoofdstuk 3) zijn echter niet alle correlaties tussen de items<br />

bekend. Daarom is gekeken naar de gemiddelde inter-item-correlatie van items binnen categorieën en over<br />

categorieën heen.<br />

In tabel 6.3 staan <strong>voor</strong> de drie categorieën die bij <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> onderscheiden worden de<br />

gemiddelde inter-item-correlaties. Uiteraard zijn bij de inter-item-correlaties binnen een categorie de<br />

correlaties van het item met zichzelf niet meegenomen. De grootte van bijna alle tussen-categoriecorrelaties<br />

ligt in een beperkte range van waarden, namelijk tussen 0.21 en 0.30 . Dit duidt op een redelijke<br />

interne samenhang waarbij een duidelijke opdeling van deelvaardigheden niet zinvol lijkt. De binnencategorie-correlaties<br />

zijn over het algemeen wel iets hoger dan de tussen-categorie-correlaties, maar het<br />

verschil is verwaarloosbaar.<br />

47<br />

rt.4<br />

or.5<br />

rt.5<br />

or.7<br />

or.8<br />

or.9


Tabel 6.3 Gemiddelde inter-item-correlaties in de toets<br />

Categorie<br />

rk.1<br />

rk.2<br />

rk.3<br />

rk.1 0.30 0.21 0.23<br />

rk.2 0.21 0.21 0.22<br />

rk.3 0.23 0.22 0.25<br />

Doordat de data verzameld zijn met een onvolledig design en we daarom niet alle inter-item-correlaties<br />

kennen, is het toepassen van een factoranalyse lastig. Een factoranalyse door middel van het<br />

minimaliseren van de residuen (MinRes; Harman & Jones, 1966) is wel mogelijk bij onvolledige designs,<br />

maar levert niet altijd stabiele resultaten op, met name in het geval van zo genoemde ‘Heywood cases’<br />

(Harman & Fukuda, 1966). Dit laatste bleek het geval te zijn bij <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong>.<br />

Longitudinale vaardigheidstoename<br />

Wat men zou mogen verwachten in de rekenvaardigheid van <strong>peuters</strong> is dat deze toeneemt naarmate de<br />

kinderen ouder worden. De vaardigheid zou dus toe moeten nemen tussen de leeftijdscategorie (P1) en de<br />

leeftijdscategorie (P2). In tabel 6.4 zijn de gemiddelden van de geschatte vaardigheid gegeven <strong>voor</strong> de<br />

twee leeftijdscategorieën, evenals de standaarddeviaties. De gemiddelde vaardigheid blijkt van afname tot<br />

afname duidelijk toe te nemen; de effectgrootte is gelijk aan .780.<br />

Tabel 6.4 Vaardigheidsverdelingen <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong><br />

Normeringsmoment Gemiddelde vaardigheid Standaarddeviatie<br />

P1 41.23 9.22<br />

P2 49.10 10.99<br />

Op basis van bovenstaande analyses kan het volgende geconcludeerd worden:<br />

– Met de nieuwe itembank en de daaruit <strong>voor</strong>tkomende toets meten we in voldoende mate één<br />

vaardigheid. We kunnen dus spreken van één onderliggende meetschaal en mogen één totaalscore<br />

rapporteren.<br />

– Met de nieuwe toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> (2010) meten we dezelfde vaardigheid als eerder met de<br />

toetsen Ordenen en Ruimte (2000).<br />

– Items die inhoudelijk op elkaar lijken, hangen onderling iets sterker samen, maar over het algemeen<br />

niet veel hoger dan over de categorieën heen.<br />

– Met <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> zijn we in staat om veranderingen in de rekenvaardigheid te meten.<br />

48


7 Samenvatting<br />

In hoofdstuk 2 en 3 zijn de uitgangspunten bij de toetsconstructie beschreven. De opgaven van de toets zijn<br />

een operationalisering van de rekendoelen <strong>voor</strong> jonge kinderen, zoals opgesteld door SLO (2011).<br />

De functie van deze doelen is om het inhoudelijk repertoire van pedagogisch medewerkers, leidsters en<br />

leerkrachten te vergroten en te versterken. Daardoor kunnen zij op een inhoudelijk verantwoorde manier<br />

een rekenaanbod verzorgen <strong>voor</strong> alle jonge kinderen. Het feit dat in de operationalisatie van de toets en in<br />

de individuele aanpak in een groep dezelfde doelen worden gehanteerd, draagt ertoe bij dat het<br />

signaleringsmiddel en de aanpak in het onderwijs prima bij elkaar (kunnen) aansluiten.<br />

Het doel van de toets is het vaststellen van de rekenvaardigheid van individuele kinderen en het volgen<br />

ervan. Dit is een belangrijke <strong>voor</strong>waarde om een individuele aanpak mogelijk te maken.<br />

In hoofdstuk 4 is ingegaan op het kalibratie- en normeringsonderzoek. De onderzoeken zijn uitgevoerd<br />

binnen het raamwerk van de item respons theorie. Op basis van inhoudelijke criteria en gunstige<br />

psychometrische eigenschappen van de items is een toets geconstrueerd uit de totale itembank die te<br />

gebruiken is <strong>voor</strong> jongere (P1) en oudere (P2) <strong>peuters</strong>. De toetseigenschappen blijken goed te passen bij<br />

de doelgroep en het doel van de toets. Het discriminerend vermogen van de items is goed te noemen. De<br />

analyses rondom de representativiteit van de steekproef wijzen uit dat de steekproef <strong>voor</strong> wat betreft de<br />

variabelen leeftijd, geslacht, etniciteit, regio en mate van verstedelijking voldoende representatief was <strong>voor</strong><br />

de populatie. De gehanteerde constructie- en kalibratieprocedures enerzijds en de representativiteit van de<br />

normeringssteekproef anderzijds geven de toetsgebruiker voldoende aanwijzingen dat hij er op kan<br />

vertrouwen dat het individuele kind in de toepassing van de normtabellen recht wordt gedaan bij het<br />

vaststellen van zijn relatieve vaardigheidsniveau.<br />

In hoofdstuk 5 is ingegaan op de betrouwbaarheid van <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong>. De betrouwbaarheid ligt<br />

zowel <strong>voor</strong> jonge (P1) als oudere (P2) <strong>peuters</strong> boven de .80. Aangezien de toets bedoeld is <strong>voor</strong><br />

<strong>voor</strong>tgangscontrole en niet ter onderbouwing van belangrijke beslissingen zijn de gevonden<br />

betrouwbaarheden goed te noemen. Ook de lokale betrouwbaarheid bleek goed aan te sluiten bij het doel<br />

van de toets. De lokale betrouwbaarheid bleek het hoogst in de lagere en gemiddelde scoreregionen en<br />

nam wat af in de hogere scoreregionen. Dit betekent dat we met de toetsen <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> het<br />

relatieve niveau adequaat kunnen vaststellen en dat de toets sensitief genoeg is om eventuele<br />

achterstanden op kunnen sporen.<br />

Over de validiteit werd in hoofdstuk 6 gerapporteerd. De toets <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> sluit nauw aan bij het<br />

doel en de inhoud van het rekenaanbod in peutergroepen op kinderdagverblijven en <strong>peuters</strong>peelzalen. Voor<br />

wat betreft de rekenontwikkeling en de ontwikkeling tot ontluikende gecijferdheid van <strong>peuters</strong> dekt <strong>Rekenen</strong><br />

<strong>voor</strong> <strong>peuters</strong> de doelen (SLO, 2011). Aanvullende analyses lieten bovendien zien dat de items in de toets<br />

een beroep doen op dezelfde onderliggende vaardigheid, dat de items niet gebiased zijn <strong>voor</strong> sekse,<br />

thuistaal en jaargroep, en dat de toets in staat is om veranderingen in rekenvaardigheid te meten. Tot slot<br />

bleek de toets sterk samen te hangen met een tweetal toetsen die hetzelfde construct pretenderen te<br />

meten. De latente correlatie tussen <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> en Ordenen is gelijk aan .99 en de correlatie<br />

tussen <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong> en Ruimte is gelijk aan .93. De correlaties met andere aspecten van de<br />

ontwikkeling die minder duidelijk aan rekenvaardigheid gerelateerd zijn (en om die reden ook buiten de<br />

toets zijn gehouden) zijn duidelijk lager (< .80). Ook de resultaten met betrekking tot de convergente en<br />

divergente validiteit zijn dus bevredigend.<br />

49


8 Literatuur<br />

Bügel, K. & Sanders, P.F. (1998). Richtlijnen <strong>voor</strong> de ontwikkeling van onpartijdige toetsen. Arnhem:<br />

Cito.<br />

Cito (z.j.). Computerprogramma LOVS. Arnhem: Cito.<br />

Cito (z.j.). Handleiding Computerprogramma LOVS. Arnhem: Cito.<br />

Eggen, T.J.H.M., (1993). Itemresponstheorie en onvolledige gegevens. In: T.J.H.M. Eggen & P.F.<br />

Sanders (red.). Psychometrie in de praktijk. (pp. 239-284). Arnhem: Cito.<br />

Embretson, S.E. (1983). Construct representation and nomothetic span. Psychological Bulletin, 93,<br />

179-179.<br />

Evers, A., Lucassen, W., Meijer, R. & Sijtsma, K. (2010). COTAN Beoordelingssysteem <strong>voor</strong> de<br />

kwaliteit van tests. Amsterdam, NIP/COTAN.<br />

Gelderblom, G. (2008). Naar effectief rekenonderwijs. Didactief nr. 8, oktober 2008.<br />

Glas, C.A.W. & Verhelst, N.D., (1993). Een overzicht van itemresponsmodellen. In: T.J.H.M. Eggen &<br />

P.F. Sanders (red.). Psychometrie in de praktijk. (pp. 179-238). Arnhem: Cito.<br />

Greven, J. & Letschert, J.F.M. (2006). Kerndoelen primair onderwijs. Den Haag: Ministerie van<br />

Onderwijs, Cultuur en Wetenschap.<br />

Groenestijn, M. van (2010). Openbare les ‘Op weg naar gecijferdheid’. Hardinxveld-Giessendam:<br />

Grafisch Bedrijf Tuijtel.<br />

Hambleton, R.K., Swaminathan, H. & Rogers, H.J. (1991). Fundamentals of Item response Theory.<br />

Newbury Park, CA: Sage.<br />

Harman, H.H., & Jones, W.H. (1966). Factor analysis by minimizing residuals (minres). Psychometrika,<br />

31, 351-368.<br />

Harman, H.H., & Fukuda, Y. (1966). Resolution of the heywood case in the minres solution.<br />

Psychometrika, 31, 563-571.<br />

Heuvel-Panhuizen, M. van den & Buys, K. Tal-team (2004). Jonge kinderen leren meten en<br />

meetkunde. Groningen: Wolters-Noordhoff.<br />

Hoenisch, N. & Niggemeyer, E. (2008). Mathekings. Jonge kinderen aan de slag met wiskunde.<br />

Amsterdam: B.V. Uitgeverij SWP.<br />

Kamp, M. op den (2010). <strong>Rekenen</strong> <strong>voor</strong> <strong>peuters</strong>. Arnhem: Cito.<br />

Koerhuis, I. (2010). <strong>Rekenen</strong> <strong>voor</strong> kleuters. Arnhem: Cito.<br />

Kohnstamm, R. (2002). Kleine ontwikkelingspsychologie. Deel 1 Het jonge kind. Houten/Diegem: Bohn<br />

Stafleu Van Loghum.<br />

51


Kolen, M.J. & Brennan, R.L. (1995). Test equating: Methods and practices. New York: Springer-Verlag.<br />

Kuyk, J.J. van (1996). Ordenen. Arnhem: Cito.<br />

Kuyk, J.J. van (1996). Ruimte en Tijd. Arnhem: Cito.<br />

Kuyk, J.J. van & Kamphuis, F. (2006). Verantwoording van de toetsen Ruimte, Taal en Ordenen van<br />

het Peutervolgsysteem. Arnhem: Citogroep.<br />

Kuyk, J.J. van (2000). Peutervolgsysteem. Arnhem: Cito.<br />

Kuyk, J.J. van (2003). Piramide-boek 02, hoofdstuk 19. Arnhem: Citogroep.<br />

Kuyk, J.J. van (2005). Hulpprogramma Peutervolgsysteem. Arnhem: Cito.<br />

Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-<br />

Wesley.<br />

Luit, J.E.H. van (2009). De ontwikkeling van tellen en getalbegrip bij kleuters. Utrecht: Projectbureau<br />

Kwaliteit PO Raad.<br />

Noteboom, A. en J. Klep (2005). Als kleuters leren tellen; peilen en stimuleren van getalbegrip bij jonge<br />

kinderen. Enschede: SLO.<br />

Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen,<br />

Denmark: Nielsen & Lydiche.<br />

Singer, E. & Klerekoper, L. (2009). Pedagogisch kader kindercentra 0-4 jaar. Maarssen: Elsevier<br />

gezondheidszorg.<br />

SLO, Projectgroep Jonge Kind (2011). Ontwikkeling van jonge kinderen van 2-7 jaar:<br />

Rekenontwikkeling. Enschede: SLO.<br />

SOM Onderwijsadviseurs (2008). Spelend rekenen met <strong>peuters</strong> en kleuters. Drunen: Delubas.<br />

Treffers, A., Heuvel-Panhuizen, M. van den & Buys, K. Tal-team (1999). Jonge kinderen leren rekenen.<br />

Groningen: Wolters-Noordhoff.<br />

Verhelst, N.D., & Glas, C.A.W. (1995). The one-parameter logistic model. In: G.H. Fischer & I.W.<br />

Molenaar (Eds.), Rasch models. Foundations, recent developments, and applications. New York:<br />

Springer-Verlag.<br />

Verhelst, N.D., & Verstralen, H.H.F.M. (2002). Structural Analysis of a Univariate Latent Variable:<br />

Theory and a Computer Program. Arnhem: Cito.<br />

Verhelst N.D., Glas, C.A.W., & Verstralen, H.H.F.M. (1995). OPLM: Computer program and manual.<br />

Arnhem: Cito.<br />

Verhelst, N.D. (1992). Het één parameter model (OPLM). Een theoretische inleiding en een<br />

handleiding bij het computerprogramma. Arnhem: Cito.<br />

Verhelst, N.D. (1993). Itemresponstheorie. In: T.J.H.M. Eggen & P.F. Sanders (red.). Psychometrie in<br />

de praktijk. (pp. 83-178). Arnhem: Cito.<br />

52


Verhelst, N.D. & Kleintjes, F.G.M. (1993). Toepassingen van itemresponsetheorie. In: T.J.H.M. Eggen<br />

en P.F. Sanders (Red.). Psychometrie in de praktijk. Arnhem: Cito.<br />

Verhelst, N.D., Verstralen, H.H.F.M., & Eggen, T.H.J.M. (1991). Finding starting values for the item<br />

parameters and suitable discrimination indices in the one-parameter logistic model. Measurement and<br />

Research Department Reports 91-10. Arnhem: Cito.<br />

Verhelst, N. D. & Verstralen, H. H. F. M. (2002). Structural analysis of a univariate latent variable<br />

(SAUL): Theory and a computer program. Arnhem: Cito.<br />

Verstralen, H.H.F.M. (1997). OPTAL: Inverse OPLAT and item and test characteristics in populations.<br />

Arnhem, The Netherlands: Cito.<br />

Websites<br />

http://www.minocw.nl/kerndoelen/index.html<br />

http://tule.slo.nl<br />

http://www.fi.uu.nl<br />

53


Bijlage 1 Profielanalyse met IRT, Norman Verhelst<br />

Profielanalyse met Item Respons Theorie<br />

Norman Verhelst<br />

Cito, maart 2007<br />

1


© Stichting Cito Instituut <strong>voor</strong> Toetsontwikkeling Arnhem (2007)<br />

Niets uit dit werk mag zonder <strong>voor</strong>afgaande schriftelijke toestemming van Stichting Cito<br />

Instituut <strong>voor</strong> Toetsontwikkeling worden openbaar gemaakt en/of verveelvoudigd door<br />

middel van druk, fotografie, scanning, computersoftware of andere elektronische<br />

verveelvoudiging of openbaarmaking, microfilm, geluidskopie, film- of videokopie of op<br />

welke wijze dan ook.<br />

2


Inleiding<br />

In een aantal projecten binnen Cito is het de gewoonte toetsgegevens te analyseren met een<br />

unidimensionaal IRT model, zoals het Raschmodel of OPLM. In het PPON project is de<br />

inhoudelijke bepaling van de verzameling items die aldus wordt geanalyseerd vrij beperkt.<br />

In andere toepassingen, bij<strong>voor</strong>beeld het LVS, wordt een soortgelijk model toegepast op een<br />

inhoudelijk veel breder domein van items. In het domein <strong>Rekenen</strong>-Wiskunde bij<strong>voor</strong>beeld,<br />

worden aan het eind van het basisonderwijs 24 verschillende schalen onderscheiden binnen<br />

PPON, terwijl in het LVS gestreefd wordt om alle onderdelen uit het domein op een enkele<br />

schaal onder te brengen.<br />

Deze op het eerste gezicht niet consistente aanpak heeft praktische en historische redenen die<br />

hier niet aan de orde zullen worden gesteld; wat ons hier zal bezighouden is de vraag of en in<br />

welke mate twee zo duidelijk verschillende wijzen van analyseren psychometrisch kunnen<br />

worden verantwoord.<br />

Het probleem wordt aangepakt vanuit een praktische vraagstelling: indien we de items uit een<br />

breed domein indelen in een aantal (inhoudelijk of op anderszins zinvolle manier bepaalde)<br />

categorieën, welk nut en welke zin heeft het bestuderen van de deelscores op deze onderdelen<br />

als we het hele domein als een unidimensionale verzameling beschouwen. Een rijtje<br />

deelscores uit de verschillende subdomeinen wordt een profiel genoemd, vandaar de titel van<br />

dit rapport.<br />

Het rapport bestaat essentieel uit twee delen. In het eerste deel wordt beargumenteerd in<br />

welke zin het bestuderen van profielen zinvol is bij het gebruik van een unidimensionaal<br />

model. In het tweede deel wordt nader ingegaan op de technische uitwerking van zo’n<br />

profielanalyse. Dit gedeelte wordt dan meteen ook geïllustreerd met <strong>voor</strong>beelden uit de<br />

Citopraktijk.<br />

Functie van de profielanalyse<br />

Men zou het volgende standpunt kunnen innemen: indien alle items uit een breed domein<br />

inderdaad een enkele latente dimensie aanspreken (een enkel concept) en we zijn in staat<br />

nauwkeurig te specificeren op welke wijze dit ‘aanspreken’ moet worden begrepen, dan heeft<br />

het bestuderen van profielen weinig of geen zin.We kunnen dan immers de positie van een<br />

leerling op het latente continuum (met een gekende nauwkeurigheid) bepalen aan de hand van<br />

antwoorden op een willekeurige deelverzameling van items uit het brede domein, waarbij<br />

moet worden aangetekend dat de graad van nauwkeurigheid afhangt van welke items men<br />

kiest – en meer in het bijzonder van het aantal items dat men kiest. Om concreet te maken wat<br />

hier precies wordt bedoeld, lichten we het <strong>voor</strong>gaande toe met een <strong>voor</strong>beeld.<br />

Veronderstel dat we het brede domein <strong>Rekenen</strong> kunnen opdelen in twee deeldomeinen –<br />

breuken en meetkunde. Zeggen dat breuken en meetkunde-items hetzelfde concept<br />

aanspreken betekent dat de prestatie van een leerling op beide deeldomeinen alleen afhangt<br />

van eenzelfde vaardigheid, die we hier <strong>voor</strong> het gemak rekenvaardigheid noemen.<br />

Dit impliceert dat we de rekenvaardigheid van een leerling kunnen bepalen door hem een<br />

toets <strong>voor</strong> te leggen die uitsluitend items met breuken bevat, of uitsluitend meetkunde-items<br />

of een willekeurig mengsel van breuken en meetkunde-items. Dit is een belangrijk principe in<br />

de psychometrie, dat soms wordt aangeduid met de term ‘specifieke objectiviteit’.<br />

Daarmee is natuurlijk niet alles gezegd over de meetnauwkeurigheid. Stel dat in de hele<br />

itembank met meetkunde-items en breuken items, deze laatste categorie gemiddeld genomen<br />

substantieel moeilijker is dan de eerste, en wel zodanig dat hele zwakke leerlingen bijna geen<br />

enkel breuken-item correct kunnen beantwoorden, en dat heel vaardige leerlingen bijna geen<br />

fouten maken op de meetkunde-items. Dan ligt het een beetje <strong>voor</strong> de hand dat we <strong>voor</strong> een<br />

3


nauwkeurige vaardigheidsbepaling van een zwakke leerling het beste uit zullen zijn met een<br />

toets die hoofdzakelijk meetkunde-items bevat, en <strong>voor</strong> een sterke leerling met een toets die<br />

<strong>voor</strong>al breuken-items bevat. Maar daaruit volgt niet dat meetkunde en breuken verschillende<br />

vaardigheden aanspreken. Ook de bevinding dat in een feitelijke itembank het onderscheid<br />

moeilijk – gemakkelijk goeddeels samenvalt met het onderscheid meetkunde – breuken hoeft<br />

niets te betekenen: het zou kunnen zijn dat dit samengaan wijst op een intrinsieke samenhang<br />

(‘breuken zijn op theoretische gronden moeilijker dan meetkunde-items’) of op een min of<br />

meer toevallige samenloop van omstandigheden: de constructeurs waren niet in staat om<br />

moeilijke meetkunde-items en gemakkelijke breuken-items te construeren. Maar deze vraag –<br />

hoe belangwekkend die in sommige contexten ook mag zijn – heeft niets te maken met de<br />

vraag of het beantwoorden van zulke items nu gestuurd wordt vanuit een enkele vaardigheid<br />

of vanuit twee verschillende vaardigheden.<br />

Het <strong>voor</strong>gaande is eigenlijk een parafrase van wat doorgaans met veel moeilijke woorden aan<br />

discussies wordt gevoerd in psychometrische kringen onder het hoofdje ‘Eigenschappen van<br />

meetmodellen’. Het is prettig als we met meetmodellen kunnen werken die zulke<br />

eigenschappen hebben, want die staan garant <strong>voor</strong> de eigenschap dat we verschillende<br />

leerlingen met verschillende toetsen kunnen testen en de resultaten toch op een zinvolle<br />

manier kunnen vergelijken. Maar tezelfdertijd ligt hier ook de kern van een groot<br />

misverstand: het Raschmodel en OPLM hebben die eigenschappen, maar dit impliceert<br />

geenszins dat het voldoende is testgegevens door een Raschprogramma of het OPLM<br />

programma te halen om in de praktijk van die eigenschappen verzekerd te zijn. Wat we<br />

moeten aantonen is dat het gebruikte meetmodel geldig (valide) is <strong>voor</strong> de item-antwoorden<br />

die ermee worden geanalyseerd. En dit aantonen is niet eenvoudig; eigenlijk zouden we<br />

kunnen zeggen dat het principieel onmogelijk is.<br />

Statistisch gezien heeft het gebruikte meetmodel de status van een nulhypothese, en het<br />

statistisch toetsen van een meetmodel is er dus eigenlijk op gericht tot een verwerping van die<br />

nulhypothese te komen. Dit is de logische status van de statistische procedures in<br />

experimenteel onderzoek. Bij het evidentie zoeken ten <strong>voor</strong>dele van een gebruikt model wordt<br />

deze werkwijze omgekeerd, en men spreekt van toetsen <strong>voor</strong> ‘goodness-of-fit’.<br />

Als protagonist van een bepaald model heeft men er dus belang bij dat de toets niet<br />

significant uitvalt. Maar het niet-significant zijn van een zulk een statistische toets heeft niet<br />

dezelfde argumentatiekracht als een significantie in het experimenteel onderzoek. Dit is<br />

gemakkelijk in te zien door zich toetsen <strong>voor</strong> te stellen waarvan de analyse gebaseerd is op<br />

een triviaal klein aantal observaties: de kans dat die een statistisch significant resultaat<br />

opleveren is meestal heel erg klein, ook in gevallen waar het veronderstelde meetmodel in<br />

belangrijke mate fout is. In statistisch jargon heet het dan dat de statistische toets geen<br />

onderscheidend vermogen of ‘power’ heeft.<br />

Gegeven een bepaalde statistische procedure (bij<strong>voor</strong>beeld een t-toets om de hypothese van<br />

gelijkheid van twee gemiddelden te toetsen) is het opdrijven van de steekproefgrootte de<br />

belangrijkste manier om de power te vergroten. Maar bij het ontwerpen van toetsen <strong>voor</strong><br />

goodness-of-fit speelt er meestal nog een andere kwestie.<br />

Het gebruikte meetmodel (bij<strong>voor</strong>beeld OPLM) is een complexe nulhypothese, en het heeft<br />

helemaal geen zin om te spreken over de statistische procedure om de houdbaarheid van het<br />

model te toetsen. Er zijn talloze toetsen te verzinnen en de nulhypothese (het meetmodel) kan<br />

op talloze manieren onwaar zijn. Voor sommige mankementen aan het model zullen bepaalde<br />

toetsprocedures veel power hebben, terwijl <strong>voor</strong> andere tekortkomingen andere procedures<br />

4


meer zijn aangewezen. In het programma OPLM zijn standaard enkele toetsen <strong>voor</strong> goodnessof-fit<br />

ingebouwd, en deze toetsen hebben <strong>voor</strong>al een goed onderscheidend vermogen om te<br />

ontdekken of de discriminatieparameters wel goed zijn ingeschat. Maar <strong>voor</strong> sommige<br />

schendingen van het model hebben deze toetsen weinig of geen power. Hier is een <strong>voor</strong>beeld:<br />

een paar jaar geleden is op het Cito de Interessetest gemaakt <strong>voor</strong> leerlingen van groep 8.<br />

Een standaardanalyse met OPLM op de vier deelschalen van de test (Techniek, Economie,<br />

Taal en Cultuur en Zorg en Welzijn) gaf een erg goede fit van het model te zien. Nader<br />

onderzoek om te achterhalen of de test op dezelfde manier kon worden gebruikt <strong>voor</strong> jongens<br />

en <strong>voor</strong> meisjes bracht duidelijk aan het licht dat dit niet het geval was. De procedure die<br />

werd gebruikt om dit aan het licht te brengen was een statistische toets <strong>voor</strong> goodness-of-fit<br />

die speciaal is ontworpen om verschillen in functioneren van het model in verschillende<br />

deelpopulaties (hier: jongens en meisjes) te ontdekken.<br />

Het <strong>voor</strong>beeld kan een paar zaken duidelijk maken: uit de bespreking van het <strong>voor</strong>beeld<br />

kunnen we niet opmaken hoe de testprocedure in elkaar steekt. Het is hier ook niet de plaats<br />

om dit te doen, want het betreft een puur statistisch probleem dat redelijk ingewikkeld is.<br />

Wat wel belangrijk is dat in de analyse van de Interessetest de statistische procedure is<br />

uitgevoerd <strong>voor</strong> jongens en meisjes, en niet, bij<strong>voor</strong>beeld, <strong>voor</strong> leerlingen die in de eerste zes<br />

maanden van het jaar zijn geboren tegenover leerlingen die in de laatste zes maanden zijn<br />

geboren. De reden hier<strong>voor</strong> is dat er <strong>voor</strong>af een vermoeden bestond dat er <strong>voor</strong> interesses wel<br />

eens een verschil zou kunnen zijn tussen jongens en meisjes, terwijl er geen duidelijke<br />

redenen zijn om aan te nemen dat de geboortemaand er iets toe doet. Meer algemeen betekent<br />

dit dat een doordacht gebruik van statistische procedures gestuurd dient te worden vanuit een<br />

inhoudelijk geïnspireerd vermoeden dat er wel eens iets mis zou kunnen zijn met het<br />

gebruikte meetmodel.<br />

In het <strong>voor</strong>beeld van de Interessetest werd ervan uitgegaan dat de populatie waar<strong>voor</strong> de test<br />

is bedoeld niet homogeen was in termen van het meetmodel: dezelfde test meet blijkbaar iets<br />

anders bij jongens dan bij meisjes. Maar er bestaat ook een heel andere klasse van<br />

veronderstellingen waarbij men ervan uitgaat dat de verzameling items in de toets niet<br />

homogeen is met betrekking tot het meetmodel. De profielanalyse die in de volgende sectie<br />

wordt uitgewerkt behoort tot deze klasse. Voor we aan de specifieke uitwerking beginnen<br />

wijden we enige aandacht aan het algemene probleem van niet homogene itemverzamelingen.<br />

In het algemeen zou men kunnen zeggen dat een gebrek aan homogeniteit van de itemverzameling<br />

een <strong>voor</strong>beeld is van multidimensionaliteit. Daar is weinig tegen in te brengen<br />

tenzij dat het begrip multidimensionaliteit zelf niet duidelijk gedefinieerd is. Meestal denkt<br />

men aan een specifiek geval waarbij de bestudeerde itemverzameling uiteenvalt in twee of<br />

drie deelverzamelingen die op zichzelf wel door een unidimensionaal model (bij<strong>voor</strong>beeld<br />

OPLM) kunnen worden beschreven, maar er kunnen ook andere gevallen van multidimensionaliteit<br />

worden onderscheiden. Bovendien is het van belang bij multidimensionaliteit<br />

niet alleen te onderzoeken of er al dan niet sprake is van meer dan een dimensie, maar ook in<br />

welke mate de multidimensionaliteit afwijkt van de unidimensionaliteit. Bij de Eindtoets<br />

Basisonderwijs wordt <strong>voor</strong> de items <strong>Rekenen</strong> meestal een unidimensionaal model gebruikt,<br />

maar in de rapportage wordt een onderscheid gemaakt naar drie deeldomeinen: Getallen en<br />

Bewerkingen, Meten, Tijd en Geld en Breuken, Procenten Verhoudingen. Als de items uit<br />

deze drie deeldomeinen afzonderlijk met een unidimensionaal model worden geschat en<br />

naderhand wordt de correlatie tussen deze drie vaardigheden geschat, dan blijken alle<br />

correlaties groter te zijn dan 0.96. Dit betekent dat er evidentie is dat de drie vaardigheden<br />

niet samenvallen, maar tezelfdertijd dat de onderlinge correlatie dermate hoog is dat het<br />

5


toelaatbaar kan worden geacht een unidimensionaal model <strong>voor</strong> de drie deelvaardigheden te<br />

gebruiken. Dit brengt ons op een probleem dat direct met de toetspraktijk heeft te maken.<br />

Bij het schatten van de modelparameters wordt maar ten dele gebruik gemaakt van de<br />

informatie die in de data aanwezig is. Voor het OPLM bij<strong>voor</strong>beeld gebruiken we alleen de<br />

randtotalen van de gegevenstabel: van elk item het aantal keren dat het correct is beantwoord<br />

en van elke leerling zijn score op de toets (ongewogen bij het Raschmodel en gewogen in het<br />

OPLM). De overblijvende informatie wordt dan gebruikt om het model (statistisch) te toetsen:<br />

als de parameters (redelijk) nauwkeurig geschat zijn, kunnen allerlei eigenschappen van de<br />

datamatrix worden <strong>voor</strong>speld, en deze <strong>voor</strong>spellingen kunnen worden vergeleken met de<br />

werkelijke eigenschappen van de datamatrix. Een <strong>voor</strong>beeld: <strong>voor</strong> alle leerlingen met een<br />

bepaalde score op de toets (bij<strong>voor</strong>beeld 25) kan men <strong>voor</strong>spellen welke proportie van die<br />

leerlingen een bepaald item (bijv. item 1) correct heeft beantwoord, en deze <strong>voor</strong>spelde<br />

proportie kan men vergelijken met de proportie in de data, die men kan vinden door een<br />

simpele telling. Het probleem is echter dat er talloos veel verschillende <strong>voor</strong>spellingen<br />

kunnen worden gemaakt, en dat de overeenkomst tussen data en <strong>voor</strong>spelling soms<br />

minder goed zal zijn dan men zou willen, puur door toeval. Het heeft dus weinig zin om<br />

hap snap enkele <strong>voor</strong>spellingen eruit te pikken en de overeenkomst met de data te<br />

beoordelen. Het is wel zinvol om weloverwogen de <strong>voor</strong>spellingen te kiezen vanuit<br />

theoretische of didactische overwegingen en te overwegen wat men zou moeten of<br />

kunnen doen in geval de overeenkomst tussen data en <strong>voor</strong>spellingen niet goed is.<br />

Profielanalyse zoals hier verder zal worden uitgewerkt past in deze opvatting. Een profiel is<br />

een rijtje deelscores op bepaalde categorieën van items, maar men kan in principe de<br />

categorizering definiëren zoals men wil. Men zou inhoudelijke categorieën kunnen bepalen<br />

(zoals meetkunde, breuken, getalsrelaties, etc.), maar men kan ook andere categoriedefinities<br />

hanteren, zoals de even genummerde items tegenover de oneven genummerde, om maar een<br />

dwaas <strong>voor</strong>beeld te noemen. Een goede categorisering is geen psychometrisch of statistisch<br />

probleem, maar een inhoudelijk probleem, en het is aan de inhoudelijke medewerkers<br />

hierover na te denken en een verantwoorde keuze te maken. In het genoemde <strong>voor</strong>beeld van<br />

de rekenitems (in deeldomeinen) zou men een aantal overwegingen kunnen aanvoeren <strong>voor</strong><br />

de gekozen categorisering:<br />

• Het bestaan van aparte methoden <strong>voor</strong> de genoemde onderdelen;<br />

• De noodzaak van bepaalde psychologische vaardigheden <strong>voor</strong> sommige onderdelen<br />

(zoals ruimtelijk inzicht <strong>voor</strong> meetkunde);<br />

• Het bestaan van didactische praktijken waarbij onderdelen ook echt bloksgewijs<br />

worden onderwezen;<br />

• De mogelijkheid van (partiële) incompetentie van (sommige) leerkrachten, etc.<br />

De eigenlijke profielanalyse bestaat dan uit drie onderdelen:<br />

• Het berekenen van het verwachte profiel met gebruikmaking van de parameters van<br />

het meetmodel;<br />

• De vergelijking van individuele geobserveerde profielen met dit verwachte profiel.<br />

Bij deze vergelijking kan men verschillende standpunten innemen:<br />

o Als de afwijking tussen geobserveerde en verwachte profielen erg groot is <strong>voor</strong><br />

zeer veel leerlingen kan men de validiteit van het meetmodel in twijfel gaan<br />

trekken, en eventueel een herziening en/of uitbreiding van het meetmodel<br />

overwegen. Dit is eigenlijk een taak die behoort tot het monitoren van het hele<br />

systeem.<br />

6


o Men kan echter ook afwijkingen aggregeren op een hoger niveau, bij<strong>voor</strong>beeld<br />

de school of de klas, en bij<strong>voor</strong>beeld vinden dat in een bepaalde school de<br />

afwijkingen van het verwachte profiel <strong>voor</strong> alle leerlingen in dezelfde richting<br />

wijzen zoals een relatief lage deelscore op het onderdeel breuken in<br />

vergelijking met de andere onderdelen. Dit te ontdekken, ordelijk te<br />

beschrijven en te rapporteren is een monitoring functie op school- of<br />

klasniveau. Om dit goed en op een verantwoorde manier te doen is geen<br />

triviale taak en er is nog behoorlijk veel werk te doen om op dit niveau goede<br />

service aan de scholen te kunnen aanbieden.<br />

o Natuurlijk kan men ook de afwijking tussen een individueel profiel (van een<br />

leerling) en het verwachte profiel bepalen en tot een (beschrijvend) besluit<br />

komen, ongeveer met de uitspraak dat de afwijking bij leerling A groot is en<br />

bij leerling B klein. In het tweede deel van dit rapport wordt uiteengezet hoe<br />

men op een rationele manier grote afwijkingen kan definiëren.<br />

• De moeilijkste taak is echter het formuleren van besluiten en adviezen. Afwijkende<br />

patronen kunnen ook bij toeval ontstaan en hoeven niet per se op een probleem te<br />

wijzen bij de leerling. In de statistiek spreekt men van fouten van de eerste soort, soms<br />

ook aangeduid als vals alarm. Omgekeerd zullen niet alle problemen door een<br />

profielanalyse aan het licht komen. In het eerste geval is het botweg adviseren tot<br />

bijles of remediërende programma’s niet altijd een wijze handeling. Als een probleem<br />

gesignaleerd wordt (op statistische wijze) is het meestal verstandiger eerst bijkomende<br />

evidentie te zoeken dat het inderdaad om een probleem gaat. In een systeem als het<br />

LVS worden bij<strong>voor</strong>beeld mogelijkheden geboden omdat daar gegevens van dezelfde<br />

leerling op verschillende tijdstippen beschikbaar zijn. Maar het uitwerken van een<br />

geschikte procedure <strong>voor</strong> een aggregatie van profielen over de tijd is niet op stel en<br />

sprong gemaakt. Er ligt dus nog een groot onontgonnen veld van nadenken en<br />

uitwerken <strong>voor</strong> ons.<br />

Profielanalyse op individueel niveau<br />

Als een leerling een toets maakt kunnen we deelscores berekenen op willekeurige onderdelen<br />

van de toets. We zullen aannemen dat de toetsitems in p (> 1) categorieën zijn onderverdeeld,<br />

waarbij elk item in niet meer dan een categorie valt. Voor elke categorie kunnen we de deelscore<br />

van de leerling berekenen en het rijtje van p deelscores noemen we het geobserveerde<br />

profiel. De deelscores kunnen gewone tellingen zijn: hoeveel items van elke categorie heeft<br />

de leerling correct beantwoord, of het kunnen gewogen scores zijn omdat niet alle items<br />

hetzelfde gewicht hebben. In Figuur 1 staat een <strong>voor</strong>beeld uit de Eindtoets Basisonderwijs<br />

2006 <strong>voor</strong> het onderdeel <strong>Rekenen</strong>, waarbij drie categorieën zijn onderscheiden. De verticale<br />

as geeft de gewogen score weer op de drie onderdelen. De gewogen score op het hele<br />

onderdeel <strong>Rekenen</strong> bedraagt <strong>voor</strong> de betrokken leerling 120 punten.<br />

7


gewogen score<br />

80<br />

60<br />

40<br />

20<br />

0<br />

getal meten breuken<br />

Figuur 1. Een geobserveerd profiel met gewogen scores<br />

Het hele onderdeel <strong>Rekenen</strong> bestaat uit 60 items en de maximale gewogen score bedraagt 270.<br />

Op het eerste gezicht zou men kunnen zeggen dat de leerling zwak presteert op de categorie<br />

‘meten’ en sterk op de categorie ‘breuken’, maar elke grond <strong>voor</strong> zulk een interpretatie<br />

ontbreekt: we weten immers niet hoeveel items er in elke categorie zijn en we kennen het<br />

gewicht van de afzonderlijke items niet. Geven we deze informatie erbij, dan kunnen we al<br />

iets van het probleem wegnemen. In figuur 2 is weer een profiel gegeven (van de zelfde<br />

leerling als in Figuur 1), maar nu zijn de resultaten uitgedrukt als percentage van de<br />

maximumscore in elke categorie, zodat de dubbelzinnigheid veroorzaakt door verschillende<br />

aantallen items of verschillende gewichten in ieder geval is weggenomen.<br />

procent van de maximale score<br />

80<br />

60<br />

40<br />

20<br />

0<br />

getal meten breuken<br />

Figuur 2. Geobserveerd profiel uitgedrukt als percentage van de maximumscore<br />

In Figuur 2 lijkt de zwakste prestatie nu in de categorie getallen, maar ook dit resultaat kan<br />

misleidend zijn, want het zou zo kunnen zijn dat de items in de categorie ‘getallen’ veel<br />

moeilijker zijn dan in de twee andere categorieën.<br />

De spontane interpretatie bij een visuele weergave van een profiel is het nemen van de nullijn<br />

(of een willekeurige andere horizontale lijn in de figuur) als referentielijn, en dat kan<br />

aanleiding geven tot niet gerechtvaardigde interpretaties of conclusies.<br />

8


Het referentieprofiel<br />

Om terdege rekening te houden met de verschillen in moeilijkheid van de onderscheiden<br />

categorieën kunnen we het beste een soort verwacht profiel gaan nemen als referentielijn.<br />

Maar we dienen goed te formuleren wat we met ‘verwachting’ bedoelen. Nemen we<br />

bij<strong>voor</strong>beeld als verwachting de gemiddelde categoriescore in de populatie van leerlingen van<br />

groep acht die deelnemen aan de Eindtoets, dan wordt de vergelijking weer gecompliceerd<br />

omdat het aldus gedefinieerde verwachte profiel in twee opzichten kan verschillen van het<br />

geobserveerde profiel uit Figuur 1: het kan verschillen door het algemene niveau (in het<br />

<strong>voor</strong>beeld doet het dit ook, want een gewogen score van 120 op het onderdeel <strong>Rekenen</strong> is een<br />

tamelijk lage score) en het kan ook verschillen qua vorm. De directe visuele interpretatie van<br />

beide profielen wordt daardoor bemoeilijkt. We kunnen het probleem vereenvoudigen door<br />

een specifiek geobserveerd profiel te vergelijken met een gemiddeld profiel van alle<br />

leerlingen die op de hele toets (d.i. op het hele onderdeel <strong>Rekenen</strong>) dezelfde of ongeveer<br />

dezelfde score behalen als de score van het geobserveerde profiel.<br />

Dit verwachte profiel kunnen we op twee manieren bepalen: empirisch of theoretisch.<br />

Empirisch betekent dat we in het databestand van de Eindtoets het gemiddelde profiel bepalen<br />

van alle leerlingen met dezelfde score op het hele onderdeel <strong>Rekenen</strong> als de onderzochte<br />

leerling. Voor het onderzoek naar een andere leerling met een andere gewogen score op het<br />

onderdeel <strong>Rekenen</strong> kunnen we hetzelfde doen. We moeten deze hele procedure dus uitvoeren<br />

<strong>voor</strong> alle mogelijke scores op het onderdeel <strong>Rekenen</strong>. Drukken we het geobserveerde profiel<br />

uit met gewogen scores, dan moeten we deze procedure toepassen <strong>voor</strong> alle mogelijke<br />

gewogen scores. In termen van computertijd is dit niet zo’n groot probleem, maar wel in<br />

termen van statistische stabiliteit. Immers de frequentie van sommige gewogen scores zal<br />

behoorlijk groot zijn, maar <strong>voor</strong> andere scores zullen we onvermijdelijk te maken krijgen met<br />

kleine tot zeer kleine frequenties. De statistische stabiliteit van de verwachte profielen zal dan<br />

van score tot score gaan verschillen en dit is een onwenselijke situatie. Bovendien komt er<br />

nog een probleem bij als we een dergelijke werkwijze zouden willen toepassen in het LVS.<br />

Bij de Eindtoets worden de data centraal verzameld op het Cito, maar bij het LVS is dat niet<br />

zo. De data die daar beschikbaar zijn betreffen alleen de leerlingen van de school zelf en dan<br />

wordt de empirische aanpak wel heel problematisch.<br />

Als de gegevens met OPLM gecalibreerd zijn kunnen we ook theoretisch het verwachte<br />

profiel afleiden. De verwachte (gewogen) score <strong>voor</strong> elke categorie is een (nogal<br />

ingewikkelde) functie van de itemparameters (de discriminatie-indices en de moeilijkheidsparameters).<br />

Details over hoe die verwachte waarden worden berekend worden gegeven in<br />

Appendix A van dit rapport. In Figuur 3a wordt hetzelfde geobserveerde profiel afgebeeld als<br />

in Figuur 2, maar nu samen met het verwachte profiel. In Figuur 3b zijn beide profielen<br />

omgezet als percentage van de maximum te behalen score op elke categorie.<br />

9


gewogen score<br />

80<br />

60<br />

40<br />

20<br />

0<br />

obs<br />

exp<br />

getal meten breuken<br />

10<br />

procent v.d. maximum score<br />

80<br />

60<br />

40<br />

20<br />

0<br />

%obs<br />

%exp<br />

getal meten breuken<br />

Figuur 3a. Profielen met gewogen scores Figuur 3b. Profielen met procenten<br />

De visuele aanblik van beide figuren verschilt in bepaalde opzichten: in Figuur 3a zien we een<br />

dipje <strong>voor</strong> ‘meten’ dat in Figuur 3b verdwenen is, maar dat komt omdat de categorie ‘meten’<br />

het minste items bevat met daarenboven nog eens het kleinste gemiddeld gewicht. Er zijn<br />

echter ook bepaalde eigenschappen die in beide figuren onveranderd blijven: op de categorie<br />

‘getal’ doet de leerling het slechter dan verwacht; op de categorie ‘breuken’ doet hij het beter<br />

dan verwacht en op de categorie ‘meten’ is de geobserveerde prestatie zeer gelijkend aan de<br />

verwachte prestatie. En dit is precies de informatie die we nodig hebben, zodat het er eigenlijk<br />

niet veel toe doet of we Figuur 3a dan wel 3b kiezen.<br />

verschil geobs. min verw. (in %)<br />

20<br />

15<br />

10<br />

5<br />

0<br />

-5<br />

-10<br />

-15<br />

-20<br />

getal meten breuken<br />

Figuur 4. Afwijkingen van het verwachte profiel (in percentages)<br />

Samenvattend: het verwachte profiel is wat we gemiddeld kunnen verwachten van leerlingen<br />

die dezelfde gewogen toetsscore behalen als in het geobserveerde profiel (in het <strong>voor</strong>beeld<br />

van Figuur 3 is dat 120). Voor elke categorie kunnen we met een simpele visuele inspectie<br />

nagaan of de leerling boven of onder de verwachting presteert, gezien zijn algemene niveau.<br />

In Figuur 4 geven we nog een andere visuele presentatie van de verschillen zoals afgebeeld in<br />

Figuur 3b: daar geven we aan (in procenten) hoever de leerling afwijkt van het verwachte<br />

percentage <strong>voor</strong> elke categorie. De nullijn komt dus overeen met het verwachte profiel.<br />

Door de wijze waarop het profiel (met gewogen scores) is gedefinieerd is het<br />

noodzakelijkerwijze zo dat de som van de categoriescores van het geobserveerde profiel<br />

gelijk is aan de som bij het verwachte profiel. Het kan dus nooit <strong>voor</strong>komen dat het ene<br />

profiel volledig boven het andere ligt. Bij de afbeelding van de percentages geldt dat ook,<br />

maar daar is het niet noodzakelijk dat de som van de percentages in een profiel gelijk is aan<br />

100, omdat de gewogen scores per categorie gedeeld worden door de maximumscore van die


categorie en die maxima zullen in de regel niet gelijk zijn aan elkaar. Daardoor is de som van<br />

de percentages in Figuur 4 ook niet gelijk aan nul.<br />

Afstand tussen twee profielen<br />

De verschillen tussen geobserveerd en verwacht profiel zoals in Figuur 3a zijn wel verbaal<br />

omschreven, maar <strong>voor</strong> verder onderzoek is het noodzakelijk dat die verschillen ook<br />

gekwantificeerd worden en bij <strong>voor</strong>keur zo compact mogelijk. Het liefste met één getal dat op<br />

een of andere manier de afstand uitdrukt tussen de twee profielen.<br />

Er zijn veel mogelijke manieren om de afstand tussen twee profielen uit te drukken en wij<br />

kiezen er een die in de statistiek populair is, namelijk de chi-kwadraatafstand. We illustreren<br />

dit met de twee profielen uit Figuur 3a, waarvan de numerieke gegevens zijn ondergebracht in<br />

Tabel 1. De getalswaarden die overeenkomen met Figuur 3a zijn weergegeven in de rij<br />

‘behaald’, waarbij de verwachte score tussen haakjes staat. Zoals te doen gebruikelijk bij<br />

contingentietabellen wordt deze rij echter ook gecompleteerd door een rij ‘niet behaald’: bij<br />

de categorie ‘getal’ is de maximale score 107, de geobserveerde score is 35, dus heeft de<br />

leerling 107 – 35 = 72 punten niet behaald.<br />

behaald<br />

niet behaald<br />

Tabel 1. Geobserveerd en verwacht profiel<br />

getal meten breuken totaal<br />

35<br />

(49.94)<br />

72<br />

(57.06)<br />

24<br />

(26.42)<br />

37<br />

(34.58)<br />

11<br />

61<br />

(43.65)<br />

41<br />

(58.36)<br />

120<br />

150<br />

totaal 107 61 102 270<br />

Elk van de zes grijsgekleurde cellen in Tabel 1 bevat een geobserveerde score (Oi) en een<br />

verwachte score (Ei) en de chi-kwadraatafstand tussen de twee profielen wordt gedefinieerd<br />

als<br />

6<br />

2<br />

2 ( O − E ) i i<br />

X = ∑ = 20.83<br />

i= 1 Ei<br />

waarbij meteen de uitkomst van de formule <strong>voor</strong> de gegevens van Tabel 1 is ingevuld.<br />

Het <strong>voor</strong>deel van een afstandsmaat is dat alle geobserveerde profielen met eenzelfde<br />

totaalscore nu kunnen worden geordend in termen van hun gelijkenis met het verwachte<br />

profiel (dat <strong>voor</strong> iedereen hetzelfde is). Maar we kunnen de profielen niet zomaar inwisselen<br />

tegen de afstand tot het verwachte profiel: immers twee profielen die op dezelfde afstand<br />

liggen van het verwachte profiel kunnen heel erg goed op elkaar lijken maar onderling ook<br />

heel verschillend zijn. Wat het geval is, kunnen we niet meer uit de afstandsmaat afleiden.<br />

Met de afstandsmaat op zichzelf kunnen we trouwens ook niet veel doen. In het <strong>voor</strong>beeld<br />

bedraagt de afstand 20.83, maar daarmee weten we nog niet of dit nu heel gewoon is of<br />

eigenlijk toch wel een beetje aan de kleine kant of uitzonderlijk groot. Om zo een vraag zinvol<br />

te kunnen beantwoorden, moeten we antwoord geven op de volgende vraag: hoe ziet de<br />

verdeling van de chi-kwadraat afstanden eruit bij een totaalscore van 120 (en in de<br />

veronderstelling dat het gehanteerde OPLM model geldig is)? Of meer in het algemeen:<br />

kunnen we de overschrijdingskans van de gevonden waarde van 20.83 in die verdeling<br />

bepalen?


Indien die overschrijdingskans heel erg klein is, zeg 1%, dan weten we dat een chikwadraatafstand<br />

van 20.83 of groter slechts in 1% van de gevallen <strong>voor</strong>komt indien het model<br />

<strong>voor</strong> deze leerling geldig is. Op grond van dit kleine percentage kunnen we ons geloof in het<br />

model (<strong>voor</strong> die leerling) opzeggen, en besluiten dat er wat aan de hand is met die leerling.<br />

Als de overschrijdingskans echter behoorlijk groot is, zeg 35%, betekent dit dat onder het<br />

model een chi-kwadraatafstand van 20.83 of groter <strong>voor</strong>komt in 35 % van de gevallen, en ons<br />

besluit zal (waarschijnlijk) zijn dat we hier geen reden hebben om iets speciaals te signaleren.<br />

Maar wat hier met een hoop woorden is omschreven is niets anders dan een statistische toets.<br />

Hoe we die toets in concreto moeten uitvoeren beschrijven we hierna.<br />

De verdeling van de chi-kwadraatafstanden tussen geobserveerde en verwachte profielen<br />

De gedaante van Tabel 1 en van de formule die er op volgt zou kunnen suggereren dat de chikwadraatafstand<br />

de theoretische chi-kwadraatverdeling volgt. Dat zou zo zijn indien de<br />

rekentoets 270 items zou bevatten (het aantal items gelijk aan het grand total van de tabel),<br />

maar hier is dat niet zo: het onderdeel <strong>Rekenen</strong> in de Eindtoets bestaat slechts uit 60 items.<br />

We hebben dus geen theoretische basis om te beweren dat we de theoretische chi-kwadraatverdeling<br />

(met 2 vrijheidsgraden) kunnen gaan gebruiken. De theoretische verdeling op<br />

theoretische gronden afleiden is een moeilijke onderneming, maar gelukkig kunnen we<br />

dankzij de beschikbaarheid van snelle computers de theoretische verdeling willekeurig dicht<br />

benaderen door simulatietechnieken. We beschrijven kort hoe dit wordt gedaan.<br />

We vertrekken van een gegeven totaalscore, bij<strong>voor</strong>beeld 120 zoals in het <strong>voor</strong>beeld<br />

hierboven. Als we de parameters van alle items in het OPLM model kennen kunnen we<br />

berekenen hoe groot de kans is dat iemand met een totaalscore van 120 item 1 (met een<br />

gewicht van 4) correct beantwoordt. Stel dat die kans 0.6 is. Dan gooien we (electronisch) een<br />

muntstuk op dat precies een kans van 0.6 heeft om ‘Munt’ op te leveren. Gebeurt dit, dan<br />

noteren we een correct antwoord op item 1, gebeurt het niet dan noteren we een fout<br />

antwoord. Als het antwoord op het eerste item correct was, dan moet de gesimuleerde leerling<br />

nog 120 – 4 = 116 punten behalen op de 59 overblijvende items; was het eerste item fout dan<br />

moet hij op de overblijvende 59 items alsnog een score van 120 behalen. En de procedure kan<br />

zich dus herhalen <strong>voor</strong> item 2, enzo<strong>voor</strong>t tot alle items beantwoord zijn. Als de gesimuleerde<br />

persoon alle items heeft beantwoord kunnen we zijn geobserveerd profiel berekenen en dus<br />

ook de chi-kwadraatafstand tot het verwachte profiel. De details over het berekenen van de<br />

kans op een goed antwoord worden beschreven in Appendix B van dit rapport.<br />

Als we de hele procedure van de vorige alinea een groot aantal keren herhalen, bij<strong>voor</strong>beeld<br />

30,000 keer, dan beschikken we over 30,000 chi-kwadraatafstanden waarvan we de<br />

cumulatieve frequentieverdeling kunnen tekenen. Dit hebben we ook inderdaad gedaan, en het<br />

resultaat staat in Figuur 5, samen met de theoretische cumulatieve chi-kwadraatverdeling met<br />

twee vrijheidsgraden.<br />

12


cumulatief percentage<br />

cumulatief percentage<br />

100<br />

75<br />

50<br />

25<br />

0<br />

0 10 20 30 40<br />

Chi-kwadraatafstand<br />

Figuur 5. Gesimuleerde verdeling <strong>voor</strong> een totaalscore van 120 en<br />

de theoretische chi-kwadraatverdeling met twee vrijheidsgraden<br />

13<br />

score = 120<br />

chi2(2)<br />

We merken twee zaken op bij Figuur 5:<br />

1. De twee verdelingen verschillen heel erg van elkaar en er kan geen sprake van zijn de<br />

theoretische chi-kwadraatverdeling te beschouwen als een goede benadering van de<br />

werkelijke (of gesimuleerde) verdeling. De mediaan bij<strong>voor</strong>beeld, (het punt waar de<br />

horizontale rasterlijn met label ‘50’ de curve snijdt) bedraagt 6.06 bij de gesimuleerde<br />

verdeling en 1.39 bij de theoretische chi-kwadraatverdeling.<br />

2. De curve van de gesimuleerde verdeling is minder glad dan de curve van de theoretische<br />

verdeling. Dit wordt veroorzaakt door twee factoren. De eerste is dat het aantal<br />

gesimuleerde leerlingen weliswaar behoorlijk groot is maar toch eindig. Een deel van de<br />

onregelmatigheden zouden kunnen worden weggepoetst door bij<strong>voor</strong>beeld een steekproef<br />

te nemen die tien keer zo groot is. Maar er zouden toch nog onregelmatigheden<br />

overblijven omdat de chi-kwadraatafstanden die we berekenen geen continue grootheid<br />

zijn, maar discreet. Voor praktische doeleinden echter, is de gesimuleerde curve glad<br />

genoeg. Percentiel 90 bij<strong>voor</strong>beeld bedraagt 19.65 en de geobserveerde chikwadraatafstand<br />

in het <strong>voor</strong>beeld bedraagt 20.83 (aangegeven door de positie van de<br />

verticale streepjeslijn), waardoor we weten dat deze waarde een overschrijdingskans heeft<br />

van minder dan 10%. Percentiel 95 in de gesimuleerde verdeling bedraagt 25.32 en de<br />

overschrijdingskans van de geobserveerde chi-kwadraatafstand is dus groter dan 5%.<br />

Deze waarde kan worden afgelezen aan de positie van de horizontale streepjeslijn: het<br />

cumulatieve percentage van de chi-kwadraatafstand 20.83 is ongeveer 91%, zodat de<br />

overschrijdingskans ongeveer 9% is.<br />

In principe zijn we nu klaar met de leerling uit het <strong>voor</strong>beeld: Figuur 3 geeft duidelijk het<br />

verwachte en geobserveerde profiel aan, en de statistische toets vertelt ons dat het verschil<br />

significant is op het 10% niveau maar niet op het 5% niveau. En hier houdt de functie van de<br />

statistiek op. Of we dit resultaat nu aan de leerkracht moeten melden met groot alarm of klein<br />

alarm of geen alarm is in wezen een arbitraire kwestie waar de statistiek geen uitspraak kan<br />

over doen.


Tot hiertoe hebben we alleen de verdeling bestudeerd <strong>voor</strong> een geobserveerde totaalscore van<br />

120, maar het spreekt vanzelf dat we iets dergelijks moeten doen <strong>voor</strong> bijna alle mogelijke<br />

totaalscores. We kunnen dit in principe doen <strong>voor</strong> alle mogelijke totaalscores, maar dit heeft<br />

niet veel zin. Het gemiddelde gewicht van de items <strong>Rekenen</strong> in de Eindtoets 2006 ligt tussen 4<br />

en 5. Dit betekent dat een leerling met een gewogen totaalscore van 15 drie of vier juiste<br />

antwoorden heeft gegeven. Het is dus vrij zinloos om <strong>voor</strong> zo’n lage score een profielanalyse<br />

te doen met drie categorieën. Een soortgelijk argument geldt natuurlijk ook <strong>voor</strong> zeer hoge<br />

totaalscores: het heeft weinig zin een profielanalyse te maken <strong>voor</strong> een leerling die maar twee<br />

of drie foute antwoorden heeft gegeven.<br />

In Figuur 6 staat een (stukje van) de cumulatieve gesimuleerde verdelingen <strong>voor</strong> een vijftal<br />

totaalscores. Voor elke verdeling zijn weerom 30,000 gesimuleerde leerlingen gebruikt.<br />

We merken dat de curves vrij goed op elkaar lijken, maar dan toch niet weer zo goed dat we<br />

met een gerust hart kunnen zeggen dat ze ‘eigenlijk’ aan elkaar gelijk zijn (waarbij we dan<br />

haarfijn zouden moeten uitleggen wat we met ‘eigenlijk’ bedoelen.) Wat we wel kunnen<br />

zeggen is dat de curves dermate op elkaar lijken dat het onmogelijk is in Figuur 6 een patroon<br />

te ontdekken, gesteld dat dit er al zou zijn.<br />

cumulatief percentage<br />

80<br />

60<br />

40<br />

20<br />

0<br />

0 3 6 9 12<br />

Chi-kwadraatafstand<br />

Chi-kwadraatafstand<br />

14<br />

score = 40<br />

score = 80<br />

score = 120<br />

score = 160<br />

score = 200<br />

Figuur 6. Gesimuleerde cumulatieve verdelingen <strong>voor</strong> vijf verschillende totaalscores<br />

Om een mogelijk patroon te kunnen ontdekken is Figuur 7 gemaakt. Daar zijn <strong>voor</strong> alle<br />

totaalscores in het interval [25, 245] de percentielen 50, 75, 90, 95, 97 en 99 grafisch<br />

weergegeven. Bemerk dat de percentielen hier moeten worden afgelezen op de verticale as.<br />

Over mogelijke patronen in die figuur merken we het volgende op:<br />

1. Voor de allerlaagste gerapporteerde scores (25 en 26) zien we dat de curves omhoog<br />

schieten. Zo’n gekke uitschieters zien we bij nog lagere scores en ook bij extreem hoge<br />

scores. Dit geeft ons nog een extra reden om profielanalyse bij extreme scores gewoon<br />

achterwege te laten.<br />

2. De percentielen 50 en 75 zijn merkwaardig constant op respectievelijk de waarden 6 en 12


3. Voor de andere geplotte percentielen zien we duidelijk een patroon: ze bereiken de<br />

hoogste waarde in het middengebied en worden kleiner naarmate de score groter of<br />

kleiner wordt.<br />

4. Het feit dat de curves <strong>voor</strong> de hoge percentielen onregelmatiger verlopen dan <strong>voor</strong> de<br />

percentielen 50 en 75 moet waarschijnlijk worden geweten aan het discrete karakter van<br />

de chi-kwadraatafstand.<br />

Chi-kwadraatafstand<br />

40<br />

32<br />

24<br />

16<br />

8<br />

0<br />

25 50 75 100 125 150 175 200 225<br />

toetsscore<br />

Figuur 7. Zes percentielen van de verdelingen van de chi-kwadraatafstanden<br />

Moeten we nu met alle details zoals die zijn weergegeven in Figuur 7 gaan rekening houden<br />

als we profielen zouden willen rapporteren in het LVS bij<strong>voor</strong>beeld? Dit lijkt wat overdreven.<br />

Stel dat we een overschrijdingskans van 10% of minder de moeite waard vinden om aan de<br />

leerkracht te rapporteren dat de desbetreffende leerling een atypisch antwoordprofiel heeft.<br />

Uit Figuur 7 kunnen we gemakkelijk afleiden dat we een goede benadering krijgen als we<br />

signaleren bij een chi-kwadraatafstand groter dan 20 (of 19.5 <strong>voor</strong> de preciezen). Voor de<br />

extreme scores (zeg tussen 25 en 50 en tussen 225 en 245) zal overschrijdingskans dan wel<br />

iets kleiner zijn dan 10% en zo men wil zou men de drempel <strong>voor</strong> die scores iets lager kunnen<br />

zetten.<br />

We moeten echter niet gaan overdrijven, want anders vinden we schijnnauwkeurigheid zoals<br />

zal blijken in de volgende sectie.<br />

Profielanalyse als modeltoets<br />

Alle analyses die we tot hiertoe hebben gerapporteerd zijn uitgevoerd in de veronderstelling<br />

dat het OPLM model (met de parameterschattingen uit de calibratie) geldig is <strong>voor</strong> alle<br />

leerlingen. Maar als dat zo is, dan moet ongeveer 10% van alle leerlingen die aan de Eindtoets<br />

hebben deelgenomen een profiel chi-kwadraatafstand opleveren die significant is op het 10%<br />

niveau. Dat kunnen we empirisch nagaan. Voor alle leerlingen die aan de Eindtoets<br />

Basisonderwijs 2006 hebben deelgenomen en die op het onderdeel rekenen een totaalscore<br />

hadden groter dan 35 en kleiner dan 246 hebben we de chi-kwadraatafstand uitgerekend en<br />

15<br />

p50<br />

p75<br />

p90<br />

p95<br />

p97<br />

p99


geclassificeerd in een van vier categorieën: een overschrijdingskans niet groter dan 50%;<br />

tussen 25% en 50%; tussen 10% en 25% en kleiner dan 10%. De resultaten zijn weergegeven<br />

in Tabel 2. De rechterkolom geeft <strong>voor</strong> elk van de vier categorieën het verwachte percentage<br />

aan. De andere kolommen geven <strong>voor</strong> verschillende score-intervallen (aangegeven in de bovenste<br />

rij) de geobserveerde percentages aan. In elke kolom tellen de percentages op tot 100.<br />

Tabel 2. Percentages leerlingen in de Eindtoets Basisonderwijs 2006<br />

36-75 76-105 106-135 135-165 166-195 196-225 226-245 totaal verwacht<br />

47.09 46.34 43.80 44.17 43.81 44.42 45.06 44.53 50<br />

24.63 24.24 24.92 25.01 25.01 25.13 25.97 25.16 25<br />

16.20 15.84 16.20 15.94 16.39 16.49 16.58 16.32 15<br />

12.08 13.58 15.08 14.87 14.79 13.96 12.39 13.99 10<br />

Het is voldoende om naar de onderste rij in Tabel 2 te kijken om te zien dat er behoorlijk meer<br />

significanties op het 10% niveau zijn dan we op grond van het OPLM model mogen<br />

verwachten. Daaruit we moeten besluiten dat het model niet geldig is.<br />

Wat nu? Als we een beter model hadden (en een computerprogramma waarmee we de hele<br />

calibratie met een onvolledig design) konden overdoen, dan zou dat de aangewezen weg zijn:<br />

gebruik niet een slecht model als je een beter hebt. Maar het ziet er niet naar uit dat dit een<br />

realistische optie is; dus zullen we op een of andere manier een compromis moeten zien te<br />

vinden.<br />

Stel dat we in het geval van de individuele profielanalyse een profiel als atypisch hadden<br />

willen aanmerken bij een overschrijdingskans van 10% (dus bij een chi-kwadraatafstand<br />

groter dan 20 (of 19.5 <strong>voor</strong> de preciezen)). Dan zouden we (<strong>voor</strong> de populatie die aan de<br />

Eindtoets deelnam) dat niet doen in 10% van de gevallen maar in 14% (<strong>voor</strong>laatste kolom,<br />

onderste rij in Tabel 7). Als we dit te veel vinden dan moeten we de drempel hoger gaan<br />

stellen; als we dit nog aanvaardbaar vinden dan weten we dat we in meer dan 10% een<br />

boodschap zullen afgeven. Als we dit op een adequate wijze aan het onderwijsveld weten mee<br />

te delen, dan kan dit heel aanvaardbaar zijn.<br />

Er zit echter een klein addertje onder het gras. De gegevens <strong>voor</strong> Tabel 2 komen van de<br />

Eindtoets, maar de profielanalyse is in eerste instantie bedoeld <strong>voor</strong> het LVS en niemand weet<br />

of een soortgelijke tabel <strong>voor</strong> het LVS ook soortgelijke percentages als die in Tabel 2 zal<br />

opleveren, want we hebben geen gegevens van het LVS.<br />

Een aantal losse opmerkingen<br />

Het profiel dat we als <strong>voor</strong>beeld hebben behandeld (zie bijv. Figuur 3) heeft drie categorieën.<br />

De statistische analyse laat zien dat het geobserveerde profiel significant (op 10% niveau) van<br />

het verwachte profiel afwijkt. Deze uitkomst vertelt niet waaruit deze afwijking precies<br />

bestaat en waar (eventueel) het meeste aandacht moet worden aan besteed. Maar een visuele<br />

inspectie van de afwijkingen (bij<strong>voor</strong>beeld aan de hand van Figuur 4) laat hierover weinig<br />

twijfel bestaan. Omdat profielen ipsatief zijn (d.w.z. hun som is constant) is het aantal<br />

mogelijke ‘vormen van de afwijkingen’ redelijk beperkt, en lijkt de interpretatie behoorlijk<br />

eenvoudig. Wanneer echter het aantal categorieën toeneemt gaan de restricties die volgen uit<br />

de ipsativiteit steeds minder een rol spelen, en krijgen we een groeiend aantal mogelijke<br />

patronen van de afwijkingen tussen geobserveerd en verwacht profiel waarbij de interpretatie<br />

soms niet zo <strong>voor</strong> de hand liggend zal zijn. Het verdient daarom aanbeveling het aantal<br />

categorieën beperkt te houden. In de praktijk moeten we denken aan drie of vier.<br />

16


Complementair hiermee is het wellicht nuttig een ander mogelijk probleem te signaleren: als<br />

het aantal categorieën toeneemt zal het gemiddeld aantal items per categorie afnemen. Maar<br />

categorieën met een klein aantal items kunnen een misleidende (visuele) indruk maken bij een<br />

presentatie zoals in Figuur 4. Veronderstel dat een categorie maar drie items bevat (van<br />

hetzelfde gewicht), dan kan in het geobserveerde profiel het percentage op die categorie maar<br />

vier verschillende waarden aannemen: nul, 33.3, 66.7 en 100, en wat ook de waarde is van het<br />

percentage juist in het verwachte profiel, minstens twee van de vier mogelijke uitkomsten<br />

zullen een grote afwijking te zien geven die op zichzelf niet veel hoeft te betekenen. Bij het<br />

definiëren van de categorieën is het raadzaam hier aandacht aan te besteden.<br />

Stel dat men er niet in slaagt een klein aantal evenwichtig verdeelde categorieën te definiëren,<br />

omdat er een inhoudelijk zinvolle restcategorie blijkt te bestaan die echter slechts een zeer<br />

klein aantal items bevat. Men kan dan zonder problemen die items uit de profielanalyse<br />

weglaten, met dien verstande dat de toetsscore en de verwachte profielen alleen op de andere<br />

items worden berekend. Men dient echter goed uit te kijken hier: twee leerlingen met dezelfde<br />

score op de niet uitgesloten items hebben dan hetzelfde verwachte profiel, maar dat impliceert<br />

niet dat die twee leerlingen dezelfde score hebben op de hele toets.<br />

Algebraïsch en statistisch is er ook geen enkel probleem om een item in meer dan een<br />

categorie op te nemen, maar als men dit doet bepaalt men het verwachte profiel conditioneel<br />

op een toetsscore waarbij het tweemaal gecategoriseerde item ook twee keer meetelt. Het is<br />

dus de vraag of een dergelijke werkwijze de interpreteerbaarheid van de profielen en hun<br />

afwijkingen ten goede komt.<br />

17


Appendix A: verwachte profielen<br />

Het OPLM wordt gekarakteriseerd door de volgende item respons functie <strong>voor</strong> item i:<br />

exp[ a ( θ − β )]<br />

i i<br />

f ( θ) = P( X = 1| θ)<br />

= i i<br />

1+ exp[ a ( θ −β)]<br />

i i<br />

We definiëren<br />

ε = exp( − a β )<br />

i i i<br />

Veronderstel dat de items zijn opgedeeld in C categorieën, en <strong>voor</strong> elke categorie c definiëren<br />

we de verzameling<br />

E = { ε | item i behoort tot categorie c}<br />

c i<br />

en haar complement<br />

Ec= { ε | ε ∉ E }<br />

i i c<br />

De verzameling parameters <strong>voor</strong> alle items in de toets duiden we aan met E. Uit de theorie<br />

over de conditionele maximum likelihood schatting in het OPLM zijn genoegzaam de zogenaamde<br />

combinatorische basisfuncties bekend:<br />

k<br />

xi<br />

γ ( ε , … , ε ) = ε<br />

s 1 k ∑∏ i<br />

waarin<br />

k<br />

∑<br />

i=<br />

1<br />

18<br />

(*) i=<br />

1<br />

(*) betekent: ax = s, ( x∈{0,1})<br />

i i i<br />

Het argument van deze functies is dus een rijtjeε ’s, en de functie is symmetrisch; derhalve<br />

kunnen we <strong>voor</strong> een willekeurige verzamelingε -parameters ook kortweg de functie<br />

aanduiden als ( ) s E γ . Voor een gewogen score s kleiner dan nul of groter dan de maximaal te<br />

behalen score definiëren we dat de functie de waarde nul aanneemt. Op die manier is de<br />

functie gedefinieerd <strong>voor</strong> alle gehele getallen.<br />

Voor een gegeven toetsscore s en een deelscore sc op de deeltoets die bestaat uit de items van<br />

categorie c is de kans op sc conditioneel op s gegeven door<br />

γ ( E ) γ ( E )<br />

sc c s−s c<br />

c<br />

PS ( = s| s)<br />

=<br />

c c<br />

γ ( E)<br />

s<br />

waaruit dan direct volgt dat de verwachte waarde van de deelscore op categorie c items<br />

conditioneel op de totaalscore s gegeven is door<br />

Mc<br />

∑<br />

ES ( | s) = jPS ( = j| s)<br />

c c<br />

j=<br />

0<br />

waarin Mc de maximale deelscore is in categorie c.<br />

Het is wellicht instructief het speciale geval te beschouwen waar alle items hetzelfde gewicht<br />

en dezelfde moeilijkheid hebben. Zij k het totaal aantal items in de toets, en kc het aantal items<br />

in categorie c, dan is de kans op deelscore sc gegeven door<br />

⎛kc⎞⎛k−kc⎞ ⎜ ⎟⎜ ⎟<br />

s s−s c c<br />

PS ( = s| s)<br />

=<br />

⎝ ⎠⎝ ⎠<br />

c c<br />

⎛k⎞ ⎜ ⎟<br />

⎝s⎠ d.w.z., Sc volgt de hypergeometrische verdeling.


Appendix B. Steekproeftrekken onder restricties<br />

We beschouwen alleen het geval van binaire items. Het algoritme werkt sequentieel. Als op<br />

een bepaald item succes wordt geboekt wordt de lopende score met het gewicht van dat item<br />

verminderd. We definiëren S als de score die nog moet behaald worden na het beantwoorden<br />

van een gedeelte van de items. Bij aanvang van het algoritme is S de totaalscore.<br />

Na beëindiging heeft S de waarde nul. We definiëren E0 als de verzamelingε -parameters <strong>voor</strong><br />

de gehele toets met k items en Ei als<br />

E = E− { ε , … , ε },( i< k)<br />

i 1 i<br />

Voor i = 1,…,k passen we sequentieel de volgende procedure toe<br />

1. bereken Pi:<br />

ε γ ( E )<br />

i s−ai i<br />

P = i<br />

γ ( E ) s i−1<br />

2. Trek een uniform verdeeld random getal z uit (0,1).<br />

a. Indien z > Pi is een fout antwoord gegeven: Xi=0;<br />

b. Indien z ≤ Pi is een correct antwoord gegeven: Xi=1 en de lopende score wordt met<br />

ai verminderd: s := s-ai.<br />

Het algoritme kan <strong>voor</strong>tijdig worden afgebroken in twee gevallen. Als de lopende score s<br />

gelijk is aan nul zijn de resterende items fout beantwoord; als de lopende score gelijk is aan de<br />

som der gewichten van de resterende items zijn al die items noodzakelijkerwijze goed<br />

beantwoord.<br />

19


Cito<br />

Amsterdamseweg 13<br />

Postbus 1034<br />

6801 MG Arnhem<br />

T (026) 352 11 11<br />

F (026) 352 13 56<br />

www.cito.nl<br />

Klantenservice<br />

T (026) 352 11 11<br />

F (026) 352 11 35<br />

klantenservice@cito.nl<br />

Fotografie: Ron Steemers<br />

Cito maakt wereldwijd werk van goed en<br />

eerlijk toetsen en beoordelen. Met de<br />

meet- en volgmethoden van Cito krijgen<br />

mensen een objectief beeld van kennis,<br />

vaardigheden en competenties.<br />

Hierdoor zijn verantwoorde keuzes op het<br />

gebied van persoonlijke en professionele<br />

ontwikkeling mogelijk. Onze expertise<br />

zetten we niet alleen in <strong>voor</strong> ons eigen<br />

werk maar ook om advies, ondersteuning<br />

en onderzoek te bieden aan anderen.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!