CELF PRESCHOOL-2-NL

Documentatie van Tests en Testresearch in Nederland 

TOELICHTING BIJ DE BEOORDELING 

CLINICAL EVALUATION OF LANGUAGE FUNDAMENTALS PRESCHOOL-2-NL (CELF 

PRESCHOOL-2-NL) 

Theoretische Uitgangspunten 

De in 2004 verschenen herziene versie van de Preschool versie (voor de voor- en vroegschoolse periode) 

is nu bewerkt voor het Nederlandse taalgebied (i.e. gebruik in Nederland en Vlaanderen). De test is bedoeld 

om de algemene taalvaardigheid (KS = Kernscore) te beoordelen en om na te gaan of er sprake is 

van een taalprobleem. De specifieke vorm van het taalprobleem kan worden beschreven in termen van de 

Receptieve Taal Index (RTI), de Expressieve Taal Index (ETI), de Taalinhoud Index (TII) en de Taalvorm 

Index (TVI). Daarnaast kan men de vroege schoolvaardigheid en ontluikende geletterdheid beoordelen, 

evenals taal en communicatie in context (in de vorm van een pragmatiekprofiel). In paragraaf 2.3 en 2.5 is 

per subtest de meetpretentie aangegeven. Daarbij wordt bovendien aangegeven hoe deze zich verhoudt tot 

de taalontwikkeling en het leerplan enerzijds en tot activiteiten thuis en op school anderzijds. 

De doelgroep zijn kinderen in de leeftijd van 3;0 tot 6;11 jaar in Nederland en Vlaanderen. Inclusiecriteria 

(p. 120) impliceren dat het kind Nederlands als thuistaal moet hebben, zijn hele leven in Nederland of 

België heeft gewoond, niet lichamelijk of verstandelijk beperkt is (op functies die relevant zijn voor het 

kunnen begrijpen van instructies en opgaven) en niet gekenmerkt wordt door beperkende factoren die de 

deelname aan het primaire onderwijs belemmeren. Inclusiecriteria worden pas besproken in het hoofdstuk 

over normering; ze hadden beter eerder kunnen worden besproken, omdat ze relevant zijn voor de toepasbaarheid 

van de test bij een bepaalde doelgroep. 

Bij het gebruik van de CELF kan men verschillende onderzoeksdoelen hebben. Die zijn (p. 14) ondergebracht 

in een overzichtelijk weergegeven ‘Beoordelingsproces’: (1) Nagaan of er sprake is van een taalprobleem; 

(2) Beschrijving van de aard van het probleem; (3) beoordeling van vroege schoolvaardigheden 

en ontluikende geletterdheid en (4) beoordeling van taal en communicatie in context. Het identificeren van 

taalproblemen is een vrij algemene functieomschrijving; men had die wat meer moeten specificeren (bijvoorbeeld 

of de test kan dienen ter onderbouwing van belangrijke beslissingen in termen van de toelating 

tot cluster 2 scholen). In dit verband ontbreekt een theoretische inbedding van de CELF en haar constructen. 

Taalproblemen met name in de voorschoolse periode blijken uit de recente wetenschappelijke literatuur 

een belangrijke indicator voor ontwikkelingsproblemen. De CELF-preschool kan in dezen een belangrijke 

rol spelen en dat zou een theoretische verantwoording en bespreking van de recente onderzoeksliteratuur 

rechtvaardigen. 

Een algemene beschrijving van de constructen en hun onderlinge samenhang is beknopt weergegeven in 

hoofdstuk 1. In hoofdstuk 4 wordt veel uitgebreider ingegaan op de samenstelling van de subtests in het 

licht van de meetpretentie (per subtest), waarbij ook wordt ingegaan op de vraag welke aspecten van taal 

daarbij relevant zijn. Wanneer men de keuze van de subtests in de batterij als een gegeven beschouwt, is 

de beschrijving van de meetpretentie en de relevantie van de taak per subtest voldoende onderbouwd. Wél 

ontbreekt een meer overkoepelende beschrijving van de taalontwikkeling en de daarmee samengaande 

problematiek, van waaruit de keuze van de subtests wordt onderbouwd. En dat is jammer want daardoor is 

het moeilijk te beoordelen of deze keuzes (en de daarmee samenhangende prioriteiten) gerechtvaardigd 

zijn. De gebruiker moet daarom zelf ook goed op de hoogte zijn van de theorievorming over taalontwikkeling 

om de test goed te kunnen gebruiken en de juiste interpretatie te verbinden aan de uitkomsten op de 

test. 

De operationalisatiestappen naar de concrete testinhoud worden niet volledig genoeg beschreven. Daarbij 

speelt het een belangrijke rol dat de test een vertaling en bewerking is van een bestaande Amerikaanse test. 

Weliswaar worden de theoretische achtergrond en verantwoording van de subtests toegelicht in paragraaf 

4.1.1, maar de stappen die men heeft moeten nemen in de vertaling en bewerking worden in hun consequenties 

vrij oppervlakkig gedocumenteerd. Er wordt wel aangegeven dat er sprake is geweest van zorgvuldige 

bewerking en evaluatie (zie p. 106), en ook worden per subtest de noodzakelijk geachte wijzigingen 

in de testinhoud en instructie besproken, toch is het niet geheel duidelijk hoe de inhoud van elke subtest 

zich verhoudt tot de oorspronkelijke testinhoud. Enerzijds is moeilijk na te gaan of de vertaling en de 

vele wijzigingen hebben geleid tot een met het origineel vergelijkbare inhoud, anderzijds wordt er ook niet 

©2012, Nederlands Instituut van Psychologen, Amsterdam 

©2012, Boom test uitgevers, Amsterdam



gewerkt met een volledig nieuwe inhoud die vanuit een analyse van het theoretische concept voor elke 

subtest is verantwoord. Er heeft een vooronderzoek plaatsgevonden met betrekking tot de nieuw geconstrueerde 

inhoud, maar de rapportage daarvan biedt te weinig houvast. Niettemin lijken er voldoende stappen 

te zijn genomen om van een adequate testinhoud te kunnen spreken. 

Kwaliteit van het Testmateriaal 

Papier-en-potloodversie 

De testopgaven zijn gestandaardiseerd en voor iedereen hetzelfde qua inhoud, vorm en volgorde. Bij opgaven 

waarbij sprake is van gesproken tekst, is de wijze waarop dat gebeurt uiteraard van invloed op de 

mate van standaardisering. Gesproken teksten worden daarom aangeboden via een audio-CD, hetgeen zeer 

bijdraagt aan de standaardisatie van het itemmateriaal. 

Er is sprake van een objectief scoresysteem voor alle receptieve subtests. Dit geldt uiteraard voor de standaard 

afname en niet voor het ‘uitgebreider testen’ (‘testing the limits’) en de observaties van het testgedrag. 

Bij de expressieve subtests is het scoresysteem minder objectief omdat de testleider het gegeven 

antwoord moet beoordelen op correctheid. Bij sommige subtests is sprake van een dichotoom scoresysteem 

(0-1, fout-goed), bij andere van een meervoudig systeem (waarbij ook scores van hoger dan 1 mogelijk 

zijn). Door de uitgebreide toelichting c.q. de eenvoud van de te geven antwoorden is een grote mate 

van objectiviteit bereikt (vergelijkbaar of beter dan het scoresysteem van bijvoorbeeld de WISC). Een 

goede training van de scoring lijkt cruciaal omdat in verband met de te hanteren afbreekregels al tijdens de 

afname moet worden vastgesteld of een opgave fout is gemaakt. Er zijn twee aanvullende observatieschalen 

(‘Ontluikende geletterdheid’ en het ‘Pragmatiekprofiel’). Daarbij wordt gebruik gemaakt van vierpuntsschalen 

(met de optie Nvt). 

Er is veel moeite gedaan om fouten bij de afname te voorkomen. Dit gebeurt door op daartoe geëigende 

plaatsen de nodige informatie toe te voegen op het stimulusmateriaal en het scoreformulier, c.q. door duidelijke 

aanwijzingen te geven in de handleiding. Er worden bijvoorbeeld duidelijke richtlijnen en symbolen 

gegeven om het antwoord te noteren. Men dient zich er overigens wel goed van te vergewissen of en 

waar men bezig is met de standaard afname en waar er sprake is van uitgebreider vervolgonderzoek binnen 

een taak. Qua lay-out in de handleiding had dit wellicht nog wel iets beter gekund. 

De CELF is een betrekkelijk complexe test. Dat komt vooral door de aard en aanbiedingswijze van de verschillende 

taken en door het feit dat het om jonge kinderen gaat. Dit alles stelt hoge eisen aan de instructie 

en vormgeving. Daarnaast dient de testleider goed getraind en voorbereid te zijn op de testafname. Dit 

wordt in algemene zin ook duidelijk aangegeven. Door de complexiteit en de vereiste training is het lastig 

om de adequaatheid en volledigheid van de instructie goed te beoordelen. Op het eerste gezicht lijken er 

echter geen omissies en fouten in de instructie te zitten. Bij alle subtests is er een duidelijke, gestandaardiseerde 

instructie die voor de geteste voldoende houvast lijkt te bieden. Daarbij zijn ook nog voorbeelden 

oefenitems toegevoegd. Of dit alles volstaat zal afname in de praktijk moeten uitwijzen. De test ziet er erg 

degelijk en mooi uitgevoerd uit. Bij de vormgeving is duidelijk rekening gehouden met de jonge doelgroep. 

Het testmateriaal lijkt aantrekkelijk voor (zeer) jonge kinderen. De items zijn zorgvuldig geformuleerd 

en bijvoorbeeld gebaseerd op de streeflijst woordenschat voor zesjarigen. Zorgvuldig vormgegeven 

materiaal in handzame boekjes waardoor gestandaardiseerde afname kan plaatsvinden. 

Er wordt stapsgewijze gescoord. Lastig lijkt het opnemen van de respons van het kind. Door het gebruik 

van “de ezel” ziet het kind namelijk de ene kant, terwijl de testleider de andere kant nodig heeft om de 

juiste tekst uit te spreken. Daarbij lijkt het lastig om de respons van het kind goed waar te nemen (welk 

alternatief wijst het aan?), de bijbehorende letter te noteren op het formulier en de correctheid daarvan na 

te gaan. In principe zijn alle elementen voor een juiste scoring aanwezig, toch lijkt het lastig om hier geen 

fouten bij te maken. Men mag aannemen dat training en ervaring hun werk doen, maar met name de juiste 

plaats van kind en opgavenboek (onder een correcte werkhoek) lijkt moeilijk te vinden. Het noteren en 

opzoeken van scores in tabellen lijkt adequaat gereguleerd in de handleiding en door de vormgeving van 

het scoreformulier. 



Computerversie 

N.v.t. 



Kwaliteit van de Handleiding 

De aanwijzingen voor de testleider zijn duidelijk en systematisch omschreven, enerzijds in de handleiding, 

anderzijds in / op de opgavenboeken zelf. Dit geldt zowel voor de aanwijzingen als voor de uit te spreken 

teksten. 

De inclusiecriteria die zijn gehanteerd bij het normeringsonderzoek hebben consequenties voor de toepassingsmogelijkheden; 

ze hadden eerder genoemd kunnen worden (dan pas bij de beschrijving van het normeringsonderzoek; 

zie eerdere opmerking). In paragraaf 2.1 wordt aangegeven hoe men dient om te gaan 

met verschillen in culturele achtergrond en dialect enerzijds en kinderen uit specifieke probleemgroepen 

anderzijds. De aanwijzingen voor het hanteren van schaalscores bij specifieke testomstandigheden, respectievelijk 

wanneer het kind buiten de leeftijdsgroep valt, zijn adequaat. 

Op diverse plaatsen in hoofdstuk 2 worden voorbeelden van ingevulde scoreformulieren afgedrukt. Daarnaast 

wordt het beoordelings- en interpretatieproces van de CELF stapsgewijs beschreven in hoofdstuk 3. 

Daarbij wordt de betekenis en de wijze van interpreteren van de onderscheiden typen scores toegelicht. In 

paragraaf 3.4 wordt dit aangevuld met twee gevalsbeschrijvingen. Dit had wat uitgebreider gekund door 

ook de ingevulde scoreformulieren af te drukken en deze voorbeeld formulieren systematisch langs te lopen 

(daarbij de scoring in het voorbeeld betrekkend). Men had ook de gevalsbeschrijvingen van wat meer 

achtergrond kunnen voorzien en daar de interpretatie mee illustreren. In wat algemenere zin wordt her en 

der gewezen op andere potentieel relevante factoren. 

Op p. 13 wordt de vereiste deskundigheid vermeld: logopedisten, schoolpsychologen, pedagogen en diagnostici 

die zijn opgeleid in en ervaring hebben met het afnemen en interpreteren van gestandaardiseerde 

(taal)tests. Aanvullende eisen omtrent deskundigheid op p. 21. 

Een praktische opmerking: De ringband van de handleiding is niet erg degelijk. Na enig intensief gebruik 

van deze handleiding vallen de bladeren geleidelijk uit de ringband. Mogelijk was het beoordeelde exemplaar 

verkeerd ingebonden. 

Normen 

De normen zijn actueel. De dataverzameling voor de normering vond plaats tussen oktober 2010 en augustus 

2011 (p. 120). 

Op basis van eerder onderzoek met de CELF 4 is ervoor gekozen om in beginsel te streven naar gescheiden 

Vlaamse en Nederlandse normgroepen. In dat licht verbaast het dat is uitgegaan van verschillende 

streefaantallen voor deze groepen (1000 voor NL, 400 voor VL). Dit is alleen te begrijpen in het licht van 

een eventuele samenvoeging van de normgroepen (waarbij de beide herkomstlanden ongeveer evenredig 

zouden zijn gerepresenteerd), maar dit wordt niet toegelicht. 

Er is sprake van een model van continue normering. De voordelen daarvan met betrekking tot het aantal 

benodigde subjecten zijn genoegzaam bekend. Zij moeten in elk geval tot vergelijkbare nauwkeurigheid 

leiden (in vergelijking met klassieke normering) waar het gaat om het schatten van belangrijke verdelingskenmerken. 

Er worden analyses gepresenteerd waaruit blijkt dat de standaardfout van het gemiddelde 

bij de NL-steekproef alleen in de extreme groepen hoger is dan de bij klassieke normering vergelijkbare 

.75. Dit bij een N van 400 die is vereist voor het onderbouwen van belangrijke beslissingen. Dit is een 

bekend effect en men zou ervoor hebben kunnen compenseren door in de extreme groepen voor grotere 

aantallen te kiezen. Nu is de N in juist de onderste leeftijdsgroep erg laag (lager dan nagestreefd)! Gemiddeld 

voldoet de schattingsfout met .62 echter aan de eisen (NB. Dat laatste geldt met een gemiddelde 

schattingsfout van .83 niet voor de Vlaamse steekproef.). De waarden voor de twee laagste en de twee 

hoogste normgroepen (i.e. de helft van de normgroepen) voldoet bij de Vlaamse normering evenmin. 

Wanneer men net nemen van minder belangrijke beslissingen als uitgangspunt neemt voldoet de gemiddelde 

waarde nét wel. Daarnaast blijkt uit nadere analyses dat de normgroepen voor drie subtests konden 

worden samengevoegd voor NL en VL, namelijk bij de subtests BAV, ZH en EC. De kenmerken van de 





Vlaamse normering zijn overigens in de beoordeling van de normen (die alleen betrekking heeft op de 

Nederlandse normen) niet meegenomen. 

Ten aanzien van de representativiteit zijn de volgende kanttekeningen te plaatsen: 

− De wijze van werven is niet bijzonder adequaat. Voor NL en VL is op verschillende manieren geworven 

(maar dit hangt samen met de verschillende onderwijsstructuur in beide populaties). Wat echter 

meer zorgen baart is het feit dat de werving verliep via (de contacten van) testleiders, wat geleid kan 

hebben tot afwijkingen in de representativiteit. 

− Soms zijn instellingen, soms rechtstreeks individuele ouders benaderd; een goed overzicht ontbreekt. 

− Zorgwekkend is de hoge non-respons; gemiddeld deed slechts zo’n 15% (in NL), c.q. 10% van de benaderde 

instellingen mee. Wat dit voor gevolgen zou kunnen hebben voor de representativiteit blijft 

onbesproken. 

− Er wordt vastgesteld dat een goede verhouding jongens/meisjes kon worden gerealiseerd. Dit mag dan 

zo zijn over alle leeftijdsgroepen heen, het geldt zeker niet in een aantal specifieke leeftijdsgroepen. 

− De verdeling naar bevolkingsdichtheid en naar opleidingsniveau van de moeder wordt alleen overall en 

niet per leeftijdsgroep gegeven. De (overall) verdelingen bleken niet conform die in de populatie, zodat 

weging nodig was. Weging is echter bij een continue normeringsmodel een hachelijke zaak als de afwijkingen 

van de populatieverdelingen per normgroep niet ongeveer gelijk zijn; het effect van weging 

is dan moeilijk op waarde te schatten. Daar staat tegenover dat de weging per afzonderlijke normgroep 

is uitgevoerd, maar dit geeft bij continue normering onvoldoende garantie dat de weging adequaat is 

uitgevoerd. 

− De representativiteit op de voor een taaltest uiterst belangrijke variabele ‘herkomst’ (dan wel etniciteit 

of thuistaal) kon niet worden nagegaan. 

Het bovenstaande geeft voldoende aanleiding om vraagtekens te zetten bij de representativiteit. 

Het type schaal wordt toegelicht op p. 129-130. Voor de subtests is dat een standaardscore 1-19 met gemiddelde 

10. Dat is verdedigbaar. Het gebruik van een IQ-schaal (100;15) voor de Kern- en Indexscores is 

dat wat minder vanwege het betrekkelijk geringe bereik van de om te zetten somscores. Voor alle scores 

geldt dat het gebruik van percentielen niet erg voor de hand ligt (opnieuw vanwege het bereik van de onderliggende 

score). Ten slotte worden leeftijdsequivalenten gegeven. De COTAN wijst het gebruik van 

leeftijdsequivalenten af. De auteurs zijn zich hiervan bewust, geven ook alle mogelijke waarschuwingen af, 

maar hebben desondanks gemeend toch dit type scores te moeten verstrekken. 

Per normgroep naar leeftijd en land, worden voor elke subtest gemiddelde, SD, scorebereik en gemiddelde 

p-waarde verstrekt. De COTAN heeft ten behoeve van de beoordeling ook gegevens over scheefheid en 

kurtosis ontvangen; de gebruiker kan deze op verzoek bij de uitgever bekomen. Er worden gegevens verstrekt 

over verschillen tussen subgroepen (naar leeftijd, etnische herkomst, sekse, opleidingsniveau moeder, 

klinische groep). 

Betrouwbaarheid 

Relevant geacht worden interne consistentie, test-hertestbetrouwbaarheid en interbeoordelaarsbetrouwbaarheid. 

Dit laatste geldt met name voor zes subtests waarbij beoordeling van het antwoord relevant is. 

De beoordeling van de betrouwbaarheidscoëfficiënten wordt gebaseerd op een gebruik van de Kern- en 

Indexscores voor het onderbouwen van belangrijke beslissingen en daarnaast van de subtestscores om 

minder belangrijke beschrijvende uitspraken te doen over de sterke en zwakke punten in taalontwikkeling 

en taalgebruik. 

De Kern- en indexscores laten betrouwbaarheden gebaseerd op inter-itemrelaties (lambda’s) zien die varieren 

van .74 tot en met .91. Over het algemeen zijn de coëfficiënten als voldoende te kenschetsen met 

voor enkele scores en leeftijdsgroepen waarden van nét onder .80 en een enkele keer van .90 of hoger. De 

betrouwbaarheden voor individuele subtests zijn aanzienlijk lager, met name voor de hogere leeftijdsgroepen. 

Zij zijn voor het aangeduide gebruik eveneens meestal voldoende. Voor enkele subtests en leeftijdsgroepen 

moet interpretatie op subtestniveau worden ontraden omdat de betrouwbaarheid onvoldoende is. 





De subtesten ZB en EC laten relatief lagere waarden zien, bij WS, AW en BAV is een dalende trend te 

zien naarmate de leeftijdsgroep ouder is. 

De test-hertestbetrouwbaarheden (n = 103) sluiten hierbij aan, al zijn de waarden enigszins geflatteerd 

omdat ze berekend zijn op leeftijdsgroepen die dubbel zo breed zijn als de normgroepen. 

Bij de zes subtests waarbij dat relevant is, is de interbeoordelaarsbetrouwbaarheid vastgesteld in termen 

van gewogen kappa’s (n = 96). De kappa’s variëren tussen .73 en .96. Bij de subtests met lagere overeenstemmingswaarden 

wordt dit vooral geweten aan slechte geluidsopnamen, hetgeen moeilijk te controleren 

valt. Mogelijk is ook sprake van grotere interpretatieruimte van de respons. Bij de berekening van de interbeoordelaarsbetrouwbaarheid 

is niet per normgroep geanalyseerd. 

Begripsvaliditeit 

Aan de hand van tabellen met intercorrelaties, factoranalyses en confirmatorische factoranalyse wordt getracht 

steun te vinden voor de theoretische uitgangspunten betreffende de dimensionaliteit van de scores. 

Onduidelijk daarbij is wat eigenlijk die uitgangspunten zijn. Enerzijds lijkt er theoretisch sprake van één 

duidelijke hoofdfactor die het gebruik van een Kernscore (KS) op niveau 1 legitimeert (Is er sprake van 

een taalprobleem?), anderzijds worden verschillende indices verondersteld die de analyses op niveau 2 

(Wat is de aard van het probleem?) legitimeren. De analyses wijzen erop dat het eerste uitgangspunt (dat 

ook wordt gesteund door nationaal en internationaal onderzoek) empirische steun ondervindt. De resultaten 

wijzen op één algemene taalfactor. Met betrekking tot het tweede uitgangspunt is er weinig steun voor 

de divergente validiteit van de onderscheiden indices of deelgebieden (sterktes en zwaktes). Zo is de samenhang 

tussen receptief en expressief bijvoorbeeld .96. 

Er worden geen systematische gegevens verstrekt met betrekking tot de kwaliteit van de items. Deze gegevens 

zijn wel op aanvraag beschikbaar, maar waarom zijn die gegevens niet gewoon in de verantwoording 

opgenomen? 

Er zijn geen analyses over de invariantie van de factorstructuur over subgroepen. Dit had wel inzicht kunnen 

geven in de multi-dimensionaliteit van het construct algemene taalvaardigheid in de voorschoolse periode. 

Over invariantie over leeftijd worden geen interpreteerbare gegevens verstrekt. Overigens is dit lastig 

omdat niet op alle leeftijden dezelfde subtests worden afgenomen en sommige subtests aanmerkelijke 

plafondeffecten vertonen. 

Gegevens over itembias naar sekse, leeftijd en etnische herkomst worden niet verstrekt. 

De convergente en divergente validiteit van de CELF 2 wordt onderzocht met behulp van vier instrumenten, 

namelijk de WPPSI III, de CELF 4 en de beide Schlichting tests voor taalproductie en taalbegrip. 

Hierover wordt uitgebreid en zorgvuldig gerapporteerd. Resultaten: 

− Met de WPPSI wordt een correlatie van .71 gevonden met het VIQ en een duidelijk lagere correlatie 

met het PIQ (.47). Op het niveau van de index-scores zijn de correlaties met het VIQ tussen .60 en .70; 

de correlaties met het PIQ zijn ook op dit indexniveau duidelijk lager. Correlaties op subtestniveau 

worden niet of nauwelijks differentieel geïnterpreteerd. 

− Bij een beperkte groep kinderen die in de leeftijdsrange zitten waarin CELF 2 en CELF 4 overlappen is 

gekeken naar de correlaties tussen overlappende subtests. De correlaties op indexniveau zijn redelijk 

sterk (.66 - .74), maar vallen toch wat tegen. Hetzelfde geldt voor correlaties op subtestniveau; deze 

zijn over het algemeen lager dan de correlaties op indexniveau (terwijl het niettemin gaat om exact dezelfde 

subtests); voor enkele subtests zijn de resultaten ronduit tegenvallend met een negatieve uitschieter 

voor FB van .27. 

− Schlichting Test voor Taalproductie II: gecorrigeerde correlaties tussen Kern- en indexscores enerzijds 

en STTP-onderdelen anderzijds liggen tussen .42 en .68. Over het algemeen zijn de verschillen tussen 

de correlaties niet erg hoog en lastig te interpreteren in termen van divergente validiteit (ook al wordt 

dit wel – op ad hoc basis, zo lijkt het – geprobeerd). 

− Schlichting Test voor Taalbegrip: gecorrigeerde correlaties (TBQ met CELF Kern- en Indexscores) 

tussen .45 en .61. Op subtestniveau zijn de correlaties soms wel, soms niet volgens verwachting. 

Het beeld dat zich opdringt is, dat er voldoende onderbouwing is voor de begripsvaliditeit van de Kernscore 

(als representatief voor het bestaan van één taalfactor). Aan de andere kant bieden de analyses weinig 





aanknopingspunten voor de onderbouwing van de divergente validiteit van de Indexscores. Ook de validiteit 

op subtestniveau is hier nauwelijks mee te onderbouwen. Dit alles sluit aan bij de conclusies met betrekking 

tot uni/multi-dimensionaliteit. 

Scores van verschillende groepen: 

− Er is een duidelijke samenhang met leeftijd, wat verwacht mocht worden vanwege de snelle taalontwikkeling 

die kinderen op deze leeftijd vertonen. De gemiddelden nemen geleidelijk tot naarmate de 

normgroepen in leeftijd toenemen. 

− Klinische groepen (ESM, SH, ASS en Vroegbehandeling VB) laten gemiddelden zien die duidelijk 

afwijken van de normgroep (op alle niveaus van scoring). Alle klinische groepen betreffen kinderen 

die cluster 2 scholen bezoeken (dus ook de ASS kinderen). In de titel van de paragraaf wordt verwezen 

naar ESM/SLI. De term SLI is niet uitgelegd en voor de gemiddelde lezer misschien niet te begrijpen. 

− Kinderen van niet-westerse allochtonen scoren gemiddeld lager dan de normgroep; westerse allochtonen 

scoren gemiddeld iets hoger, wat niet op voorhand werd verwacht. De steekproef van kinderen uit 

minderheidsgroepen is relatief klein. 

− Volgens verwachting scoren jongens marginaal lager dan meisjes. Het ware goed geweest als de interactie 

tussen leeftijd en geslacht ook was onderzocht en gerapporteerd: immers verschil tussen jongens 

en meisje wordt kleiner bij ouder worden. De data hadden zich uitstekend geleend voor zo’n interactie 

analyse. 

− Opleidingsniveau moeder: bij hogere SES scoren kinderen gemiddeld volgens verwachting hoger dan 

bij midden of lage SES. 

Correlaties met Cito-scores op Taal voor Kleuters en Rekenen voor Kleuters tonen wat vreemde uitkomsten. 

De correlaties met Taal voor Kern- en Indexscores liggen tussen .24 en .43 en zijn lager dan verwacht. 

De correlaties van RTI en TII met Rekenen laten hetzelfde niveau zien (.41 en .34), waar dit niet 

echt te verwachten was; dit wordt geïnterpreteerd in termen van taalbegrip en semantische vaardigheden. 

De N van dit onderzoek is klein (35) en de CITO scores A t/m E zijn te weinig gedifferentieerd. Derhalve 

dragen deze gegevens nauwelijks bij aan verdere beeldvorming inzake de validiteit. 

Criteriumvaliditeit 

De resultaten van de normgroep werden onderzocht in relatie tot de resultaten in een ESM-groep van beperkte 

omvang (n = 54). Het onderscheidend vermogen op basis van ROC-curve is .943 voor de Kernscore; 

met toevoeging van specifieke subtestscores wordt dit .979. Bij een afkapwaarde van 85 (= M – 1SD) 

is de sensitiviteit .89 en de specificiteit .83. De COTAN beoordeelt het gerapporteerde onderzoek als een 

duidelijke en hoopgevende eerste stap op weg naar de verdere onderbouwing van het voorspellend vermogen 

van de CELF Preschool-2 NL . Het instrument lijkt goed in staat kinderen met ESM-problematiek te 

onderscheiden van normale kinderen. Het onderzoek kent echter zijn beperkingen in de uitvoering en is 

ook op zichzelf redelijk beperkt ten opzichte van de brede gebruiksfunctie van het instrument (die overigens 

niet al te best is gespecificeerd, zoals eerder aangegeven). Het is om deze redenen duidelijk te vroeg 

om de criteriumvaliditeit als ‘goed’ te beoordelen; daarvoor dient uitgebreider onderzoek met positief resultaat 

te worden uitgevoerd en gerapporteerd. De auteurs geven bovendien zelf aan dat de ESM-groep 

beperkt bruikbaar is voor validiteitsbepaling, zie p. 161: “Omdat de deelnemers aan de onderzoeken zijn 

geworven op basis van beschikbaarheid, moeten de resultaten vooral gezien worden in het licht van bredere 

validiteitsbepaling”. Op grond hiervan beoordeelt de COTAN de criteriumvaliditeit als ‘voldoende’. 

Algemeen commentaar 

De CELF Preschool 2 NL kent twee toegevoegde observatieschalen, namelijk de Observatieschaal Ontluikende 

geletterdheid en het Pragmatiekprofiel. Deze onderdelen worden wel beknopt beschreven, maar zijn 

verder niet gedocumenteerd, noch van empirische informatie voorzien (zoals dat voor de overige onderdelen 

wél het geval is). Het oordeel over deze onderdelen luidt dan ook ‘onvoldoende’ op alle criteria vanwege 

het ontbreken van informatie.

CELF PRESCHOOL-2-NL

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?