CELF PRESCHOOL-2-NL
CELF PRESCHOOL-2-NL
CELF PRESCHOOL-2-NL
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Documentatie van Tests en Testresearch in Nederland<br />
TOELICHTING BIJ DE BEOORDELING<br />
CLINICAL EVALUATION OF LANGUAGE FUNDAMENTALS <strong>PRESCHOOL</strong>-2-<strong>NL</strong> (<strong>CELF</strong><br />
<strong>PRESCHOOL</strong>-2-<strong>NL</strong>)<br />
Theoretische Uitgangspunten<br />
De in 2004 verschenen herziene versie van de Preschool versie (voor de voor- en vroegschoolse periode)<br />
is nu bewerkt voor het Nederlandse taalgebied (i.e. gebruik in Nederland en Vlaanderen). De test is bedoeld<br />
om de algemene taalvaardigheid (KS = Kernscore) te beoordelen en om na te gaan of er sprake is<br />
van een taalprobleem. De specifieke vorm van het taalprobleem kan worden beschreven in termen van de<br />
Receptieve Taal Index (RTI), de Expressieve Taal Index (ETI), de Taalinhoud Index (TII) en de Taalvorm<br />
Index (TVI). Daarnaast kan men de vroege schoolvaardigheid en ontluikende geletterdheid beoordelen,<br />
evenals taal en communicatie in context (in de vorm van een pragmatiekprofiel). In paragraaf 2.3 en 2.5 is<br />
per subtest de meetpretentie aangegeven. Daarbij wordt bovendien aangegeven hoe deze zich verhoudt tot<br />
de taalontwikkeling en het leerplan enerzijds en tot activiteiten thuis en op school anderzijds.<br />
De doelgroep zijn kinderen in de leeftijd van 3;0 tot 6;11 jaar in Nederland en Vlaanderen. Inclusiecriteria<br />
(p. 120) impliceren dat het kind Nederlands als thuistaal moet hebben, zijn hele leven in Nederland of<br />
België heeft gewoond, niet lichamelijk of verstandelijk beperkt is (op functies die relevant zijn voor het<br />
kunnen begrijpen van instructies en opgaven) en niet gekenmerkt wordt door beperkende factoren die de<br />
deelname aan het primaire onderwijs belemmeren. Inclusiecriteria worden pas besproken in het hoofdstuk<br />
over normering; ze hadden beter eerder kunnen worden besproken, omdat ze relevant zijn voor de toepasbaarheid<br />
van de test bij een bepaalde doelgroep.<br />
Bij het gebruik van de <strong>CELF</strong> kan men verschillende onderzoeksdoelen hebben. Die zijn (p. 14) ondergebracht<br />
in een overzichtelijk weergegeven ‘Beoordelingsproces’: (1) Nagaan of er sprake is van een taalprobleem;<br />
(2) Beschrijving van de aard van het probleem; (3) beoordeling van vroege schoolvaardigheden<br />
en ontluikende geletterdheid en (4) beoordeling van taal en communicatie in context. Het identificeren van<br />
taalproblemen is een vrij algemene functieomschrijving; men had die wat meer moeten specificeren (bijvoorbeeld<br />
of de test kan dienen ter onderbouwing van belangrijke beslissingen in termen van de toelating<br />
tot cluster 2 scholen). In dit verband ontbreekt een theoretische inbedding van de <strong>CELF</strong> en haar constructen.<br />
Taalproblemen met name in de voorschoolse periode blijken uit de recente wetenschappelijke literatuur<br />
een belangrijke indicator voor ontwikkelingsproblemen. De <strong>CELF</strong>-preschool kan in dezen een belangrijke<br />
rol spelen en dat zou een theoretische verantwoording en bespreking van de recente onderzoeksliteratuur<br />
rechtvaardigen.<br />
Een algemene beschrijving van de constructen en hun onderlinge samenhang is beknopt weergegeven in<br />
hoofdstuk 1. In hoofdstuk 4 wordt veel uitgebreider ingegaan op de samenstelling van de subtests in het<br />
licht van de meetpretentie (per subtest), waarbij ook wordt ingegaan op de vraag welke aspecten van taal<br />
daarbij relevant zijn. Wanneer men de keuze van de subtests in de batterij als een gegeven beschouwt, is<br />
de beschrijving van de meetpretentie en de relevantie van de taak per subtest voldoende onderbouwd. Wél<br />
ontbreekt een meer overkoepelende beschrijving van de taalontwikkeling en de daarmee samengaande<br />
problematiek, van waaruit de keuze van de subtests wordt onderbouwd. En dat is jammer want daardoor is<br />
het moeilijk te beoordelen of deze keuzes (en de daarmee samenhangende prioriteiten) gerechtvaardigd<br />
zijn. De gebruiker moet daarom zelf ook goed op de hoogte zijn van de theorievorming over taalontwikkeling<br />
om de test goed te kunnen gebruiken en de juiste interpretatie te verbinden aan de uitkomsten op de<br />
test.<br />
De operationalisatiestappen naar de concrete testinhoud worden niet volledig genoeg beschreven. Daarbij<br />
speelt het een belangrijke rol dat de test een vertaling en bewerking is van een bestaande Amerikaanse test.<br />
Weliswaar worden de theoretische achtergrond en verantwoording van de subtests toegelicht in paragraaf<br />
4.1.1, maar de stappen die men heeft moeten nemen in de vertaling en bewerking worden in hun consequenties<br />
vrij oppervlakkig gedocumenteerd. Er wordt wel aangegeven dat er sprake is geweest van zorgvuldige<br />
bewerking en evaluatie (zie p. 106), en ook worden per subtest de noodzakelijk geachte wijzigingen<br />
in de testinhoud en instructie besproken, toch is het niet geheel duidelijk hoe de inhoud van elke subtest<br />
zich verhoudt tot de oorspronkelijke testinhoud. Enerzijds is moeilijk na te gaan of de vertaling en de<br />
vele wijzigingen hebben geleid tot een met het origineel vergelijkbare inhoud, anderzijds wordt er ook niet<br />
©2012, Nederlands Instituut van Psychologen, Amsterdam<br />
©2012, Boom test uitgevers, Amsterdam
Documentatie van Tests en Testresearch in Nederland<br />
TOELICHTING BIJ DE BEOORDELING<br />
gewerkt met een volledig nieuwe inhoud die vanuit een analyse van het theoretische concept voor elke<br />
subtest is verantwoord. Er heeft een vooronderzoek plaatsgevonden met betrekking tot de nieuw geconstrueerde<br />
inhoud, maar de rapportage daarvan biedt te weinig houvast. Niettemin lijken er voldoende stappen<br />
te zijn genomen om van een adequate testinhoud te kunnen spreken.<br />
Kwaliteit van het Testmateriaal<br />
Papier-en-potloodversie<br />
De testopgaven zijn gestandaardiseerd en voor iedereen hetzelfde qua inhoud, vorm en volgorde. Bij opgaven<br />
waarbij sprake is van gesproken tekst, is de wijze waarop dat gebeurt uiteraard van invloed op de<br />
mate van standaardisering. Gesproken teksten worden daarom aangeboden via een audio-CD, hetgeen zeer<br />
bijdraagt aan de standaardisatie van het itemmateriaal.<br />
Er is sprake van een objectief scoresysteem voor alle receptieve subtests. Dit geldt uiteraard voor de standaard<br />
afname en niet voor het ‘uitgebreider testen’ (‘testing the limits’) en de observaties van het testgedrag.<br />
Bij de expressieve subtests is het scoresysteem minder objectief omdat de testleider het gegeven<br />
antwoord moet beoordelen op correctheid. Bij sommige subtests is sprake van een dichotoom scoresysteem<br />
(0-1, fout-goed), bij andere van een meervoudig systeem (waarbij ook scores van hoger dan 1 mogelijk<br />
zijn). Door de uitgebreide toelichting c.q. de eenvoud van de te geven antwoorden is een grote mate<br />
van objectiviteit bereikt (vergelijkbaar of beter dan het scoresysteem van bijvoorbeeld de WISC). Een<br />
goede training van de scoring lijkt cruciaal omdat in verband met de te hanteren afbreekregels al tijdens de<br />
afname moet worden vastgesteld of een opgave fout is gemaakt. Er zijn twee aanvullende observatieschalen<br />
(‘Ontluikende geletterdheid’ en het ‘Pragmatiekprofiel’). Daarbij wordt gebruik gemaakt van vierpuntsschalen<br />
(met de optie Nvt).<br />
Er is veel moeite gedaan om fouten bij de afname te voorkomen. Dit gebeurt door op daartoe geëigende<br />
plaatsen de nodige informatie toe te voegen op het stimulusmateriaal en het scoreformulier, c.q. door duidelijke<br />
aanwijzingen te geven in de handleiding. Er worden bijvoorbeeld duidelijke richtlijnen en symbolen<br />
gegeven om het antwoord te noteren. Men dient zich er overigens wel goed van te vergewissen of en<br />
waar men bezig is met de standaard afname en waar er sprake is van uitgebreider vervolgonderzoek binnen<br />
een taak. Qua lay-out in de handleiding had dit wellicht nog wel iets beter gekund.<br />
De <strong>CELF</strong> is een betrekkelijk complexe test. Dat komt vooral door de aard en aanbiedingswijze van de verschillende<br />
taken en door het feit dat het om jonge kinderen gaat. Dit alles stelt hoge eisen aan de instructie<br />
en vormgeving. Daarnaast dient de testleider goed getraind en voorbereid te zijn op de testafname. Dit<br />
wordt in algemene zin ook duidelijk aangegeven. Door de complexiteit en de vereiste training is het lastig<br />
om de adequaatheid en volledigheid van de instructie goed te beoordelen. Op het eerste gezicht lijken er<br />
echter geen omissies en fouten in de instructie te zitten. Bij alle subtests is er een duidelijke, gestandaardiseerde<br />
instructie die voor de geteste voldoende houvast lijkt te bieden. Daarbij zijn ook nog voorbeeld- en<br />
oefenitems toegevoegd. Of dit alles volstaat zal afname in de praktijk moeten uitwijzen. De test ziet er erg<br />
degelijk en mooi uitgevoerd uit. Bij de vormgeving is duidelijk rekening gehouden met de jonge doelgroep.<br />
Het testmateriaal lijkt aantrekkelijk voor (zeer) jonge kinderen. De items zijn zorgvuldig geformuleerd<br />
en bijvoorbeeld gebaseerd op de streeflijst woordenschat voor zesjarigen. Zorgvuldig vormgegeven<br />
materiaal in handzame boekjes waardoor gestandaardiseerde afname kan plaatsvinden.<br />
Er wordt stapsgewijze gescoord. Lastig lijkt het opnemen van de respons van het kind. Door het gebruik<br />
van “de ezel” ziet het kind namelijk de ene kant, terwijl de testleider de andere kant nodig heeft om de<br />
juiste tekst uit te spreken. Daarbij lijkt het lastig om de respons van het kind goed waar te nemen (welk<br />
alternatief wijst het aan?), de bijbehorende letter te noteren op het formulier en de correctheid daarvan na<br />
te gaan. In principe zijn alle elementen voor een juiste scoring aanwezig, toch lijkt het lastig om hier geen<br />
fouten bij te maken. Men mag aannemen dat training en ervaring hun werk doen, maar met name de juiste<br />
plaats van kind en opgavenboek (onder een correcte werkhoek) lijkt moeilijk te vinden. Het noteren en<br />
opzoeken van scores in tabellen lijkt adequaat gereguleerd in de handleiding en door de vormgeving van<br />
het scoreformulier.<br />
©2012, Nederlands Instituut van Psychologen, Amsterdam<br />
©2012, Boom test uitgevers, Amsterdam
Computerversie<br />
N.v.t.<br />
Documentatie van Tests en Testresearch in Nederland<br />
TOELICHTING BIJ DE BEOORDELING<br />
Kwaliteit van de Handleiding<br />
De aanwijzingen voor de testleider zijn duidelijk en systematisch omschreven, enerzijds in de handleiding,<br />
anderzijds in / op de opgavenboeken zelf. Dit geldt zowel voor de aanwijzingen als voor de uit te spreken<br />
teksten.<br />
De inclusiecriteria die zijn gehanteerd bij het normeringsonderzoek hebben consequenties voor de toepassingsmogelijkheden;<br />
ze hadden eerder genoemd kunnen worden (dan pas bij de beschrijving van het normeringsonderzoek;<br />
zie eerdere opmerking). In paragraaf 2.1 wordt aangegeven hoe men dient om te gaan<br />
met verschillen in culturele achtergrond en dialect enerzijds en kinderen uit specifieke probleemgroepen<br />
anderzijds. De aanwijzingen voor het hanteren van schaalscores bij specifieke testomstandigheden, respectievelijk<br />
wanneer het kind buiten de leeftijdsgroep valt, zijn adequaat.<br />
Op diverse plaatsen in hoofdstuk 2 worden voorbeelden van ingevulde scoreformulieren afgedrukt. Daarnaast<br />
wordt het beoordelings- en interpretatieproces van de <strong>CELF</strong> stapsgewijs beschreven in hoofdstuk 3.<br />
Daarbij wordt de betekenis en de wijze van interpreteren van de onderscheiden typen scores toegelicht. In<br />
paragraaf 3.4 wordt dit aangevuld met twee gevalsbeschrijvingen. Dit had wat uitgebreider gekund door<br />
ook de ingevulde scoreformulieren af te drukken en deze voorbeeld formulieren systematisch langs te lopen<br />
(daarbij de scoring in het voorbeeld betrekkend). Men had ook de gevalsbeschrijvingen van wat meer<br />
achtergrond kunnen voorzien en daar de interpretatie mee illustreren. In wat algemenere zin wordt her en<br />
der gewezen op andere potentieel relevante factoren.<br />
Op p. 13 wordt de vereiste deskundigheid vermeld: logopedisten, schoolpsychologen, pedagogen en diagnostici<br />
die zijn opgeleid in en ervaring hebben met het afnemen en interpreteren van gestandaardiseerde<br />
(taal)tests. Aanvullende eisen omtrent deskundigheid op p. 21.<br />
Een praktische opmerking: De ringband van de handleiding is niet erg degelijk. Na enig intensief gebruik<br />
van deze handleiding vallen de bladeren geleidelijk uit de ringband. Mogelijk was het beoordeelde exemplaar<br />
verkeerd ingebonden.<br />
Normen<br />
De normen zijn actueel. De dataverzameling voor de normering vond plaats tussen oktober 2010 en augustus<br />
2011 (p. 120).<br />
Op basis van eerder onderzoek met de <strong>CELF</strong> 4 is ervoor gekozen om in beginsel te streven naar gescheiden<br />
Vlaamse en Nederlandse normgroepen. In dat licht verbaast het dat is uitgegaan van verschillende<br />
streefaantallen voor deze groepen (1000 voor <strong>NL</strong>, 400 voor VL). Dit is alleen te begrijpen in het licht van<br />
een eventuele samenvoeging van de normgroepen (waarbij de beide herkomstlanden ongeveer evenredig<br />
zouden zijn gerepresenteerd), maar dit wordt niet toegelicht.<br />
Er is sprake van een model van continue normering. De voordelen daarvan met betrekking tot het aantal<br />
benodigde subjecten zijn genoegzaam bekend. Zij moeten in elk geval tot vergelijkbare nauwkeurigheid<br />
leiden (in vergelijking met klassieke normering) waar het gaat om het schatten van belangrijke verdelingskenmerken.<br />
Er worden analyses gepresenteerd waaruit blijkt dat de standaardfout van het gemiddelde<br />
bij de <strong>NL</strong>-steekproef alleen in de extreme groepen hoger is dan de bij klassieke normering vergelijkbare<br />
.75. Dit bij een N van 400 die is vereist voor het onderbouwen van belangrijke beslissingen. Dit is een<br />
bekend effect en men zou ervoor hebben kunnen compenseren door in de extreme groepen voor grotere<br />
aantallen te kiezen. Nu is de N in juist de onderste leeftijdsgroep erg laag (lager dan nagestreefd)! Gemiddeld<br />
voldoet de schattingsfout met .62 echter aan de eisen (NB. Dat laatste geldt met een gemiddelde<br />
schattingsfout van .83 niet voor de Vlaamse steekproef.). De waarden voor de twee laagste en de twee<br />
hoogste normgroepen (i.e. de helft van de normgroepen) voldoet bij de Vlaamse normering evenmin.<br />
Wanneer men net nemen van minder belangrijke beslissingen als uitgangspunt neemt voldoet de gemiddelde<br />
waarde nét wel. Daarnaast blijkt uit nadere analyses dat de normgroepen voor drie subtests konden<br />
worden samengevoegd voor <strong>NL</strong> en VL, namelijk bij de subtests BAV, ZH en EC. De kenmerken van de<br />
©2012, Nederlands Instituut van Psychologen, Amsterdam<br />
©2012, Boom test uitgevers, Amsterdam
Documentatie van Tests en Testresearch in Nederland<br />
TOELICHTING BIJ DE BEOORDELING<br />
Vlaamse normering zijn overigens in de beoordeling van de normen (die alleen betrekking heeft op de<br />
Nederlandse normen) niet meegenomen.<br />
Ten aanzien van de representativiteit zijn de volgende kanttekeningen te plaatsen:<br />
− De wijze van werven is niet bijzonder adequaat. Voor <strong>NL</strong> en VL is op verschillende manieren geworven<br />
(maar dit hangt samen met de verschillende onderwijsstructuur in beide populaties). Wat echter<br />
meer zorgen baart is het feit dat de werving verliep via (de contacten van) testleiders, wat geleid kan<br />
hebben tot afwijkingen in de representativiteit.<br />
− Soms zijn instellingen, soms rechtstreeks individuele ouders benaderd; een goed overzicht ontbreekt.<br />
− Zorgwekkend is de hoge non-respons; gemiddeld deed slechts zo’n 15% (in <strong>NL</strong>), c.q. 10% van de benaderde<br />
instellingen mee. Wat dit voor gevolgen zou kunnen hebben voor de representativiteit blijft<br />
onbesproken.<br />
− Er wordt vastgesteld dat een goede verhouding jongens/meisjes kon worden gerealiseerd. Dit mag dan<br />
zo zijn over alle leeftijdsgroepen heen, het geldt zeker niet in een aantal specifieke leeftijdsgroepen.<br />
− De verdeling naar bevolkingsdichtheid en naar opleidingsniveau van de moeder wordt alleen overall en<br />
niet per leeftijdsgroep gegeven. De (overall) verdelingen bleken niet conform die in de populatie, zodat<br />
weging nodig was. Weging is echter bij een continue normeringsmodel een hachelijke zaak als de afwijkingen<br />
van de populatieverdelingen per normgroep niet ongeveer gelijk zijn; het effect van weging<br />
is dan moeilijk op waarde te schatten. Daar staat tegenover dat de weging per afzonderlijke normgroep<br />
is uitgevoerd, maar dit geeft bij continue normering onvoldoende garantie dat de weging adequaat is<br />
uitgevoerd.<br />
− De representativiteit op de voor een taaltest uiterst belangrijke variabele ‘herkomst’ (dan wel etniciteit<br />
of thuistaal) kon niet worden nagegaan.<br />
Het bovenstaande geeft voldoende aanleiding om vraagtekens te zetten bij de representativiteit.<br />
Het type schaal wordt toegelicht op p. 129-130. Voor de subtests is dat een standaardscore 1-19 met gemiddelde<br />
10. Dat is verdedigbaar. Het gebruik van een IQ-schaal (100;15) voor de Kern- en Indexscores is<br />
dat wat minder vanwege het betrekkelijk geringe bereik van de om te zetten somscores. Voor alle scores<br />
geldt dat het gebruik van percentielen niet erg voor de hand ligt (opnieuw vanwege het bereik van de onderliggende<br />
score). Ten slotte worden leeftijdsequivalenten gegeven. De COTAN wijst het gebruik van<br />
leeftijdsequivalenten af. De auteurs zijn zich hiervan bewust, geven ook alle mogelijke waarschuwingen af,<br />
maar hebben desondanks gemeend toch dit type scores te moeten verstrekken.<br />
Per normgroep naar leeftijd en land, worden voor elke subtest gemiddelde, SD, scorebereik en gemiddelde<br />
p-waarde verstrekt. De COTAN heeft ten behoeve van de beoordeling ook gegevens over scheefheid en<br />
kurtosis ontvangen; de gebruiker kan deze op verzoek bij de uitgever bekomen. Er worden gegevens verstrekt<br />
over verschillen tussen subgroepen (naar leeftijd, etnische herkomst, sekse, opleidingsniveau moeder,<br />
klinische groep).<br />
Betrouwbaarheid<br />
Relevant geacht worden interne consistentie, test-hertestbetrouwbaarheid en interbeoordelaarsbetrouwbaarheid.<br />
Dit laatste geldt met name voor zes subtests waarbij beoordeling van het antwoord relevant is.<br />
De beoordeling van de betrouwbaarheidscoëfficiënten wordt gebaseerd op een gebruik van de Kern- en<br />
Indexscores voor het onderbouwen van belangrijke beslissingen en daarnaast van de subtestscores om<br />
minder belangrijke beschrijvende uitspraken te doen over de sterke en zwakke punten in taalontwikkeling<br />
en taalgebruik.<br />
De Kern- en indexscores laten betrouwbaarheden gebaseerd op inter-itemrelaties (lambda’s) zien die varieren<br />
van .74 tot en met .91. Over het algemeen zijn de coëfficiënten als voldoende te kenschetsen met<br />
voor enkele scores en leeftijdsgroepen waarden van nét onder .80 en een enkele keer van .90 of hoger. De<br />
betrouwbaarheden voor individuele subtests zijn aanzienlijk lager, met name voor de hogere leeftijdsgroepen.<br />
Zij zijn voor het aangeduide gebruik eveneens meestal voldoende. Voor enkele subtests en leeftijdsgroepen<br />
moet interpretatie op subtestniveau worden ontraden omdat de betrouwbaarheid onvoldoende is.<br />
©2012, Nederlands Instituut van Psychologen, Amsterdam<br />
©2012, Boom test uitgevers, Amsterdam
Documentatie van Tests en Testresearch in Nederland<br />
TOELICHTING BIJ DE BEOORDELING<br />
De subtesten ZB en EC laten relatief lagere waarden zien, bij WS, AW en BAV is een dalende trend te<br />
zien naarmate de leeftijdsgroep ouder is.<br />
De test-hertestbetrouwbaarheden (n = 103) sluiten hierbij aan, al zijn de waarden enigszins geflatteerd<br />
omdat ze berekend zijn op leeftijdsgroepen die dubbel zo breed zijn als de normgroepen.<br />
Bij de zes subtests waarbij dat relevant is, is de interbeoordelaarsbetrouwbaarheid vastgesteld in termen<br />
van gewogen kappa’s (n = 96). De kappa’s variëren tussen .73 en .96. Bij de subtests met lagere overeenstemmingswaarden<br />
wordt dit vooral geweten aan slechte geluidsopnamen, hetgeen moeilijk te controleren<br />
valt. Mogelijk is ook sprake van grotere interpretatieruimte van de respons. Bij de berekening van de interbeoordelaarsbetrouwbaarheid<br />
is niet per normgroep geanalyseerd.<br />
Begripsvaliditeit<br />
Aan de hand van tabellen met intercorrelaties, factoranalyses en confirmatorische factoranalyse wordt getracht<br />
steun te vinden voor de theoretische uitgangspunten betreffende de dimensionaliteit van de scores.<br />
Onduidelijk daarbij is wat eigenlijk die uitgangspunten zijn. Enerzijds lijkt er theoretisch sprake van één<br />
duidelijke hoofdfactor die het gebruik van een Kernscore (KS) op niveau 1 legitimeert (Is er sprake van<br />
een taalprobleem?), anderzijds worden verschillende indices verondersteld die de analyses op niveau 2<br />
(Wat is de aard van het probleem?) legitimeren. De analyses wijzen erop dat het eerste uitgangspunt (dat<br />
ook wordt gesteund door nationaal en internationaal onderzoek) empirische steun ondervindt. De resultaten<br />
wijzen op één algemene taalfactor. Met betrekking tot het tweede uitgangspunt is er weinig steun voor<br />
de divergente validiteit van de onderscheiden indices of deelgebieden (sterktes en zwaktes). Zo is de samenhang<br />
tussen receptief en expressief bijvoorbeeld .96.<br />
Er worden geen systematische gegevens verstrekt met betrekking tot de kwaliteit van de items. Deze gegevens<br />
zijn wel op aanvraag beschikbaar, maar waarom zijn die gegevens niet gewoon in de verantwoording<br />
opgenomen?<br />
Er zijn geen analyses over de invariantie van de factorstructuur over subgroepen. Dit had wel inzicht kunnen<br />
geven in de multi-dimensionaliteit van het construct algemene taalvaardigheid in de voorschoolse periode.<br />
Over invariantie over leeftijd worden geen interpreteerbare gegevens verstrekt. Overigens is dit lastig<br />
omdat niet op alle leeftijden dezelfde subtests worden afgenomen en sommige subtests aanmerkelijke<br />
plafondeffecten vertonen.<br />
Gegevens over itembias naar sekse, leeftijd en etnische herkomst worden niet verstrekt.<br />
De convergente en divergente validiteit van de <strong>CELF</strong> 2 wordt onderzocht met behulp van vier instrumenten,<br />
namelijk de WPPSI III, de <strong>CELF</strong> 4 en de beide Schlichting tests voor taalproductie en taalbegrip.<br />
Hierover wordt uitgebreid en zorgvuldig gerapporteerd. Resultaten:<br />
− Met de WPPSI wordt een correlatie van .71 gevonden met het VIQ en een duidelijk lagere correlatie<br />
met het PIQ (.47). Op het niveau van de index-scores zijn de correlaties met het VIQ tussen .60 en .70;<br />
de correlaties met het PIQ zijn ook op dit indexniveau duidelijk lager. Correlaties op subtestniveau<br />
worden niet of nauwelijks differentieel geïnterpreteerd.<br />
− Bij een beperkte groep kinderen die in de leeftijdsrange zitten waarin <strong>CELF</strong> 2 en <strong>CELF</strong> 4 overlappen is<br />
gekeken naar de correlaties tussen overlappende subtests. De correlaties op indexniveau zijn redelijk<br />
sterk (.66 - .74), maar vallen toch wat tegen. Hetzelfde geldt voor correlaties op subtestniveau; deze<br />
zijn over het algemeen lager dan de correlaties op indexniveau (terwijl het niettemin gaat om exact dezelfde<br />
subtests); voor enkele subtests zijn de resultaten ronduit tegenvallend met een negatieve uitschieter<br />
voor FB van .27.<br />
− Schlichting Test voor Taalproductie II: gecorrigeerde correlaties tussen Kern- en indexscores enerzijds<br />
en STTP-onderdelen anderzijds liggen tussen .42 en .68. Over het algemeen zijn de verschillen tussen<br />
de correlaties niet erg hoog en lastig te interpreteren in termen van divergente validiteit (ook al wordt<br />
dit wel – op ad hoc basis, zo lijkt het – geprobeerd).<br />
− Schlichting Test voor Taalbegrip: gecorrigeerde correlaties (TBQ met <strong>CELF</strong> Kern- en Indexscores)<br />
tussen .45 en .61. Op subtestniveau zijn de correlaties soms wel, soms niet volgens verwachting.<br />
Het beeld dat zich opdringt is, dat er voldoende onderbouwing is voor de begripsvaliditeit van de Kernscore<br />
(als representatief voor het bestaan van één taalfactor). Aan de andere kant bieden de analyses weinig<br />
©2012, Nederlands Instituut van Psychologen, Amsterdam<br />
©2012, Boom test uitgevers, Amsterdam
Documentatie van Tests en Testresearch in Nederland<br />
TOELICHTING BIJ DE BEOORDELING<br />
aanknopingspunten voor de onderbouwing van de divergente validiteit van de Indexscores. Ook de validiteit<br />
op subtestniveau is hier nauwelijks mee te onderbouwen. Dit alles sluit aan bij de conclusies met betrekking<br />
tot uni/multi-dimensionaliteit.<br />
Scores van verschillende groepen:<br />
− Er is een duidelijke samenhang met leeftijd, wat verwacht mocht worden vanwege de snelle taalontwikkeling<br />
die kinderen op deze leeftijd vertonen. De gemiddelden nemen geleidelijk tot naarmate de<br />
normgroepen in leeftijd toenemen.<br />
− Klinische groepen (ESM, SH, ASS en Vroegbehandeling VB) laten gemiddelden zien die duidelijk<br />
afwijken van de normgroep (op alle niveaus van scoring). Alle klinische groepen betreffen kinderen<br />
die cluster 2 scholen bezoeken (dus ook de ASS kinderen). In de titel van de paragraaf wordt verwezen<br />
naar ESM/SLI. De term SLI is niet uitgelegd en voor de gemiddelde lezer misschien niet te begrijpen.<br />
− Kinderen van niet-westerse allochtonen scoren gemiddeld lager dan de normgroep; westerse allochtonen<br />
scoren gemiddeld iets hoger, wat niet op voorhand werd verwacht. De steekproef van kinderen uit<br />
minderheidsgroepen is relatief klein.<br />
− Volgens verwachting scoren jongens marginaal lager dan meisjes. Het ware goed geweest als de interactie<br />
tussen leeftijd en geslacht ook was onderzocht en gerapporteerd: immers verschil tussen jongens<br />
en meisje wordt kleiner bij ouder worden. De data hadden zich uitstekend geleend voor zo’n interactie<br />
analyse.<br />
− Opleidingsniveau moeder: bij hogere SES scoren kinderen gemiddeld volgens verwachting hoger dan<br />
bij midden of lage SES.<br />
Correlaties met Cito-scores op Taal voor Kleuters en Rekenen voor Kleuters tonen wat vreemde uitkomsten.<br />
De correlaties met Taal voor Kern- en Indexscores liggen tussen .24 en .43 en zijn lager dan verwacht.<br />
De correlaties van RTI en TII met Rekenen laten hetzelfde niveau zien (.41 en .34), waar dit niet<br />
echt te verwachten was; dit wordt geïnterpreteerd in termen van taalbegrip en semantische vaardigheden.<br />
De N van dit onderzoek is klein (35) en de CITO scores A t/m E zijn te weinig gedifferentieerd. Derhalve<br />
dragen deze gegevens nauwelijks bij aan verdere beeldvorming inzake de validiteit.<br />
Criteriumvaliditeit<br />
De resultaten van de normgroep werden onderzocht in relatie tot de resultaten in een ESM-groep van beperkte<br />
omvang (n = 54). Het onderscheidend vermogen op basis van ROC-curve is .943 voor de Kernscore;<br />
met toevoeging van specifieke subtestscores wordt dit .979. Bij een afkapwaarde van 85 (= M – 1SD)<br />
is de sensitiviteit .89 en de specificiteit .83. De COTAN beoordeelt het gerapporteerde onderzoek als een<br />
duidelijke en hoopgevende eerste stap op weg naar de verdere onderbouwing van het voorspellend vermogen<br />
van de <strong>CELF</strong> Preschool-2 <strong>NL</strong> . Het instrument lijkt goed in staat kinderen met ESM-problematiek te<br />
onderscheiden van normale kinderen. Het onderzoek kent echter zijn beperkingen in de uitvoering en is<br />
ook op zichzelf redelijk beperkt ten opzichte van de brede gebruiksfunctie van het instrument (die overigens<br />
niet al te best is gespecificeerd, zoals eerder aangegeven). Het is om deze redenen duidelijk te vroeg<br />
om de criteriumvaliditeit als ‘goed’ te beoordelen; daarvoor dient uitgebreider onderzoek met positief resultaat<br />
te worden uitgevoerd en gerapporteerd. De auteurs geven bovendien zelf aan dat de ESM-groep<br />
beperkt bruikbaar is voor validiteitsbepaling, zie p. 161: “Omdat de deelnemers aan de onderzoeken zijn<br />
geworven op basis van beschikbaarheid, moeten de resultaten vooral gezien worden in het licht van bredere<br />
validiteitsbepaling”. Op grond hiervan beoordeelt de COTAN de criteriumvaliditeit als ‘voldoende’.<br />
Algemeen commentaar<br />
De <strong>CELF</strong> Preschool 2 <strong>NL</strong> kent twee toegevoegde observatieschalen, namelijk de Observatieschaal Ontluikende<br />
geletterdheid en het Pragmatiekprofiel. Deze onderdelen worden wel beknopt beschreven, maar zijn<br />
verder niet gedocumenteerd, noch van empirische informatie voorzien (zoals dat voor de overige onderdelen<br />
wél het geval is). Het oordeel over deze onderdelen luidt dan ook ‘onvoldoende’ op alle criteria vanwege<br />
het ontbreken van informatie.<br />
©2012, Nederlands Instituut van Psychologen, Amsterdam<br />
©2012, Boom test uitgevers, Amsterdam