06.09.2013 Views

CELF PRESCHOOL-2-NL

CELF PRESCHOOL-2-NL

CELF PRESCHOOL-2-NL

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Documentatie van Tests en Testresearch in Nederland<br />

TOELICHTING BIJ DE BEOORDELING<br />

CLINICAL EVALUATION OF LANGUAGE FUNDAMENTALS <strong>PRESCHOOL</strong>-2-<strong>NL</strong> (<strong>CELF</strong><br />

<strong>PRESCHOOL</strong>-2-<strong>NL</strong>)<br />

Theoretische Uitgangspunten<br />

De in 2004 verschenen herziene versie van de Preschool versie (voor de voor- en vroegschoolse periode)<br />

is nu bewerkt voor het Nederlandse taalgebied (i.e. gebruik in Nederland en Vlaanderen). De test is bedoeld<br />

om de algemene taalvaardigheid (KS = Kernscore) te beoordelen en om na te gaan of er sprake is<br />

van een taalprobleem. De specifieke vorm van het taalprobleem kan worden beschreven in termen van de<br />

Receptieve Taal Index (RTI), de Expressieve Taal Index (ETI), de Taalinhoud Index (TII) en de Taalvorm<br />

Index (TVI). Daarnaast kan men de vroege schoolvaardigheid en ontluikende geletterdheid beoordelen,<br />

evenals taal en communicatie in context (in de vorm van een pragmatiekprofiel). In paragraaf 2.3 en 2.5 is<br />

per subtest de meetpretentie aangegeven. Daarbij wordt bovendien aangegeven hoe deze zich verhoudt tot<br />

de taalontwikkeling en het leerplan enerzijds en tot activiteiten thuis en op school anderzijds.<br />

De doelgroep zijn kinderen in de leeftijd van 3;0 tot 6;11 jaar in Nederland en Vlaanderen. Inclusiecriteria<br />

(p. 120) impliceren dat het kind Nederlands als thuistaal moet hebben, zijn hele leven in Nederland of<br />

België heeft gewoond, niet lichamelijk of verstandelijk beperkt is (op functies die relevant zijn voor het<br />

kunnen begrijpen van instructies en opgaven) en niet gekenmerkt wordt door beperkende factoren die de<br />

deelname aan het primaire onderwijs belemmeren. Inclusiecriteria worden pas besproken in het hoofdstuk<br />

over normering; ze hadden beter eerder kunnen worden besproken, omdat ze relevant zijn voor de toepasbaarheid<br />

van de test bij een bepaalde doelgroep.<br />

Bij het gebruik van de <strong>CELF</strong> kan men verschillende onderzoeksdoelen hebben. Die zijn (p. 14) ondergebracht<br />

in een overzichtelijk weergegeven ‘Beoordelingsproces’: (1) Nagaan of er sprake is van een taalprobleem;<br />

(2) Beschrijving van de aard van het probleem; (3) beoordeling van vroege schoolvaardigheden<br />

en ontluikende geletterdheid en (4) beoordeling van taal en communicatie in context. Het identificeren van<br />

taalproblemen is een vrij algemene functieomschrijving; men had die wat meer moeten specificeren (bijvoorbeeld<br />

of de test kan dienen ter onderbouwing van belangrijke beslissingen in termen van de toelating<br />

tot cluster 2 scholen). In dit verband ontbreekt een theoretische inbedding van de <strong>CELF</strong> en haar constructen.<br />

Taalproblemen met name in de voorschoolse periode blijken uit de recente wetenschappelijke literatuur<br />

een belangrijke indicator voor ontwikkelingsproblemen. De <strong>CELF</strong>-preschool kan in dezen een belangrijke<br />

rol spelen en dat zou een theoretische verantwoording en bespreking van de recente onderzoeksliteratuur<br />

rechtvaardigen.<br />

Een algemene beschrijving van de constructen en hun onderlinge samenhang is beknopt weergegeven in<br />

hoofdstuk 1. In hoofdstuk 4 wordt veel uitgebreider ingegaan op de samenstelling van de subtests in het<br />

licht van de meetpretentie (per subtest), waarbij ook wordt ingegaan op de vraag welke aspecten van taal<br />

daarbij relevant zijn. Wanneer men de keuze van de subtests in de batterij als een gegeven beschouwt, is<br />

de beschrijving van de meetpretentie en de relevantie van de taak per subtest voldoende onderbouwd. Wél<br />

ontbreekt een meer overkoepelende beschrijving van de taalontwikkeling en de daarmee samengaande<br />

problematiek, van waaruit de keuze van de subtests wordt onderbouwd. En dat is jammer want daardoor is<br />

het moeilijk te beoordelen of deze keuzes (en de daarmee samenhangende prioriteiten) gerechtvaardigd<br />

zijn. De gebruiker moet daarom zelf ook goed op de hoogte zijn van de theorievorming over taalontwikkeling<br />

om de test goed te kunnen gebruiken en de juiste interpretatie te verbinden aan de uitkomsten op de<br />

test.<br />

De operationalisatiestappen naar de concrete testinhoud worden niet volledig genoeg beschreven. Daarbij<br />

speelt het een belangrijke rol dat de test een vertaling en bewerking is van een bestaande Amerikaanse test.<br />

Weliswaar worden de theoretische achtergrond en verantwoording van de subtests toegelicht in paragraaf<br />

4.1.1, maar de stappen die men heeft moeten nemen in de vertaling en bewerking worden in hun consequenties<br />

vrij oppervlakkig gedocumenteerd. Er wordt wel aangegeven dat er sprake is geweest van zorgvuldige<br />

bewerking en evaluatie (zie p. 106), en ook worden per subtest de noodzakelijk geachte wijzigingen<br />

in de testinhoud en instructie besproken, toch is het niet geheel duidelijk hoe de inhoud van elke subtest<br />

zich verhoudt tot de oorspronkelijke testinhoud. Enerzijds is moeilijk na te gaan of de vertaling en de<br />

vele wijzigingen hebben geleid tot een met het origineel vergelijkbare inhoud, anderzijds wordt er ook niet<br />

©2012, Nederlands Instituut van Psychologen, Amsterdam<br />

©2012, Boom test uitgevers, Amsterdam


Documentatie van Tests en Testresearch in Nederland<br />

TOELICHTING BIJ DE BEOORDELING<br />

gewerkt met een volledig nieuwe inhoud die vanuit een analyse van het theoretische concept voor elke<br />

subtest is verantwoord. Er heeft een vooronderzoek plaatsgevonden met betrekking tot de nieuw geconstrueerde<br />

inhoud, maar de rapportage daarvan biedt te weinig houvast. Niettemin lijken er voldoende stappen<br />

te zijn genomen om van een adequate testinhoud te kunnen spreken.<br />

Kwaliteit van het Testmateriaal<br />

Papier-en-potloodversie<br />

De testopgaven zijn gestandaardiseerd en voor iedereen hetzelfde qua inhoud, vorm en volgorde. Bij opgaven<br />

waarbij sprake is van gesproken tekst, is de wijze waarop dat gebeurt uiteraard van invloed op de<br />

mate van standaardisering. Gesproken teksten worden daarom aangeboden via een audio-CD, hetgeen zeer<br />

bijdraagt aan de standaardisatie van het itemmateriaal.<br />

Er is sprake van een objectief scoresysteem voor alle receptieve subtests. Dit geldt uiteraard voor de standaard<br />

afname en niet voor het ‘uitgebreider testen’ (‘testing the limits’) en de observaties van het testgedrag.<br />

Bij de expressieve subtests is het scoresysteem minder objectief omdat de testleider het gegeven<br />

antwoord moet beoordelen op correctheid. Bij sommige subtests is sprake van een dichotoom scoresysteem<br />

(0-1, fout-goed), bij andere van een meervoudig systeem (waarbij ook scores van hoger dan 1 mogelijk<br />

zijn). Door de uitgebreide toelichting c.q. de eenvoud van de te geven antwoorden is een grote mate<br />

van objectiviteit bereikt (vergelijkbaar of beter dan het scoresysteem van bijvoorbeeld de WISC). Een<br />

goede training van de scoring lijkt cruciaal omdat in verband met de te hanteren afbreekregels al tijdens de<br />

afname moet worden vastgesteld of een opgave fout is gemaakt. Er zijn twee aanvullende observatieschalen<br />

(‘Ontluikende geletterdheid’ en het ‘Pragmatiekprofiel’). Daarbij wordt gebruik gemaakt van vierpuntsschalen<br />

(met de optie Nvt).<br />

Er is veel moeite gedaan om fouten bij de afname te voorkomen. Dit gebeurt door op daartoe geëigende<br />

plaatsen de nodige informatie toe te voegen op het stimulusmateriaal en het scoreformulier, c.q. door duidelijke<br />

aanwijzingen te geven in de handleiding. Er worden bijvoorbeeld duidelijke richtlijnen en symbolen<br />

gegeven om het antwoord te noteren. Men dient zich er overigens wel goed van te vergewissen of en<br />

waar men bezig is met de standaard afname en waar er sprake is van uitgebreider vervolgonderzoek binnen<br />

een taak. Qua lay-out in de handleiding had dit wellicht nog wel iets beter gekund.<br />

De <strong>CELF</strong> is een betrekkelijk complexe test. Dat komt vooral door de aard en aanbiedingswijze van de verschillende<br />

taken en door het feit dat het om jonge kinderen gaat. Dit alles stelt hoge eisen aan de instructie<br />

en vormgeving. Daarnaast dient de testleider goed getraind en voorbereid te zijn op de testafname. Dit<br />

wordt in algemene zin ook duidelijk aangegeven. Door de complexiteit en de vereiste training is het lastig<br />

om de adequaatheid en volledigheid van de instructie goed te beoordelen. Op het eerste gezicht lijken er<br />

echter geen omissies en fouten in de instructie te zitten. Bij alle subtests is er een duidelijke, gestandaardiseerde<br />

instructie die voor de geteste voldoende houvast lijkt te bieden. Daarbij zijn ook nog voorbeeld- en<br />

oefenitems toegevoegd. Of dit alles volstaat zal afname in de praktijk moeten uitwijzen. De test ziet er erg<br />

degelijk en mooi uitgevoerd uit. Bij de vormgeving is duidelijk rekening gehouden met de jonge doelgroep.<br />

Het testmateriaal lijkt aantrekkelijk voor (zeer) jonge kinderen. De items zijn zorgvuldig geformuleerd<br />

en bijvoorbeeld gebaseerd op de streeflijst woordenschat voor zesjarigen. Zorgvuldig vormgegeven<br />

materiaal in handzame boekjes waardoor gestandaardiseerde afname kan plaatsvinden.<br />

Er wordt stapsgewijze gescoord. Lastig lijkt het opnemen van de respons van het kind. Door het gebruik<br />

van “de ezel” ziet het kind namelijk de ene kant, terwijl de testleider de andere kant nodig heeft om de<br />

juiste tekst uit te spreken. Daarbij lijkt het lastig om de respons van het kind goed waar te nemen (welk<br />

alternatief wijst het aan?), de bijbehorende letter te noteren op het formulier en de correctheid daarvan na<br />

te gaan. In principe zijn alle elementen voor een juiste scoring aanwezig, toch lijkt het lastig om hier geen<br />

fouten bij te maken. Men mag aannemen dat training en ervaring hun werk doen, maar met name de juiste<br />

plaats van kind en opgavenboek (onder een correcte werkhoek) lijkt moeilijk te vinden. Het noteren en<br />

opzoeken van scores in tabellen lijkt adequaat gereguleerd in de handleiding en door de vormgeving van<br />

het scoreformulier.<br />

©2012, Nederlands Instituut van Psychologen, Amsterdam<br />

©2012, Boom test uitgevers, Amsterdam


Computerversie<br />

N.v.t.<br />

Documentatie van Tests en Testresearch in Nederland<br />

TOELICHTING BIJ DE BEOORDELING<br />

Kwaliteit van de Handleiding<br />

De aanwijzingen voor de testleider zijn duidelijk en systematisch omschreven, enerzijds in de handleiding,<br />

anderzijds in / op de opgavenboeken zelf. Dit geldt zowel voor de aanwijzingen als voor de uit te spreken<br />

teksten.<br />

De inclusiecriteria die zijn gehanteerd bij het normeringsonderzoek hebben consequenties voor de toepassingsmogelijkheden;<br />

ze hadden eerder genoemd kunnen worden (dan pas bij de beschrijving van het normeringsonderzoek;<br />

zie eerdere opmerking). In paragraaf 2.1 wordt aangegeven hoe men dient om te gaan<br />

met verschillen in culturele achtergrond en dialect enerzijds en kinderen uit specifieke probleemgroepen<br />

anderzijds. De aanwijzingen voor het hanteren van schaalscores bij specifieke testomstandigheden, respectievelijk<br />

wanneer het kind buiten de leeftijdsgroep valt, zijn adequaat.<br />

Op diverse plaatsen in hoofdstuk 2 worden voorbeelden van ingevulde scoreformulieren afgedrukt. Daarnaast<br />

wordt het beoordelings- en interpretatieproces van de <strong>CELF</strong> stapsgewijs beschreven in hoofdstuk 3.<br />

Daarbij wordt de betekenis en de wijze van interpreteren van de onderscheiden typen scores toegelicht. In<br />

paragraaf 3.4 wordt dit aangevuld met twee gevalsbeschrijvingen. Dit had wat uitgebreider gekund door<br />

ook de ingevulde scoreformulieren af te drukken en deze voorbeeld formulieren systematisch langs te lopen<br />

(daarbij de scoring in het voorbeeld betrekkend). Men had ook de gevalsbeschrijvingen van wat meer<br />

achtergrond kunnen voorzien en daar de interpretatie mee illustreren. In wat algemenere zin wordt her en<br />

der gewezen op andere potentieel relevante factoren.<br />

Op p. 13 wordt de vereiste deskundigheid vermeld: logopedisten, schoolpsychologen, pedagogen en diagnostici<br />

die zijn opgeleid in en ervaring hebben met het afnemen en interpreteren van gestandaardiseerde<br />

(taal)tests. Aanvullende eisen omtrent deskundigheid op p. 21.<br />

Een praktische opmerking: De ringband van de handleiding is niet erg degelijk. Na enig intensief gebruik<br />

van deze handleiding vallen de bladeren geleidelijk uit de ringband. Mogelijk was het beoordeelde exemplaar<br />

verkeerd ingebonden.<br />

Normen<br />

De normen zijn actueel. De dataverzameling voor de normering vond plaats tussen oktober 2010 en augustus<br />

2011 (p. 120).<br />

Op basis van eerder onderzoek met de <strong>CELF</strong> 4 is ervoor gekozen om in beginsel te streven naar gescheiden<br />

Vlaamse en Nederlandse normgroepen. In dat licht verbaast het dat is uitgegaan van verschillende<br />

streefaantallen voor deze groepen (1000 voor <strong>NL</strong>, 400 voor VL). Dit is alleen te begrijpen in het licht van<br />

een eventuele samenvoeging van de normgroepen (waarbij de beide herkomstlanden ongeveer evenredig<br />

zouden zijn gerepresenteerd), maar dit wordt niet toegelicht.<br />

Er is sprake van een model van continue normering. De voordelen daarvan met betrekking tot het aantal<br />

benodigde subjecten zijn genoegzaam bekend. Zij moeten in elk geval tot vergelijkbare nauwkeurigheid<br />

leiden (in vergelijking met klassieke normering) waar het gaat om het schatten van belangrijke verdelingskenmerken.<br />

Er worden analyses gepresenteerd waaruit blijkt dat de standaardfout van het gemiddelde<br />

bij de <strong>NL</strong>-steekproef alleen in de extreme groepen hoger is dan de bij klassieke normering vergelijkbare<br />

.75. Dit bij een N van 400 die is vereist voor het onderbouwen van belangrijke beslissingen. Dit is een<br />

bekend effect en men zou ervoor hebben kunnen compenseren door in de extreme groepen voor grotere<br />

aantallen te kiezen. Nu is de N in juist de onderste leeftijdsgroep erg laag (lager dan nagestreefd)! Gemiddeld<br />

voldoet de schattingsfout met .62 echter aan de eisen (NB. Dat laatste geldt met een gemiddelde<br />

schattingsfout van .83 niet voor de Vlaamse steekproef.). De waarden voor de twee laagste en de twee<br />

hoogste normgroepen (i.e. de helft van de normgroepen) voldoet bij de Vlaamse normering evenmin.<br />

Wanneer men net nemen van minder belangrijke beslissingen als uitgangspunt neemt voldoet de gemiddelde<br />

waarde nét wel. Daarnaast blijkt uit nadere analyses dat de normgroepen voor drie subtests konden<br />

worden samengevoegd voor <strong>NL</strong> en VL, namelijk bij de subtests BAV, ZH en EC. De kenmerken van de<br />

©2012, Nederlands Instituut van Psychologen, Amsterdam<br />

©2012, Boom test uitgevers, Amsterdam


Documentatie van Tests en Testresearch in Nederland<br />

TOELICHTING BIJ DE BEOORDELING<br />

Vlaamse normering zijn overigens in de beoordeling van de normen (die alleen betrekking heeft op de<br />

Nederlandse normen) niet meegenomen.<br />

Ten aanzien van de representativiteit zijn de volgende kanttekeningen te plaatsen:<br />

− De wijze van werven is niet bijzonder adequaat. Voor <strong>NL</strong> en VL is op verschillende manieren geworven<br />

(maar dit hangt samen met de verschillende onderwijsstructuur in beide populaties). Wat echter<br />

meer zorgen baart is het feit dat de werving verliep via (de contacten van) testleiders, wat geleid kan<br />

hebben tot afwijkingen in de representativiteit.<br />

− Soms zijn instellingen, soms rechtstreeks individuele ouders benaderd; een goed overzicht ontbreekt.<br />

− Zorgwekkend is de hoge non-respons; gemiddeld deed slechts zo’n 15% (in <strong>NL</strong>), c.q. 10% van de benaderde<br />

instellingen mee. Wat dit voor gevolgen zou kunnen hebben voor de representativiteit blijft<br />

onbesproken.<br />

− Er wordt vastgesteld dat een goede verhouding jongens/meisjes kon worden gerealiseerd. Dit mag dan<br />

zo zijn over alle leeftijdsgroepen heen, het geldt zeker niet in een aantal specifieke leeftijdsgroepen.<br />

− De verdeling naar bevolkingsdichtheid en naar opleidingsniveau van de moeder wordt alleen overall en<br />

niet per leeftijdsgroep gegeven. De (overall) verdelingen bleken niet conform die in de populatie, zodat<br />

weging nodig was. Weging is echter bij een continue normeringsmodel een hachelijke zaak als de afwijkingen<br />

van de populatieverdelingen per normgroep niet ongeveer gelijk zijn; het effect van weging<br />

is dan moeilijk op waarde te schatten. Daar staat tegenover dat de weging per afzonderlijke normgroep<br />

is uitgevoerd, maar dit geeft bij continue normering onvoldoende garantie dat de weging adequaat is<br />

uitgevoerd.<br />

− De representativiteit op de voor een taaltest uiterst belangrijke variabele ‘herkomst’ (dan wel etniciteit<br />

of thuistaal) kon niet worden nagegaan.<br />

Het bovenstaande geeft voldoende aanleiding om vraagtekens te zetten bij de representativiteit.<br />

Het type schaal wordt toegelicht op p. 129-130. Voor de subtests is dat een standaardscore 1-19 met gemiddelde<br />

10. Dat is verdedigbaar. Het gebruik van een IQ-schaal (100;15) voor de Kern- en Indexscores is<br />

dat wat minder vanwege het betrekkelijk geringe bereik van de om te zetten somscores. Voor alle scores<br />

geldt dat het gebruik van percentielen niet erg voor de hand ligt (opnieuw vanwege het bereik van de onderliggende<br />

score). Ten slotte worden leeftijdsequivalenten gegeven. De COTAN wijst het gebruik van<br />

leeftijdsequivalenten af. De auteurs zijn zich hiervan bewust, geven ook alle mogelijke waarschuwingen af,<br />

maar hebben desondanks gemeend toch dit type scores te moeten verstrekken.<br />

Per normgroep naar leeftijd en land, worden voor elke subtest gemiddelde, SD, scorebereik en gemiddelde<br />

p-waarde verstrekt. De COTAN heeft ten behoeve van de beoordeling ook gegevens over scheefheid en<br />

kurtosis ontvangen; de gebruiker kan deze op verzoek bij de uitgever bekomen. Er worden gegevens verstrekt<br />

over verschillen tussen subgroepen (naar leeftijd, etnische herkomst, sekse, opleidingsniveau moeder,<br />

klinische groep).<br />

Betrouwbaarheid<br />

Relevant geacht worden interne consistentie, test-hertestbetrouwbaarheid en interbeoordelaarsbetrouwbaarheid.<br />

Dit laatste geldt met name voor zes subtests waarbij beoordeling van het antwoord relevant is.<br />

De beoordeling van de betrouwbaarheidscoëfficiënten wordt gebaseerd op een gebruik van de Kern- en<br />

Indexscores voor het onderbouwen van belangrijke beslissingen en daarnaast van de subtestscores om<br />

minder belangrijke beschrijvende uitspraken te doen over de sterke en zwakke punten in taalontwikkeling<br />

en taalgebruik.<br />

De Kern- en indexscores laten betrouwbaarheden gebaseerd op inter-itemrelaties (lambda’s) zien die varieren<br />

van .74 tot en met .91. Over het algemeen zijn de coëfficiënten als voldoende te kenschetsen met<br />

voor enkele scores en leeftijdsgroepen waarden van nét onder .80 en een enkele keer van .90 of hoger. De<br />

betrouwbaarheden voor individuele subtests zijn aanzienlijk lager, met name voor de hogere leeftijdsgroepen.<br />

Zij zijn voor het aangeduide gebruik eveneens meestal voldoende. Voor enkele subtests en leeftijdsgroepen<br />

moet interpretatie op subtestniveau worden ontraden omdat de betrouwbaarheid onvoldoende is.<br />

©2012, Nederlands Instituut van Psychologen, Amsterdam<br />

©2012, Boom test uitgevers, Amsterdam


Documentatie van Tests en Testresearch in Nederland<br />

TOELICHTING BIJ DE BEOORDELING<br />

De subtesten ZB en EC laten relatief lagere waarden zien, bij WS, AW en BAV is een dalende trend te<br />

zien naarmate de leeftijdsgroep ouder is.<br />

De test-hertestbetrouwbaarheden (n = 103) sluiten hierbij aan, al zijn de waarden enigszins geflatteerd<br />

omdat ze berekend zijn op leeftijdsgroepen die dubbel zo breed zijn als de normgroepen.<br />

Bij de zes subtests waarbij dat relevant is, is de interbeoordelaarsbetrouwbaarheid vastgesteld in termen<br />

van gewogen kappa’s (n = 96). De kappa’s variëren tussen .73 en .96. Bij de subtests met lagere overeenstemmingswaarden<br />

wordt dit vooral geweten aan slechte geluidsopnamen, hetgeen moeilijk te controleren<br />

valt. Mogelijk is ook sprake van grotere interpretatieruimte van de respons. Bij de berekening van de interbeoordelaarsbetrouwbaarheid<br />

is niet per normgroep geanalyseerd.<br />

Begripsvaliditeit<br />

Aan de hand van tabellen met intercorrelaties, factoranalyses en confirmatorische factoranalyse wordt getracht<br />

steun te vinden voor de theoretische uitgangspunten betreffende de dimensionaliteit van de scores.<br />

Onduidelijk daarbij is wat eigenlijk die uitgangspunten zijn. Enerzijds lijkt er theoretisch sprake van één<br />

duidelijke hoofdfactor die het gebruik van een Kernscore (KS) op niveau 1 legitimeert (Is er sprake van<br />

een taalprobleem?), anderzijds worden verschillende indices verondersteld die de analyses op niveau 2<br />

(Wat is de aard van het probleem?) legitimeren. De analyses wijzen erop dat het eerste uitgangspunt (dat<br />

ook wordt gesteund door nationaal en internationaal onderzoek) empirische steun ondervindt. De resultaten<br />

wijzen op één algemene taalfactor. Met betrekking tot het tweede uitgangspunt is er weinig steun voor<br />

de divergente validiteit van de onderscheiden indices of deelgebieden (sterktes en zwaktes). Zo is de samenhang<br />

tussen receptief en expressief bijvoorbeeld .96.<br />

Er worden geen systematische gegevens verstrekt met betrekking tot de kwaliteit van de items. Deze gegevens<br />

zijn wel op aanvraag beschikbaar, maar waarom zijn die gegevens niet gewoon in de verantwoording<br />

opgenomen?<br />

Er zijn geen analyses over de invariantie van de factorstructuur over subgroepen. Dit had wel inzicht kunnen<br />

geven in de multi-dimensionaliteit van het construct algemene taalvaardigheid in de voorschoolse periode.<br />

Over invariantie over leeftijd worden geen interpreteerbare gegevens verstrekt. Overigens is dit lastig<br />

omdat niet op alle leeftijden dezelfde subtests worden afgenomen en sommige subtests aanmerkelijke<br />

plafondeffecten vertonen.<br />

Gegevens over itembias naar sekse, leeftijd en etnische herkomst worden niet verstrekt.<br />

De convergente en divergente validiteit van de <strong>CELF</strong> 2 wordt onderzocht met behulp van vier instrumenten,<br />

namelijk de WPPSI III, de <strong>CELF</strong> 4 en de beide Schlichting tests voor taalproductie en taalbegrip.<br />

Hierover wordt uitgebreid en zorgvuldig gerapporteerd. Resultaten:<br />

− Met de WPPSI wordt een correlatie van .71 gevonden met het VIQ en een duidelijk lagere correlatie<br />

met het PIQ (.47). Op het niveau van de index-scores zijn de correlaties met het VIQ tussen .60 en .70;<br />

de correlaties met het PIQ zijn ook op dit indexniveau duidelijk lager. Correlaties op subtestniveau<br />

worden niet of nauwelijks differentieel geïnterpreteerd.<br />

− Bij een beperkte groep kinderen die in de leeftijdsrange zitten waarin <strong>CELF</strong> 2 en <strong>CELF</strong> 4 overlappen is<br />

gekeken naar de correlaties tussen overlappende subtests. De correlaties op indexniveau zijn redelijk<br />

sterk (.66 - .74), maar vallen toch wat tegen. Hetzelfde geldt voor correlaties op subtestniveau; deze<br />

zijn over het algemeen lager dan de correlaties op indexniveau (terwijl het niettemin gaat om exact dezelfde<br />

subtests); voor enkele subtests zijn de resultaten ronduit tegenvallend met een negatieve uitschieter<br />

voor FB van .27.<br />

− Schlichting Test voor Taalproductie II: gecorrigeerde correlaties tussen Kern- en indexscores enerzijds<br />

en STTP-onderdelen anderzijds liggen tussen .42 en .68. Over het algemeen zijn de verschillen tussen<br />

de correlaties niet erg hoog en lastig te interpreteren in termen van divergente validiteit (ook al wordt<br />

dit wel – op ad hoc basis, zo lijkt het – geprobeerd).<br />

− Schlichting Test voor Taalbegrip: gecorrigeerde correlaties (TBQ met <strong>CELF</strong> Kern- en Indexscores)<br />

tussen .45 en .61. Op subtestniveau zijn de correlaties soms wel, soms niet volgens verwachting.<br />

Het beeld dat zich opdringt is, dat er voldoende onderbouwing is voor de begripsvaliditeit van de Kernscore<br />

(als representatief voor het bestaan van één taalfactor). Aan de andere kant bieden de analyses weinig<br />

©2012, Nederlands Instituut van Psychologen, Amsterdam<br />

©2012, Boom test uitgevers, Amsterdam


Documentatie van Tests en Testresearch in Nederland<br />

TOELICHTING BIJ DE BEOORDELING<br />

aanknopingspunten voor de onderbouwing van de divergente validiteit van de Indexscores. Ook de validiteit<br />

op subtestniveau is hier nauwelijks mee te onderbouwen. Dit alles sluit aan bij de conclusies met betrekking<br />

tot uni/multi-dimensionaliteit.<br />

Scores van verschillende groepen:<br />

− Er is een duidelijke samenhang met leeftijd, wat verwacht mocht worden vanwege de snelle taalontwikkeling<br />

die kinderen op deze leeftijd vertonen. De gemiddelden nemen geleidelijk tot naarmate de<br />

normgroepen in leeftijd toenemen.<br />

− Klinische groepen (ESM, SH, ASS en Vroegbehandeling VB) laten gemiddelden zien die duidelijk<br />

afwijken van de normgroep (op alle niveaus van scoring). Alle klinische groepen betreffen kinderen<br />

die cluster 2 scholen bezoeken (dus ook de ASS kinderen). In de titel van de paragraaf wordt verwezen<br />

naar ESM/SLI. De term SLI is niet uitgelegd en voor de gemiddelde lezer misschien niet te begrijpen.<br />

− Kinderen van niet-westerse allochtonen scoren gemiddeld lager dan de normgroep; westerse allochtonen<br />

scoren gemiddeld iets hoger, wat niet op voorhand werd verwacht. De steekproef van kinderen uit<br />

minderheidsgroepen is relatief klein.<br />

− Volgens verwachting scoren jongens marginaal lager dan meisjes. Het ware goed geweest als de interactie<br />

tussen leeftijd en geslacht ook was onderzocht en gerapporteerd: immers verschil tussen jongens<br />

en meisje wordt kleiner bij ouder worden. De data hadden zich uitstekend geleend voor zo’n interactie<br />

analyse.<br />

− Opleidingsniveau moeder: bij hogere SES scoren kinderen gemiddeld volgens verwachting hoger dan<br />

bij midden of lage SES.<br />

Correlaties met Cito-scores op Taal voor Kleuters en Rekenen voor Kleuters tonen wat vreemde uitkomsten.<br />

De correlaties met Taal voor Kern- en Indexscores liggen tussen .24 en .43 en zijn lager dan verwacht.<br />

De correlaties van RTI en TII met Rekenen laten hetzelfde niveau zien (.41 en .34), waar dit niet<br />

echt te verwachten was; dit wordt geïnterpreteerd in termen van taalbegrip en semantische vaardigheden.<br />

De N van dit onderzoek is klein (35) en de CITO scores A t/m E zijn te weinig gedifferentieerd. Derhalve<br />

dragen deze gegevens nauwelijks bij aan verdere beeldvorming inzake de validiteit.<br />

Criteriumvaliditeit<br />

De resultaten van de normgroep werden onderzocht in relatie tot de resultaten in een ESM-groep van beperkte<br />

omvang (n = 54). Het onderscheidend vermogen op basis van ROC-curve is .943 voor de Kernscore;<br />

met toevoeging van specifieke subtestscores wordt dit .979. Bij een afkapwaarde van 85 (= M – 1SD)<br />

is de sensitiviteit .89 en de specificiteit .83. De COTAN beoordeelt het gerapporteerde onderzoek als een<br />

duidelijke en hoopgevende eerste stap op weg naar de verdere onderbouwing van het voorspellend vermogen<br />

van de <strong>CELF</strong> Preschool-2 <strong>NL</strong> . Het instrument lijkt goed in staat kinderen met ESM-problematiek te<br />

onderscheiden van normale kinderen. Het onderzoek kent echter zijn beperkingen in de uitvoering en is<br />

ook op zichzelf redelijk beperkt ten opzichte van de brede gebruiksfunctie van het instrument (die overigens<br />

niet al te best is gespecificeerd, zoals eerder aangegeven). Het is om deze redenen duidelijk te vroeg<br />

om de criteriumvaliditeit als ‘goed’ te beoordelen; daarvoor dient uitgebreider onderzoek met positief resultaat<br />

te worden uitgevoerd en gerapporteerd. De auteurs geven bovendien zelf aan dat de ESM-groep<br />

beperkt bruikbaar is voor validiteitsbepaling, zie p. 161: “Omdat de deelnemers aan de onderzoeken zijn<br />

geworven op basis van beschikbaarheid, moeten de resultaten vooral gezien worden in het licht van bredere<br />

validiteitsbepaling”. Op grond hiervan beoordeelt de COTAN de criteriumvaliditeit als ‘voldoende’.<br />

Algemeen commentaar<br />

De <strong>CELF</strong> Preschool 2 <strong>NL</strong> kent twee toegevoegde observatieschalen, namelijk de Observatieschaal Ontluikende<br />

geletterdheid en het Pragmatiekprofiel. Deze onderdelen worden wel beknopt beschreven, maar zijn<br />

verder niet gedocumenteerd, noch van empirische informatie voorzien (zoals dat voor de overige onderdelen<br />

wél het geval is). Het oordeel over deze onderdelen luidt dan ook ‘onvoldoende’ op alle criteria vanwege<br />

het ontbreken van informatie.<br />

©2012, Nederlands Instituut van Psychologen, Amsterdam<br />

©2012, Boom test uitgevers, Amsterdam

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!