Danske unge i en international sammenligning Bind 2 – Teknisk ...
Enhver generalisering, der laves på basis af en stikprøve, har derfor en usikkerhed. Stikprøvevariansen
er et mål for denne usikkerhed.
PISA anvender en totrins udtræksprocedure for stikprøven i stedet for at trække en enkel
tilfældig stikprøve. En af forskellene mellem de to måder at udtrække stikprøve på er, at
udtrukne elever fra den samme skole ikke kan betragtes som uafhængige observationer i
totrins proceduren. Det skyldes, at elever, som går på den samme skole, typisk har flere
fællestræk end elever, der går på forskellige skoler. For eksempel vil elever på den samme
skole (og klasse) have de samme lærere og den samme undervisningsplan. Desuden er der
tendens til, at elever, som går på en skole, ligner hinanden mht. socioøkonomisk baggrund,
både pga. boligmæssig polarisering, men også pga. forældrenes muligheder for
skolevalg. En tilfældigt udtrukket stikprøve af 4000 elever blandt alle skoler vil derfor
repræsentere forskelligheden i elevbefolkningen bedre end en stikprøve af 100 skoler
med 40 elever i hver skole. Den statistiske usikkerhed (dvs. standardfejlen) for fx gennemsnittet
af læsetestscorer for hele elevpopulationen vil derfor være større for en totrins
stikprøve end for en helt tilfældigt udtrukket stikprøve.
På grund af det komplekse stikprøvedesign i PISA-undersøgelsen, estimeres stikprøvevariansen
for befolkningsparametre (og dens kvadratrod, standardfejlen) ved brug af
såkaldte replication (=gentagelses) metoder. Ved disse metoder udtrækkes en række mindre
stikprøver, eller replicate samples, fra hele stikprøven. Den relevante parameter, fx gennemsnit
af scorer, estimeres for hver af disse gentagne mindre stikprøver og sammenlignes
så med det tilsvarende estimat for hele stikprøven for at give et skøn over stikprøvevariansen.
Det er vigtigt at afrapportere præcise og middelrette estimater af standardfejlene, fordi de
bruges i sammenligninger af forskellige politikparametre. Hvis det for eksempel overvejes
at indføre reformer, der skal mindske forskellen mellem drenges og pigers læsefærdigheder,
er det vigtigt pålideligt at kunne teste, om denne forskel er statistisk sikker (dvs.
signifikant), eller om den snarere beror på tilfældigheder. Ethvert resultat, der videreformidles
til andre forskere eller til politikere, bør derfor beregnes med replicates.
Plausible values
PISA anvender imputationsmetoder (plausible values) for at afrapportere elevernes test -
resultater, hvilke er hensigtsmæssigt, når skøn over hele elevbefolkningens færdigheder er
i fokus. Plausible values (plausible værdier) er en repræsentation af hele viften af færdigheder,
som en elev kan have, baseret på dennes testresultater. I stedet for direkte at estimere
en elevs færdigheder (fx evner i matematik) estimeres en fordeling af elevens færdigheder.
Plausible values er tilfældige træk fra denne estimerede fordeling af elevens færdigheder.
Der bruges fem plausible values for hver elev og for hvert testet domæne. De statistiske
analyser gennemføres enkeltvis for hver af de fem plausible values. Først til sidst
beregnes gennemsnittet for fx regressionskoefficienterne samt tilhørende standardfejl,
som blev beregnet i fem særskilte kørsler for de fem plausible values. Denne metode, sammen
med replicates metoden, kræver, at parametre som gennemsnit, standardafvigelse,
procenter og regressionskoefficienter skal beregnes 405 gange: fem særskilte analyser for
hver plausible value med hver gang 80 replicates plus en gang for hele stikprøven.
Kapitel 5 – Baggrundsoplysninger og fortolkning af testresultaterne i PISA
161