2 ingrid me munck - Göteborgs universitet

PEDAGOGISK FORSKNING I SVERIGE 1997 ÅRG 2 NR 1 S 1–24 ISSN 1401-6788 

Effektstudier vid utvärdering av skolan 

INGRID M. E. MUNCK 

Statistiska centralbyrån, Stockholm 

Sammanfattning: Framsteg inom psykometrin och statistiken gör att sedan länge 

formulerade mål för den kvantitativa utvärderingsforskningen, nyanserad mätning 

och dimensionalitetsanalys samt förklarande effektstudier, börjar kunna realiseras. 

Genom att den statistiska modellen nu kan återspegla skolans sociala och 

organisatoriska struktur öppnas nya möjligheter att studera individer och grupper 

i sina sociala sammanhang, bland annat kan man analysera effekter på olika nivåer 

i skolsystemet. Framställningen illustreras med den internationella undersökningen 

IEA och med resultat från ett svenskt forskningsprojekt, MALI-projektet, som 

provat ut de nya ansatserna för kvantitativ analys. Det visar sig att resultatbilden i 

väsentlig grad ändras och fördjupas. De nya angreppssätten kan radikalt öka 

kunskapsutbytet från nationella och internationella utvärderingsstudier genom att 

de överbryggar gapet mellan mikro- och makronivån. 

Den här artikeln behandlar metodproblem vid effektstudier i nationella och 

internationella utvärderingar utifrån erfarenheter och innehåll hämtade från, 

dels internationell utvärdering av skolan, och dels med forskningsresultat 

från det svenska forskningsprojektet MALI (Multivariate Analysis of Literacy). 

Vi kommer att blicka tillbaka på den knaggliga vägen till förklarande 

statistiska analyser av elevkunskaper, som började inom IEA-undersökningen 

(International Association for the Evaluation of Educational Achievement) 

för cirka 30 år sedan. 

En modell för effektstudier presenteras som utvecklas till en passande 

struktur för skolutvärdering i kvantitativa termer med tre nivåer: elev, klass 

respektive skola, och med innehåll från några centrala IEA variabler. 

Problemet med utvärdering på statistisk grund kommer här att beskrivas 

utifrån de förutsättningar som gäller i skolan, med ofta sammansatta 

undervisningsinsatser som anpassas efter eleverna och som utformas av 

enskilda lärare i deras professionella roll. 

Sedan slutet av 1980-talet har det utvecklats multivariata metoder som 

på ett framgångsrikt sätt kunnat angripa den här typen av data som är 

hämtade från flera olika nivåer (elever, lärare och skolor). Den ansats som 

bäst visat sig passa problemet med sammansatta insatser och behovet av 

nyanserad mätning av kunskaper, attityder, etc, är en påbyggnad av 

’stiganalys’ med latenta variabler, LISREL-modellen (Jöreskog & Sörbom 

1993). Metodiken har prövats på IEA-data om kunskaper i läsning insamlade 

från 32 länder. En förklarande modell för svaren på test- och

2 INGRID M. E. MUNCK 

attitydfrågor har använts som fångar ett brett spektrum av påverkansfaktorer 

som nu med rätt design kan studeras på olika nivåer: elev, klass, skola 

och land. Parallellt med detta arbete har ny programvara, STREAMS 

(Structural Equation Modeling Made Simple; Gustafsson & Stahl 1997), 

kommit ut på marknaden som möjliggör en bredare användning av den 

avancerade tekniken. 

Efter en översikt av effektstudier inom IEA-undersökningen presenteras 

problemet i statistiska termer genom en enkel modell för effektanalys. Denna 

skisseras för att passa utvärdering av skolan och det statistiska synsättet med 

flernivåanalys, samt ges ett innehåll i termer av centrala IEA-begrepp och 

variabler. Utformningen av nya ansatser för nyanserad mätning och tvånivåanalys 

beskrivs i anslutning till en presentation av resultaten från MALIprojektet. 

SIKTET PÅ FÖRKLARANDE ANALYS INOM IEA 

Alltsedan publiceringen av IEA:s första studie från mitten av 1960-talet har 

det varit ett besvärande gap mellan dagstidningarnas och fackpressens 

rapportering av resultaten som från en kunskapsolympiad, med ranking av 

länder i förhållande till forskarnas ambition att förstå det komplexa 

samspelet mellan olika faktorers roll för produktivitet och effektivitet inom 

skolan. 

Syftet med den första matematikstudien 

I den första matematikstudien formulerar Torsten Husén IEA-projektets 

syfte på följande sätt (Husén 1967 s 30 f): 

... the main objective of the study is to investigate the ”outcomes” 

of various school systems by relating as many as possible of the 

relevant input variables (to the extent that they could be assessed) 

to the output assessed by international test instruments. /.../ 

Comparisons between countries are not to be made primarily in 

terms of levels achieved. Similar ends might be reached by different 

means, and, conversely, different aims might lead to similar results 

by the use of different methods. /.../ What, then will be the ”use” 

to be made of the findings of this project? It is justifiable to believe 

that an important contribution has been made toward a more 

profound understanding of the phenomena under consideration 

and especially of how educational ”productivity” is related to 

instruction and societal factors. /.../ This study will throw new light 

upon the importance of the school structure and, in particular, on 

how it mirrors influences from the society. 

Huvudsyftet med IEA-projektet var redan från början att genomföra en 

nyanserad förklarande analys av utfallet, som skulle peka ut betydelsefulla 

faktorer i hem, skola, samhälle och skolsystem. Effekter av att börja skolan 

tidigt, av stora klasser eller skolor, av olika sätt att undervisa, av olika 

selektion till gymnasiet (eller motsvarande) har studerats. De deltagande 

ländernas samhälls- och skolsystem sågs som ett stort ”naturligt” experimentfält.

UTVÄRDERING AV SKOLAN 3 

Det har varit särskilt svårt att separera ut effekterna på de olika 

nivåerna i skolsystemet. Detta kräver, som vi närmare skall gå in på längre 

fram, att informationen från elever, lärare och skolledare kan hanteras i en 

och samma statistiska analys. Analysverktygen svarade helt enkelt inte mot 

forskarnas syften. Ett flertal pedagogiska forskare har recenserat IEAprojektet 

under åren och vi skall gå igenom några av dem och lyfta fram 

deras formuleringar av resultaten av den förklarande analysen samt också 

vilka besvärande problem och felkällor de pekat ut (Härnqvist 1974, Inkeles 

1977, Marklund 1983). 

Förskjutning av ambitionsnivån vid ”sexämnesundersökningen” 

Härnqvist har kortfattat beskrivit den statistiska metoden, stegvis blockvis 

regressionsanalys, som användes i rapporteringen från sex ämnesstudier, till 

vilka material insamlades av IEA under åren 1970–1971. Den procedur som 

utvecklats skulle förklara den variation som observerats mellan skolors 

genomsnittspoäng i kunskapsproven för en viss åldersnivå. Varje skolas 

genomsnitt byggde på ett 50-tal slumpvis uttagna elever och skolorna 

utgjorde ett representativt slumpmässigt urval av respektive lands population. 

Så här sammanfattas slutprodukten (Härnqvist 1974 s 23): 

Den här tolkningsövningen torde visa två saker: dels att tolkning 

av resultaten kräver god inblick i hur ett skolsystem fungerar, dels 

att sambanden fortfarande inte säger mycket om vad som är 

effektiva variationer i skolarbetets uppläggning. Helhetsbilden av 

variansbidragen från blocket av undervisningsvariabler är att de 

var för sig är små och att de faktorer som tillskrivs vikt är olika i 

olika länder men ofta på ett irrationellt och svårtolkat sätt. Flera 

av rapportsammanställningarna andas besvikelse på denna punkt. 

Härnqvist diskuterar svårigheterna att på internationell nivå mäta kunskaper 

som svarar mot skolsystemens utbildningsmål och kursplaner samt 

problemen med att mäta förklarande variabler som tillräckligt väl speglar 

undervisningssituationen i skolorna. Därefter konstateras att de antaganden 

som gjorts i den multipla regressionsanalysen, som bland annat blandar 

variabler hämtade från olika nivåer (skola, klass respektive elev), leder till en 

svårtolkad bild. Detta avspeglas också i rapporterna (Härnqvist 1974 s 25): 

En förskjutning mot en mer realistisk ambitionsnivå är också 

märkbar hos rapportförfattarna mellan deras syftebeskrivningar 

och deras mer försiktiga konklusioner. 

IEA-data har mer att ge 

IEA-projektets sexämnesundersökning rapporterades i nio volymer under 

åren 1973–1976 och recenserade bl a av Inkeles. Under rubriken ”Advanced 

methods” skriver Inkeles (1977 s 198): 

The IEA study is notable for the modernity and sophistication of 

the methods used. This is not to say that what they did will 

generate no disagreements nor, that few will be ready to fault them 

on any but minor matters. The state of the art is such as to make


that condition quite unattainable. However, compared to the great 

majority of run-of-the-mill studies in education, this research 

shows decided sensitivity to issues of reliability and validity in test 

construction. The use of contemporary multivariate analysis is 

central to their approach. 

Till denna beskrivning av metodansatsen kan läggas att projektet låg vid 

frontlinjen då det gällde att beräkna osäkerheten i skattningar av medelvärden 

och regressionskoefficienter för komplexa urval (stratifierat tvåstegs 

klusterurval) och använde redan i början av 1970-talet så kallade datorintensiva 

metoder exempelvis jack-knife-metoden (Peaker 1975). Inkeles (1977 

s 199) avslutar sin summering av betydelsefulla resultat på följande sätt: 

The IEA research is, then, a great step forward. The fact that it is 

often difficult and frustrating to obtain the facts and knowledge 

embedded therein should not blind us to the substantial 

accomplishment. I can testify that the yield from digging, 

generously repays the effort. One can do much more, vastly more, 

if one goes to the tapes containing the data, which are being 

deposited in a number of data banks. To report that there is still so 

much more to do is, in effect, to give a compliment to the team 

which did the research, for that assertion highlights the great effort 

that was put into this study. Very few of the remarks we normally 

glibly make about the causes of academic failure and achievement 

can henceforth hope to escape scrutiny in the light of what the IEA 

studies have shown. Moreover, we shall further mine this lode, and 

very profitably, for many years to come. 

Med andra ord, trots rapportering i nio tjocka volymer, var forskarna väl 

medvetna om att analysverktygen var trubbiga och att materialet innehöll en 

stor outnyttjad potential. Det skulle dröja fram till slutet av 1980-talet innan 

de statistiska problemen i sammanhanget kunde angripas. 

Design och analys av policy-frågor 

I början av 1980-talet tog Sixten Marklund, som då var knuten både till 

Skolöverstyrelsen och till Institutionen för internationell pedagogik, upp 

IEA-projektet med anknytning till möjligheterna att göra sekundära analyser 

av IEA-data för att belysa aktuella nationella policyfrågor (Marklund 1983 

s 31): 

If the IEA surveys are not supplemented and supported by national 

evaluations, the danger is that they will remain just cognitive 

league tables in which certain intrinsically valuable descriptive 

results predominate but where the underlying educational 

relationships between goals, means and results remain unknown. 

Marklund konstaterar, efter att ha tittat tillbaka på användningen i Sverige 

av resultaten av två matematikstudier (mitten av 1960-talet och cirka 15 år 

senare) och av sexämnesundersökningen, att det har varit en omfattande 

publicering där forskare har skrivit för andra forskare. Relativt lite har


kommit fram som direkt har varit användbart för skolpolitiker. Han 

efterlyser större engagemang nationellt för att precisera de nationella målen 

och integrera internationell utvärdering med nationell. Efter ytterligare 15 år 

av skolutvärderingar, både internationella och nationella, har mycket lite 

gjorts för att integrera den svenska kvantitativa skolutvärderingen på det sätt 

som Marklund menar är nödvändigt för en förklarande analys om viktiga 

faktorer för skolans resultat. 

Kraftsamling inom IEA inför 1990-talet 

IEA-undersökningen arbetade i motvind under 1980-talet och konceptet 

ändrades marginellt. Rapporterna drog ofta ut på tiden, mycket på grund av 

svårigheter med finansieringen. Inför undersökningen om läsning gjordes en 

ny kraftsamling under ledning av Neville Postlethwaite och framsteg gjordes 

på flera områden: utformningen av internationella skalor i läsförmågan med 

Rasch-metoden, modernt undersökningsmaskineri med tydliga spelregler 

exempelvis om bortfall, manualer och kvalitetskontroll av data. Antalet 

deltagande länder (32) var också större än tidigare (Elley 1992). De tunga 

forskningsvolymerna byttes ut mot lättlästa skrifter (t ex Postlethwaite & 

Ross 1992). En förklarande multivariat analys rymdes dock inte inom 

projektet av analystekniska och ekonomiska skäl utan kom till stånd inom 

det separata svenska forskningsprojekt, Multivariate Analysis of Literacy – 

MALI 1 . Detta startade 1992 med en grupp forskare 2 inom läsforskning, 

pedagogisk-psykologisk mätning, nationell och internationell utvärdering 

och statistik. 

Den senaste IEA-undersökningen, genomförd i 45 länder, är Third 

Mathematics and Science Study – TIMSS, som är den största någonsin med 

cirka 750.000 elever testade varav cirka 9000 svenska elever i åk 6, 7 och 8 

(Skolverket 1996). De första resultaten publicerades i november 1996 och de 

ingår också, liksom tidigare IEA-resultat, i OECD:s publikation ”Education 

at a glance” (OECD 1996). Med en omfattande satsning på de nya 

analysverktygen, ett huvudbudskap i denna artikel, kan denna nya 

forskningsinsats ge mycket av den utdelning IEA-forskarna strävat mot 

under 35 år. 

PROBLEMET I STATISTISKA TERMER 

I det följande skall de statistiska problemen vid effektanalyser behandlas och 

olika ansatser för hur de kan lösas tas upp, i ett försök att göra en icketeknisk 

presentation. För en utförlig och systematisk genomgång av ämnet 

statistisk kvalitet i utvärdering hänvisas till Ribe (1997), en handledning för 

ett vetenskapligt grundat arbetssätt som hjälper till att ställa de kritiska 

frågorna för kvalitetssäkring och tar upp statistikens fallgropar vid utvärdering. 

Statistik och utvärdering 

Vedung (1994 s 14) beskriver hur ordet utvärdering förekommer i skilda 

betydelser, såväl inom svensk revisionskultur som i internationell forskningslitteratur. 

En relevant innebörd för statistiken är att se utvärdering som en 

omsorgsfull undersökning av de effekter som en verksamhet har eller har 

haft. Det är också karakteristiskt att utvärderingen utförs i efterhand utifrån


empirisk information som bör spegla verksamheten i sitt samhälleliga 

sammanhang. Den avses också utgöra underlag inför ett eventuellt beslut, 

vilket är en skillnad gentemot forskningen, som ju mera allmänt har till syfte 

att öka kunskapen på området och därmed ställer högre krav på en 

förklarande analys. För enkelhetens skull talas i framställningen nedan om 

”insatser” tänkta som de delar av verksamheten som kan vara föremål för 

särskilt intresse exempelvis ett åtgärdsprogram, hjälpmedel, ett arbetssätt 

eller en handlingsregel. 

Kärnfrågan i en utvärdering är att studera sambandet mellan insats och 

resultat sedan hänsyn tagits till utgångsläget, bakgrundsfaktorer och de 

kontextuella förutsättningarna, omvärlden (Figur 1). 

Figur 1. Enkel modell för effektanalys. 

Det klassiska statistiska problemet är att renodla effekterna av insatsen från 

andra faktorer i utgångsläget och bakgrunden. Det kan åstadkommas med 

experimentell design om det går att slumpmässigt ge olika behandlingar 

(insatser) till olika individer. Modellen i Figur 1 förenklas då eftersom 

slumpen ser till att det i statistisk mening inte finns något samband mellan 

utgångsläge och bakgrund i förhållande till insats. Effekthypotesen, sambandet 

mellan behandling och resultat, kan statistiskt testas exempelvis med 

variansanalys, en prövning som inte kräver information om bakgrund eller 

utgångsläge. 

Det finns också metoder, multivariata statistiska modeller (regressionsoch 

logitmodeller är de vanligaste), som svarar mot den mer realistiska 

situationen där insatsen väljs på andra grunder än slumpen. För att 

effekthypotesen då skall kunna testas statistiskt måste för resultatet viktiga 

faktorer i bakgrund eller utgångsläge observeras och explicit ingå i den 

statistiska modellen. Det gäller de faktorer som styrt eller påverkat valet av 

insats och därmed kan ha en störande inverkan. Effekterna av insatsen kan 

renodlas genom att sådana sammanblandande, störande (confounding) 

faktorer beaktas, vilket innebär en statistisk omräkning som går ut på att 

åstadkomma jämförbarhet mellan insatserna med avseende på dessa 

variabler, ”allt annat lika-principen”. I statistiskt språkbruk säger vi att


effektparametrarna har skattats med hänsyn tagen till eller efter att vi 

kontrollerat för störande faktorer. 

Det kan också vara av intresse att effekten av insatsen ställs i relation 

till andra effekter på resultatet, både från sådana faktorer som inverkat på 

insatsen och från andra faktorer som inte gjort det. Internationella och 

nationella skolutvärderingar har ofta haft karaktären av en allmän 

kartläggning av betydelsen av skolans insatser för lärandet i relation till 

andra insatser från hem och samhälle (jämför exempelvis matematikstudiens 

syfte). Utgångspunkten för den typen av ”multi-purpose” effektstudier är 

närmast att utnyttja den naturliga variationen som finns i ett utvärderingsmaterial 

vad beträffar olika resursinsatser, olika undervisningsmetoder, 

olika typer av stöd i hemmet och liknande i en explorativ analys. Den 

statistiska metodikens roll blir då att sammanfatta den väsentliga informationen, 

i komplexa och svåröverskådliga material, med hjälp av modeller och 

hantera den osäkerhet som är att hänföra till urvalsförfarandet och olika 

felkällor. Det är ofta också på sin plats att höja ett varningens ord om att 

kausala slutsatser eller orsaksförklaringar inte är möjliga att dra på statistisk 

grund. Med andra ord bidrar statistiken med ett informationsunderlag för 

tolkning och värdering av berörda forskare och beslutsfattare. 

Modell för effektanalyser inom skolan 

Tyler (1984 s 29) beskriver mycket målande de särskilda förhållanden som 

effektanalyser inom skolan har att ta hänsyn till: 

The field of education differs from that of natural sciences. In the 

natural sciences, the effort is to understand natural phenomena 

that take place without regard to human effort. Education, on the 

other hand, is a social enterprise seeking to help persons acquire 

understanding, skills, attitudes, interests, and appreciation. It 

makes use of understanding acquired from other disciplines as 

teachers seek to produce forces and influences to affect student 

learning. Whereas in physics, the development of a precise 

definition for a force like radiation focuses on something that 

happens regardless of the intent or skill of the observer, the forces 

and influences in education are largely produced by people and are 

not exactly the same when produced by different people. Hence, 

when we try to define ”instructional cues, engagement, and 

corrective feedback”, we are seeking to define teaching procedures 

that are not well standardized. Furthermore their influence is 

mediated by students whose perceptions of what is happening may 

be different from the intent of the teacher. 

Översatt till krav på analysmetoden så bör den återspegla de sociala 

sammanhang en elev rör sig mellan, hemmet och området där han eller hon 

bor, klassrummet och skolan; individer och grupper i ett hierarkiskt, 

samhälleligt system. Insatsen måste kunna vara en sammansatt företeelse, ett 

arbetssätt eller ett utbildningsprogram som utformas av enskilda lärare i 

deras professionella roll. Modellen skall kunna beakta att insatsen 

modifieras beroende på elevens bakgrund eller utgångsläge och sker i ett 

samspel mellan elev och lärare i klassen.


Vi behöver alltså utveckla den allmänna modellen i Figur 1 så att den 

speglar skolans organisationsstruktur och sedan ta itu med hur mätproblemen 

och den komplicerade sambandsstrukturen skall kunna angripas. 

Figur 2 innehåller en modell med de tre nivåerna elev, klass och skola där 

några ofta använda IEA-variabler utnyttjats för att ge konkretion och 

innehåll åt effekthypoteser på de olika nivåerna. Den är uppbyggd kring 

elevens prestationer i läsning, en resultatvariabel mätt på elevnivå som 

återkommer på alla nivåer men med olika innebörd. På elevnivån uttrycker 

den hur bra en elev är i förhållande till sina kamrater i samma klass, på 

klassnivå hur bra en klass är i förhållande till andra klasser vid samma skola 

och på skolnivå hur bra en skola är i förhållande till andra skolor. 

Totalresultatet blir på detta sätt differentierat, tolkbart på olika nivåer, och 

är en sammanlagd bild av dessa utfall. 

Figur 2. Skiss av flernivåmodell för kvantitativ utvärdering med IEA-data. 

På elevnivå, representerad längst ner i Figur 2, anknyter variablerna i figuren 

till den förklaringsmodell av läsförmågan som jag studerat närmare inom 

MALI-projektet och som används senare för att illustrera den nya 

metodiken. På denna nivå, mikroplanet, så representeras i modellen (det 

gäller samtliga variabler) hur eleverna skiljer sig från sina kamrater i samma 

klass. Modellskissen tar upp som exempel hur denna inomklassvariation i


läsförmåga samvarierar med läsvanorna och med om man läser högt hemma 

för att stimulera barnets intresse och språkkänsla. De bakgrundsvariabler 

som valts ut är elevens kön och faktorer i hem och samhälle som har med 

läsresurser att göra: antal böcker i hemmet, och tillgång till bibliotek. För att 

illustrera klassnivån, där utfallsvariabeln är resultat i läsning i förhållande till 

andra klasser i samma skola, har vi tänkt oss i modellen att två olika insatser 

är intressanta, dels undervisningsmetoder i läsning och dels tillfälle att lära 

olika moment (den klassiska Opportunity to learn-variabeln OTL inom 

IEA). Som bakgrundsvariabler ingår lärarkompetensen och lärarens kön. 

Skol- eller makronivån ger en skiss av en effektmodell av olika 

resursinsatser med kontroll för skolans storlek och ledningens engagemang. 

För enkelhetens skull har i Figur 2 bara utfallsvariabeln varit grundad i 

elevdata. Men för att ge realism åt modellerna skulle de behöva kompletteras 

med variabler från andra nivåer. Elevernas bakgrund måste tas med i 

bakgrundsblocken på klass- och skolnivå och där spegla klassens respektive 

skolans elevunderlag (illustrerat i Figur 2 med flödet kallat elevunderlag). 

Elevvariablerna representeras högre upp i hierarkin i aggregerad form. Vill vi 

i elevmodellen ta in klass- och skolförhållanden, exempelvis OTL (Opportunity 

to learn-variabeln) och skolans storlek, tänker vi oss i första hand 

samma värden för alla som går i samma klass respektive i samma skola. Vi 

säger då att informationen disaggregeras ner på elevnivå. Vi har därmed 

skapat variabler som explicit uttrycker de kontextuella förhållandena i 

skolan (dessa representeras i Figur 2 med ett samlat omvärldsblock på 

elevnivå sammansatt av faktorer som hänförs till nivåerna högre upp i 

hierarkin det vill säga Land, Region, Skola, och Klass). 

Den här tankeövningen med insatser på olika nivåer och hur de kan 

tänkas studeras med effektmodeller visar hur komplext problemet är och 

något av de svårigheter som dyker upp när effekter av insatser skall separeras 

på olika nivåer och tolkas. Det som visat sig särskilt problematiskt ur 

metodsynpunkt är att föra upp (eller ner) variabler i hierarkin. Sambanden 

skattade genom enkel aggregering i medelvärden och procenttal blir 

nämligen snedvridna, känt i litteraturen under beteckningen aggregationsbias. 

Poängen med den nya ansatsen för två-nivåanalys som presenteras 

nedan är just att den har en lösning på detta problem. 

När det gäller att välja analysenheter (skola, klass eller elev, illustrerade 

i Figur 2) i flernivådata är det en komplicerad fråga som har med 

frågeställningen att göra. Inom IEA-forskningen var det Leigh Burstein och 

Spencer Fellow under 1970-talet vid institutionen för internationell pedagogik 

vid Stockholms universitet, som tidigt formulerade problemet med analys 

av hierarkiska skoldata (Burstein 1985 s 5368): 

Treating the analysis of multilevel data as simply a matter of 

selecting an appropriate unit and, thereby, level of analysis is too 

narrow a conception of the issues. Rather, the focus should be on 

the identification of the appropriate set of substantive research 

questions at and within various levels and the specification of 

appropriate models for analysing multilevel data. Once this shift 

occurs, the measurement and analytical problems that typically 

arise in multilevel settings rightfully dominate the examination of 

interrelations among units at and within various levels of the


educational system. As a consequence, progress in the understanding 

of educational phenomena will accelerate. 

Skissen av flernivåmodellen i Figur 2 är just ett sådant försök att specificera 

effektmodeller för skoldata som efterlyses i citatet. Vi skall nu komma in på 

de statistiska problemen för att analysera flernivådata. 

Det statistiska problemet med sambandsanalys för flernivåmodeller 

Strukturekvationsmodeller (SEM), är ett samlingsnamn på statistisk 

modelleringsteknik som erbjuder ett rikt mått av möjligheter för testning av 

effekthypoteser vid utvärdering. Det är inom detta område som nya grepp för 

analys av skoldata kommit fram som vi tar upp längre fram. Här skall vi först 

presentera den grundläggande metodiken. 

Den statistiska modellen i SEM 

En svensk benämning av metoden är stiganalys med latenta variabler. För en 

aktuell icke-teknisk översikt av SEM-metodiken hänvisas till Hoyle (1995). 

Mueller (1996) ger en introduktion av de statistiska grundprinciperna. 

Ansatsen är välkänd inom beteendevetenskapen sedan mitten av 1970-talet 

då den mest kända SEM-modellen, LISREL (Jöreskog & Sörbom 1989), 

började tillämpas. Den presenterades då som en generell statistisk modell 

som integrerade många standardverktyg såsom regression, variansanalys och 

faktoranalys, vilka alla varit aktuella exempelvis vid analys av IEA-data från 

sexämnesundersökningen. 

SEM arbetar med beroende (utfalls-) och oberoende (förklarande) 

variabler vilket ju passar bra till beskrivningen av modellen för effektanalys 

i Figur 1. Resultatet är genomgående vår beroende variabel medan insatsen 

kan kallas den primärt förklarande variabeln, ty vårt huvudintresse riktas ju 

mot sambandet insats–resultat som mäter effekten. Blocket ”utgångsläge/ 

bakgrund” utgör övriga oberoende variabler, ofta kallade exogena variabler. 

En annan distinktion i SEM är mellan observerade och latenta, icke-direkt 

observerbara, variabler. Skolresultat i olika ämnen är bra exempel på 

svårfångade variabler som kan ges en nyanserad mätning med hjälp av 

latenta variabler (se Figur 3 och Figur 4 nedan av en mätmodell för IEA:s 

lästest). 

Utifrån en begreppsmodell med konkret innehåll i Resultat-Insats- 

Utgångsläge/Bakgrund (se Figur 1) kan en statistisk modell formuleras i SEM 

som ett system av ekvationer sammansatta av mätmodeller (relationer mellan 

observerade och latenta variabler) och av strukturmodeller (relationer mellan 

latenta variabler). Det är skattningarna av parametrarna i strukturmodellen 

(och osäkerheten, medelfelen, i dessa skattningar) som är bärare av informationen 

om det föreligger några signifikanta effekter på resultatet från 

insatsen. 

En styrka med SEM-ansatsen är att den som formulerar modellen och 

väljer mätinstrument måste ha klara hypoteser om hur de olika variablerna 

hänger ihop (samvarierar eller riktningen av påverkan). Dessa kan sedan 

testas, prövas mot sambanden i datamaterialet, med datorprogrammens 

hjälp. Förfarandet säkerställer bland annat kvaliteten i de komplexa 

mätningarna av prestationer, attityder, vanor genom att kontrollera att de är 

empiriskt välgrundade. Men SEM-tekniken kan också ge feedback till


forskaren och lokalisera en källa till störning vilket vi illustrerar i samband 

med dimensionsanalyserna längre fram. 

Det går att statistiskt testa skillnader mellan grupper eller länder i en rad 

olika avseenden användbara vid utvärdering. Således kan rankningen av 

IEA-länder göras med de mera renodlade måtten på kunskaper som greppet 

med latenta variabler erbjuder. I en så kallad flergruppsanalys går det att 

lägga restriktioner om likhet mellan SEM-parametrarna och få feedback på 

om antagandet om likhet får stöd i datamaterialen. Länderjämförelserna kan 

på detta sätt vidgas till att pröva likheter (i) i hur mätningarna fungerat, (ii) 

i nivåer eller medelvärden på olika sammansatta variabler och (iii) i 

sambandsstrukturer mellan latenta variabler. IEA-materialets design, med ett 

stort antal skolsystem och kulturer, kan därmed utnyttjas för att fastställa 

generella och nationella drag för hur verksamheten i skolorna fungerar 

grundade i internationellt jämförbara mätningar. En sådan bred kartläggning 

med SEM har ännu inte kommit till stånd. Enstaka fördjupningsstudier med 

SEM-teknik finns (t ex Munck 1979, 1991), men många forskare har 

hindrats av de tekniska problemen som funnits innan STREAMS utvecklades. 

Liksom de flesta andra statistiska modellanalyser baseras SEManalyserna 

på flera antaganden om data bland annat oberoende mellan 

observationerna, skala och fördelningar för mätningarna, linjära samband 

och normala fördelningar. Utvecklingen av statistisk metod och programvara 

har dock successivt lättat på dessa, för skolutvärderingar ofta orealistiska, 

antaganden. 

Statistisk flernivåanalys 

De tekniska problem som uppkommer då traditionella statistiska metoder 

används på flernivådata, eller s k hierarkiska data, skall här sammanfattas i 

fyra punkter. Hox och Kreft (1994) ger en översikt över problem och 

lösningar. Här ges främst referenser till IEA-anknutna tillämpningar: 

beroende mellan observationer, exempelvis elever i samma klass med en 

klasslärare som påverkar dem blir mera lika än elever hämtade från olika 

klasser. Urvalsförfarande kan också föra in beroende, exempelvis 

klusterurval. SEM antar att observationerna är oberoende. 

slumpeffekter kommer in i en variansanalys om de olika insatserna, 

behandlingarna, utgör ett urval från en population av behandlingar. I 

hierarkiska data tänker vi oss här exempelvis ett urval av skolor, vilka alla 

ger sitt bidrag till testningen av effekthypotesen, och där slumpkomponenten 

därför måste beaktas. Däremot är det mera tveksamt om 

länderna i en IEA-undersökning skall ses som ett urval från en större 

population. Det är definitivt inget slumpmässigt urval av världens länder. 

hierarkisk nestning, eller sammanblandning mellan nivåer är exempelvis 

fallet med IEA:s läsundersökning då endast en klass valdes per skola, vilket 

gör det omöjligt att hålla isär nivåerna klass respektive skola. Detta 

problem bör beaktas vid planeringen av en utvärdering så att ett antal 

klasser per skola väljs om studien syftar till en belysning av effekten av just 

klass.


interaktioner mellan nivåer, exempelvis frågan hur resultatet på elevnivå 

kan förklaras av elevvariabler och gruppvariabler hämtade från klass- och 

skolnivåerna (kontextuella variabler) i flernivåmodellen. Lösningarna med 

dissaggregerade klass- och skolvariabler ger missvisande statistiska skattningar 

i en SEM-analys, vilket vi redan framhållit som problematiskt i 

samband med tidigare IEA-forskning och i skissen till flernivåmodellen. 

Problemet att finna en generell ansats för statistiska flernivåmodeller, som 

klarar av samtliga de fyra problemen ovan, är synnerligen komplicerat och 

ännu olöst. Det finns två olika ansatser som under 1990-talet alltmer 

kommer till praktisk användning och som båda använts inom IEAforskningen. 

De löser problemen med beroende och interaktioner i 

hierarkiska data och hanterar slumpeffekter, men på olika sätt. Den ena 

huvudgruppen går under benämningen Hierarkiska Linjära Modeller (HLM) 

och är i princip en flernivåversion av multipel regression (Raudenbush 1995). 

Regressionsparametrarna (intercept och lutningskoefficienter) skattas för 

varje klass eller skola och den statistiska modellen formuleras med dessa som 

variabler. Effekterna av insatsen på klass- eller skolnivå tillåts därmed 

variera i dessa modeller från klass till klass, eller från skola till skola. Det 

finns datorprogram som kan hantera ett stort antal nivåer på detta sätt. Den 

andra ansatsen bygger vidare på SEM, Multilevel Covariance Structural 

Analysis (MCA) vilket innebär att sambandsmodellen kan innehålla latenta 

variabler som kan synliggöras på två nivåer (Muthén 1994). Dessa modeller 

klarar för närvarande bara två nivåer (elev–klass, elev–skola eller elev–land) 

och kan analyseras i STREAMS med flergruppsmodellering. Det går att 

beskriva skillnader mellan klasser eller skolor i medelvärden och intercept 

men däremot inte i regressionskoefficienter. Det betyder för effektstudier att 

inverkan av insatsen antas vara densamma från skola till skola. 

Flernivåmodellering av IEA-data om läsförmågan 

Det finns nu erfarenhet av båda ansatserna, HLM och MCA, för 

flernivåmodellering rapporterade för IEA-undersökningens läsundersökning. 

Williams (1994) har arbetat fram en HLM-strategi i traditionell IEA-anda 

från sexämnesundersökningen, som på ett systematiskt sätt delar upp 

variabler i block som kammas igenom för att utkristallisera de kraftfullaste 

förklaringsfaktorerna. Resultaten presenteras sedan dels i termer av en 

integrerad flernivåmodell med de viktigaste faktorerna från varje block och 

dels som diagram för läsförmågan för olika insatsvariabler sedan hänsyn 

tagits till de viktigaste bakgrundsvariablerna. Denna diagramform är helt ny 

och ett intressant steg för att presentera utvärderingsresultat från skoldata 

för beslutsfattare. Enkla samband mellan insats och resultat kompletteras 

med bilden sedan hänsyn tagits till sammanblandande variabler i 

effektmodellen (jfr Figur 5. Den statistiska Sudden). 

Den andra ansatsen, MCA, har provats på IEA-undersökningens 

läsdata inom MALI-projektet (se nedan). Upphovsmannen Bengt Muthén, 

UCLA, har bistått på olika sätt, bland annat med de tekniska lösningarna 

som varit mycket komplicerade. I Muthén (1994) beskrivs en lösning för tvånivåmodellering 

med SEM, som använder sig av etablerad programvara, och 

som utnyttjas av STREAMS.


MALI-PROJEKTET – UTPROVNING AV NYA ANSATSER 

MALI-projektet tog som sin första uppgift att genomföra den multivariata 

analysen för slutrapporten av det internationella projektet (Munck & 

Lundberg 1994). Det blev första gången en integrerad internationell analys 

genomförts för alla ingående länder i en regressionsanalys. Här ingick de tre 

olika testvariablerna, Document, Narrative och Expository reading, mätta i 

en internationell skala som beroende variabler och tillhörigheten till land 

som förklarande variabler (kodade som sk dummy-variabler, vilket är sättet 

att införa kvalitativ information i SEM). Den gav som resultat rangordningen 

av länderna men också en möjlighet att korrigera rangordningen (enligt den 

tidigare nämnda ”allt-annat-lika principen”) för skillnader i någon 

bakgrundsvariabel. 

Exempelvis prövades frågan om Finlands tätplats ändrades, om vi tog 

hänsyn till skillnader mellan länder i andelen barn med annat första språk än 

testningsspråket. Detta med tanke på att Finland i början av 1990-talet hade 

en mycket låg andel invandrad befolkning. Även om vi tog med ett brett 

spektrum av betingelser i skolan och i elevernas bakgrund så behöll Finland 

sitt signifikant bättre läge jämfört med de 30 ingående länderna för 9åringar. 

Det skall dock påpekas att den här sifferexercisen kan göras mera 

sofistikerad med SEM-ansats, bland annat tog vi inte hänsyn till problemet 

med att alla elever inte hann slutföra lästestet eller till den hierarkiska 

strukturen i data. 

Forskningsplanen för MALI-projektet var sedan att i ett komparativt 

perspektiv göra en kartläggning av läsfärdighetens olika komponenter med 

hjälp av SEM och utnyttja den nya möjligheten med två-nivåanalys. Det blev 

ett mödosamt arbete med många tekniska hinder på vägen särskilt när 

modellerna omfattande både mätmodeller och förklarande variabler. 

Efter en kort presentation av IEA:s lästest och intentionerna bakom 

detta presenteras modellansaten för mätning. Den har formaliserats här för 

att tydligare framhäva potentialen i SEM att beakta såväl substantiella 

faktorer som olika störningskällor vid observationsstudier. Resultaten från 

MALI-projektet presenteras som en genomgång av de forskningsfrågor som 

har fått ny belysning och gör därmed inte anspråk på att täcka in alla 

forskarnas bidrag. Huvudresultaten presenterades vid AERA:s (American 

Educational Research Association) årliga möte 1995 vid symposiet 

Dimensions of reading literacy – Structural multilevel modeling of IEA Data. 

IEA-TEST AV LÄSFÖRMÅGAN 

Läsförmågans karaktär är ett hett debattämne inom läsforskningen 

(Lundberg 1991). Frågan är om den huvudsakligen är en förmåga som är 

odelad och allmän eller om den snarare är knuten till olika specifika sfärer 

eller områden som använder olika typer av texter, exempelvis faktatexter, 

prosatexter av olika slag. Tidigare studier har sällan haft tillgång till ett mera 

omfattande empiriskt underlag. Här erbjuder IEA-studien i ”reading 

literacy” ett omfattande mångkulturellt material av 9- och 14-åringar med 

närmare 30 olika språk representerade. 

Läsning i denna studie definieras som förmågan att förstå och använda 

de olika slags texter som behövs som samhällsmedborgare eller är av värde 

för den enskilde individen. IEA:s ansats för internationella skalor av


läsförmågan använder Rasch-metoden för utformning av de tre dimensioner 

som experter på läsning enats om: Narrative (berättande text–skönlitteratur), 

Expository (förklarande text–sakprosa) och Document (informationsmaterial 

– avkodningar av diagram, kartor, formulär). 

IEA:s lästest omfattar sammanlagt 19 textavsnitt (som här benämns 

passages) var och en tillhörig en av de tre typerna av texter: Narrative, 

Expository och Documents. Dessa delades upp i två häften som administrerades 

vid olika tillfällen. Tiden för testen avpassades så att alla elever 

bedömdes ha tillräckligt med tid att hinna med samtliga frågor. Till varje 

avsnitt hörde ett antal flervalsfrågor (med några undantag då ett enkelt svar 

efterfrågades) varierande till antal, mellan fyra och sju stycken. 

Modellansats för nyanserad mätning 

Den förklarande svarsmodellen 

Traditionellt har observationsstudier med testinstrument och frågeformulär 

sett de enskilda svaren som uppbyggda av ett ”sant värde” och ett mätfel. Det 

visar sig dock i många sammanhang att en sådan enkel modell ofta är 

orealistisk och att det finns ett helt spektrum av både substantiella och 

metodmässiga påverkansfaktorer med i svarsbilden. En sådan multivariat 

svarsmodell för frågor i IEA:s lästest illustreras i Figur 3, som i sin 

substantiella del är inspirerad av framgångsrik modellering av data från 

intelligenstest (Gustafsson 1994). Vi tänker oss i figuren källor för påverkan 

av svaret på en fråga som tillhör textavsnittet Laser (texttyp Expository) givet 

vid första testtillfället och som ligger mot slutet av häftet. Vårt grundantagande 

är att det finns en generell läsförmåga hos den som svarar som 

genomsyrar svaren från hela testbatteriet. De tre texttyperna i lästestet 

förväntas fånga olika specifika egenskaper eller förmågor och här för vi då 

in Expository faktorn i svarsmodellen. Tillsammans utgör dessa hypotetiska 

substantiella dimensioner, det vill säga komponenter i läsförmågan som 

testet syftar till att mäta. 

Ett synsätt på svaret som också inbegriper generella och specifika 

metodfaktorer (Figur 3) öppnar en intressant möjlighet att skatta olika 

observationsfels inverkan på resultatbilden i en SEM-analys. Därmed blir det 

möjligt att kontrollera för metodfaktorer och korrigera skattningen av de 

substantiella variablernas relationer. En generell metodfaktor kan till 

exempel vara Testtillfälle 1, en faktor som ju påverkat samtliga svar vid detta 

tillfälle med inverkan av tid på dagen, störande moment, testinstruktioner. 

Ett exempel på en specifik metodfaktor Textavsnitt Laser, är inverkan av 

denna text på svaren på frågorna knutna till denna passage. Den skapar en 

slags gemensam nämnare, ett beroende mellan svaren till samma textavsnitt 

som kan fångas upp i en mätmodell. En annan faktor, som har visats särskilt 

intresse i MALI-forskarnas modeller, är inverkan på svaret av att 

textavsnittet kommer sent i testhäftet, en snabbhetsfaktor, representerad i 

figuren med faktorn Snabbhet. Den representerar en aspekt som både har ett 

substantiellt och ett metodiskt inslag vilket också illustreras i figuren. Tidiga 

modeller av detta slag gick under namnet ”Multi-trait-multi-method” – 

MTMM-modeller (se Groves, 1989, som integrerar olika forskningstraditioners 

mätfelstänkande och som också innehåller andra design än flerindi-


katormodellen för skattning av observationsfel vid surveyundersökningar, 

alla möjliga att analysera med SEM). 

Figur 3 En förklaringsmodell för svar på enskilda frågor i IEA-undersökningens 

lästest. 

Mätning av läsförmågan och störande metodkomponenter 

Vi illustrerar en skattningsbar mätmodell baserad på den förklarande 

svarsmodellen i Figur 4 med IEA:s lästest nyanserad med ovan nämnda 

metodfaktorer, Texttillfälle 1 och Snabbhet, båda relaterade till administrationen 

av testet. De observerade variablerna är textavsnitten där LASERfaktorn 

från Figur 3 nu återfinns som en summering av svaren på den 

aktuella texten och inte som en latent variabel (vilket krävt observationer på 

itemnivå, se nedan). Den mest generella faktorn, generell läsförmåga, påverkar 

hela uppsättningen observerade variabler. De övriga faktorerna är alla 

okorrelerade (ortogonala, s k residualfaktorer) med denna faktor och har lite 

olika grad av generalitet, med Testtillfälle 1 som den som innefattar alla 

textavsnitten i det första häftet. Den fångar nu det renodlade bidraget från 

dessa textavsnitt sammantaget sedan hänsyn tagits till (i) påverkan från 

Generell läsförmåga inklusive allmän påverkan i testsituationen, datainsamlingsmetod 

mm, det vill säga allt som genomsyrat hela testet (som här fått 

variera från textavsnitt till textavsnitt, i SEM representerade med fria 

laddningar i faktormodellen) och (ii) de övriga specifika faktorerna (Narrative/Expository 

och Snabbhet) i modellen. Snabbhet mäter benägenheten att 

inte hinna hela testet och omfattar de tre sista textavsnitten i varje häfte. Den 

har benämnts ”blandfaktor” då den inte bara påverkas av den tid som 

utmätts till de båda testtillfällena (metodkomponenten) utan också inrymmer


en viktig specifik aspekt på läsförmågan. Mätmodellen har i detta fall 

utprovats på data från totalmaterial från Sverige och USA, 14-åringar, och 

uppvisar en acceptabel anpassning. I Gustafson och Balke (1993) introduceras 

begreppet ’nestad faktormodell’ för denna ansats, exemplifierad i Figur 4. 

Den har använts genomgående i MALI-projektets dimensionsanalyser dock 

med olika innehåll i modellerna. 

Figur 4. En mätmodell för IEA-undersökningens lästest. 

Feltermerna i textavsnittvariablerna är inte med i stigdiagrammet. Modellen 

har acceptabel anpassning och uteslutna samband i stigdiagrammet är testade 

och befunnits icke-signifikanta för 14-åringar i Sverige och USA. 

Strategier för dimensionalitetsanalyserna 

Det finns ofta flera olika specifikationer av mätmodeller som kan få stöd i 

data och det faller då på forskaren att argumentera för den ena eller andra 

utformningen. Detta gäller i första hand de substantiella faktorerna medan 

metodfaktorerna, grundade i faktiska omständigheter, inte har den karaktären. 

Vad gäller läsförmågans dimensioner har därför olika strukturer 

grundade på teori och tidigare forskning prövats, medan metodfaktorerna, 

störningskällorna, varit genomgående desamma och bekräftats i SEM-analysen 

med signifikant förbättrad anpassning när de införts i modellerna. Om 

modellanpassningen i så fall ändå är dålig betyder det att det finns andra 

påverkansfaktorer som inverkat på flera svar, symboliserat i svarsmodellen i 

Figur 3 med ”Annan påverkan i tid och rum” (den statistiska feltermen). 

SEM-tekniken lokaliserar de par av observerade variabler som förorsakar 

dålig anpassning (korrelerade fel) och forskaren får därmed feedback på sina 

hypoteser och uppslag till förbättringar av modellen. 

Strategin för dimensionalitetsanalyserna har varit, utöver ansatsen med 

nestade modeller, att starta från item-nivån i testet och sedan aggregera 

informationen till itempaket som på passage-nivå utgjorde samtliga svar på


de frågor som bjöds för ett visst textavsnitt (jfr Figur 4). På det viset kammar 

vi igenom materialet och fastställer vilka generella och specifika dimensioner, 

samt eventuella metodfaktorer, som materialet håller för att påvisa. Genom 

aggregeringen tappar vi vissa specifika faktorer men vinner å andra sidan 

styrka i de observerade variablerna. De aggregerade svaren (observera att 

alla är att hänföra till elevnivån) kommer ju mäta läsförmåga med allt högre 

reliabilitet och ha bättre statistiska egenskaper. 

ANALYSER ÄNDRAR TIDIGARE RESULTAT 

MALI-analyserna har både fördjupat tidigare analyser, pekat ut nya resultat. 

Bland de områden som skisseras här är den postulerade faktorstrukturens 

hållbarhet, relationen mellan läsning och intelligens, utvecklingen av testinstrumenten, 

rangordningen mellan länderna och dess beroende av en 

snabbhetsfaktor, könsskillnader, lärareffekter, läsningens samband med 

hemmet, samt skillnader mellan olika skolsystem. Resultaten kan av utrymmesskäl 

bara antydas men finns utförligt beskrivna i de refererade arbetena. 

Avsikten är att ge en rad exempel på den potential som flernivåanalyser 

erbjuder inom en rad skilda områden. 

1. Stöds de postulerade faktorerna Document, Narrative och Expository av 

data? Två olika studier, Balke (1995) och Gustafsson (1995), med olika 

uppläggning, visar att de postulerade två faktorerna Narrative och Expository 

inte gick att separera från varandra. Detta yttrar sig vid modellanalysen 

genom att en en-faktormodell har god anpassning till data och att denna inte 

förbättras signifikant om en ytterligare faktor förs in. 

Det visade sig i Balkes resultat, som baserades på en nestad 

faktormodell analyserad på item-nivå, att samtliga de tre IEA-faktorerna inte 

kunde påvisas i en modell samtidigt som residualfaktorer tillsammans med 

en allmän läsfaktor och textavnittsfaktorer. De två alternativen för substantiella 

residualfaktorer, som visat acceptabel anpassning, var: Modell 1 med 

en sammanslagen Narrative/Expository-faktor (använd i Figur 4) och 

Modell 2 med en Document-faktor. Textavsnittens faktorer gav ett betydande 

varians-bidrag till svaren, olika för olika textavsnitt (passages) och 

olika länder. 

2. Testets postulerade faktorer har prövats mot modeller för intelligens. 

Hypoteser om Document-variablerna, att de speglar Gf-faktorn (fluid 

intelligens) i modeller för intelligens, prövades i Gustafsson (1995) och får en 

indirekt belysning genom studium av korrelationen mellan Text, en 

sammanslagen Narrative/Expository-faktor, och Document-faktorn. Den är 

nämligen högre än väntat (.80–.85) förutsatt att Document faktorn 

representerar en bred Gf-faktor och Text en ”crystallized” intelligensfaktor. 

Tre olika förklaringar till den höga korrelationen diskuteras (i) Document 

och Text representerar samma slags läsförmåga, (ii) designfaktor – alla 

använda item ingår i samma testhäfte, (iii) Narrative och Expository-textavsnitten 

och frågorna innehåller ett rikt mått av logiskt tänkande (reasoning) 

vilket är kärnan i Document’s mått på läsförmåga. Det går tyvärr inte att 

komma längre i länkningen mellan IEA-undersökningens test av läsförmåga


och de två prövade breda förmågevariablerna hämtade från teorier om 

intelligensen. 

3. Är den av IEA etablerade Rasch-tekniken för internationella skalor 

rättvisande? Gustafsson (1997) har också i sin MALI-anknutna forskning 

tagit upp det grundläggande problemet med internationella skalor utvecklade 

med Rasch-tekniken som numera blivit etablerad inom IEA-projektet. 

Dessa har prövats för närmare 74.000 9-åringar i 22 länder, gentemot en 

konfirmativ faktoranalysansats med passage som observerade variabler, 

SEM och två-nivåanalys (land–individ). Analyserna kartlägger två källor till 

flerdimensionalitet i de internationella skalorna. Den ena är grundad i det 

faktum att analysen av två-nivåmodellerna visar att det förekommer en 

ansenlig mängd passagevariation som är att hänföra till de enskilda länderna. 

Det andra nya tillskottet är möjligheten att skilja ut renodlad Narrative/ 

Expository-dimension korrigerad för snabbhetsfaktorn med en redovisning 

passage för passage av inom- och mellanvariansbidragen till dessa. Denna 

typ av analys av flerdimensionaliteten synliggör alltså både substantiella och 

metod och designmässiga källor till påverkan av elevernas svar och, genom 

två-nivågreppet land–individ förs även skolsystemen i sin helhet in som 

varianskälla. Om den är liten har vi nått målet med ett effektivt 

internationellt test. Gustafsson drar slutsatsen att Rasch-modellen inte är ett 

adekvat hjälpmedel för att säkerställa jämförbarhet mellan kunskapsindikatorer 

sett över länder eftersom den är grundad i ett antagande om endimensionalitet 

och MALI-projektets resultat visat att svaren på testen i själva 

verket påverkas av ett spektrum av faktorer (jfr Figur 4). 

4. Ändras rangordningen av länderna om resultatet korrigeras för 

Snabbhetsfaktorn? Snabbhetsfaktorn (end-of-test) i Gustafssons (1997) 

studie med två-nivåanalys, elev–land, visar att IEA-rapporteringens rangordning 

mellan länder påverkas och att en förklaring till detta rimligen är att 

hänföra till testets uppläggning, en ren så kallad speededness-faktor. Men det 

kan också tänkas att den inrymmer kulturella, språkmässiga och skolsystemmässiga 

faktorer som kan förklara varför Singapore, Hong Kong och Nya 

Zeeland lyckas slutföra testhäftena i särskilt hög grad medan Danmark, 

Holland, Tyskland och Schweiz (alla germanska språkgrupper) visat motsatt 

tendens med många elever som inte hunnit med på den utsatta tiden. En 

systematisk kartläggning av problemet, som tydligt visar att rangordningen 

ändras i väsentlig grad när utfallet differentieras med nestade modeller, har 

gjorts nyligen av Rosén (1997). Hon kommer bland annat fram till att 

rangordningen mellan länder är olika för litterära texter och fakta-texter. 

5. Ändras tidigare resultat om könsskillnader med den nyanserade modellen 

för läsförmåga? Tidigare analyser av RL-materialet av könsskillnader både i 

termer av de tre Rasch-skalorna och på item-nivå (Wagemaker 1996) har 

visat att de flesta uppgifterna i testet gynnade flickor sett över länder, dock 

med mindre könsskillnader i Document. Dessa har därför valts ut i en studie 

av Rosén (1996) vars syfte var att studera kulturella variationer i 

könsskillnaderna men också försöka med SEM-teknik finna invarianta 

könsskillnadsmönster över 25 länder för 9-åringar och 22 länder för 14åringar. 

Roséns slutsatser säger oss att hypotesen om ett invariant globalt


mönster för könsskillnader inte får stöd i analysen av Document-frågorna. 

De speglar delvis kulturella skillnader men det finns undergrupper av länder 

som visar upp en gemensam bild. Ansatsen med mätmodeller som möjliggör 

att flera faktorer simultant ingår i samma modell (jfr Figur 3) visar sig 

nödvändig för att könsskillnaderna skall gå att skatta utan bias. 

6. Går det att spåra lärareffekter i testresultaten? Ingvar Lundberg och 

Monica Rosén har använt två-nivåmodelleringen elev–klass för att utröna 

basen för utvärdering av lärareffekter (Lundberg & Rosén 1995). Tidigare 

försök att visa påverkan av undervisningsvariabler på läsförmågan har inte 

varit särskilt framgångsrika och gett bilden av att sättet att undervisa inte 

verkar göra någon större skillnad. En anledning till detta är ämnets karaktär, 

läsning är ju något som barn utsätts för på många sätt utanför skolan. Men 

det kan också vara beroende på metodproblem, begreppsmässiga och 

mättekniska, både vad gäller sättet att undervisa och av läsresultatet, som 

skymt upptäckten av något samband. Den nya SEM-ansatsen med elev–klass 

nivåanalys klarar nu av aggregationsbias-problemet som många tidigare 

undersökningar alltid fått reservera sig för. 

Tanken med två-nivåanalysen i detta fall var att studera mellanklassvariationen 

i relation till totalvariationen för varje itempaket (2–3 item) för 

att få en bild av vilken andel som förklaras av mellanfaktorerna sammantaget. 

Om dessa andelar, som är att hänföra till klassnivå, är små så drar vi 

slutsatsen att testfrågorna fångar i huvudsak något som är individuellt 

grundat och lärt utanför skolan. Omvänt, höga andelar förklarad varians 

som kan hänföras till klass- eller skolnivå, kan förmodligen gälla frågor som 

fodrar träning och undervisning i vissa specifika moment och att det är troligt 

att praxis från skola till skola varierar i dessa avseenden. Lundberg och 

Rosén finner itempaket med både hög och låg mellanklassvariation och 

diskuterar dessa resultat i termer av utrymme för skolans undervisning. På 

detta sätt kan frågor och frågeområden lokaliseras i efterhand (eller på 

pilotstadiet) vilka visar sig vara mera skolberoende för rätta svar än andra. 

7. Hur ser sambandet ut mellan läsförmågan och läsintresset och vad betyder 

läsresurserna i hemmet för detta samband? Munck (1995) studerade en elev– 

skola modell för hembakgrundens effekter på läsintresse och läsförmåga för 

svenska 14-åringar, liknande elevmodellen i Figur 2. Figur 5 visar de 

påvisbara skolvariablerna, definierade som latenta variabler med signifikant 

mellanskolvarians, från en två-nivåanalys. 

När det gäller läsintresset mellan skolor har mätmodellen en generell 

faktor Alla media, en specifik tidningsläsningsfaktor, och åtta specifika 

innehållsfaktorer. Här visar sig mediafaktorerna Alla media och Tidningar, 

samt innehållsfaktorn Nyheter/politik vara påvisbara i Sverige. För 

läsprestationen vid skolan blir dock endast den generella faktorn synlig. 

Figur 5, vänstra delen, visar det enkla sambandet mellan läsning om Nyheter/ 

politik och Generell läsförmåga (stigkoefficienten skattad till .46 med en 

tvågruppsanalys i LISREL utan bakgrundsvariablerna). 

Vi frågar oss nu hur mycket av detta samband som kan förklaras av 

faktorer utanför skolan och då närmast med hemvariabeln Antal böcker 

hemma. Eftersom vi rör oss på mellanskolnivå så är innebörden av den 

förklarande analysen, att det gäller vad elevunderlaget för skolan, mätt i


termer av böcker hemma, betyder för läsintresse och läsförmåga (illustrerad 

till höger i Figur 5). 

Det visar sig att denna enkla upplysning om böcker hemma (med fem 

svarsalternativ, som följt IEA-undersökningen genom åren) har mycket 

starka samband med båda utfallsvariablerna. Hemmens resurser förklarar 

också hela det enkla sambandet i det här fallet. Denna fråga har inte kunnat 

besvaras på ett rättvisande sätt tidigare med den typ av regressionsanalys för 

skolor som använts från exempelvis IEA:s sexämnesundersökning refererad 

av Härnqvist (1974). I teknisk mening kan nu unbiased mellanskolkorrelationen, 

såväl enkla som partiella skattas på elevdata. 

Figur 5. Den statistiska Sudden. Skattade mellanskolsamband, tvånivåanalys, före 

och efter att hänsyn tagits till variabeln ’Antalet böcker hemma’. IEA-data för 

Sverige, 14-åringar. Anmärkning: Modellanpassningen är acceptabel. 

Genom den nya två-nivåanalysen har vi fått ett sätt att kunna synliggöra det 

spelrum som finns kvar att förklara, i termer av skillnader mellan skolor (dvs 

samband mellan insats och resultat i vår allmänna effektmodell), sedan 

hänsyn först tagits till elevunderlaget eller andra viktiga bakgrundsvariabler 

på elev och skolnivå (t ex typ av region). I de första IEA-undersökningarna 

myntades uttrycket ”scrubbing” för en sådan procedur (här döpt till Den 

statistiska Sudden) som suddade bort effekterna från andra källor än de där 

skolan var inblandad (Figur 5).


8. Hur fungerar två-nivåanalysen i olika skolsystem? De data som valts ut i 

Munck (1995) för studium av kontraster i sambandsanalysen mellan två 

skolsystem är 14-åringar i Sverige och USA. Valet av länder är betingat av de 

stora skillnader de uppvisar i variationen mellan skolor. Sveriges mellanskolvarians 

är, i likhet med tidigare IEA-resultat, mycket låg i motsats till USA 

som uppvisar bland de allra högsta skillnaderna mellan skolor i hela IEAmaterialet 

(Postlethwaite & Ross, 1992). Det visar sig att förutsättningarna 

för två-nivåanalys är mycket olika i ett homogent skolsystem som det 

svenska med hög grad av likvärdighet, i jämförelse med ett heterogent som 

det amerikanska med mycket större segregation och differentiering. Den 

modell som studerats är elevmodellen i Figur 2. När det gäller påvisbara 

skolfaktorer framgår de för den svenska analysen av Figur 5 medan för de 

amerikanska skolorna ytterligare påvisbara faktorer är Serier för läsintresset 

och Snabbhet för läsprestationen vid skolan. 

I korthet gäller att inomskolstrukturen är väl differentierad, exempelvis 

finner vi starka samband mellan hemvariabler och utfallsvariablerna, i det 

svenska homogena systemet med relativt få samband på mellanskolnivå. För 

det amerikanska skolsystemet blir bilden omvänd: där återfinns de starka 

sambanden på mellanskolnivå, medan inomskolanalysen inte ens gav 

signifikanta samband mellan hemvariablerna och resultatet. 

ANALYSVERKTYG OCH KUNSKAPSUTBYTE 

Traditionella analysverktyg har tidigare gett en sammantagen men grumlig 

bild av sambanden i våra modeller. När nu bilden klarnar och differentieras 

på elev-, klass- och skolnivå kommer skilda skol- och samhällssystems olika 

karaktär också tydligare fram i modellanalysen. För en generell testning av 

effekthypoteser inom skolan tyder resultaten på att det krävs information 

från många olika skolsystem. Fördjupad kunskap om skolsystemen finns i 

kontrasterna mellan exempelvis Sverige och USA i modellanalysen ovan, vars 

resultatbilder kompletterar varandra. Resultaten från MALI-projektet visar 

för dessa båda länder hur olika kunskapsutbytet är från mikro- respektive 

makrosambanden. Synsättet att se världens skolsystem som ett experimentfält 

kan ges ett nytt innehåll med flernivågreppet som också gör oss bättre 

medvetna om de olika förutsättningar för effektstudier som föreligger 

beroende av hur skolan är organiserad och hur den fungerar i samhället. För 

Sveriges vidkommande, med internationellt sett mycket likvärdig skola, 

gäller att fokus för utvärderingar bör kunna läggas på studier inom skolan 

med rikhaltig elev- och lärarinformation. Om skolans likvärdighet utgör en 

huvudfråga behövs emellertid ett allsidigt underlag på samtliga nivåer, 

exempelvis för att belysa effekter på skolresultat av ökad segregation i 

samhället. 

Vi står bara i början av en utveckling med sikte på att studera effekter 

av förändringar inom skolan genom reformer, nedskärningar och insatser av 

olika slag på olika nivåer: elev, klass, skola, region, system och land. Det 

behöver satsas stort på vidareutveckling av den statistiska metoden och 

analysverktygen nu när de tekniska förutsättningarna finns. Det gäller också 

att mycket mer systematiskt samla in och höja kvaliteten i den förklarande 

informationen som nyttjas i utvärderingar. En välgrundad erfarenhet inom 

modellanalys är ju att saknad information allvarligt kan förrycka resultat-


bilden. Till detta kommer vikten av att informationen är tillgänglig på 

elevnivå och möjlig att länka till klass, lärare och skola, vilket är ett krav för 

rättvisande effektanalys. 

EN NY GENERATION UTVÄRDERINGAR VÄXER FRAM 

Det finns mycket att vinna på att skapa en ny informationsmiljö för 

utvärderingar efter de här presenterade grundprinciperna för effektstudier, 

naturligtvis med tydliga och för alla intressenter acceptabla, spelregler för 

innehåll, sekretess och användning. Trots de enorma datainsamlingar som 

ägt rum, både internationellt och nationellt, har dessa utvärderingar haft 

dålig täckning av faktauppgifter annat än på aggregerad nivå, dvs 

upplysningar som inte gäller enskilda elever och lärare utan endast skolor 

och kommuner. Sådan skolinformation finns numera ofta tillgänglig i 

officiella och administrativa register. 

Bristande länkning av informationen mellan olika källor och över tid är 

något som kan lösas med moderna informationssystem. Morgondagens 

utvärderingar kan sedan göras mycket mera informativa med tillgång till 

fylliga longitudinella register för effektivare design och statistisk analys. 

Frågeformulären till elever, lärare och skolledare (som ofta fått stå tillbaka 

för hög kvalitet i kunskapstest) borde snart kunna bytas ut mot 

informationssamhällets sätt att kommunicera, via PC-multimedia och 

Internet, med en mera kontinuerligt upplagd informationsinsamling med 

både kvalitativ och kvantitativ metod. 

Flernivåperspektivet på utvärdering innebär att insamlad information 

kan föras nerifrån och upp i skolsystemen, från elever och lärare till 

skolledning och vidare till makroplanet. Härmed skapas bättre förutsättningar 

och underlag för kvalificerad analys på alla dessa olika nivåer. Ty 

gräsrötterna i skolan, eleverna och lärarna, bär ju på svaren om resultatet av 

skolarbetet och på den allra viktigaste förklarande informationen om hur 

olika insatser berört dem. 

NOTER 

1. MALI-projektet har finansierats genom medel från Humanistisk-samhällsvetenskapliga 

forskningsrådet, Riksbankens jubileumsfond, Skolverket samt 

Statistiska centralbyrån. 

2. Forskargruppens sammansättning: Vetenskaplig ledare, professor Ingvar 

Lundberg, psykologiska institutionen i Umeå, projektledare, docent Ingrid 

Munck, Statistiska centralbyrån, experttjänst med forskning i metod för 

utvärdering. Gruppen bestod från starten 1992 dessutom av docent Gudrun 

Balke, fil dr Valentin Gonzalez, professor Jan-Eric Gustafsson, professor 

emeritus Kjell Härnqvist, systemerare Anna Lindbom, samtliga från 

pedagogiska institutionen vid Göteborgs universitet. Konsulter till projektet 

var professor Bengt Muthén, UCLA, USA och Mr Andreas Schleicher, 

dåvarande internationell koordinator för IEA Reading Literacy studien. 

Under senare delen av projektet tillkom fil lic Monica Rosén. Arbetet har 

genomförts vid pedagogiska institutionen vid Göteborgs universitet. 

LITTERATUR 

Balke, G. 1995: Decomposition of reading comprehension: Analysis of the IEA


reading literacy test. Paper presented at the annual meeting of the American 

Educational Research Association, AERA, San Francisco, Göteborg University, 

Sweden. 

Burstein, L. 1985: Unit of analysis. In T. Husén & N. Postlethwaite (red): The 

international encyclopedia of education research and studies, vol. 9. Oxford: 

Pergamon. 

Elley, W. 1992: The IEA Study of Reading Literacy: Achievement and instruction 

in thirty-two school stystems. London: Pergamon. 

Groves, R. 1989: Survey errors and survey costs. New York: John Wiley & Sons. 

Gustafsson, J-E. 1994: Hierarchical models of intelligence and educational achievement. 

I A. Demetriou & A. Etklides (red): Intelligence, mind and reasoning. 

Structure and development. Amsterdam: Nort-Holland. 

Gustafsson, J-E. 1995: Alternative hierarchical models of reading achievement. 

Paper presented at AERA Annual Meeting Session 12.22 Symposium: Dimensions 

of Reading Literacy – Structural Multilevel Modeling of IEA Data, April, 

1995, San Francisco. 

Gustafsson, J-E. 1997: Measurement characteristics of the IEA Reading Literacy 

Scales for 9–10 year-olds at country and individual levels. Journal of 

Educational Measurement. (i tryck) 

Gustafsson, J-E. & Balke, G. 1993: General and specific abilities as predictors of 

school achievement. Multivariate Behavioral Research, 28(4), 407–434. 

Gustafsson, J-E. & Stahl, P-A. 1997: School User’s Guide, Version 2.0 for 

Windows, Göteborg: Multivariate Ware. 

Hox, J. & Kreft, I. 1994: Multilevel analysis methods. Sociological Methods & 

Research, 22(3), 283–299. 

Hoyle, R. (red) 1995: Structural equation modeling: Concepts, issues, and 

applications. Thousand Oaks: Sage Publications. 

Husén, T. (red) 1967: International study of achievement in mathematics. A 

comparison of twelve countries. Volume I. Stockholm: Almqvist & Wiksell. 

Härnqvist, K. 1974: Internationella jämförelser av utbildningsresultat. Forskning 

om utbildning, 1(1), 17–25. 

Inkeles, A. 1977: The International Evaluation of Educational Achievement: A 

review. Proceedings of the National Academy of Education, 4, 139–200. 

Jöreskog, K. & Sörbom, D. 1993: LISREL 8: Structural equation modeling with 

the SIMPLIS command language. Chicago: SSI Scientific Software International. 

Lundberg, I. 1991: Cognitive aspects of reading. International Journal of Applied 

Linguistics, 1, 151–163. 

Lundberg, I. & Rosén, M. 1995: Structural modeling of reading achievement as a 

basis for evaluating teaching effects. Paper presented at the AERA Meeting, San 

Francisco, 1995. 

Marklund, S. 1983: The IEA project: An unfinished audit. Stockholm: Institute of 

international education, Stockholm university. 

Mueller, R. 1996: Basic principles of structural equation modeling: An introduction 

to LISREL and EQS. New York: Springer Verlag. 

Munck, I. 1979: Model building in comparative education: Application of the 

LISREL method to cross-national survey data. (IEA Monograph Studies, No 10) 

Stockholm: Almqvist & Wiksell International. 

Munck, I. 1991: A path analysis of cross-national data taking measurement errors 

into account. In P. Biemer, R. Groves, L. Lybrg, N. Mathiowetz & S. Sudman 

(red): Measurement errors in surveys. New York: John Wiley. 

Munck, I. 1995: Linking reading preferences with reading performance: Structural 

relationships at individual and school levels in two different educational systems. 

Paper presented at the AERA conference 1995. 

Munck, I. & Lundberg, I. 1994: Multivariate analyses of data from population A.


In W. Elley (red): The IEA study of reading literacy: Achievement and instruction 

in thirty-two school systems. Oxford: Pergamon. 

Muthén, B.O. 1994: Multilevel covariance structure analysis, Sociological Methods 

& Research 22(3), 376–398. 

OECD, 1996: Education at a glance. Paris:OECD. 

Peaker, G. 1975: The empirical study of education in twenty-one countries: A 

technical report. New York: John Wiley & Sons. 

Postlethwaite, N. & Ross, K. 1992: Effective schools in reading: Implications for 

educational planners. The Hague: IEA. 

Raudenbush, S . 1995: Hierarchical models: The case of school effects on literacy. 

I M. Binkley, K. Rust & M. Winglee (red): Methodological issues in comparative 

educational studies. Washington, DC: U.S. Department of Education, National 

Center for Education Statistics. 

Ribe, Martin (1997): Statistisk kvalitet i utvärdering. Stockholm: Statistiska 

Centralbyrån. 

Rosén, M. 1996: Gender differences in reading performance on documents across 

countries. Paper submitted for publication in Reading and Writing: An interdisciplinary 

Journal, July, 1996. Göteborg: Department of Education, Göteborg 

University. 

Rosén, M. 1997: Country differences in reading performance: A reanalysis of the 

IEA reading literacy study. Paper presented at the AERA conference 1997. 

Göteborg: Department of education, Göteborg university. 

Skolverket, 1996: TIMSS: svenska 13-åringars kunskaper i matematik och naturvetenskap 

i ett internationellt perspektiv. (Third IEA Internetional Mathematics 

and Science Study) Stockholm: Liber Distribution. 

Tyler, R. 1984: A guide to educational trouble-shooting. Educational Leadership, 

41(8), 27–30. 

Vedung, E. 1994: Utvärdering i offentliga sektorn. Stockholm: Civildepartementet. 

Wagemaker, H. (red) 1996: Are girls better readers? Gender differences in reading 

literacy in 32 countries. Amsterdam: IEA Headquarter. 

Williams, T. 1994: Modeling the reading literacy of fourth and ninth graders. I M. 

Binkley & K. Rust (red): Reading literacy in the United States. (Technical report, 

NCES) Washington, DC: U.S. Department of Education, National Center for 

Education Statistics.

2 ingrid me munck - Göteborgs universitet

Create successful ePaper yourself

Delete template?

Save as template?