30.11.2012 Views

2 ingrid me munck - Göteborgs universitet

2 ingrid me munck - Göteborgs universitet

2 ingrid me munck - Göteborgs universitet

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

PEDAGOGISK FORSKNING I SVERIGE 1997 ÅRG 2 NR 1 S 1–24 ISSN 1401-6788<br />

Effektstudier vid utvärdering av skolan<br />

INGRID M. E. MUNCK<br />

Statistiska centralbyrån, Stockholm<br />

Sammanfattning: Framsteg inom psyko<strong>me</strong>trin och statistiken gör att sedan länge<br />

formulerade mål för den kvantitativa utvärderingsforskningen, nyanserad mätning<br />

och di<strong>me</strong>nsionalitetsanalys samt förklarande effektstudier, börjar kunna realiseras.<br />

Genom att den statistiska modellen nu kan återspegla skolans sociala och<br />

organisatoriska struktur öppnas nya möjligheter att studera individer och grupper<br />

i sina sociala sammanhang, bland annat kan man analysera effekter på olika nivåer<br />

i skolsyste<strong>me</strong>t. Framställningen illustreras <strong>me</strong>d den internationella undersökningen<br />

IEA och <strong>me</strong>d resultat från ett svenskt forskningsprojekt, MALI-projektet, som<br />

provat ut de nya ansatserna för kvantitativ analys. Det visar sig att resultatbilden i<br />

väsentlig grad ändras och fördjupas. De nya angreppssätten kan radikalt öka<br />

kunskapsutbytet från nationella och internationella utvärderingsstudier genom att<br />

de överbryggar gapet <strong>me</strong>llan mikro- och makronivån.<br />

Den här artikeln behandlar <strong>me</strong>todproblem vid effektstudier i nationella och<br />

internationella utvärderingar utifrån erfarenheter och innehåll hämtade från,<br />

dels internationell utvärdering av skolan, och dels <strong>me</strong>d forskningsresultat<br />

från det svenska forskningsprojektet MALI (Multivariate Analysis of Literacy).<br />

Vi kom<strong>me</strong>r att blicka tillbaka på den knaggliga vägen till förklarande<br />

statistiska analyser av elevkunskaper, som började inom IEA-undersökningen<br />

(International Association for the Evaluation of Educational Achieve<strong>me</strong>nt)<br />

för cirka 30 år sedan.<br />

En modell för effektstudier presenteras som utvecklas till en passande<br />

struktur för skolutvärdering i kvantitativa ter<strong>me</strong>r <strong>me</strong>d tre nivåer: elev, klass<br />

respektive skola, och <strong>me</strong>d innehåll från några centrala IEA variabler.<br />

Proble<strong>me</strong>t <strong>me</strong>d utvärdering på statistisk grund kom<strong>me</strong>r här att beskrivas<br />

utifrån de förutsättningar som gäller i skolan, <strong>me</strong>d ofta sammansatta<br />

undervisningsinsatser som anpassas efter eleverna och som utformas av<br />

enskilda lärare i deras professionella roll.<br />

Sedan slutet av 1980-talet har det utvecklats multivariata <strong>me</strong>toder som<br />

på ett framgångsrikt sätt kunnat angripa den här typen av data som är<br />

hämtade från flera olika nivåer (elever, lärare och skolor). Den ansats som<br />

bäst visat sig passa proble<strong>me</strong>t <strong>me</strong>d sammansatta insatser och behovet av<br />

nyanserad mätning av kunskaper, attityder, etc, är en påbyggnad av<br />

’stiganalys’ <strong>me</strong>d latenta variabler, LISREL-modellen (Jöreskog & Sörbom<br />

1993). Metodiken har prövats på IEA-data om kunskaper i läsning insamlade<br />

från 32 länder. En förklarande modell för svaren på test- och


2 INGRID M. E. MUNCK<br />

attitydfrågor har använts som fångar ett brett spektrum av påverkansfaktorer<br />

som nu <strong>me</strong>d rätt design kan studeras på olika nivåer: elev, klass, skola<br />

och land. Parallellt <strong>me</strong>d detta arbete har ny programvara, STREAMS<br />

(Structural Equation Modeling Made Simple; Gustafsson & Stahl 1997),<br />

kommit ut på marknaden som möjliggör en bredare användning av den<br />

avancerade tekniken.<br />

Efter en översikt av effektstudier inom IEA-undersökningen presenteras<br />

proble<strong>me</strong>t i statistiska ter<strong>me</strong>r genom en enkel modell för effektanalys. Denna<br />

skisseras för att passa utvärdering av skolan och det statistiska synsättet <strong>me</strong>d<br />

flernivåanalys, samt ges ett innehåll i ter<strong>me</strong>r av centrala IEA-begrepp och<br />

variabler. Utformningen av nya ansatser för nyanserad mätning och tvånivåanalys<br />

beskrivs i anslutning till en presentation av resultaten från MALIprojektet.<br />

SIKTET PÅ FÖRKLARANDE ANALYS INOM IEA<br />

Alltsedan publiceringen av IEA:s första studie från mitten av 1960-talet har<br />

det varit ett besvärande gap <strong>me</strong>llan dagstidningarnas och fackpressens<br />

rapportering av resultaten som från en kunskapsolympiad, <strong>me</strong>d ranking av<br />

länder i förhållande till forskarnas ambition att förstå det komplexa<br />

samspelet <strong>me</strong>llan olika faktorers roll för produktivitet och effektivitet inom<br />

skolan.<br />

Syftet <strong>me</strong>d den första matematikstudien<br />

I den första matematikstudien formulerar Torsten Husén IEA-projektets<br />

syfte på följande sätt (Husén 1967 s 30 f):<br />

... the main objective of the study is to investigate the ”outco<strong>me</strong>s”<br />

of various school systems by relating as many as possible of the<br />

relevant input variables (to the extent that they could be assessed)<br />

to the output assessed by international test instru<strong>me</strong>nts. /.../<br />

Comparisons between countries are not to be made primarily in<br />

terms of levels achieved. Similar ends might be reached by different<br />

<strong>me</strong>ans, and, conversely, different aims might lead to similar results<br />

by the use of different <strong>me</strong>thods. /.../ What, then will be the ”use”<br />

to be made of the findings of this project? It is justifiable to believe<br />

that an important contribution has been made toward a more<br />

profound understanding of the pheno<strong>me</strong>na under consideration<br />

and especially of how educational ”productivity” is related to<br />

instruction and societal factors. /.../ This study will throw new light<br />

upon the importance of the school structure and, in particular, on<br />

how it mirrors influences from the society.<br />

Huvudsyftet <strong>me</strong>d IEA-projektet var redan från början att genomföra en<br />

nyanserad förklarande analys av utfallet, som skulle peka ut betydelsefulla<br />

faktorer i hem, skola, samhälle och skolsystem. Effekter av att börja skolan<br />

tidigt, av stora klasser eller skolor, av olika sätt att undervisa, av olika<br />

selektion till gymnasiet (eller motsvarande) har studerats. De deltagande<br />

ländernas samhälls- och skolsystem sågs som ett stort ”naturligt” experi<strong>me</strong>ntfält.


UTVÄRDERING AV SKOLAN 3<br />

Det har varit särskilt svårt att separera ut effekterna på de olika<br />

nivåerna i skolsyste<strong>me</strong>t. Detta kräver, som vi närmare skall gå in på längre<br />

fram, att informationen från elever, lärare och skolledare kan hanteras i en<br />

och samma statistiska analys. Analysverktygen svarade helt enkelt inte mot<br />

forskarnas syften. Ett flertal pedagogiska forskare har recenserat IEAprojektet<br />

under åren och vi skall gå igenom några av dem och lyfta fram<br />

deras formuleringar av resultaten av den förklarande analysen samt också<br />

vilka besvärande problem och felkällor de pekat ut (Härnqvist 1974, Inkeles<br />

1977, Marklund 1983).<br />

Förskjutning av ambitionsnivån vid ”sexämnesundersökningen”<br />

Härnqvist har kortfattat beskrivit den statistiska <strong>me</strong>toden, stegvis blockvis<br />

regressionsanalys, som användes i rapporteringen från sex ämnesstudier, till<br />

vilka material insamlades av IEA under åren 1970–1971. Den procedur som<br />

utvecklats skulle förklara den variation som observerats <strong>me</strong>llan skolors<br />

genomsnittspoäng i kunskapsproven för en viss åldersnivå. Varje skolas<br />

genomsnitt byggde på ett 50-tal slumpvis uttagna elever och skolorna<br />

utgjorde ett representativt slumpmässigt urval av respektive lands population.<br />

Så här sammanfattas slutprodukten (Härnqvist 1974 s 23):<br />

Den här tolkningsövningen torde visa två saker: dels att tolkning<br />

av resultaten kräver god inblick i hur ett skolsystem fungerar, dels<br />

att sambanden fortfarande inte säger mycket om vad som är<br />

effektiva variationer i skolarbetets uppläggning. Helhetsbilden av<br />

variansbidragen från blocket av undervisningsvariabler är att de<br />

var för sig är små och att de faktorer som tillskrivs vikt är olika i<br />

olika länder <strong>me</strong>n ofta på ett irrationellt och svårtolkat sätt. Flera<br />

av rapportsammanställningarna andas besvikelse på denna punkt.<br />

Härnqvist diskuterar svårigheterna att på internationell nivå mäta kunskaper<br />

som svarar mot skolsyste<strong>me</strong>ns utbildningsmål och kursplaner samt<br />

proble<strong>me</strong>n <strong>me</strong>d att mäta förklarande variabler som tillräckligt väl speglar<br />

undervisningssituationen i skolorna. Därefter konstateras att de antaganden<br />

som gjorts i den multipla regressionsanalysen, som bland annat blandar<br />

variabler hämtade från olika nivåer (skola, klass respektive elev), leder till en<br />

svårtolkad bild. Detta avspeglas också i rapporterna (Härnqvist 1974 s 25):<br />

En förskjutning mot en <strong>me</strong>r realistisk ambitionsnivå är också<br />

märkbar hos rapportförfattarna <strong>me</strong>llan deras syftebeskrivningar<br />

och deras <strong>me</strong>r försiktiga konklusioner.<br />

IEA-data har <strong>me</strong>r att ge<br />

IEA-projektets sexämnesundersökning rapporterades i nio voly<strong>me</strong>r under<br />

åren 1973–1976 och recenserade bl a av Inkeles. Under rubriken ”Advanced<br />

<strong>me</strong>thods” skriver Inkeles (1977 s 198):<br />

The IEA study is notable for the modernity and sophistication of<br />

the <strong>me</strong>thods used. This is not to say that what they did will<br />

generate no disagree<strong>me</strong>nts nor, that few will be ready to fault them<br />

on any but minor matters. The state of the art is such as to make


4 INGRID M. E. MUNCK<br />

that condition quite unattainable. However, compared to the great<br />

majority of run-of-the-mill studies in education, this research<br />

shows decided sensitivity to issues of reliability and validity in test<br />

construction. The use of contemporary multivariate analysis is<br />

central to their approach.<br />

Till denna beskrivning av <strong>me</strong>todansatsen kan läggas att projektet låg vid<br />

frontlinjen då det gällde att beräkna osäkerheten i skattningar av <strong>me</strong>delvärden<br />

och regressionskoefficienter för komplexa urval (stratifierat tvåstegs<br />

klusterurval) och använde redan i början av 1970-talet så kallade datorintensiva<br />

<strong>me</strong>toder exempelvis jack-knife-<strong>me</strong>toden (Peaker 1975). Inkeles (1977<br />

s 199) avslutar sin sum<strong>me</strong>ring av betydelsefulla resultat på följande sätt:<br />

The IEA research is, then, a great step forward. The fact that it is<br />

often difficult and frustrating to obtain the facts and knowledge<br />

embedded therein should not blind us to the substantial<br />

accomplish<strong>me</strong>nt. I can testify that the yield from digging,<br />

generously repays the effort. One can do much more, vastly more,<br />

if one goes to the tapes containing the data, which are being<br />

deposited in a number of data banks. To report that there is still so<br />

much more to do is, in effect, to give a compli<strong>me</strong>nt to the team<br />

which did the research, for that assertion highlights the great effort<br />

that was put into this study. Very few of the remarks we normally<br />

glibly make about the causes of academic failure and achieve<strong>me</strong>nt<br />

can henceforth hope to escape scrutiny in the light of what the IEA<br />

studies have shown. Moreover, we shall further mine this lode, and<br />

very profitably, for many years to co<strong>me</strong>.<br />

Med andra ord, trots rapportering i nio tjocka voly<strong>me</strong>r, var forskarna väl<br />

<strong>me</strong>dvetna om att analysverktygen var trubbiga och att materialet innehöll en<br />

stor outnyttjad potential. Det skulle dröja fram till slutet av 1980-talet innan<br />

de statistiska proble<strong>me</strong>n i sammanhanget kunde angripas.<br />

Design och analys av policy-frågor<br />

I början av 1980-talet tog Sixten Marklund, som då var knuten både till<br />

Skolöverstyrelsen och till Institutionen för internationell pedagogik, upp<br />

IEA-projektet <strong>me</strong>d anknytning till möjligheterna att göra sekundära analyser<br />

av IEA-data för att belysa aktuella nationella policyfrågor (Marklund 1983<br />

s 31):<br />

If the IEA surveys are not supple<strong>me</strong>nted and supported by national<br />

evaluations, the danger is that they will remain just cognitive<br />

league tables in which certain intrinsically valuable descriptive<br />

results predominate but where the underlying educational<br />

relationships between goals, <strong>me</strong>ans and results remain unknown.<br />

Marklund konstaterar, efter att ha tittat tillbaka på användningen i Sverige<br />

av resultaten av två matematikstudier (mitten av 1960-talet och cirka 15 år<br />

senare) och av sexämnesundersökningen, att det har varit en omfattande<br />

publicering där forskare har skrivit för andra forskare. Relativt lite har


UTVÄRDERING AV SKOLAN 5<br />

kommit fram som direkt har varit användbart för skolpolitiker. Han<br />

efterlyser större engagemang nationellt för att precisera de nationella målen<br />

och integrera internationell utvärdering <strong>me</strong>d nationell. Efter ytterligare 15 år<br />

av skolutvärderingar, både internationella och nationella, har mycket lite<br />

gjorts för att integrera den svenska kvantitativa skolutvärderingen på det sätt<br />

som Marklund <strong>me</strong>nar är nödvändigt för en förklarande analys om viktiga<br />

faktorer för skolans resultat.<br />

Kraftsamling inom IEA inför 1990-talet<br />

IEA-undersökningen arbetade i motvind under 1980-talet och konceptet<br />

ändrades marginellt. Rapporterna drog ofta ut på tiden, mycket på grund av<br />

svårigheter <strong>me</strong>d finansieringen. Inför undersökningen om läsning gjordes en<br />

ny kraftsamling under ledning av Neville Postlethwaite och framsteg gjordes<br />

på flera områden: utformningen av internationella skalor i läsförmågan <strong>me</strong>d<br />

Rasch-<strong>me</strong>toden, modernt undersökningsmaskineri <strong>me</strong>d tydliga spelregler<br />

exempelvis om bortfall, manualer och kvalitetskontroll av data. Antalet<br />

deltagande länder (32) var också större än tidigare (Elley 1992). De tunga<br />

forskningsvoly<strong>me</strong>rna byttes ut mot lättlästa skrifter (t ex Postlethwaite &<br />

Ross 1992). En förklarande multivariat analys rymdes dock inte inom<br />

projektet av analystekniska och ekonomiska skäl utan kom till stånd inom<br />

det separata svenska forskningsprojekt, Multivariate Analysis of Literacy –<br />

MALI 1 . Detta startade 1992 <strong>me</strong>d en grupp forskare 2 inom läsforskning,<br />

pedagogisk-psykologisk mätning, nationell och internationell utvärdering<br />

och statistik.<br />

Den senaste IEA-undersökningen, genomförd i 45 länder, är Third<br />

Mathematics and Science Study – TIMSS, som är den största någonsin <strong>me</strong>d<br />

cirka 750.000 elever testade varav cirka 9000 svenska elever i åk 6, 7 och 8<br />

(Skolverket 1996). De första resultaten publicerades i november 1996 och de<br />

ingår också, liksom tidigare IEA-resultat, i OECD:s publikation ”Education<br />

at a glance” (OECD 1996). Med en omfattande satsning på de nya<br />

analysverktygen, ett huvudbudskap i denna artikel, kan denna nya<br />

forskningsinsats ge mycket av den utdelning IEA-forskarna strävat mot<br />

under 35 år.<br />

PROBLEMET I STATISTISKA TERMER<br />

I det följande skall de statistiska proble<strong>me</strong>n vid effektanalyser behandlas och<br />

olika ansatser för hur de kan lösas tas upp, i ett försök att göra en icketeknisk<br />

presentation. För en utförlig och systematisk genomgång av ämnet<br />

statistisk kvalitet i utvärdering hänvisas till Ribe (1997), en handledning för<br />

ett vetenskapligt grundat arbetssätt som hjälper till att ställa de kritiska<br />

frågorna för kvalitetssäkring och tar upp statistikens fallgropar vid utvärdering.<br />

Statistik och utvärdering<br />

Vedung (1994 s 14) beskriver hur ordet utvärdering förekom<strong>me</strong>r i skilda<br />

betydelser, såväl inom svensk revisionskultur som i internationell forskningslitteratur.<br />

En relevant innebörd för statistiken är att se utvärdering som en<br />

omsorgsfull undersökning av de effekter som en verksamhet har eller har<br />

haft. Det är också karakteristiskt att utvärderingen utförs i efterhand utifrån


6 INGRID M. E. MUNCK<br />

empirisk information som bör spegla verksamheten i sitt samhälleliga<br />

sammanhang. Den avses också utgöra underlag inför ett eventuellt beslut,<br />

vilket är en skillnad gentemot forskningen, som ju <strong>me</strong>ra allmänt har till syfte<br />

att öka kunskapen på området och där<strong>me</strong>d ställer högre krav på en<br />

förklarande analys. För enkelhetens skull talas i framställningen nedan om<br />

”insatser” tänkta som de delar av verksamheten som kan vara föremål för<br />

särskilt intresse exempelvis ett åtgärdsprogram, hjälp<strong>me</strong>del, ett arbetssätt<br />

eller en handlingsregel.<br />

Kärnfrågan i en utvärdering är att studera sambandet <strong>me</strong>llan insats och<br />

resultat sedan hänsyn tagits till utgångsläget, bakgrundsfaktorer och de<br />

kontextuella förutsättningarna, omvärlden (Figur 1).<br />

Figur 1. Enkel modell för effektanalys.<br />

Det klassiska statistiska proble<strong>me</strong>t är att renodla effekterna av insatsen från<br />

andra faktorer i utgångsläget och bakgrunden. Det kan åstadkommas <strong>me</strong>d<br />

experi<strong>me</strong>ntell design om det går att slumpmässigt ge olika behandlingar<br />

(insatser) till olika individer. Modellen i Figur 1 förenklas då eftersom<br />

slumpen ser till att det i statistisk <strong>me</strong>ning inte finns något samband <strong>me</strong>llan<br />

utgångsläge och bakgrund i förhållande till insats. Effekthypotesen, sambandet<br />

<strong>me</strong>llan behandling och resultat, kan statistiskt testas exempelvis <strong>me</strong>d<br />

variansanalys, en prövning som inte kräver information om bakgrund eller<br />

utgångsläge.<br />

Det finns också <strong>me</strong>toder, multivariata statistiska modeller (regressionsoch<br />

logitmodeller är de vanligaste), som svarar mot den <strong>me</strong>r realistiska<br />

situationen där insatsen väljs på andra grunder än slumpen. För att<br />

effekthypotesen då skall kunna testas statistiskt måste för resultatet viktiga<br />

faktorer i bakgrund eller utgångsläge observeras och explicit ingå i den<br />

statistiska modellen. Det gäller de faktorer som styrt eller påverkat valet av<br />

insats och där<strong>me</strong>d kan ha en störande inverkan. Effekterna av insatsen kan<br />

renodlas genom att sådana sammanblandande, störande (confounding)<br />

faktorer beaktas, vilket innebär en statistisk omräkning som går ut på att<br />

åstadkomma jämförbarhet <strong>me</strong>llan insatserna <strong>me</strong>d avseende på dessa<br />

variabler, ”allt annat lika-principen”. I statistiskt språkbruk säger vi att


UTVÄRDERING AV SKOLAN 7<br />

effektpara<strong>me</strong>trarna har skattats <strong>me</strong>d hänsyn tagen till eller efter att vi<br />

kontrollerat för störande faktorer.<br />

Det kan också vara av intresse att effekten av insatsen ställs i relation<br />

till andra effekter på resultatet, både från sådana faktorer som inverkat på<br />

insatsen och från andra faktorer som inte gjort det. Internationella och<br />

nationella skolutvärderingar har ofta haft karaktären av en allmän<br />

kartläggning av betydelsen av skolans insatser för lärandet i relation till<br />

andra insatser från hem och samhälle (jämför exempelvis matematikstudiens<br />

syfte). Utgångspunkten för den typen av ”multi-purpose” effektstudier är<br />

närmast att utnyttja den naturliga variationen som finns i ett utvärderingsmaterial<br />

vad beträffar olika resursinsatser, olika undervisnings<strong>me</strong>toder,<br />

olika typer av stöd i hem<strong>me</strong>t och liknande i en explorativ analys. Den<br />

statistiska <strong>me</strong>todikens roll blir då att sammanfatta den väsentliga informationen,<br />

i komplexa och svåröverskådliga material, <strong>me</strong>d hjälp av modeller och<br />

hantera den osäkerhet som är att hänföra till urvalsförfarandet och olika<br />

felkällor. Det är ofta också på sin plats att höja ett varningens ord om att<br />

kausala slutsatser eller orsaksförklaringar inte är möjliga att dra på statistisk<br />

grund. Med andra ord bidrar statistiken <strong>me</strong>d ett informationsunderlag för<br />

tolkning och värdering av berörda forskare och beslutsfattare.<br />

Modell för effektanalyser inom skolan<br />

Tyler (1984 s 29) beskriver mycket målande de särskilda förhållanden som<br />

effektanalyser inom skolan har att ta hänsyn till:<br />

The field of education differs from that of natural sciences. In the<br />

natural sciences, the effort is to understand natural pheno<strong>me</strong>na<br />

that take place without regard to human effort. Education, on the<br />

other hand, is a social enterprise seeking to help persons acquire<br />

understanding, skills, attitudes, interests, and appreciation. It<br />

makes use of understanding acquired from other disciplines as<br />

teachers seek to produce forces and influences to affect student<br />

learning. Whereas in physics, the develop<strong>me</strong>nt of a precise<br />

definition for a force like radiation focuses on so<strong>me</strong>thing that<br />

happens regardless of the intent or skill of the observer, the forces<br />

and influences in education are largely produced by people and are<br />

not exactly the sa<strong>me</strong> when produced by different people. Hence,<br />

when we try to define ”instructional cues, engage<strong>me</strong>nt, and<br />

corrective feedback”, we are seeking to define teaching procedures<br />

that are not well standardized. Furthermore their influence is<br />

<strong>me</strong>diated by students whose perceptions of what is happening may<br />

be different from the intent of the teacher.<br />

Översatt till krav på analys<strong>me</strong>toden så bör den återspegla de sociala<br />

sammanhang en elev rör sig <strong>me</strong>llan, hem<strong>me</strong>t och området där han eller hon<br />

bor, klassrum<strong>me</strong>t och skolan; individer och grupper i ett hierarkiskt,<br />

samhälleligt system. Insatsen måste kunna vara en sammansatt företeelse, ett<br />

arbetssätt eller ett utbildningsprogram som utformas av enskilda lärare i<br />

deras professionella roll. Modellen skall kunna beakta att insatsen<br />

modifieras beroende på elevens bakgrund eller utgångsläge och sker i ett<br />

samspel <strong>me</strong>llan elev och lärare i klassen.


8 INGRID M. E. MUNCK<br />

Vi behöver alltså utveckla den allmänna modellen i Figur 1 så att den<br />

speglar skolans organisationsstruktur och sedan ta itu <strong>me</strong>d hur mätproble<strong>me</strong>n<br />

och den komplicerade sambandsstrukturen skall kunna angripas.<br />

Figur 2 innehåller en modell <strong>me</strong>d de tre nivåerna elev, klass och skola där<br />

några ofta använda IEA-variabler utnyttjats för att ge konkretion och<br />

innehåll åt effekthypoteser på de olika nivåerna. Den är uppbyggd kring<br />

elevens prestationer i läsning, en resultatvariabel mätt på elevnivå som<br />

återkom<strong>me</strong>r på alla nivåer <strong>me</strong>n <strong>me</strong>d olika innebörd. På elevnivån uttrycker<br />

den hur bra en elev är i förhållande till sina kamrater i samma klass, på<br />

klassnivå hur bra en klass är i förhållande till andra klasser vid samma skola<br />

och på skolnivå hur bra en skola är i förhållande till andra skolor.<br />

Totalresultatet blir på detta sätt differentierat, tolkbart på olika nivåer, och<br />

är en sammanlagd bild av dessa utfall.<br />

Figur 2. Skiss av flernivåmodell för kvantitativ utvärdering <strong>me</strong>d IEA-data.<br />

På elevnivå, representerad längst ner i Figur 2, anknyter variablerna i figuren<br />

till den förklaringsmodell av läsförmågan som jag studerat närmare inom<br />

MALI-projektet och som används senare för att illustrera den nya<br />

<strong>me</strong>todiken. På denna nivå, mikroplanet, så representeras i modellen (det<br />

gäller samtliga variabler) hur eleverna skiljer sig från sina kamrater i samma<br />

klass. Modellskissen tar upp som exempel hur denna inomklassvariation i


UTVÄRDERING AV SKOLAN 9<br />

läsförmåga samvarierar <strong>me</strong>d läsvanorna och <strong>me</strong>d om man läser högt hemma<br />

för att stimulera barnets intresse och språkkänsla. De bakgrundsvariabler<br />

som valts ut är elevens kön och faktorer i hem och samhälle som har <strong>me</strong>d<br />

läsresurser att göra: antal böcker i hem<strong>me</strong>t, och tillgång till bibliotek. För att<br />

illustrera klassnivån, där utfallsvariabeln är resultat i läsning i förhållande till<br />

andra klasser i samma skola, har vi tänkt oss i modellen att två olika insatser<br />

är intressanta, dels undervisnings<strong>me</strong>toder i läsning och dels tillfälle att lära<br />

olika mo<strong>me</strong>nt (den klassiska Opportunity to learn-variabeln OTL inom<br />

IEA). Som bakgrundsvariabler ingår lärarkompetensen och lärarens kön.<br />

Skol- eller makronivån ger en skiss av en effektmodell av olika<br />

resursinsatser <strong>me</strong>d kontroll för skolans storlek och ledningens engagemang.<br />

För enkelhetens skull har i Figur 2 bara utfallsvariabeln varit grundad i<br />

elevdata. Men för att ge realism åt modellerna skulle de behöva kompletteras<br />

<strong>me</strong>d variabler från andra nivåer. Elevernas bakgrund måste tas <strong>me</strong>d i<br />

bakgrundsblocken på klass- och skolnivå och där spegla klassens respektive<br />

skolans elevunderlag (illustrerat i Figur 2 <strong>me</strong>d flödet kallat elevunderlag).<br />

Elevvariablerna representeras högre upp i hierarkin i aggregerad form. Vill vi<br />

i elevmodellen ta in klass- och skolförhållanden, exempelvis OTL (Opportunity<br />

to learn-variabeln) och skolans storlek, tänker vi oss i första hand<br />

samma värden för alla som går i samma klass respektive i samma skola. Vi<br />

säger då att informationen disaggregeras ner på elevnivå. Vi har där<strong>me</strong>d<br />

skapat variabler som explicit uttrycker de kontextuella förhållandena i<br />

skolan (dessa representeras i Figur 2 <strong>me</strong>d ett samlat omvärldsblock på<br />

elevnivå sammansatt av faktorer som hänförs till nivåerna högre upp i<br />

hierarkin det vill säga Land, Region, Skola, och Klass).<br />

Den här tankeövningen <strong>me</strong>d insatser på olika nivåer och hur de kan<br />

tänkas studeras <strong>me</strong>d effektmodeller visar hur komplext proble<strong>me</strong>t är och<br />

något av de svårigheter som dyker upp när effekter av insatser skall separeras<br />

på olika nivåer och tolkas. Det som visat sig särskilt problematiskt ur<br />

<strong>me</strong>todsynpunkt är att föra upp (eller ner) variabler i hierarkin. Sambanden<br />

skattade genom enkel aggregering i <strong>me</strong>delvärden och procenttal blir<br />

nämligen snedvridna, känt i litteraturen under beteckningen aggregationsbias.<br />

Poängen <strong>me</strong>d den nya ansatsen för två-nivåanalys som presenteras<br />

nedan är just att den har en lösning på detta problem.<br />

När det gäller att välja analysenheter (skola, klass eller elev, illustrerade<br />

i Figur 2) i flernivådata är det en komplicerad fråga som har <strong>me</strong>d<br />

frågeställningen att göra. Inom IEA-forskningen var det Leigh Burstein och<br />

Spencer Fellow under 1970-talet vid institutionen för internationell pedagogik<br />

vid Stockholms <strong>universitet</strong>, som tidigt formulerade proble<strong>me</strong>t <strong>me</strong>d analys<br />

av hierarkiska skoldata (Burstein 1985 s 5368):<br />

Treating the analysis of multilevel data as simply a matter of<br />

selecting an appropriate unit and, thereby, level of analysis is too<br />

narrow a conception of the issues. Rather, the focus should be on<br />

the identification of the appropriate set of substantive research<br />

questions at and within various levels and the specification of<br />

appropriate models for analysing multilevel data. Once this shift<br />

occurs, the <strong>me</strong>asure<strong>me</strong>nt and analytical problems that typically<br />

arise in multilevel settings rightfully dominate the examination of<br />

interrelations among units at and within various levels of the


10 INGRID M. E. MUNCK<br />

educational system. As a consequence, progress in the understanding<br />

of educational pheno<strong>me</strong>na will accelerate.<br />

Skissen av flernivåmodellen i Figur 2 är just ett sådant försök att specificera<br />

effektmodeller för skoldata som efterlyses i citatet. Vi skall nu komma in på<br />

de statistiska proble<strong>me</strong>n för att analysera flernivådata.<br />

Det statistiska proble<strong>me</strong>t <strong>me</strong>d sambandsanalys för flernivåmodeller<br />

Strukturekvationsmodeller (SEM), är ett samlingsnamn på statistisk<br />

modelleringsteknik som erbjuder ett rikt mått av möjligheter för testning av<br />

effekthypoteser vid utvärdering. Det är inom detta område som nya grepp för<br />

analys av skoldata kommit fram som vi tar upp längre fram. Här skall vi först<br />

presentera den grundläggande <strong>me</strong>todiken.<br />

Den statistiska modellen i SEM<br />

En svensk benämning av <strong>me</strong>toden är stiganalys <strong>me</strong>d latenta variabler. För en<br />

aktuell icke-teknisk översikt av SEM-<strong>me</strong>todiken hänvisas till Hoyle (1995).<br />

Mueller (1996) ger en introduktion av de statistiska grundprinciperna.<br />

Ansatsen är välkänd inom beteendevetenskapen sedan mitten av 1970-talet<br />

då den <strong>me</strong>st kända SEM-modellen, LISREL (Jöreskog & Sörbom 1989),<br />

började tillämpas. Den presenterades då som en generell statistisk modell<br />

som integrerade många standardverktyg såsom regression, variansanalys och<br />

faktoranalys, vilka alla varit aktuella exempelvis vid analys av IEA-data från<br />

sexämnesundersökningen.<br />

SEM arbetar <strong>me</strong>d beroende (utfalls-) och oberoende (förklarande)<br />

variabler vilket ju passar bra till beskrivningen av modellen för effektanalys<br />

i Figur 1. Resultatet är genomgående vår beroende variabel <strong>me</strong>dan insatsen<br />

kan kallas den primärt förklarande variabeln, ty vårt huvudintresse riktas ju<br />

mot sambandet insats–resultat som mäter effekten. Blocket ”utgångsläge/<br />

bakgrund” utgör övriga oberoende variabler, ofta kallade exogena variabler.<br />

En annan distinktion i SEM är <strong>me</strong>llan observerade och latenta, icke-direkt<br />

observerbara, variabler. Skolresultat i olika ämnen är bra exempel på<br />

svårfångade variabler som kan ges en nyanserad mätning <strong>me</strong>d hjälp av<br />

latenta variabler (se Figur 3 och Figur 4 nedan av en mätmodell för IEA:s<br />

lästest).<br />

Utifrån en begreppsmodell <strong>me</strong>d konkret innehåll i Resultat-Insats-<br />

Utgångsläge/Bakgrund (se Figur 1) kan en statistisk modell formuleras i SEM<br />

som ett system av ekvationer sammansatta av mätmodeller (relationer <strong>me</strong>llan<br />

observerade och latenta variabler) och av strukturmodeller (relationer <strong>me</strong>llan<br />

latenta variabler). Det är skattningarna av para<strong>me</strong>trarna i strukturmodellen<br />

(och osäkerheten, <strong>me</strong>delfelen, i dessa skattningar) som är bärare av informationen<br />

om det föreligger några signifikanta effekter på resultatet från<br />

insatsen.<br />

En styrka <strong>me</strong>d SEM-ansatsen är att den som formulerar modellen och<br />

väljer mätinstru<strong>me</strong>nt måste ha klara hypoteser om hur de olika variablerna<br />

hänger ihop (samvarierar eller riktningen av påverkan). Dessa kan sedan<br />

testas, prövas mot sambanden i datamaterialet, <strong>me</strong>d datorprogram<strong>me</strong>ns<br />

hjälp. Förfarandet säkerställer bland annat kvaliteten i de komplexa<br />

mätningarna av prestationer, attityder, vanor genom att kontrollera att de är<br />

empiriskt välgrundade. Men SEM-tekniken kan också ge feedback till


UTVÄRDERING AV SKOLAN 11<br />

forskaren och lokalisera en källa till störning vilket vi illustrerar i samband<br />

<strong>me</strong>d di<strong>me</strong>nsionsanalyserna längre fram.<br />

Det går att statistiskt testa skillnader <strong>me</strong>llan grupper eller länder i en rad<br />

olika avseenden användbara vid utvärdering. Således kan rankningen av<br />

IEA-länder göras <strong>me</strong>d de <strong>me</strong>ra renodlade måtten på kunskaper som greppet<br />

<strong>me</strong>d latenta variabler erbjuder. I en så kallad flergruppsanalys går det att<br />

lägga restriktioner om likhet <strong>me</strong>llan SEM-para<strong>me</strong>trarna och få feedback på<br />

om antagandet om likhet får stöd i datamaterialen. Länderjämförelserna kan<br />

på detta sätt vidgas till att pröva likheter (i) i hur mätningarna fungerat, (ii)<br />

i nivåer eller <strong>me</strong>delvärden på olika sammansatta variabler och (iii) i<br />

sambandsstrukturer <strong>me</strong>llan latenta variabler. IEA-materialets design, <strong>me</strong>d ett<br />

stort antal skolsystem och kulturer, kan där<strong>me</strong>d utnyttjas för att fastställa<br />

generella och nationella drag för hur verksamheten i skolorna fungerar<br />

grundade i internationellt jämförbara mätningar. En sådan bred kartläggning<br />

<strong>me</strong>d SEM har ännu inte kommit till stånd. Enstaka fördjupningsstudier <strong>me</strong>d<br />

SEM-teknik finns (t ex Munck 1979, 1991), <strong>me</strong>n många forskare har<br />

hindrats av de tekniska proble<strong>me</strong>n som funnits innan STREAMS utvecklades.<br />

Liksom de flesta andra statistiska modellanalyser baseras SEManalyserna<br />

på flera antaganden om data bland annat oberoende <strong>me</strong>llan<br />

observationerna, skala och fördelningar för mätningarna, linjära samband<br />

och normala fördelningar. Utvecklingen av statistisk <strong>me</strong>tod och programvara<br />

har dock successivt lättat på dessa, för skolutvärderingar ofta orealistiska,<br />

antaganden.<br />

Statistisk flernivåanalys<br />

De tekniska problem som uppkom<strong>me</strong>r då traditionella statistiska <strong>me</strong>toder<br />

används på flernivådata, eller s k hierarkiska data, skall här sammanfattas i<br />

fyra punkter. Hox och Kreft (1994) ger en översikt över problem och<br />

lösningar. Här ges främst referenser till IEA-anknutna tillämpningar:<br />

beroende <strong>me</strong>llan observationer, exempelvis elever i samma klass <strong>me</strong>d en<br />

klasslärare som påverkar dem blir <strong>me</strong>ra lika än elever hämtade från olika<br />

klasser. Urvalsförfarande kan också föra in beroende, exempelvis<br />

klusterurval. SEM antar att observationerna är oberoende.<br />

slumpeffekter kom<strong>me</strong>r in i en variansanalys om de olika insatserna,<br />

behandlingarna, utgör ett urval från en population av behandlingar. I<br />

hierarkiska data tänker vi oss här exempelvis ett urval av skolor, vilka alla<br />

ger sitt bidrag till testningen av effekthypotesen, och där slumpkomponenten<br />

därför måste beaktas. Däremot är det <strong>me</strong>ra tveksamt om<br />

länderna i en IEA-undersökning skall ses som ett urval från en större<br />

population. Det är definitivt inget slumpmässigt urval av världens länder.<br />

hierarkisk nestning, eller sammanblandning <strong>me</strong>llan nivåer är exempelvis<br />

fallet <strong>me</strong>d IEA:s läsundersökning då endast en klass valdes per skola, vilket<br />

gör det omöjligt att hålla isär nivåerna klass respektive skola. Detta<br />

problem bör beaktas vid planeringen av en utvärdering så att ett antal<br />

klasser per skola väljs om studien syftar till en belysning av effekten av just<br />

klass.


12 INGRID M. E. MUNCK<br />

interaktioner <strong>me</strong>llan nivåer, exempelvis frågan hur resultatet på elevnivå<br />

kan förklaras av elevvariabler och gruppvariabler hämtade från klass- och<br />

skolnivåerna (kontextuella variabler) i flernivåmodellen. Lösningarna <strong>me</strong>d<br />

dissaggregerade klass- och skolvariabler ger missvisande statistiska skattningar<br />

i en SEM-analys, vilket vi redan framhållit som problematiskt i<br />

samband <strong>me</strong>d tidigare IEA-forskning och i skissen till flernivåmodellen.<br />

Proble<strong>me</strong>t att finna en generell ansats för statistiska flernivåmodeller, som<br />

klarar av samtliga de fyra proble<strong>me</strong>n ovan, är synnerligen komplicerat och<br />

ännu olöst. Det finns två olika ansatser som under 1990-talet allt<strong>me</strong>r<br />

kom<strong>me</strong>r till praktisk användning och som båda använts inom IEAforskningen.<br />

De löser proble<strong>me</strong>n <strong>me</strong>d beroende och interaktioner i<br />

hierarkiska data och hanterar slumpeffekter, <strong>me</strong>n på olika sätt. Den ena<br />

huvudgruppen går under benämningen Hierarkiska Linjära Modeller (HLM)<br />

och är i princip en flernivåversion av multipel regression (Raudenbush 1995).<br />

Regressionspara<strong>me</strong>trarna (intercept och lutningskoefficienter) skattas för<br />

varje klass eller skola och den statistiska modellen formuleras <strong>me</strong>d dessa som<br />

variabler. Effekterna av insatsen på klass- eller skolnivå tillåts där<strong>me</strong>d<br />

variera i dessa modeller från klass till klass, eller från skola till skola. Det<br />

finns datorprogram som kan hantera ett stort antal nivåer på detta sätt. Den<br />

andra ansatsen bygger vidare på SEM, Multilevel Covariance Structural<br />

Analysis (MCA) vilket innebär att sambandsmodellen kan innehålla latenta<br />

variabler som kan synliggöras på två nivåer (Muthén 1994). Dessa modeller<br />

klarar för närvarande bara två nivåer (elev–klass, elev–skola eller elev–land)<br />

och kan analyseras i STREAMS <strong>me</strong>d flergruppsmodellering. Det går att<br />

beskriva skillnader <strong>me</strong>llan klasser eller skolor i <strong>me</strong>delvärden och intercept<br />

<strong>me</strong>n däremot inte i regressionskoefficienter. Det betyder för effektstudier att<br />

inverkan av insatsen antas vara densamma från skola till skola.<br />

Flernivåmodellering av IEA-data om läsförmågan<br />

Det finns nu erfarenhet av båda ansatserna, HLM och MCA, för<br />

flernivåmodellering rapporterade för IEA-undersökningens läsundersökning.<br />

Williams (1994) har arbetat fram en HLM-strategi i traditionell IEA-anda<br />

från sexämnesundersökningen, som på ett systematiskt sätt delar upp<br />

variabler i block som kammas igenom för att utkristallisera de kraftfullaste<br />

förklaringsfaktorerna. Resultaten presenteras sedan dels i ter<strong>me</strong>r av en<br />

integrerad flernivåmodell <strong>me</strong>d de viktigaste faktorerna från varje block och<br />

dels som diagram för läsförmågan för olika insatsvariabler sedan hänsyn<br />

tagits till de viktigaste bakgrundsvariablerna. Denna diagramform är helt ny<br />

och ett intressant steg för att presentera utvärderingsresultat från skoldata<br />

för beslutsfattare. Enkla samband <strong>me</strong>llan insats och resultat kompletteras<br />

<strong>me</strong>d bilden sedan hänsyn tagits till sammanblandande variabler i<br />

effektmodellen (jfr Figur 5. Den statistiska Sudden).<br />

Den andra ansatsen, MCA, har provats på IEA-undersökningens<br />

läsdata inom MALI-projektet (se nedan). Upphovsmannen Bengt Muthén,<br />

UCLA, har bistått på olika sätt, bland annat <strong>me</strong>d de tekniska lösningarna<br />

som varit mycket komplicerade. I Muthén (1994) beskrivs en lösning för tvånivåmodellering<br />

<strong>me</strong>d SEM, som använder sig av etablerad programvara, och<br />

som utnyttjas av STREAMS.


UTVÄRDERING AV SKOLAN 13<br />

MALI-PROJEKTET – UTPROVNING AV NYA ANSATSER<br />

MALI-projektet tog som sin första uppgift att genomföra den multivariata<br />

analysen för slutrapporten av det internationella projektet (Munck &<br />

Lundberg 1994). Det blev första gången en integrerad internationell analys<br />

genomförts för alla ingående länder i en regressionsanalys. Här ingick de tre<br />

olika testvariablerna, Docu<strong>me</strong>nt, Narrative och Expository reading, mätta i<br />

en internationell skala som beroende variabler och tillhörigheten till land<br />

som förklarande variabler (kodade som sk dummy-variabler, vilket är sättet<br />

att införa kvalitativ information i SEM). Den gav som resultat rangordningen<br />

av länderna <strong>me</strong>n också en möjlighet att korrigera rangordningen (enligt den<br />

tidigare nämnda ”allt-annat-lika principen”) för skillnader i någon<br />

bakgrundsvariabel.<br />

Exempelvis prövades frågan om Finlands tätplats ändrades, om vi tog<br />

hänsyn till skillnader <strong>me</strong>llan länder i andelen barn <strong>me</strong>d annat första språk än<br />

testningsspråket. Detta <strong>me</strong>d tanke på att Finland i början av 1990-talet hade<br />

en mycket låg andel invandrad befolkning. Även om vi tog <strong>me</strong>d ett brett<br />

spektrum av betingelser i skolan och i elevernas bakgrund så behöll Finland<br />

sitt signifikant bättre läge jämfört <strong>me</strong>d de 30 ingående länderna för 9åringar.<br />

Det skall dock påpekas att den här sifferexercisen kan göras <strong>me</strong>ra<br />

sofistikerad <strong>me</strong>d SEM-ansats, bland annat tog vi inte hänsyn till proble<strong>me</strong>t<br />

<strong>me</strong>d att alla elever inte hann slutföra lästestet eller till den hierarkiska<br />

strukturen i data.<br />

Forskningsplanen för MALI-projektet var sedan att i ett komparativt<br />

perspektiv göra en kartläggning av läsfärdighetens olika komponenter <strong>me</strong>d<br />

hjälp av SEM och utnyttja den nya möjligheten <strong>me</strong>d två-nivåanalys. Det blev<br />

ett mödosamt arbete <strong>me</strong>d många tekniska hinder på vägen särskilt när<br />

modellerna omfattande både mätmodeller och förklarande variabler.<br />

Efter en kort presentation av IEA:s lästest och intentionerna bakom<br />

detta presenteras modellansaten för mätning. Den har formaliserats här för<br />

att tydligare framhäva potentialen i SEM att beakta såväl substantiella<br />

faktorer som olika störningskällor vid observationsstudier. Resultaten från<br />

MALI-projektet presenteras som en genomgång av de forskningsfrågor som<br />

har fått ny belysning och gör där<strong>me</strong>d inte anspråk på att täcka in alla<br />

forskarnas bidrag. Huvudresultaten presenterades vid AERA:s (A<strong>me</strong>rican<br />

Educational Research Association) årliga möte 1995 vid symposiet<br />

Di<strong>me</strong>nsions of reading literacy – Structural multilevel modeling of IEA Data.<br />

IEA-TEST AV LÄSFÖRMÅGAN<br />

Läsförmågans karaktär är ett hett debattämne inom läsforskningen<br />

(Lundberg 1991). Frågan är om den huvudsakligen är en förmåga som är<br />

odelad och allmän eller om den snarare är knuten till olika specifika sfärer<br />

eller områden som använder olika typer av texter, exempelvis faktatexter,<br />

prosatexter av olika slag. Tidigare studier har sällan haft tillgång till ett <strong>me</strong>ra<br />

omfattande empiriskt underlag. Här erbjuder IEA-studien i ”reading<br />

literacy” ett omfattande mångkulturellt material av 9- och 14-åringar <strong>me</strong>d<br />

närmare 30 olika språk representerade.<br />

Läsning i denna studie definieras som förmågan att förstå och använda<br />

de olika slags texter som behövs som samhälls<strong>me</strong>dborgare eller är av värde<br />

för den enskilde individen. IEA:s ansats för internationella skalor av


14 INGRID M. E. MUNCK<br />

läsförmågan använder Rasch-<strong>me</strong>toden för utformning av de tre di<strong>me</strong>nsioner<br />

som experter på läsning enats om: Narrative (berättande text–skönlitteratur),<br />

Expository (förklarande text–sakprosa) och Docu<strong>me</strong>nt (informationsmaterial<br />

– avkodningar av diagram, kartor, formulär).<br />

IEA:s lästest omfattar sammanlagt 19 textavsnitt (som här benämns<br />

passages) var och en tillhörig en av de tre typerna av texter: Narrative,<br />

Expository och Docu<strong>me</strong>nts. Dessa delades upp i två häften som administrerades<br />

vid olika tillfällen. Tiden för testen avpassades så att alla elever<br />

bedömdes ha tillräckligt <strong>me</strong>d tid att hinna <strong>me</strong>d samtliga frågor. Till varje<br />

avsnitt hörde ett antal flervalsfrågor (<strong>me</strong>d några undantag då ett enkelt svar<br />

efterfrågades) varierande till antal, <strong>me</strong>llan fyra och sju stycken.<br />

Modellansats för nyanserad mätning<br />

Den förklarande svarsmodellen<br />

Traditionellt har observationsstudier <strong>me</strong>d testinstru<strong>me</strong>nt och frågeformulär<br />

sett de enskilda svaren som uppbyggda av ett ”sant värde” och ett mätfel. Det<br />

visar sig dock i många sammanhang att en sådan enkel modell ofta är<br />

orealistisk och att det finns ett helt spektrum av både substantiella och<br />

<strong>me</strong>todmässiga påverkansfaktorer <strong>me</strong>d i svarsbilden. En sådan multivariat<br />

svarsmodell för frågor i IEA:s lästest illustreras i Figur 3, som i sin<br />

substantiella del är inspirerad av framgångsrik modellering av data från<br />

intelligenstest (Gustafsson 1994). Vi tänker oss i figuren källor för påverkan<br />

av svaret på en fråga som tillhör textavsnittet Laser (texttyp Expository) givet<br />

vid första testtillfället och som ligger mot slutet av häftet. Vårt grundantagande<br />

är att det finns en generell läsförmåga hos den som svarar som<br />

genomsyrar svaren från hela testbatteriet. De tre texttyperna i lästestet<br />

förväntas fånga olika specifika egenskaper eller förmågor och här för vi då<br />

in Expository faktorn i svarsmodellen. Tillsammans utgör dessa hypotetiska<br />

substantiella di<strong>me</strong>nsioner, det vill säga komponenter i läsförmågan som<br />

testet syftar till att mäta.<br />

Ett synsätt på svaret som också inbegriper generella och specifika<br />

<strong>me</strong>todfaktorer (Figur 3) öppnar en intressant möjlighet att skatta olika<br />

observationsfels inverkan på resultatbilden i en SEM-analys. Där<strong>me</strong>d blir det<br />

möjligt att kontrollera för <strong>me</strong>todfaktorer och korrigera skattningen av de<br />

substantiella variablernas relationer. En generell <strong>me</strong>todfaktor kan till<br />

exempel vara Testtillfälle 1, en faktor som ju påverkat samtliga svar vid detta<br />

tillfälle <strong>me</strong>d inverkan av tid på dagen, störande mo<strong>me</strong>nt, testinstruktioner.<br />

Ett exempel på en specifik <strong>me</strong>todfaktor Textavsnitt Laser, är inverkan av<br />

denna text på svaren på frågorna knutna till denna passage. Den skapar en<br />

slags ge<strong>me</strong>nsam nämnare, ett beroende <strong>me</strong>llan svaren till samma textavsnitt<br />

som kan fångas upp i en mätmodell. En annan faktor, som har visats särskilt<br />

intresse i MALI-forskarnas modeller, är inverkan på svaret av att<br />

textavsnittet kom<strong>me</strong>r sent i testhäftet, en snabbhetsfaktor, representerad i<br />

figuren <strong>me</strong>d faktorn Snabbhet. Den representerar en aspekt som både har ett<br />

substantiellt och ett <strong>me</strong>todiskt inslag vilket också illustreras i figuren. Tidiga<br />

modeller av detta slag gick under namnet ”Multi-trait-multi-<strong>me</strong>thod” –<br />

MTMM-modeller (se Groves, 1989, som integrerar olika forskningstraditioners<br />

mätfelstänkande och som också innehåller andra design än flerindi-


UTVÄRDERING AV SKOLAN 15<br />

katormodellen för skattning av observationsfel vid surveyundersökningar,<br />

alla möjliga att analysera <strong>me</strong>d SEM).<br />

Figur 3 En förklaringsmodell för svar på enskilda frågor i IEA-undersökningens<br />

lästest.<br />

Mätning av läsförmågan och störande <strong>me</strong>todkomponenter<br />

Vi illustrerar en skattningsbar mätmodell baserad på den förklarande<br />

svarsmodellen i Figur 4 <strong>me</strong>d IEA:s lästest nyanserad <strong>me</strong>d ovan nämnda<br />

<strong>me</strong>todfaktorer, Texttillfälle 1 och Snabbhet, båda relaterade till administrationen<br />

av testet. De observerade variablerna är textavsnitten där LASERfaktorn<br />

från Figur 3 nu återfinns som en sum<strong>me</strong>ring av svaren på den<br />

aktuella texten och inte som en latent variabel (vilket krävt observationer på<br />

itemnivå, se nedan). Den <strong>me</strong>st generella faktorn, generell läsförmåga, påverkar<br />

hela uppsättningen observerade variabler. De övriga faktorerna är alla<br />

okorrelerade (ortogonala, s k residualfaktorer) <strong>me</strong>d denna faktor och har lite<br />

olika grad av generalitet, <strong>me</strong>d Testtillfälle 1 som den som innefattar alla<br />

textavsnitten i det första häftet. Den fångar nu det renodlade bidraget från<br />

dessa textavsnitt sammantaget sedan hänsyn tagits till (i) påverkan från<br />

Generell läsförmåga inklusive allmän påverkan i testsituationen, datainsamlings<strong>me</strong>tod<br />

mm, det vill säga allt som genomsyrat hela testet (som här fått<br />

variera från textavsnitt till textavsnitt, i SEM representerade <strong>me</strong>d fria<br />

laddningar i faktormodellen) och (ii) de övriga specifika faktorerna (Narrative/Expository<br />

och Snabbhet) i modellen. Snabbhet mäter benägenheten att<br />

inte hinna hela testet och omfattar de tre sista textavsnitten i varje häfte. Den<br />

har benämnts ”blandfaktor” då den inte bara påverkas av den tid som<br />

utmätts till de båda testtillfällena (<strong>me</strong>todkomponenten) utan också inrym<strong>me</strong>r


16 INGRID M. E. MUNCK<br />

en viktig specifik aspekt på läsförmågan. Mätmodellen har i detta fall<br />

utprovats på data från totalmaterial från Sverige och USA, 14-åringar, och<br />

uppvisar en acceptabel anpassning. I Gustafson och Balke (1993) introduceras<br />

begreppet ’nestad faktormodell’ för denna ansats, exemplifierad i Figur 4.<br />

Den har använts genomgående i MALI-projektets di<strong>me</strong>nsionsanalyser dock<br />

<strong>me</strong>d olika innehåll i modellerna.<br />

Figur 4. En mätmodell för IEA-undersökningens lästest.<br />

Felter<strong>me</strong>rna i textavsnittvariablerna är inte <strong>me</strong>d i stigdiagram<strong>me</strong>t. Modellen<br />

har acceptabel anpassning och uteslutna samband i stigdiagram<strong>me</strong>t är testade<br />

och befunnits icke-signifikanta för 14-åringar i Sverige och USA.<br />

Strategier för di<strong>me</strong>nsionalitetsanalyserna<br />

Det finns ofta flera olika specifikationer av mätmodeller som kan få stöd i<br />

data och det faller då på forskaren att argu<strong>me</strong>ntera för den ena eller andra<br />

utformningen. Detta gäller i första hand de substantiella faktorerna <strong>me</strong>dan<br />

<strong>me</strong>todfaktorerna, grundade i faktiska omständigheter, inte har den karaktären.<br />

Vad gäller läsförmågans di<strong>me</strong>nsioner har därför olika strukturer<br />

grundade på teori och tidigare forskning prövats, <strong>me</strong>dan <strong>me</strong>todfaktorerna,<br />

störningskällorna, varit genomgående desamma och bekräftats i SEM-analysen<br />

<strong>me</strong>d signifikant förbättrad anpassning när de införts i modellerna. Om<br />

modellanpassningen i så fall ändå är dålig betyder det att det finns andra<br />

påverkansfaktorer som inverkat på flera svar, symboliserat i svarsmodellen i<br />

Figur 3 <strong>me</strong>d ”Annan påverkan i tid och rum” (den statistiska felter<strong>me</strong>n).<br />

SEM-tekniken lokaliserar de par av observerade variabler som förorsakar<br />

dålig anpassning (korrelerade fel) och forskaren får där<strong>me</strong>d feedback på sina<br />

hypoteser och uppslag till förbättringar av modellen.<br />

Strategin för di<strong>me</strong>nsionalitetsanalyserna har varit, utöver ansatsen <strong>me</strong>d<br />

nestade modeller, att starta från item-nivån i testet och sedan aggregera<br />

informationen till itempaket som på passage-nivå utgjorde samtliga svar på


UTVÄRDERING AV SKOLAN 17<br />

de frågor som bjöds för ett visst textavsnitt (jfr Figur 4). På det viset kammar<br />

vi igenom materialet och fastställer vilka generella och specifika di<strong>me</strong>nsioner,<br />

samt eventuella <strong>me</strong>todfaktorer, som materialet håller för att påvisa. Genom<br />

aggregeringen tappar vi vissa specifika faktorer <strong>me</strong>n vinner å andra sidan<br />

styrka i de observerade variablerna. De aggregerade svaren (observera att<br />

alla är att hänföra till elevnivån) kom<strong>me</strong>r ju mäta läsförmåga <strong>me</strong>d allt högre<br />

reliabilitet och ha bättre statistiska egenskaper.<br />

ANALYSER ÄNDRAR TIDIGARE RESULTAT<br />

MALI-analyserna har både fördjupat tidigare analyser, pekat ut nya resultat.<br />

Bland de områden som skisseras här är den postulerade faktorstrukturens<br />

hållbarhet, relationen <strong>me</strong>llan läsning och intelligens, utvecklingen av testinstru<strong>me</strong>nten,<br />

rangordningen <strong>me</strong>llan länderna och dess beroende av en<br />

snabbhetsfaktor, könsskillnader, lärareffekter, läsningens samband <strong>me</strong>d<br />

hem<strong>me</strong>t, samt skillnader <strong>me</strong>llan olika skolsystem. Resultaten kan av utrym<strong>me</strong>sskäl<br />

bara antydas <strong>me</strong>n finns utförligt beskrivna i de refererade arbetena.<br />

Avsikten är att ge en rad exempel på den potential som flernivåanalyser<br />

erbjuder inom en rad skilda områden.<br />

1. Stöds de postulerade faktorerna Docu<strong>me</strong>nt, Narrative och Expository av<br />

data? Två olika studier, Balke (1995) och Gustafsson (1995), <strong>me</strong>d olika<br />

uppläggning, visar att de postulerade två faktorerna Narrative och Expository<br />

inte gick att separera från varandra. Detta yttrar sig vid modellanalysen<br />

genom att en en-faktormodell har god anpassning till data och att denna inte<br />

förbättras signifikant om en ytterligare faktor förs in.<br />

Det visade sig i Balkes resultat, som baserades på en nestad<br />

faktormodell analyserad på item-nivå, att samtliga de tre IEA-faktorerna inte<br />

kunde påvisas i en modell samtidigt som residualfaktorer tillsammans <strong>me</strong>d<br />

en allmän läsfaktor och textavnittsfaktorer. De två alternativen för substantiella<br />

residualfaktorer, som visat acceptabel anpassning, var: Modell 1 <strong>me</strong>d<br />

en sammanslagen Narrative/Expository-faktor (använd i Figur 4) och<br />

Modell 2 <strong>me</strong>d en Docu<strong>me</strong>nt-faktor. Textavsnittens faktorer gav ett betydande<br />

varians-bidrag till svaren, olika för olika textavsnitt (passages) och<br />

olika länder.<br />

2. Testets postulerade faktorer har prövats mot modeller för intelligens.<br />

Hypoteser om Docu<strong>me</strong>nt-variablerna, att de speglar Gf-faktorn (fluid<br />

intelligens) i modeller för intelligens, prövades i Gustafsson (1995) och får en<br />

indirekt belysning genom studium av korrelationen <strong>me</strong>llan Text, en<br />

sammanslagen Narrative/Expository-faktor, och Docu<strong>me</strong>nt-faktorn. Den är<br />

nämligen högre än väntat (.80–.85) förutsatt att Docu<strong>me</strong>nt faktorn<br />

representerar en bred Gf-faktor och Text en ”crystallized” intelligensfaktor.<br />

Tre olika förklaringar till den höga korrelationen diskuteras (i) Docu<strong>me</strong>nt<br />

och Text representerar samma slags läsförmåga, (ii) designfaktor – alla<br />

använda item ingår i samma testhäfte, (iii) Narrative och Expository-textavsnitten<br />

och frågorna innehåller ett rikt mått av logiskt tänkande (reasoning)<br />

vilket är kärnan i Docu<strong>me</strong>nt’s mått på läsförmåga. Det går tyvärr inte att<br />

komma längre i länkningen <strong>me</strong>llan IEA-undersökningens test av läsförmåga


18 INGRID M. E. MUNCK<br />

och de två prövade breda förmågevariablerna hämtade från teorier om<br />

intelligensen.<br />

3. Är den av IEA etablerade Rasch-tekniken för internationella skalor<br />

rättvisande? Gustafsson (1997) har också i sin MALI-anknutna forskning<br />

tagit upp det grundläggande proble<strong>me</strong>t <strong>me</strong>d internationella skalor utvecklade<br />

<strong>me</strong>d Rasch-tekniken som nu<strong>me</strong>ra blivit etablerad inom IEA-projektet.<br />

Dessa har prövats för närmare 74.000 9-åringar i 22 länder, gentemot en<br />

konfirmativ faktoranalysansats <strong>me</strong>d passage som observerade variabler,<br />

SEM och två-nivåanalys (land–individ). Analyserna kartlägger två källor till<br />

flerdi<strong>me</strong>nsionalitet i de internationella skalorna. Den ena är grundad i det<br />

faktum att analysen av två-nivåmodellerna visar att det förekom<strong>me</strong>r en<br />

ansenlig mängd passagevariation som är att hänföra till de enskilda länderna.<br />

Det andra nya tillskottet är möjligheten att skilja ut renodlad Narrative/<br />

Expository-di<strong>me</strong>nsion korrigerad för snabbhetsfaktorn <strong>me</strong>d en redovisning<br />

passage för passage av inom- och <strong>me</strong>llanvariansbidragen till dessa. Denna<br />

typ av analys av flerdi<strong>me</strong>nsionaliteten synliggör alltså både substantiella och<br />

<strong>me</strong>tod och designmässiga källor till påverkan av elevernas svar och, genom<br />

två-nivågreppet land–individ förs även skolsyste<strong>me</strong>n i sin helhet in som<br />

varianskälla. Om den är liten har vi nått målet <strong>me</strong>d ett effektivt<br />

internationellt test. Gustafsson drar slutsatsen att Rasch-modellen inte är ett<br />

adekvat hjälp<strong>me</strong>del för att säkerställa jämförbarhet <strong>me</strong>llan kunskapsindikatorer<br />

sett över länder eftersom den är grundad i ett antagande om endi<strong>me</strong>nsionalitet<br />

och MALI-projektets resultat visat att svaren på testen i själva<br />

verket påverkas av ett spektrum av faktorer (jfr Figur 4).<br />

4. Ändras rangordningen av länderna om resultatet korrigeras för<br />

Snabbhetsfaktorn? Snabbhetsfaktorn (end-of-test) i Gustafssons (1997)<br />

studie <strong>me</strong>d två-nivåanalys, elev–land, visar att IEA-rapporteringens rangordning<br />

<strong>me</strong>llan länder påverkas och att en förklaring till detta rimligen är att<br />

hänföra till testets uppläggning, en ren så kallad speededness-faktor. Men det<br />

kan också tänkas att den inrym<strong>me</strong>r kulturella, språkmässiga och skolsystemmässiga<br />

faktorer som kan förklara varför Singapore, Hong Kong och Nya<br />

Zeeland lyckas slutföra testhäftena i särskilt hög grad <strong>me</strong>dan Danmark,<br />

Holland, Tyskland och Schweiz (alla germanska språkgrupper) visat motsatt<br />

tendens <strong>me</strong>d många elever som inte hunnit <strong>me</strong>d på den utsatta tiden. En<br />

systematisk kartläggning av proble<strong>me</strong>t, som tydligt visar att rangordningen<br />

ändras i väsentlig grad när utfallet differentieras <strong>me</strong>d nestade modeller, har<br />

gjorts nyligen av Rosén (1997). Hon kom<strong>me</strong>r bland annat fram till att<br />

rangordningen <strong>me</strong>llan länder är olika för litterära texter och fakta-texter.<br />

5. Ändras tidigare resultat om könsskillnader <strong>me</strong>d den nyanserade modellen<br />

för läsförmåga? Tidigare analyser av RL-materialet av könsskillnader både i<br />

ter<strong>me</strong>r av de tre Rasch-skalorna och på item-nivå (Wagemaker 1996) har<br />

visat att de flesta uppgifterna i testet gynnade flickor sett över länder, dock<br />

<strong>me</strong>d mindre könsskillnader i Docu<strong>me</strong>nt. Dessa har därför valts ut i en studie<br />

av Rosén (1996) vars syfte var att studera kulturella variationer i<br />

könsskillnaderna <strong>me</strong>n också försöka <strong>me</strong>d SEM-teknik finna invarianta<br />

könsskillnadsmönster över 25 länder för 9-åringar och 22 länder för 14åringar.<br />

Roséns slutsatser säger oss att hypotesen om ett invariant globalt


UTVÄRDERING AV SKOLAN 19<br />

mönster för könsskillnader inte får stöd i analysen av Docu<strong>me</strong>nt-frågorna.<br />

De speglar delvis kulturella skillnader <strong>me</strong>n det finns undergrupper av länder<br />

som visar upp en ge<strong>me</strong>nsam bild. Ansatsen <strong>me</strong>d mätmodeller som möjliggör<br />

att flera faktorer simultant ingår i samma modell (jfr Figur 3) visar sig<br />

nödvändig för att könsskillnaderna skall gå att skatta utan bias.<br />

6. Går det att spåra lärareffekter i testresultaten? Ingvar Lundberg och<br />

Monica Rosén har använt två-nivåmodelleringen elev–klass för att utröna<br />

basen för utvärdering av lärareffekter (Lundberg & Rosén 1995). Tidigare<br />

försök att visa påverkan av undervisningsvariabler på läsförmågan har inte<br />

varit särskilt framgångsrika och gett bilden av att sättet att undervisa inte<br />

verkar göra någon större skillnad. En anledning till detta är ämnets karaktär,<br />

läsning är ju något som barn utsätts för på många sätt utanför skolan. Men<br />

det kan också vara beroende på <strong>me</strong>todproblem, begreppsmässiga och<br />

mättekniska, både vad gäller sättet att undervisa och av läsresultatet, som<br />

skymt upptäckten av något samband. Den nya SEM-ansatsen <strong>me</strong>d elev–klass<br />

nivåanalys klarar nu av aggregationsbias-proble<strong>me</strong>t som många tidigare<br />

undersökningar alltid fått reservera sig för.<br />

Tanken <strong>me</strong>d två-nivåanalysen i detta fall var att studera <strong>me</strong>llanklassvariationen<br />

i relation till totalvariationen för varje itempaket (2–3 item) för<br />

att få en bild av vilken andel som förklaras av <strong>me</strong>llanfaktorerna sammantaget.<br />

Om dessa andelar, som är att hänföra till klassnivå, är små så drar vi<br />

slutsatsen att testfrågorna fångar i huvudsak något som är individuellt<br />

grundat och lärt utanför skolan. Omvänt, höga andelar förklarad varians<br />

som kan hänföras till klass- eller skolnivå, kan förmodligen gälla frågor som<br />

fodrar träning och undervisning i vissa specifika mo<strong>me</strong>nt och att det är troligt<br />

att praxis från skola till skola varierar i dessa avseenden. Lundberg och<br />

Rosén finner itempaket <strong>me</strong>d både hög och låg <strong>me</strong>llanklassvariation och<br />

diskuterar dessa resultat i ter<strong>me</strong>r av utrym<strong>me</strong> för skolans undervisning. På<br />

detta sätt kan frågor och frågeområden lokaliseras i efterhand (eller på<br />

pilotstadiet) vilka visar sig vara <strong>me</strong>ra skolberoende för rätta svar än andra.<br />

7. Hur ser sambandet ut <strong>me</strong>llan läsförmågan och läsintresset och vad betyder<br />

läsresurserna i hem<strong>me</strong>t för detta samband? Munck (1995) studerade en elev–<br />

skola modell för hembakgrundens effekter på läsintresse och läsförmåga för<br />

svenska 14-åringar, liknande elevmodellen i Figur 2. Figur 5 visar de<br />

påvisbara skolvariablerna, definierade som latenta variabler <strong>me</strong>d signifikant<br />

<strong>me</strong>llanskolvarians, från en två-nivåanalys.<br />

När det gäller läsintresset <strong>me</strong>llan skolor har mätmodellen en generell<br />

faktor Alla <strong>me</strong>dia, en specifik tidningsläsningsfaktor, och åtta specifika<br />

innehållsfaktorer. Här visar sig <strong>me</strong>diafaktorerna Alla <strong>me</strong>dia och Tidningar,<br />

samt innehållsfaktorn Nyheter/politik vara påvisbara i Sverige. För<br />

läsprestationen vid skolan blir dock endast den generella faktorn synlig.<br />

Figur 5, vänstra delen, visar det enkla sambandet <strong>me</strong>llan läsning om Nyheter/<br />

politik och Generell läsförmåga (stigkoefficienten skattad till .46 <strong>me</strong>d en<br />

tvågruppsanalys i LISREL utan bakgrundsvariablerna).<br />

Vi frågar oss nu hur mycket av detta samband som kan förklaras av<br />

faktorer utanför skolan och då närmast <strong>me</strong>d hemvariabeln Antal böcker<br />

hemma. Eftersom vi rör oss på <strong>me</strong>llanskolnivå så är innebörden av den<br />

förklarande analysen, att det gäller vad elevunderlaget för skolan, mätt i


20 INGRID M. E. MUNCK<br />

ter<strong>me</strong>r av böcker hemma, betyder för läsintresse och läsförmåga (illustrerad<br />

till höger i Figur 5).<br />

Det visar sig att denna enkla upplysning om böcker hemma (<strong>me</strong>d fem<br />

svarsalternativ, som följt IEA-undersökningen genom åren) har mycket<br />

starka samband <strong>me</strong>d båda utfallsvariablerna. Hem<strong>me</strong>ns resurser förklarar<br />

också hela det enkla sambandet i det här fallet. Denna fråga har inte kunnat<br />

besvaras på ett rättvisande sätt tidigare <strong>me</strong>d den typ av regressionsanalys för<br />

skolor som använts från exempelvis IEA:s sexämnesundersökning refererad<br />

av Härnqvist (1974). I teknisk <strong>me</strong>ning kan nu unbiased <strong>me</strong>llanskolkorrelationen,<br />

såväl enkla som partiella skattas på elevdata.<br />

Figur 5. Den statistiska Sudden. Skattade <strong>me</strong>llanskolsamband, tvånivåanalys, före<br />

och efter att hänsyn tagits till variabeln ’Antalet böcker hemma’. IEA-data för<br />

Sverige, 14-åringar. Anmärkning: Modellanpassningen är acceptabel.<br />

Genom den nya två-nivåanalysen har vi fått ett sätt att kunna synliggöra det<br />

spelrum som finns kvar att förklara, i ter<strong>me</strong>r av skillnader <strong>me</strong>llan skolor (dvs<br />

samband <strong>me</strong>llan insats och resultat i vår allmänna effektmodell), sedan<br />

hänsyn först tagits till elevunderlaget eller andra viktiga bakgrundsvariabler<br />

på elev och skolnivå (t ex typ av region). I de första IEA-undersökningarna<br />

myntades uttrycket ”scrubbing” för en sådan procedur (här döpt till Den<br />

statistiska Sudden) som suddade bort effekterna från andra källor än de där<br />

skolan var inblandad (Figur 5).


UTVÄRDERING AV SKOLAN 21<br />

8. Hur fungerar två-nivåanalysen i olika skolsystem? De data som valts ut i<br />

Munck (1995) för studium av kontraster i sambandsanalysen <strong>me</strong>llan två<br />

skolsystem är 14-åringar i Sverige och USA. Valet av länder är betingat av de<br />

stora skillnader de uppvisar i variationen <strong>me</strong>llan skolor. Sveriges <strong>me</strong>llanskolvarians<br />

är, i likhet <strong>me</strong>d tidigare IEA-resultat, mycket låg i motsats till USA<br />

som uppvisar bland de allra högsta skillnaderna <strong>me</strong>llan skolor i hela IEAmaterialet<br />

(Postlethwaite & Ross, 1992). Det visar sig att förutsättningarna<br />

för två-nivåanalys är mycket olika i ett homogent skolsystem som det<br />

svenska <strong>me</strong>d hög grad av likvärdighet, i jämförelse <strong>me</strong>d ett heterogent som<br />

det a<strong>me</strong>rikanska <strong>me</strong>d mycket större segregation och differentiering. Den<br />

modell som studerats är elevmodellen i Figur 2. När det gäller påvisbara<br />

skolfaktorer framgår de för den svenska analysen av Figur 5 <strong>me</strong>dan för de<br />

a<strong>me</strong>rikanska skolorna ytterligare påvisbara faktorer är Serier för läsintresset<br />

och Snabbhet för läsprestationen vid skolan.<br />

I korthet gäller att inomskolstrukturen är väl differentierad, exempelvis<br />

finner vi starka samband <strong>me</strong>llan hemvariabler och utfallsvariablerna, i det<br />

svenska homogena syste<strong>me</strong>t <strong>me</strong>d relativt få samband på <strong>me</strong>llanskolnivå. För<br />

det a<strong>me</strong>rikanska skolsyste<strong>me</strong>t blir bilden omvänd: där återfinns de starka<br />

sambanden på <strong>me</strong>llanskolnivå, <strong>me</strong>dan inomskolanalysen inte ens gav<br />

signifikanta samband <strong>me</strong>llan hemvariablerna och resultatet.<br />

ANALYSVERKTYG OCH KUNSKAPSUTBYTE<br />

Traditionella analysverktyg har tidigare gett en sammantagen <strong>me</strong>n grumlig<br />

bild av sambanden i våra modeller. När nu bilden klarnar och differentieras<br />

på elev-, klass- och skolnivå kom<strong>me</strong>r skilda skol- och samhällssystems olika<br />

karaktär också tydligare fram i modellanalysen. För en generell testning av<br />

effekthypoteser inom skolan tyder resultaten på att det krävs information<br />

från många olika skolsystem. Fördjupad kunskap om skolsyste<strong>me</strong>n finns i<br />

kontrasterna <strong>me</strong>llan exempelvis Sverige och USA i modellanalysen ovan, vars<br />

resultatbilder kompletterar varandra. Resultaten från MALI-projektet visar<br />

för dessa båda länder hur olika kunskapsutbytet är från mikro- respektive<br />

makrosambanden. Synsättet att se världens skolsystem som ett experi<strong>me</strong>ntfält<br />

kan ges ett nytt innehåll <strong>me</strong>d flernivågreppet som också gör oss bättre<br />

<strong>me</strong>dvetna om de olika förutsättningar för effektstudier som föreligger<br />

beroende av hur skolan är organiserad och hur den fungerar i samhället. För<br />

Sveriges vidkommande, <strong>me</strong>d internationellt sett mycket likvärdig skola,<br />

gäller att fokus för utvärderingar bör kunna läggas på studier inom skolan<br />

<strong>me</strong>d rikhaltig elev- och lärarinformation. Om skolans likvärdighet utgör en<br />

huvudfråga behövs e<strong>me</strong>llertid ett allsidigt underlag på samtliga nivåer,<br />

exempelvis för att belysa effekter på skolresultat av ökad segregation i<br />

samhället.<br />

Vi står bara i början av en utveckling <strong>me</strong>d sikte på att studera effekter<br />

av förändringar inom skolan genom refor<strong>me</strong>r, nedskärningar och insatser av<br />

olika slag på olika nivåer: elev, klass, skola, region, system och land. Det<br />

behöver satsas stort på vidareutveckling av den statistiska <strong>me</strong>toden och<br />

analysverktygen nu när de tekniska förutsättningarna finns. Det gäller också<br />

att mycket <strong>me</strong>r systematiskt samla in och höja kvaliteten i den förklarande<br />

informationen som nyttjas i utvärderingar. En välgrundad erfarenhet inom<br />

modellanalys är ju att saknad information allvarligt kan förrycka resultat-


22 INGRID M. E. MUNCK<br />

bilden. Till detta kom<strong>me</strong>r vikten av att informationen är tillgänglig på<br />

elevnivå och möjlig att länka till klass, lärare och skola, vilket är ett krav för<br />

rättvisande effektanalys.<br />

EN NY GENERATION UTVÄRDERINGAR VÄXER FRAM<br />

Det finns mycket att vinna på att skapa en ny informationsmiljö för<br />

utvärderingar efter de här presenterade grundprinciperna för effektstudier,<br />

naturligtvis <strong>me</strong>d tydliga och för alla intressenter acceptabla, spelregler för<br />

innehåll, sekretess och användning. Trots de enorma datainsamlingar som<br />

ägt rum, både internationellt och nationellt, har dessa utvärderingar haft<br />

dålig täckning av faktauppgifter annat än på aggregerad nivå, dvs<br />

upplysningar som inte gäller enskilda elever och lärare utan endast skolor<br />

och kommuner. Sådan skolinformation finns nu<strong>me</strong>ra ofta tillgänglig i<br />

officiella och administrativa register.<br />

Bristande länkning av informationen <strong>me</strong>llan olika källor och över tid är<br />

något som kan lösas <strong>me</strong>d moderna informationssystem. Morgondagens<br />

utvärderingar kan sedan göras mycket <strong>me</strong>ra informativa <strong>me</strong>d tillgång till<br />

fylliga longitudinella register för effektivare design och statistisk analys.<br />

Frågeformulären till elever, lärare och skolledare (som ofta fått stå tillbaka<br />

för hög kvalitet i kunskapstest) borde snart kunna bytas ut mot<br />

informationssamhällets sätt att kommunicera, via PC-multi<strong>me</strong>dia och<br />

Internet, <strong>me</strong>d en <strong>me</strong>ra kontinuerligt upplagd informationsinsamling <strong>me</strong>d<br />

både kvalitativ och kvantitativ <strong>me</strong>tod.<br />

Flernivåperspektivet på utvärdering innebär att insamlad information<br />

kan föras nerifrån och upp i skolsyste<strong>me</strong>n, från elever och lärare till<br />

skolledning och vidare till makroplanet. Här<strong>me</strong>d skapas bättre förutsättningar<br />

och underlag för kvalificerad analys på alla dessa olika nivåer. Ty<br />

gräsrötterna i skolan, eleverna och lärarna, bär ju på svaren om resultatet av<br />

skolarbetet och på den allra viktigaste förklarande informationen om hur<br />

olika insatser berört dem.<br />

NOTER<br />

1. MALI-projektet har finansierats genom <strong>me</strong>del från Humanistisk-samhällsvetenskapliga<br />

forskningsrådet, Riksbankens jubileumsfond, Skolverket samt<br />

Statistiska centralbyrån.<br />

2. Forskargruppens sammansättning: Vetenskaplig ledare, professor Ingvar<br />

Lundberg, psykologiska institutionen i U<strong>me</strong>å, projektledare, docent Ingrid<br />

Munck, Statistiska centralbyrån, experttjänst <strong>me</strong>d forskning i <strong>me</strong>tod för<br />

utvärdering. Gruppen bestod från starten 1992 dessutom av docent Gudrun<br />

Balke, fil dr Valentin Gonzalez, professor Jan-Eric Gustafsson, professor<br />

e<strong>me</strong>ritus Kjell Härnqvist, syste<strong>me</strong>rare Anna Lindbom, samtliga från<br />

pedagogiska institutionen vid <strong>Göteborgs</strong> <strong>universitet</strong>. Konsulter till projektet<br />

var professor Bengt Muthén, UCLA, USA och Mr Andreas Schleicher,<br />

dåvarande internationell koordinator för IEA Reading Literacy studien.<br />

Under senare delen av projektet tillkom fil lic Monica Rosén. Arbetet har<br />

genomförts vid pedagogiska institutionen vid <strong>Göteborgs</strong> <strong>universitet</strong>.<br />

LITTERATUR<br />

Balke, G. 1995: Decomposition of reading comprehension: Analysis of the IEA


UTVÄRDERING AV SKOLAN 23<br />

reading literacy test. Paper presented at the annual <strong>me</strong>eting of the A<strong>me</strong>rican<br />

Educational Research Association, AERA, San Francisco, Göteborg University,<br />

Sweden.<br />

Burstein, L. 1985: Unit of analysis. In T. Husén & N. Postlethwaite (red): The<br />

international encyclopedia of education research and studies, vol. 9. Oxford:<br />

Pergamon.<br />

Elley, W. 1992: The IEA Study of Reading Literacy: Achieve<strong>me</strong>nt and instruction<br />

in thirty-two school stystems. London: Pergamon.<br />

Groves, R. 1989: Survey errors and survey costs. New York: John Wiley & Sons.<br />

Gustafsson, J-E. 1994: Hierarchical models of intelligence and educational achieve<strong>me</strong>nt.<br />

I A. De<strong>me</strong>triou & A. Etklides (red): Intelligence, mind and reasoning.<br />

Structure and develop<strong>me</strong>nt. Amsterdam: Nort-Holland.<br />

Gustafsson, J-E. 1995: Alternative hierarchical models of reading achieve<strong>me</strong>nt.<br />

Paper presented at AERA Annual Meeting Session 12.22 Symposium: Di<strong>me</strong>nsions<br />

of Reading Literacy – Structural Multilevel Modeling of IEA Data, April,<br />

1995, San Francisco.<br />

Gustafsson, J-E. 1997: Measure<strong>me</strong>nt characteristics of the IEA Reading Literacy<br />

Scales for 9–10 year-olds at country and individual levels. Journal of<br />

Educational Measure<strong>me</strong>nt. (i tryck)<br />

Gustafsson, J-E. & Balke, G. 1993: General and specific abilities as predictors of<br />

school achieve<strong>me</strong>nt. Multivariate Behavioral Research, 28(4), 407–434.<br />

Gustafsson, J-E. & Stahl, P-A. 1997: School User’s Guide, Version 2.0 for<br />

Windows, Göteborg: Multivariate Ware.<br />

Hox, J. & Kreft, I. 1994: Multilevel analysis <strong>me</strong>thods. Sociological Methods &<br />

Research, 22(3), 283–299.<br />

Hoyle, R. (red) 1995: Structural equation modeling: Concepts, issues, and<br />

applications. Thousand Oaks: Sage Publications.<br />

Husén, T. (red) 1967: International study of achieve<strong>me</strong>nt in mathematics. A<br />

comparison of twelve countries. Volu<strong>me</strong> I. Stockholm: Almqvist & Wiksell.<br />

Härnqvist, K. 1974: Internationella jämförelser av utbildningsresultat. Forskning<br />

om utbildning, 1(1), 17–25.<br />

Inkeles, A. 1977: The International Evaluation of Educational Achieve<strong>me</strong>nt: A<br />

review. Proceedings of the National Academy of Education, 4, 139–200.<br />

Jöreskog, K. & Sörbom, D. 1993: LISREL 8: Structural equation modeling with<br />

the SIMPLIS command language. Chicago: SSI Scientific Software International.<br />

Lundberg, I. 1991: Cognitive aspects of reading. International Journal of Applied<br />

Linguistics, 1, 151–163.<br />

Lundberg, I. & Rosén, M. 1995: Structural modeling of reading achieve<strong>me</strong>nt as a<br />

basis for evaluating teaching effects. Paper presented at the AERA Meeting, San<br />

Francisco, 1995.<br />

Marklund, S. 1983: The IEA project: An unfinished audit. Stockholm: Institute of<br />

international education, Stockholm university.<br />

Mueller, R. 1996: Basic principles of structural equation modeling: An introduction<br />

to LISREL and EQS. New York: Springer Verlag.<br />

Munck, I. 1979: Model building in comparative education: Application of the<br />

LISREL <strong>me</strong>thod to cross-national survey data. (IEA Monograph Studies, No 10)<br />

Stockholm: Almqvist & Wiksell International.<br />

Munck, I. 1991: A path analysis of cross-national data taking <strong>me</strong>asure<strong>me</strong>nt errors<br />

into account. In P. Bie<strong>me</strong>r, R. Groves, L. Lybrg, N. Mathiowetz & S. Sudman<br />

(red): Measure<strong>me</strong>nt errors in surveys. New York: John Wiley.<br />

Munck, I. 1995: Linking reading preferences with reading performance: Structural<br />

relationships at individual and school levels in two different educational systems.<br />

Paper presented at the AERA conference 1995.<br />

Munck, I. & Lundberg, I. 1994: Multivariate analyses of data from population A.


24 INGRID M. E. MUNCK<br />

In W. Elley (red): The IEA study of reading literacy: Achieve<strong>me</strong>nt and instruction<br />

in thirty-two school systems. Oxford: Pergamon.<br />

Muthén, B.O. 1994: Multilevel covariance structure analysis, Sociological Methods<br />

& Research 22(3), 376–398.<br />

OECD, 1996: Education at a glance. Paris:OECD.<br />

Peaker, G. 1975: The empirical study of education in twenty-one countries: A<br />

technical report. New York: John Wiley & Sons.<br />

Postlethwaite, N. & Ross, K. 1992: Effective schools in reading: Implications for<br />

educational planners. The Hague: IEA.<br />

Raudenbush, S . 1995: Hierarchical models: The case of school effects on literacy.<br />

I M. Binkley, K. Rust & M. Winglee (red): Methodological issues in comparative<br />

educational studies. Washington, DC: U.S. Depart<strong>me</strong>nt of Education, National<br />

Center for Education Statistics.<br />

Ribe, Martin (1997): Statistisk kvalitet i utvärdering. Stockholm: Statistiska<br />

Centralbyrån.<br />

Rosén, M. 1996: Gender differences in reading performance on docu<strong>me</strong>nts across<br />

countries. Paper submitted for publication in Reading and Writing: An interdisciplinary<br />

Journal, July, 1996. Göteborg: Depart<strong>me</strong>nt of Education, Göteborg<br />

University.<br />

Rosén, M. 1997: Country differences in reading performance: A reanalysis of the<br />

IEA reading literacy study. Paper presented at the AERA conference 1997.<br />

Göteborg: Depart<strong>me</strong>nt of education, Göteborg university.<br />

Skolverket, 1996: TIMSS: svenska 13-åringars kunskaper i matematik och naturvetenskap<br />

i ett internationellt perspektiv. (Third IEA Internetional Mathematics<br />

and Science Study) Stockholm: Liber Distribution.<br />

Tyler, R. 1984: A guide to educational trouble-shooting. Educational Leadership,<br />

41(8), 27–30.<br />

Vedung, E. 1994: Utvärdering i offentliga sektorn. Stockholm: Civildeparte<strong>me</strong>ntet.<br />

Wagemaker, H. (red) 1996: Are girls better readers? Gender differences in reading<br />

literacy in 32 countries. Amsterdam: IEA Headquarter.<br />

Williams, T. 1994: Modeling the reading literacy of fourth and ninth graders. I M.<br />

Binkley & K. Rust (red): Reading literacy in the United States. (Technical report,<br />

NCES) Washington, DC: U.S. Depart<strong>me</strong>nt of Education, National Center for<br />

Education Statistics.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!