Modelkontrol i Faktor Modeller - Københavns Universitet

Modelkontrol i Faktor Modeller 

Julie Lyng Forman 

Københavns Universitet 

Afdeling for Anvendt Matematik og Statistik 

Statistik for Biokemikere 2003 

For at konklusionerne p˚a en ensidet, flersidet eller hierarkisk faktor analyse 

bliver gyldige, skal data opfylde de grundlæggende antagelser: 

• Alle observationer skal være indbyrdes uafhængige. 

• Observationerne i hver enkelt gruppe/celle skal stamme fra samme (tilnærmelsesvis) 

normalfordelte population. 

• Populationerne skal have (tilnærmelsesvis) samme varians. 

Medens det ofte er intuitivt klart at m˚alingerne er uafhængige, er det straks 

sværere at argumentere for at normalfordelingsantagelsen er opfyldt. 

I det følgende gennemg˚ar vi nogle grafiske metoder der kan benyttes til at 

checke normalfordelingsantagelsen og antagelsen om ens varianser. Hvis der er 

gentagne m˚alinger i hver gruppe, kan hypotesen om ens varianser testes med 

Bartlett’s test, men det er alligevel en god ide at supplere med en kontroltegning. 

1 Residualer og fittede værdier 

For at undersøge om modelantagelserne er opfyldt f˚ar vi brug for at udregne 

nogle interessante tal; de fittede værdier og de studentificerede residualer. 

De fittede værdier er estimater for m˚alingernes middelværdier. Til hver m˚aling, 

X, svarer én fittet værdi, ˆ X, der er estimatet for middelværdien i den population 

m˚alingen kommer fra. Fittede værdier betegnes typisk med samme navne 

som m˚alingerne med en ”hat”over. 

Hvordan de fittede værdier helt præcist ser ud afhænger af s˚avel model som 

data 

1

Eksempel I den ensidede variansanalyse er de fittede værdier gruppegennemsnittene, 

ni 

ˆXij0 = Xi· = 1 

der jo estimerer gruppemiddelværdierne µi. Bemærk at m˚alinger fra samme 

gruppe har samme fittede værdi. 

Eksempel I to- og tresidet variansanalyse med gentagelser er de fittede værdier 

cellegennemsnittene, f.eks. i tresidet variansanalyse: 

ni 

ˆXijkl0 = Xijk· = 1 

nijk 

j=1 

Xij 

nijkl 

l=1 

Xijkl 

der estimerer cellemiddelværdierne µijk. M˚alinger fra samme celle har samme 

fittede værdi. 

I flersidet variansanalyse uden gentagelser og i hierarkiske flerfaktor modeller 

er de fittede værdier typisk sværere at beregne. Vi giver ingen formler, men 

viser nedenfor hvordan man kan f˚a SAS til at beregne de fittede værdier. 

Residualerne er de værdier man f˚ar ved at trække de fittede værdier fra 

m˚alingerne. Residualet hørende til en m˚aling X er alts˚a defineret som 

R = X − ˆ X. 

De studentiserede residualer er residualerne divideret med en estimeret standardafvigelse: 

R 

. 

sR 

Hvis modelantagelserne er rigtige vil de studentiserede residualer være approksimativt 

uafhængige og standard normalfordelte (det vil sige normalfordelte 

med middelværdi 0 og varians 1). Det er netop denne egenskab vi vil udnytte 

til at undersøge om modelantagelserne er korrekte. 

Fittede værdier og studentiserede residualer kan udregnes i SAS ved at tilføje 

en OUTPUT-sætning til et PROC GLM-program. Følgende program udregner f.eks. 

fittede værdier og studentiserede residualer for en tosidet variansanalyse uden 

vekselvirkning. De udregnede værdier udskrives ikke men lægges i datasættet 

kontrol under variabelnavnene fittet og stdres. 

PROC GLM DATA=datanavn ; 

2

CLASS a b; 

MODEL x = a b /SS1; 

OUTPUT OUT=kontrol PREDICTED=fittet STUDENT=stdres ; 

RUN; 

PROC GLM kan naturligvis ogs˚a udregne fittede værdier og studentiserede residualer 

for andre modeller end den tosidede variansanalyse uden vekselvirkning, 

man skal blot ændre i CLASS- og MODEL-linierne p˚a passende vis. 

1.1 Histogrammer og QQ-plot 

For at efterprøve normalfordelingsantagelsen kan man sammenligne de studentiserede 

residualer med tal fra en standard normalfordeling. En mulighed er at 

indtegne normalfordelingskurven p˚a et histogram over de studentiserede residualer 

og se om kurven passer med formen p˚a histogrammet. Denne metode 

fungerer klart bedst for store datasæt hvor histogrammets kasser er forholdsvis 

smalle. 

En mere præcis sammenligning f˚ar man ved at tegne de studentiserede residualers 

fraktiler (quantiles p˚a engelsk, se Zar afsnit 3.3) op mod teoretiske 

fraktiler fra standard normalfordelingen. Hvis modelantagelserne er rigtige vil 

punkterne ligge nogenlunde p˚a en ret linie gennem (0, 0) med hældning 1. 

Histogrammer og QQ-plot kan tegnes i SAS med følgende programmer. Det 

antages at de studentiserede residualer ligger i datasættet kontrol under variabelnavnet 

stdres. 

PROC UNIVARIATE DATA=kontrol NOPRINT; 

HISTOGRAM stdres /NORMAL (MU=0 SIGMA=1); 

RUN; 

PROC UNIVARIATE DATA=kontrol NOPRINT; 

QQPLOT stdres /NORMAL (MU=0 SIGMA=1); 

RUN; 

3

1.2 Residualplot 

En anden meget nyttig tegning er residualplottet hvor de studentiserede residualer 

tegnes om mod de fittede værdier. Hvis modellen er rigtig skal punkterne 

fordele sig nogenlunde symmetrisk omkring koordinatsystemets første akse og 

eventuelle afvigelser skal være af tilfældig karakter. 

Residual-plottet kan (i modsætning til histogrammet og QQ-plottet) give en 

ide om at m˚alingerne ikke har samme varians. Residualer fra samme gruppe/celle 

vil nemlig ligge p˚a samme lodrette linie, og man kan derfor ofte se p˚a residualplottet 

hvis gruppe/celle-varianserne er meget forskellige. 

Residualplot kan tegnes i SAS med følgende kommando. Det antages at de 

fittede værdier og de studentiserede residualer ligger i datasættet kontrol under 

variabelnavnene fittet og stdres. 

PROC GPLOT DATA=kontrol ; 

PLOT stdres *fittet /VREF=0 VREF=-1.96 VREF=1.96; 

RUN; 

1.3 Outliers 

En ting man skal holde udkig efter p˚a residual- og QQ-plottene er s˚akaldte 

outliers. Outliers er m˚alinger med særligt store eller sm˚a studentiserede residualer. 

Hvis en m˚aling har en numerisk stor residualværdi, ligger den p˚agældende 

m˚aling langt fra sin fittede værdi og er alts˚a d˚arligt beskrevet af modellen. Vi 

ved ogs˚a at i en standard normalforldelt population ligger 95% af værdierne 

mellem -1,96 og 1,96, og numerisk større værdier forekommer endnu sjældnere. 

Mange outliers og særligt store residualværdier bør derfor vække mistanke. De 

kan være tegn p˚a at modellen er forkert eller at der er opst˚aet fejl ved indsamling 

eller indtastning af data. 

1.4 Nogle eksempler 

Her følger eksempler p˚a histogrammer, QQ-plot og residualplot b˚ade for en 

model hvor modelantagelserne er langt fra at være opfyldt og for en hvor de 

ser ud til at holde. 

Eksempel I Opgave 12.4 i Zar indeholder et datamateriale, hvor m˚alingerne 

4

udelukkende best˚ar af nuller og et-taller og som derfor tydeligvis ikke er normalfordelte. 

Lad os se om det fremg˚ar af modelkontrollen, hvis vi fejlagtigt 

prøver at lave en tosidet variansanalyse med bog og professor som faktorer. 

Figur 1: Histogram og QQ-plot over residualer fra opgave 12.4. 

Histogrammet giver ikke grund til bekymring. QQ-plottet er lettere trappeformet 

og ser ikke alt for kønt ud, men da datamaterialet ikke er specielt stort 

kunne afvigelserne m˚aske godt være tilfældige. 

Figur 2: Residualplot for data fra opgave 12.4. 

5

Der er tilgengæld ikke megen tilfældighed at se p˚a residualplottet. Punkterne, 

der burde fordele sig symmetrisk omkring første aksen p˚a en tilfældig m˚ade, 

ligger næsten alle p˚a to rette linier. Det er s˚aledes helt klart at modelantagelserne 

ikke er opfyldt. 

Eksempel II Opgave 14.1 i Zar indeholder m˚alinger af størrelsen x og af 

tre faktorer A,B ogC. Figur 3 og 4 viser kontroltegninger for den model vi 

testede os frem til ved øvelserne, hvor der er vekselvirkning mellem faktorerne 

A og C og hvor der er hovedvirkningen af faktoren B som ikke vekselvirker 

med de andre faktorer. 

Figur 3: Histogram og QQ-plot over residualer fra opgave 14.1. 

Alt i alt ser graferne rimeligt pæne ud. Vi bemærker nogle afvigende punkter 

i nederste venstre hjørne p˚a QQ-plottet, men de er ikke værre end at vi med 

god samvittighed kan bruge modellen. 

6

Figur 4: Residualplot for data fra opgave 14.1. 

7

Modelkontrol i Faktor Modeller - Københavns Universitet

Create successful ePaper yourself

Delete template?

Save as template?