Modelkontrol i Faktor Modeller - Københavns Universitet
Modelkontrol i Faktor Modeller - Københavns Universitet
Modelkontrol i Faktor Modeller - Københavns Universitet
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Modelkontrol</strong> i <strong>Faktor</strong> <strong>Modeller</strong><br />
Julie Lyng Forman<br />
<strong>Københavns</strong> <strong>Universitet</strong><br />
Afdeling for Anvendt Matematik og Statistik<br />
Statistik for Biokemikere 2003<br />
For at konklusionerne p˚a en ensidet, flersidet eller hierarkisk faktor analyse<br />
bliver gyldige, skal data opfylde de grundlæggende antagelser:<br />
• Alle observationer skal være indbyrdes uafhængige.<br />
• Observationerne i hver enkelt gruppe/celle skal stamme fra samme (tilnærmelsesvis)<br />
normalfordelte population.<br />
• Populationerne skal have (tilnærmelsesvis) samme varians.<br />
Medens det ofte er intuitivt klart at m˚alingerne er uafhængige, er det straks<br />
sværere at argumentere for at normalfordelingsantagelsen er opfyldt.<br />
I det følgende gennemg˚ar vi nogle grafiske metoder der kan benyttes til at<br />
checke normalfordelingsantagelsen og antagelsen om ens varianser. Hvis der er<br />
gentagne m˚alinger i hver gruppe, kan hypotesen om ens varianser testes med<br />
Bartlett’s test, men det er alligevel en god ide at supplere med en kontroltegning.<br />
1 Residualer og fittede værdier<br />
For at undersøge om modelantagelserne er opfyldt f˚ar vi brug for at udregne<br />
nogle interessante tal; de fittede værdier og de studentificerede residualer.<br />
De fittede værdier er estimater for m˚alingernes middelværdier. Til hver m˚aling,<br />
X, svarer én fittet værdi, ˆ X, der er estimatet for middelværdien i den population<br />
m˚alingen kommer fra. Fittede værdier betegnes typisk med samme navne<br />
som m˚alingerne med en ”hat”over.<br />
Hvordan de fittede værdier helt præcist ser ud afhænger af s˚avel model som<br />
data<br />
1
Eksempel I den ensidede variansanalyse er de fittede værdier gruppegennemsnittene,<br />
ni <br />
ˆXij0 = Xi· = 1<br />
der jo estimerer gruppemiddelværdierne µi. Bemærk at m˚alinger fra samme<br />
gruppe har samme fittede værdi.<br />
Eksempel I to- og tresidet variansanalyse med gentagelser er de fittede værdier<br />
cellegennemsnittene, f.eks. i tresidet variansanalyse:<br />
ni<br />
ˆXijkl0 = Xijk· = 1<br />
nijk<br />
j=1<br />
Xij<br />
nijkl <br />
l=1<br />
Xijkl<br />
der estimerer cellemiddelværdierne µijk. M˚alinger fra samme celle har samme<br />
fittede værdi.<br />
I flersidet variansanalyse uden gentagelser og i hierarkiske flerfaktor modeller<br />
er de fittede værdier typisk sværere at beregne. Vi giver ingen formler, men<br />
viser nedenfor hvordan man kan f˚a SAS til at beregne de fittede værdier.<br />
Residualerne er de værdier man f˚ar ved at trække de fittede værdier fra<br />
m˚alingerne. Residualet hørende til en m˚aling X er alts˚a defineret som<br />
R = X − ˆ X.<br />
De studentiserede residualer er residualerne divideret med en estimeret standardafvigelse:<br />
R<br />
.<br />
sR<br />
Hvis modelantagelserne er rigtige vil de studentiserede residualer være approksimativt<br />
uafhængige og standard normalfordelte (det vil sige normalfordelte<br />
med middelværdi 0 og varians 1). Det er netop denne egenskab vi vil udnytte<br />
til at undersøge om modelantagelserne er korrekte.<br />
Fittede værdier og studentiserede residualer kan udregnes i SAS ved at tilføje<br />
en OUTPUT-sætning til et PROC GLM-program. Følgende program udregner f.eks.<br />
fittede værdier og studentiserede residualer for en tosidet variansanalyse uden<br />
vekselvirkning. De udregnede værdier udskrives ikke men lægges i datasættet<br />
kontrol under variabelnavnene fittet og stdres.<br />
PROC GLM DATA=datanavn ;<br />
2
CLASS a b;<br />
MODEL x = a b /SS1;<br />
OUTPUT OUT=kontrol PREDICTED=fittet STUDENT=stdres ;<br />
RUN;<br />
PROC GLM kan naturligvis ogs˚a udregne fittede værdier og studentiserede residualer<br />
for andre modeller end den tosidede variansanalyse uden vekselvirkning,<br />
man skal blot ændre i CLASS- og MODEL-linierne p˚a passende vis.<br />
1.1 Histogrammer og QQ-plot<br />
For at efterprøve normalfordelingsantagelsen kan man sammenligne de studentiserede<br />
residualer med tal fra en standard normalfordeling. En mulighed er at<br />
indtegne normalfordelingskurven p˚a et histogram over de studentiserede residualer<br />
og se om kurven passer med formen p˚a histogrammet. Denne metode<br />
fungerer klart bedst for store datasæt hvor histogrammets kasser er forholdsvis<br />
smalle.<br />
En mere præcis sammenligning f˚ar man ved at tegne de studentiserede residualers<br />
fraktiler (quantiles p˚a engelsk, se Zar afsnit 3.3) op mod teoretiske<br />
fraktiler fra standard normalfordelingen. Hvis modelantagelserne er rigtige vil<br />
punkterne ligge nogenlunde p˚a en ret linie gennem (0, 0) med hældning 1.<br />
Histogrammer og QQ-plot kan tegnes i SAS med følgende programmer. Det<br />
antages at de studentiserede residualer ligger i datasættet kontrol under variabelnavnet<br />
stdres.<br />
PROC UNIVARIATE DATA=kontrol NOPRINT;<br />
HISTOGRAM stdres /NORMAL (MU=0 SIGMA=1);<br />
RUN;<br />
PROC UNIVARIATE DATA=kontrol NOPRINT;<br />
QQPLOT stdres /NORMAL (MU=0 SIGMA=1);<br />
RUN;<br />
3
1.2 Residualplot<br />
En anden meget nyttig tegning er residualplottet hvor de studentiserede residualer<br />
tegnes om mod de fittede værdier. Hvis modellen er rigtig skal punkterne<br />
fordele sig nogenlunde symmetrisk omkring koordinatsystemets første akse og<br />
eventuelle afvigelser skal være af tilfældig karakter.<br />
Residual-plottet kan (i modsætning til histogrammet og QQ-plottet) give en<br />
ide om at m˚alingerne ikke har samme varians. Residualer fra samme gruppe/celle<br />
vil nemlig ligge p˚a samme lodrette linie, og man kan derfor ofte se p˚a residualplottet<br />
hvis gruppe/celle-varianserne er meget forskellige.<br />
Residualplot kan tegnes i SAS med følgende kommando. Det antages at de<br />
fittede værdier og de studentiserede residualer ligger i datasættet kontrol under<br />
variabelnavnene fittet og stdres.<br />
PROC GPLOT DATA=kontrol ;<br />
PLOT stdres *fittet /VREF=0 VREF=-1.96 VREF=1.96;<br />
RUN;<br />
1.3 Outliers<br />
En ting man skal holde udkig efter p˚a residual- og QQ-plottene er s˚akaldte<br />
outliers. Outliers er m˚alinger med særligt store eller sm˚a studentiserede residualer.<br />
Hvis en m˚aling har en numerisk stor residualværdi, ligger den p˚agældende<br />
m˚aling langt fra sin fittede værdi og er alts˚a d˚arligt beskrevet af modellen. Vi<br />
ved ogs˚a at i en standard normalforldelt population ligger 95% af værdierne<br />
mellem -1,96 og 1,96, og numerisk større værdier forekommer endnu sjældnere.<br />
Mange outliers og særligt store residualværdier bør derfor vække mistanke. De<br />
kan være tegn p˚a at modellen er forkert eller at der er opst˚aet fejl ved indsamling<br />
eller indtastning af data.<br />
1.4 Nogle eksempler<br />
Her følger eksempler p˚a histogrammer, QQ-plot og residualplot b˚ade for en<br />
model hvor modelantagelserne er langt fra at være opfyldt og for en hvor de<br />
ser ud til at holde.<br />
Eksempel I Opgave 12.4 i Zar indeholder et datamateriale, hvor m˚alingerne<br />
4
udelukkende best˚ar af nuller og et-taller og som derfor tydeligvis ikke er normalfordelte.<br />
Lad os se om det fremg˚ar af modelkontrollen, hvis vi fejlagtigt<br />
prøver at lave en tosidet variansanalyse med bog og professor som faktorer.<br />
Figur 1: Histogram og QQ-plot over residualer fra opgave 12.4.<br />
Histogrammet giver ikke grund til bekymring. QQ-plottet er lettere trappeformet<br />
og ser ikke alt for kønt ud, men da datamaterialet ikke er specielt stort<br />
kunne afvigelserne m˚aske godt være tilfældige.<br />
Figur 2: Residualplot for data fra opgave 12.4.<br />
5
Der er tilgengæld ikke megen tilfældighed at se p˚a residualplottet. Punkterne,<br />
der burde fordele sig symmetrisk omkring første aksen p˚a en tilfældig m˚ade,<br />
ligger næsten alle p˚a to rette linier. Det er s˚aledes helt klart at modelantagelserne<br />
ikke er opfyldt.<br />
Eksempel II Opgave 14.1 i Zar indeholder m˚alinger af størrelsen x og af<br />
tre faktorer A,B ogC. Figur 3 og 4 viser kontroltegninger for den model vi<br />
testede os frem til ved øvelserne, hvor der er vekselvirkning mellem faktorerne<br />
A og C og hvor der er hovedvirkningen af faktoren B som ikke vekselvirker<br />
med de andre faktorer.<br />
Figur 3: Histogram og QQ-plot over residualer fra opgave 14.1.<br />
Alt i alt ser graferne rimeligt pæne ud. Vi bemærker nogle afvigende punkter<br />
i nederste venstre hjørne p˚a QQ-plottet, men de er ikke værre end at vi med<br />
god samvittighed kan bruge modellen.<br />
6
Figur 4: Residualplot for data fra opgave 14.1.<br />
7