01.09.2013 Views

Modelkontrol i Faktor Modeller - Københavns Universitet

Modelkontrol i Faktor Modeller - Københavns Universitet

Modelkontrol i Faktor Modeller - Københavns Universitet

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Modelkontrol</strong> i <strong>Faktor</strong> <strong>Modeller</strong><br />

Julie Lyng Forman<br />

<strong>Københavns</strong> <strong>Universitet</strong><br />

Afdeling for Anvendt Matematik og Statistik<br />

Statistik for Biokemikere 2003<br />

For at konklusionerne p˚a en ensidet, flersidet eller hierarkisk faktor analyse<br />

bliver gyldige, skal data opfylde de grundlæggende antagelser:<br />

• Alle observationer skal være indbyrdes uafhængige.<br />

• Observationerne i hver enkelt gruppe/celle skal stamme fra samme (tilnærmelsesvis)<br />

normalfordelte population.<br />

• Populationerne skal have (tilnærmelsesvis) samme varians.<br />

Medens det ofte er intuitivt klart at m˚alingerne er uafhængige, er det straks<br />

sværere at argumentere for at normalfordelingsantagelsen er opfyldt.<br />

I det følgende gennemg˚ar vi nogle grafiske metoder der kan benyttes til at<br />

checke normalfordelingsantagelsen og antagelsen om ens varianser. Hvis der er<br />

gentagne m˚alinger i hver gruppe, kan hypotesen om ens varianser testes med<br />

Bartlett’s test, men det er alligevel en god ide at supplere med en kontroltegning.<br />

1 Residualer og fittede værdier<br />

For at undersøge om modelantagelserne er opfyldt f˚ar vi brug for at udregne<br />

nogle interessante tal; de fittede værdier og de studentificerede residualer.<br />

De fittede værdier er estimater for m˚alingernes middelværdier. Til hver m˚aling,<br />

X, svarer én fittet værdi, ˆ X, der er estimatet for middelværdien i den population<br />

m˚alingen kommer fra. Fittede værdier betegnes typisk med samme navne<br />

som m˚alingerne med en ”hat”over.<br />

Hvordan de fittede værdier helt præcist ser ud afhænger af s˚avel model som<br />

data<br />

1


Eksempel I den ensidede variansanalyse er de fittede værdier gruppegennemsnittene,<br />

ni <br />

ˆXij0 = Xi· = 1<br />

der jo estimerer gruppemiddelværdierne µi. Bemærk at m˚alinger fra samme<br />

gruppe har samme fittede værdi.<br />

Eksempel I to- og tresidet variansanalyse med gentagelser er de fittede værdier<br />

cellegennemsnittene, f.eks. i tresidet variansanalyse:<br />

ni<br />

ˆXijkl0 = Xijk· = 1<br />

nijk<br />

j=1<br />

Xij<br />

nijkl <br />

l=1<br />

Xijkl<br />

der estimerer cellemiddelværdierne µijk. M˚alinger fra samme celle har samme<br />

fittede værdi.<br />

I flersidet variansanalyse uden gentagelser og i hierarkiske flerfaktor modeller<br />

er de fittede værdier typisk sværere at beregne. Vi giver ingen formler, men<br />

viser nedenfor hvordan man kan f˚a SAS til at beregne de fittede værdier.<br />

Residualerne er de værdier man f˚ar ved at trække de fittede værdier fra<br />

m˚alingerne. Residualet hørende til en m˚aling X er alts˚a defineret som<br />

R = X − ˆ X.<br />

De studentiserede residualer er residualerne divideret med en estimeret standardafvigelse:<br />

R<br />

.<br />

sR<br />

Hvis modelantagelserne er rigtige vil de studentiserede residualer være approksimativt<br />

uafhængige og standard normalfordelte (det vil sige normalfordelte<br />

med middelværdi 0 og varians 1). Det er netop denne egenskab vi vil udnytte<br />

til at undersøge om modelantagelserne er korrekte.<br />

Fittede værdier og studentiserede residualer kan udregnes i SAS ved at tilføje<br />

en OUTPUT-sætning til et PROC GLM-program. Følgende program udregner f.eks.<br />

fittede værdier og studentiserede residualer for en tosidet variansanalyse uden<br />

vekselvirkning. De udregnede værdier udskrives ikke men lægges i datasættet<br />

kontrol under variabelnavnene fittet og stdres.<br />

PROC GLM DATA=datanavn ;<br />

2


CLASS a b;<br />

MODEL x = a b /SS1;<br />

OUTPUT OUT=kontrol PREDICTED=fittet STUDENT=stdres ;<br />

RUN;<br />

PROC GLM kan naturligvis ogs˚a udregne fittede værdier og studentiserede residualer<br />

for andre modeller end den tosidede variansanalyse uden vekselvirkning,<br />

man skal blot ændre i CLASS- og MODEL-linierne p˚a passende vis.<br />

1.1 Histogrammer og QQ-plot<br />

For at efterprøve normalfordelingsantagelsen kan man sammenligne de studentiserede<br />

residualer med tal fra en standard normalfordeling. En mulighed er at<br />

indtegne normalfordelingskurven p˚a et histogram over de studentiserede residualer<br />

og se om kurven passer med formen p˚a histogrammet. Denne metode<br />

fungerer klart bedst for store datasæt hvor histogrammets kasser er forholdsvis<br />

smalle.<br />

En mere præcis sammenligning f˚ar man ved at tegne de studentiserede residualers<br />

fraktiler (quantiles p˚a engelsk, se Zar afsnit 3.3) op mod teoretiske<br />

fraktiler fra standard normalfordelingen. Hvis modelantagelserne er rigtige vil<br />

punkterne ligge nogenlunde p˚a en ret linie gennem (0, 0) med hældning 1.<br />

Histogrammer og QQ-plot kan tegnes i SAS med følgende programmer. Det<br />

antages at de studentiserede residualer ligger i datasættet kontrol under variabelnavnet<br />

stdres.<br />

PROC UNIVARIATE DATA=kontrol NOPRINT;<br />

HISTOGRAM stdres /NORMAL (MU=0 SIGMA=1);<br />

RUN;<br />

PROC UNIVARIATE DATA=kontrol NOPRINT;<br />

QQPLOT stdres /NORMAL (MU=0 SIGMA=1);<br />

RUN;<br />

3


1.2 Residualplot<br />

En anden meget nyttig tegning er residualplottet hvor de studentiserede residualer<br />

tegnes om mod de fittede værdier. Hvis modellen er rigtig skal punkterne<br />

fordele sig nogenlunde symmetrisk omkring koordinatsystemets første akse og<br />

eventuelle afvigelser skal være af tilfældig karakter.<br />

Residual-plottet kan (i modsætning til histogrammet og QQ-plottet) give en<br />

ide om at m˚alingerne ikke har samme varians. Residualer fra samme gruppe/celle<br />

vil nemlig ligge p˚a samme lodrette linie, og man kan derfor ofte se p˚a residualplottet<br />

hvis gruppe/celle-varianserne er meget forskellige.<br />

Residualplot kan tegnes i SAS med følgende kommando. Det antages at de<br />

fittede værdier og de studentiserede residualer ligger i datasættet kontrol under<br />

variabelnavnene fittet og stdres.<br />

PROC GPLOT DATA=kontrol ;<br />

PLOT stdres *fittet /VREF=0 VREF=-1.96 VREF=1.96;<br />

RUN;<br />

1.3 Outliers<br />

En ting man skal holde udkig efter p˚a residual- og QQ-plottene er s˚akaldte<br />

outliers. Outliers er m˚alinger med særligt store eller sm˚a studentiserede residualer.<br />

Hvis en m˚aling har en numerisk stor residualværdi, ligger den p˚agældende<br />

m˚aling langt fra sin fittede værdi og er alts˚a d˚arligt beskrevet af modellen. Vi<br />

ved ogs˚a at i en standard normalforldelt population ligger 95% af værdierne<br />

mellem -1,96 og 1,96, og numerisk større værdier forekommer endnu sjældnere.<br />

Mange outliers og særligt store residualværdier bør derfor vække mistanke. De<br />

kan være tegn p˚a at modellen er forkert eller at der er opst˚aet fejl ved indsamling<br />

eller indtastning af data.<br />

1.4 Nogle eksempler<br />

Her følger eksempler p˚a histogrammer, QQ-plot og residualplot b˚ade for en<br />

model hvor modelantagelserne er langt fra at være opfyldt og for en hvor de<br />

ser ud til at holde.<br />

Eksempel I Opgave 12.4 i Zar indeholder et datamateriale, hvor m˚alingerne<br />

4


udelukkende best˚ar af nuller og et-taller og som derfor tydeligvis ikke er normalfordelte.<br />

Lad os se om det fremg˚ar af modelkontrollen, hvis vi fejlagtigt<br />

prøver at lave en tosidet variansanalyse med bog og professor som faktorer.<br />

Figur 1: Histogram og QQ-plot over residualer fra opgave 12.4.<br />

Histogrammet giver ikke grund til bekymring. QQ-plottet er lettere trappeformet<br />

og ser ikke alt for kønt ud, men da datamaterialet ikke er specielt stort<br />

kunne afvigelserne m˚aske godt være tilfældige.<br />

Figur 2: Residualplot for data fra opgave 12.4.<br />

5


Der er tilgengæld ikke megen tilfældighed at se p˚a residualplottet. Punkterne,<br />

der burde fordele sig symmetrisk omkring første aksen p˚a en tilfældig m˚ade,<br />

ligger næsten alle p˚a to rette linier. Det er s˚aledes helt klart at modelantagelserne<br />

ikke er opfyldt.<br />

Eksempel II Opgave 14.1 i Zar indeholder m˚alinger af størrelsen x og af<br />

tre faktorer A,B ogC. Figur 3 og 4 viser kontroltegninger for den model vi<br />

testede os frem til ved øvelserne, hvor der er vekselvirkning mellem faktorerne<br />

A og C og hvor der er hovedvirkningen af faktoren B som ikke vekselvirker<br />

med de andre faktorer.<br />

Figur 3: Histogram og QQ-plot over residualer fra opgave 14.1.<br />

Alt i alt ser graferne rimeligt pæne ud. Vi bemærker nogle afvigende punkter<br />

i nederste venstre hjørne p˚a QQ-plottet, men de er ikke værre end at vi med<br />

god samvittighed kan bruge modellen.<br />

6


Figur 4: Residualplot for data fra opgave 14.1.<br />

7

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!