Flersidet variansanalyse og hierarkiske modeller
Flersidet variansanalyse og hierarkiske modeller
Flersidet variansanalyse og hierarkiske modeller
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Flersidet</strong> <strong>variansanalyse</strong> <strong>og</strong> <strong>hierarkiske</strong> <strong>modeller</strong><br />
Helle Sørensen<br />
E-mail: helle@math.ku.dk<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 1 / 19<br />
Eksempel: iltoptag for krabber<br />
Data fra Zar, Biostatistical Analysis, eksempel 14.1.<br />
Iltoptag for 72 krabber<br />
Tre forskellige arter (1, 2, 3)<br />
Tre temperaturer (lav, medium, høj)<br />
Begge køn<br />
Fire krabber per kombination af art, temperatur <strong>og</strong> køn<br />
Interesseret i effekten af art, køn <strong>og</strong> især temperatur p˚a iltoptaget.<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 3 / 19<br />
Pr<strong>og</strong>ram<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 2 / 19<br />
Eksempel: iltoptag for krabber<br />
For alle de følgende <strong>modeller</strong> vil vi antage følgende:<br />
Iltoptag for en krabbe af art i, køn j ved temperatur k er normalfordelt med<br />
middelværdi µijk <strong>og</strong> spredning σ.<br />
Bemærk antagelsen om ens spredning: checkes med residualplot.<br />
Hvordan skal µijk afhænge af i, j <strong>og</strong> k (art, køn, temperatur)?<br />
Lad os et kort øjeblik betragte den additive model, kun med hovedeffekter af art,<br />
køn <strong>og</strong> temperatur:<br />
µijk = µ + αi + βj + γk<br />
I proc glm i SAS: model iltoptag = art kon tmp;<br />
Hvillke antagelser ligger der i denne model?<br />
Hvordan kan vi komme væk fra disse antagelser?<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 4 / 19
Model med vekselvirkninger<br />
Skal tage højde for at en effekt af en faktor kan afhænge af en af de andre<br />
faktorer, eller begge.<br />
Skal alts˚a inddrage vekselvirkninger!<br />
Tofaktorvekselvirkninger (første orden): art*kon, art*tmp, kon*tmp<br />
Trefaktorvekselvirkningen (anden orden): art*kon*tmp<br />
Modellen med trefaktorvekselvirkning:<br />
µijk = µ + αi + βj + γk + δij + ηik + φjk + ψijk<br />
Svarer til ensidet <strong>variansanalyse</strong> med 3 · 2 · 3 = 18 grupper.<br />
Krabber: fit af model <strong>og</strong> residualplot. Er modellen rimelig?<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 5 / 19<br />
Krabber: test <strong>og</strong> slutmodel<br />
Konklusioner p˚a test:<br />
art*køn*tmp ikke-signifikant (p = 0.22)<br />
køn*tmp ikke-signifikant (p = 0.11 eller p = 0.10)<br />
art*kon signifikant (p = 0.01)<br />
art*tmp signifikant (p < 0.0001)<br />
Slutmodellen er derfor:<br />
µijk = µ + αi + βj + γk + δij + ηik<br />
Vekselvirkninger kan evt. illustreres med “vekselvirkningsgrafer”.<br />
Bemærk: p˚a grund af de signifikante vekselvirkinger giver det ikke mening at teste<br />
for hovedeffekter.<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 7 / 19<br />
Modelreduktion<br />
Ønsker at gøre modellen simplere ved at fjerne ikke-signifikante led.<br />
Starter med at teste om trefaktorvekselvirkningen art*kon*tmp er signifikant.<br />
Dette svarer til H0 : φijk = 0 for alle i,j,k.<br />
Hvis trefaktorvekselvirkningen er signifikant, kan vi ikke komme videre!<br />
Hvis trefaktorvekselvirkningen ikke er signifikant, undersøger vi om<br />
tofaktorvekselvirkningerne er signifikante. Dette svarer fx. til hypotesen<br />
H0 : δij = 0 for alle i,j.<br />
Hvis en faktor ikke indg˚ar i en signifikant vekselvirkning kan vi teste for<br />
hovedeffekten. Dette svarer fx. til H0 : αi = 0.<br />
Krabber: Udfør modelreduktionen! Hvilke led kan vi reducere væk? Hvilke led er<br />
signifikante? Hvad bliver slutmodellen?<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 6 / 19<br />
Krabber: effekt af temperatur<br />
Vi har p˚avist at effekten af temperatur p˚a iltoptaget er forskellige for arterne.<br />
Bliver derfor nødt til at angive effekten af temperatur for hver art.<br />
Hvordan ser modellen ud hvis vi analyserer en art ad gangen?<br />
For eksempel f˚ar vi for art 1:<br />
hoj − middel : 0.63 (0.34,0.91)<br />
middel − lav : 0.75 (0.46,1.04)<br />
hoj − lav : 1.38 (1.09,1.66)<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 8 / 19
Vigtigt!<br />
Det er meningsløst at teste for hovedeffekten af en hovedeffekt hvis den indg˚ar i<br />
vekselvirkning med andre faktorer.<br />
For eksempel meningsløst at undersøge om der er en effekt af temperature hvis vi<br />
har fastsl˚aet at effekten af temperatur afhænger at arten.<br />
SAS rapporterer et test, men det m˚a I aldrig bruge!<br />
Bliver i stedet nødt til at undersøge effekten af temperatur for hver art for sig.<br />
Tilsvarende meningsløst at teste for en tofaktorvekselvirkning hvis<br />
trefaktorvekselvirkningen er signifikant.<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 9 / 19<br />
Eksempel: kolesterolkoncentration<br />
Data fra Zar, eksempel 15.1.<br />
Kolesterolkoncentration i blod for 12 kvinder<br />
Tre medikamenter: 1, 2 <strong>og</strong> 3<br />
Hvert medikament findes i to varianter<br />
I alt seks varianter: 1A, 1Q, 2D, 2B, 3L, 3S<br />
Observationer fra to kvinder for hver variant<br />
Først <strong>og</strong> fremmest interesseret i om der er forskel p˚a medikamenterne.<br />
Men den undersøgelse giver kun mening hvis der ikke er forskel p˚a varianterne<br />
indenfor medikament.<br />
Varianterne svarer til en underinddeling af medikamenterne.<br />
Vi taler om <strong>hierarkiske</strong> faktorer, <strong>og</strong> om grupper <strong>og</strong> undergrupper.<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 11 / 19<br />
Bemærkninger<br />
Tresidet <strong>variansanalyse</strong> uden gentagelser:<br />
Kun en observationer per kombination af de tre faktorer<br />
Kan ikke inddrage trefaktorvekselvirkningen i analysen<br />
Kan i stedet starte med modellen med de tre tofaktorvekselvirkninger<br />
Tresidet <strong>variansanalyse</strong> med tomme celler:<br />
Ikke alle kombinationer af de tre faktorer indg˚ar i forsøget<br />
Kan være umuligt (<strong>og</strong> eller kunstigt) at teste for vekselvirkninger<br />
Det er i øvrigt ikke altid klart at alle vekselvirkninger skal med i modellen.<br />
Generelt r˚ad: tag vekselvirkninger med i det omfang de giver mening fra et<br />
biokemisk (fagligt) synspunkt.<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 10 / 19<br />
Startmodel <strong>og</strong> test for effekt af undergrupper<br />
I <strong>modeller</strong>ne nedenfor antages følgende:<br />
observationen for en kvinde fra medikament (gruppe) i <strong>og</strong> variant<br />
(undergruppe) j er normalfordelt med middelværdi µij <strong>og</strong> spredning σ.<br />
Hvordan skal µij afhænge af i (medikament) <strong>og</strong> j (variant)?<br />
Som udgangspunkt lader vi middelværdien afhænge af varianten, dvs. µij<br />
afhænger b˚ade af i <strong>og</strong> j.<br />
Kan s˚a undersøge om forskellen mellem varianterne udelukkende skyldes de<br />
forskellige medikamenter.<br />
Dette svarer til at de to varianter indenfor medikament ikke er forskellige.<br />
Hypotesen er H0 : µij = αi eller<br />
µ1A = µ1Q, µ2D = µ2B, µ3L = µ3S<br />
Dette svarer til at vi kan sl˚a varianterne sammen inden for medikament.<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 12 / 19
Test for effekt af gruppe<br />
Hvis hypotesen om at der ikke forskel p˚a undergrupper /varianter) indenfor<br />
grupper (medikamenter), har vi<br />
µij = αi<br />
Dette svarer til en ensidet <strong>variansanalyse</strong>.<br />
Nu giver det mening at teste om grupperne (medikamenterne) er forskellige:<br />
H0 : α1 = α2 = α3<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 13 / 19<br />
Vigtigt: meningsfulde hypoteser<br />
Det er meningsløst et teste for en gruppeeffekt hvis der er signifikant effekt af<br />
undergrupperne.<br />
For eksempel meningsløst at undersøge om medikamenterne er forskellige hvis<br />
varianterne er forskellige indenfor medikament.<br />
Det svarer fuldstændigt til problemstillingen i den tresidede analyse:<br />
hovedeffekter svarer til grupper<br />
vekselvirkninger svarer til varianter<br />
Generel regel: Test aldrig for en “grov faktor” (grov inddeling) s˚a længe der er en<br />
“finere faktor” (finere inddeling) med i modellen.<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 15 / 19<br />
Kolesterol<br />
I proc glm i SAS:<br />
model konc = med medvar;<br />
Alts˚a gruppe før undergruppe — SAS “tester” bagfra<br />
Konklusioner:<br />
Ikke signifikant forskel p˚a varianter indenfor medikament (p = 0.80)<br />
Klar signifikant forskel p˚a medikamenterne (p = 0.0002 eller p = 0.0021)<br />
“Medikament 2 > medikament 3 > medikament 1” (alle parvise forskelle er<br />
signifikante)<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 14 / 19<br />
Faktordiagrammer<br />
Faktordiagrammer kan hjælpe os til at holde styr p˚a sammenhænge mellem<br />
faktorer.<br />
Diagram over alle relevante faktorer, incl. vekselvirkninger<br />
Pil fra en faktor A til en faktor B hvis A svarer til en finere enddeling af<br />
observationerne end B.<br />
Alternativ formulering: pil fra A til B hvis det er s˚adan at “hvis jeg kender<br />
værdien af A s˚a kender jeg <strong>og</strong>s˚a værdien af B”.<br />
Lav faktordiagrammer for krabber <strong>og</strong> kolesterol.<br />
Reglen er nu: Test aldrig for en faktor A hvis der findes signifikante faktorer “som<br />
peger p˚a” A.<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 16 / 19
Eksempel: havre˚al<br />
Eksempel p˚a mere kompliceret eksperiment med <strong>hierarkiske</strong> faktorer.<br />
Data fra Cochran <strong>og</strong> Cox, Experimental designs.<br />
antallet af havre˚al (en art skadedyr) p˚a marlplots med havre<br />
plottene inddelt i fire marker/blokke<br />
fire skadedyrsmidler (CN, CS, CM, CN) eller ingenting<br />
To doser (1, 2) eller ingenting<br />
specielt alts˚a behandlet eller ikke-behandlet<br />
Interesseret i effekten af skadedyrsmidlerne, herunder brugen af forskellige doser.<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 17 / 19<br />
Resumé — <strong>og</strong> lidt om fremtiden<br />
Overvejelser ved forsøg/data med flere faktorer:<br />
Hvilke hovedeffekter <strong>og</strong> vekselvirkninger skal med i modellen?<br />
Forholder n<strong>og</strong>le af faktorerne sig hierarkisk til hinanden?<br />
Faktordiagram <strong>og</strong> meningsfulde hypoteser:<br />
Overblik over faktorer <strong>og</strong> relevante hypoteser via faktordiagram<br />
Test aldrig for en faktor s˚a længe der er finere faktorer (svarende til finere<br />
inddeling) i modellen. Dette gælder <strong>og</strong>s˚a for vekselvirkninger.<br />
De sidste gange inden jul:<br />
Torsdag d. 11/12: Start p˚a lineær regression<br />
Mandag d. 15/12: Transformation (eks.: havre˚al), projekt fra 2006.<br />
Torsdag d. 18/12: Mere lineær regression — <strong>og</strong> s˚a juleferie.<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 19 / 19<br />
Havre˚al: model mm.<br />
Faktorer <strong>og</strong> deres <strong>hierarkiske</strong> struktur:<br />
Hvilke faktorer er relevante for analysen?<br />
Er der <strong>hierarkiske</strong> faktorer?<br />
Faktordiagram?<br />
Hvilke hypoteser kan vi teste hvorn˚ar?<br />
En anden problemstilling:<br />
antal havre˚al som respons → uacceptabelt residualplot<br />
l<strong>og</strong>(antal havre˚al) som respons → fint residualplot<br />
Mere om transformation af data p˚a mandag!<br />
StatBK (Uge 50, mandag) <strong>Flersidet</strong> ANOVA 18 / 19