Variansanalyse (ANOVA) - Institutt for matematiske fag - NTNU
Variansanalyse (ANOVA) - Institutt for matematiske fag - NTNU
Variansanalyse (ANOVA) - Institutt for matematiske fag - NTNU
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
ST0202 Statistikk <strong>for</strong> samfunnsvitere<br />
Bo Lindqvist<br />
<strong>Institutt</strong> <strong>for</strong> <strong>matematiske</strong> <strong>fag</strong><br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
Eksempel 12.1: Effekt av temperatur på produsert antall.<br />
Temperaturnivå<br />
68 o F 72 o F 76 o F<br />
Populasjon nr. i = 1 i = 2 i = 3<br />
Utvalg 10 7 3<br />
12 6 3<br />
10 7 5<br />
9 8 4<br />
7<br />
Populasjons- μ1 μ2 μ3<br />
gjennomsnitt<br />
Vil teste: H0 : μ1 = μ2 = μ3<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
2<br />
Kap. 12: <strong>Variansanalyse</strong><br />
Situasjon:<br />
c populasjoner, hver med sitt populasjonsgjennomsnitt μi.<br />
Vi tester<br />
H0: Alle populasjonene har samme gjennomsnitt, dvs.<br />
μ1 = μ2 = ...= μc<br />
Ha: Ikke alle populasjonsgjennomsnittene er like.<br />
(Tilfellet med to populasjoner ble behandlet i kap. 10.)<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
Fra kapittel 10: Testet<br />
H0 : μ1 = μ2 mot μ1 = μ2<br />
t ∗ = ¯x1 − ¯x2 − (μ1 − μ2)<br />
s 2 1<br />
n 1 + s2 2<br />
n 2<br />
Med flere enn to populasjoner, dvs.<br />
H0 : μ1 = μ2 = ...= μc<br />
kunne man teste to og to μ-er, men det ville bli mange tester å<br />
utføre.<br />
Isteden testes ved såkalt variansanalyse (<strong>ANOVA</strong>), der det<br />
regnes ut én testobservator som kombinerer in<strong>for</strong>masjon fra alle<br />
utvalgene.<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16
5<br />
<strong>ANOVA</strong><br />
Antagelser:<br />
• c populasjoner skal sammenlignes<br />
• populasjonsgjennomsnittene er μ1,μ2,...,μc<br />
• populasjonsvariansene σ2 er de samme <strong>for</strong> alle populasjonene<br />
• populasjonene antas normal<strong>for</strong>delte<br />
• populasjonene svarer ofte til ulike nivåer av en faktor, f.eks.<br />
temperatur<br />
• vi har tilfeldige og uavhengige utvalg fra hver populasjon, av<br />
størrelse henholdsvis k1, k2,...,kc<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
7<br />
Kvadratsummer (’Sums of Squares’)<br />
Total Sum of Squares<br />
der<br />
SS(total) = (x − ¯x) 2 = (x 2 ) − ( x) 2<br />
• n er det totale antall observasjoner i alle utvalgene<br />
• ¯x er gjennomsnittet av alle observasjonene (’grand mean’)<br />
• det summeres over alle de n observasjonene<br />
• (Merk: Hvis dette divideres med n − 1 får vi den vanlige s2 .)<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
n<br />
Eksempel 12.1: Effekt av temperatur på produsert antall.<br />
Temperaturnivå<br />
68oF 72oF 76oF Utvalg nr. i = 1 i = 2 i = 3<br />
10 7 3<br />
12 6 3<br />
10 7 5<br />
9 8<br />
7<br />
4<br />
Utvalgsstørrelse k1 = 4 k2 = 5 k3 = 4<br />
Kolonnesum C1 = 41 C2 = 35 C3 = 15<br />
Utvalgsobservatorer<br />
¯x1 = 10.25<br />
s<br />
¯x2 = 7.0 ¯x3 = 3.75<br />
2 1 = 1.5833 s2 2 = 0.5000 s2 Populasjons- μ1 μ2<br />
3 = 0.9167<br />
μ3<br />
parametre σ σ σ<br />
Intuitivt: Forkast H0 : μ1 = μ2 = μ3 dersom ¯x1, ¯x2, ¯x3 er ’tilstrekkelig<br />
<strong>for</strong>skjellige’.<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
Sum of Squares Due to Factor<br />
SS(factor) = k1 (¯x1 − ¯x) 2 + k2 (¯x2 − ¯x) 2 + k3 (¯x3 − ¯x) 2 + ···<br />
der ki er antall i utvalg nr. i, ¯xi er gjennomsnitt i utvalg nr. i og ¯x er<br />
’grand mean’.<br />
Fortolkning: SS(factor) blir stor hvis det er stor <strong>for</strong>skjell mellom<br />
populasjonsgjennomsnittene, dvs. ’stor’ SS(factor) tyder på at H0<br />
skal <strong>for</strong>kastes. SS(factor) <strong>for</strong>tolkes som ’variasjon mellom<br />
populasjoner’.<br />
Regne<strong>for</strong>mel fra boka:<br />
SS(factor) =<br />
<br />
C 2 1<br />
k1<br />
+ C2 2<br />
k2<br />
+ C2 3<br />
k3<br />
<br />
+ ··· − ( x) 2<br />
n<br />
der Ci er kolonnesummer, og n og x gjelder observasjonene i<br />
alle utvalgene.<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16
Sum of Squares Due to Error<br />
SS(error) =(k1− 1) s 2 1 +(k2 − 1) s 2 2 +(k3 − 1) s 2 3 + ···<br />
der ki er antall i utvalg nr. i, s2 i er utvalgsvarians i utvalg nr. i.<br />
Fortolkning: SS(error) <strong>for</strong>tolkes som ’variasjon innen populasjoner’.<br />
Hvis den divideres med n − c er den et punktestimat <strong>for</strong><br />
populasjonsvariansen σ 2 .<br />
Regne<strong>for</strong>mel fra boka:<br />
SS(error) = (x 2 ) −<br />
<br />
C 2 1<br />
k1<br />
+ C2 2<br />
k2<br />
+ C2 3<br />
k3<br />
+ ···<br />
der Ci er kolonnesummer, og (x 2 ) gjelder observasjonene i alle<br />
utvalgene.<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
11<br />
Testobservator <strong>for</strong> <strong>ANOVA</strong><br />
F ∗ = MS(factor)<br />
MS(error)<br />
Hvis H0 gjelder har F ∗ en F -<strong>for</strong>deling med df1 = c − 1og<br />
df2 = n − c frihetsgrader.<br />
<strong>ANOVA</strong>-tabell:<br />
Kilde df SS MS F P<br />
Factor df(factor) SS(factor) MS(factor) F ∗ p-value<br />
Error df(error) SS(error) MS(error)<br />
Total df(total) SS(total)<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
<br />
Frihetsgrader <strong>for</strong> kvadratsummene:<br />
Generelle sammenhenger:<br />
Mean Squares:<br />
df(total) = n − 1<br />
df(factor) = c − 1<br />
df(error) = n − c<br />
SS(total) = SS(factor) + SS(error)<br />
df(total) = df(factor) + df(error)<br />
MS(factor) = SS(factor)<br />
df(factor)<br />
MS(error) = SS(error)<br />
df(error)<br />
Merk at MS(error) er et punktestimat <strong>for</strong> σ 2 .<br />
(Mean Square <strong>for</strong> Factor)<br />
(Mean Square <strong>for</strong> Error)<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
Eksempel 12.1 (<strong>for</strong>ts): Effekt av temperatur på produsert antall.<br />
Her er (x 2 )=10 2 + 12 2 + 10 2 + 9 2 + 7 2 + ···= 731 og<br />
x = 10 + 12 + 10 + 9 + 7 + ···= 91 slik at<br />
SS(total) = (x 2 ) − ( x) 2<br />
= 731 −<br />
n<br />
912<br />
SS(factor) =<br />
= 731 − 637 = 94<br />
<br />
13<br />
C2 1 +<br />
k1<br />
C2 2 +<br />
k2<br />
C2 <br />
3<br />
+ ··· −<br />
k3<br />
( x) 2<br />
=<br />
n<br />
<br />
412 352 152<br />
+ + −<br />
4 5 4<br />
912<br />
= 84.5<br />
13<br />
SS(error) = SS(total) − SS(factor) = 94 − 84.5 = 9.5<br />
(eller bruk egen <strong>for</strong>mel)<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16
<strong>ANOVA</strong>-tabell:<br />
Kilde df SS MS F P<br />
Temperatur 2 84.5 42.25 44.47 0.00001<br />
Error 10 9.5 0.95<br />
Total 12 94.0<br />
F ∗ = MS(factor)<br />
MS(error)<br />
= 42.25<br />
0.95<br />
= 44.47<br />
Hvis H0 gjelder har F ∗ en F -<strong>for</strong>deling med df1 = 3 − 1 = 2og<br />
df2 = 13 − 3 = 10 frihetsgrader.<br />
Tabell 9A: Med α = 0.05 <strong>for</strong>kastes H0 hvis<br />
F ∗ > F (2, 10, 0.05) =4.10, dvs. klar <strong>for</strong>kastning.<br />
p-verdi: P(F > 44.47) =0.00001 (fra CD).<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
Idé bak <strong>ANOVA</strong> (12.3)<br />
• MS(factor) er et mål <strong>for</strong> variasjonen mellom populasjonene<br />
• MS(error) er et mål <strong>for</strong> variasjonen innen populasjonene<br />
• F ∗ er <strong>for</strong>holdet mellom disse, og vi <strong>for</strong>kaster H0 hvis dette blir<br />
<strong>for</strong> stort.<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
Eksempel: Sammenligning av slaglengde <strong>for</strong> ulike typer golfballer.<br />
Type<br />
1 2 3 4 5<br />
Utvalg 286 279 270 284 281<br />
276 277 262 271 293<br />
281 284 277 269 276<br />
274 288 280 275 292<br />
Sum Ci 1117 1128 1083 1099 1142<br />
Gj. snitt ¯xi 279.25 282 272.25 274.75 285.5<br />
Populasjons- μ1 μ2 μ3 μ4 μ5<br />
gjennomsnitt<br />
Vil teste: H0 : μ1 = μ2 = μ3 = μ4 = μ5<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
(x 2 ) = 286 2 + ···+ 292 2 = 1555185<br />
x = 286 + ···+ 292 = 5575<br />
SS(total) = (x 2 ) − ( x) 2<br />
= 1555185 −<br />
n<br />
55752<br />
= 1153.75<br />
<br />
20<br />
C<br />
SS(factor) =<br />
2 <br />
1<br />
− ( x) 2<br />
n<br />
k1<br />
+ C2 2<br />
k2<br />
+ C2 3<br />
k3<br />
+ C2 4<br />
k4<br />
+ C2 5<br />
k5<br />
= 11172 11282 10892 10992 11422 55752<br />
+ + + + −<br />
4 4 4 4 4 20<br />
= 458.5<br />
SS(error) = SS(total) − SS(factor) = 1153.75 − 458.5 = 695.25<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16
<strong>ANOVA</strong>-tabell:<br />
Kilde df SS MS F P<br />
Balltype 4 458.5 114.625 2.47 0.0894<br />
Error 15 695.25 46.35<br />
Total 19 1153.75<br />
F ∗ = MS(factor)<br />
MS(error)<br />
= 114.625<br />
46.35<br />
= 2.47<br />
Hvis H0 gjelder har F ∗ en F -<strong>for</strong>deling med df1 = 5 − 1 = 4og<br />
df2 = 20 − 5 = 15 frihetsgrader.<br />
Tabell 9A: Med α = 0.05 <strong>for</strong>kastes H0 hvis<br />
F ∗ > F (4, 15, 0.05) =3.06, dvs. vi <strong>for</strong>kaster ikke H0.<br />
p-verdi: P(F > 2.47) =0.0894 (fra CD).<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
Fra eksamen 16. desember 2006<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
SS(factor)=68.082 SS(error) = 479.636<br />
<br />
<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
Oppgave: Gitt følgende utvalg fra tre populasjoner:<br />
Populasjon 1 2 3<br />
x 9 7 6<br />
11 9 8<br />
Beregn en komplett <strong>ANOVA</strong>-tabell!<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
Løsning:<br />
<br />
H0 <br />
H1 <br />
F = MS(factor)<br />
MS(error)<br />
H0<br />
SS(factor)/(4 − 1)<br />
= =0.757
Fra eksamen 16. desember 2006 (<strong>for</strong>ts. Oppgave 3)<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />
Løsning (<strong>for</strong>ts.):<br />
<br />
<br />
<br />
H0 <br />
<br />
H1 <br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
H0<br />
t ∗ =<br />
¯d<br />
sD/ √ n =<br />
3.74<br />
1.698/ √ =4.93 >t(4, 0.025) = 2.78<br />
5<br />
<br />
<br />
<br />
<br />
<br />
<br />
www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16