26.07.2013 Views

Variansanalyse (ANOVA) - Institutt for matematiske fag - NTNU

Variansanalyse (ANOVA) - Institutt for matematiske fag - NTNU

Variansanalyse (ANOVA) - Institutt for matematiske fag - NTNU

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

ST0202 Statistikk <strong>for</strong> samfunnsvitere<br />

Bo Lindqvist<br />

<strong>Institutt</strong> <strong>for</strong> <strong>matematiske</strong> <strong>fag</strong><br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

Eksempel 12.1: Effekt av temperatur på produsert antall.<br />

Temperaturnivå<br />

68 o F 72 o F 76 o F<br />

Populasjon nr. i = 1 i = 2 i = 3<br />

Utvalg 10 7 3<br />

12 6 3<br />

10 7 5<br />

9 8 4<br />

7<br />

Populasjons- μ1 μ2 μ3<br />

gjennomsnitt<br />

Vil teste: H0 : μ1 = μ2 = μ3<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

2<br />

Kap. 12: <strong>Variansanalyse</strong><br />

Situasjon:<br />

c populasjoner, hver med sitt populasjonsgjennomsnitt μi.<br />

Vi tester<br />

H0: Alle populasjonene har samme gjennomsnitt, dvs.<br />

μ1 = μ2 = ...= μc<br />

Ha: Ikke alle populasjonsgjennomsnittene er like.<br />

(Tilfellet med to populasjoner ble behandlet i kap. 10.)<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

Fra kapittel 10: Testet<br />

H0 : μ1 = μ2 mot μ1 = μ2<br />

t ∗ = ¯x1 − ¯x2 − (μ1 − μ2)<br />

s 2 1<br />

n 1 + s2 2<br />

n 2<br />

Med flere enn to populasjoner, dvs.<br />

H0 : μ1 = μ2 = ...= μc<br />

kunne man teste to og to μ-er, men det ville bli mange tester å<br />

utføre.<br />

Isteden testes ved såkalt variansanalyse (<strong>ANOVA</strong>), der det<br />

regnes ut én testobservator som kombinerer in<strong>for</strong>masjon fra alle<br />

utvalgene.<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16


5<br />

<strong>ANOVA</strong><br />

Antagelser:<br />

• c populasjoner skal sammenlignes<br />

• populasjonsgjennomsnittene er μ1,μ2,...,μc<br />

• populasjonsvariansene σ2 er de samme <strong>for</strong> alle populasjonene<br />

• populasjonene antas normal<strong>for</strong>delte<br />

• populasjonene svarer ofte til ulike nivåer av en faktor, f.eks.<br />

temperatur<br />

• vi har tilfeldige og uavhengige utvalg fra hver populasjon, av<br />

størrelse henholdsvis k1, k2,...,kc<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

7<br />

Kvadratsummer (’Sums of Squares’)<br />

Total Sum of Squares<br />

der<br />

SS(total) = (x − ¯x) 2 = (x 2 ) − ( x) 2<br />

• n er det totale antall observasjoner i alle utvalgene<br />

• ¯x er gjennomsnittet av alle observasjonene (’grand mean’)<br />

• det summeres over alle de n observasjonene<br />

• (Merk: Hvis dette divideres med n − 1 får vi den vanlige s2 .)<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

n<br />

Eksempel 12.1: Effekt av temperatur på produsert antall.<br />

Temperaturnivå<br />

68oF 72oF 76oF Utvalg nr. i = 1 i = 2 i = 3<br />

10 7 3<br />

12 6 3<br />

10 7 5<br />

9 8<br />

7<br />

4<br />

Utvalgsstørrelse k1 = 4 k2 = 5 k3 = 4<br />

Kolonnesum C1 = 41 C2 = 35 C3 = 15<br />

Utvalgsobservatorer<br />

¯x1 = 10.25<br />

s<br />

¯x2 = 7.0 ¯x3 = 3.75<br />

2 1 = 1.5833 s2 2 = 0.5000 s2 Populasjons- μ1 μ2<br />

3 = 0.9167<br />

μ3<br />

parametre σ σ σ<br />

Intuitivt: Forkast H0 : μ1 = μ2 = μ3 dersom ¯x1, ¯x2, ¯x3 er ’tilstrekkelig<br />

<strong>for</strong>skjellige’.<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

Sum of Squares Due to Factor<br />

SS(factor) = k1 (¯x1 − ¯x) 2 + k2 (¯x2 − ¯x) 2 + k3 (¯x3 − ¯x) 2 + ···<br />

der ki er antall i utvalg nr. i, ¯xi er gjennomsnitt i utvalg nr. i og ¯x er<br />

’grand mean’.<br />

Fortolkning: SS(factor) blir stor hvis det er stor <strong>for</strong>skjell mellom<br />

populasjonsgjennomsnittene, dvs. ’stor’ SS(factor) tyder på at H0<br />

skal <strong>for</strong>kastes. SS(factor) <strong>for</strong>tolkes som ’variasjon mellom<br />

populasjoner’.<br />

Regne<strong>for</strong>mel fra boka:<br />

SS(factor) =<br />

<br />

C 2 1<br />

k1<br />

+ C2 2<br />

k2<br />

+ C2 3<br />

k3<br />

<br />

+ ··· − ( x) 2<br />

n<br />

der Ci er kolonnesummer, og n og x gjelder observasjonene i<br />

alle utvalgene.<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16


Sum of Squares Due to Error<br />

SS(error) =(k1− 1) s 2 1 +(k2 − 1) s 2 2 +(k3 − 1) s 2 3 + ···<br />

der ki er antall i utvalg nr. i, s2 i er utvalgsvarians i utvalg nr. i.<br />

Fortolkning: SS(error) <strong>for</strong>tolkes som ’variasjon innen populasjoner’.<br />

Hvis den divideres med n − c er den et punktestimat <strong>for</strong><br />

populasjonsvariansen σ 2 .<br />

Regne<strong>for</strong>mel fra boka:<br />

SS(error) = (x 2 ) −<br />

<br />

C 2 1<br />

k1<br />

+ C2 2<br />

k2<br />

+ C2 3<br />

k3<br />

+ ···<br />

der Ci er kolonnesummer, og (x 2 ) gjelder observasjonene i alle<br />

utvalgene.<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

11<br />

Testobservator <strong>for</strong> <strong>ANOVA</strong><br />

F ∗ = MS(factor)<br />

MS(error)<br />

Hvis H0 gjelder har F ∗ en F -<strong>for</strong>deling med df1 = c − 1og<br />

df2 = n − c frihetsgrader.<br />

<strong>ANOVA</strong>-tabell:<br />

Kilde df SS MS F P<br />

Factor df(factor) SS(factor) MS(factor) F ∗ p-value<br />

Error df(error) SS(error) MS(error)<br />

Total df(total) SS(total)<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

<br />

Frihetsgrader <strong>for</strong> kvadratsummene:<br />

Generelle sammenhenger:<br />

Mean Squares:<br />

df(total) = n − 1<br />

df(factor) = c − 1<br />

df(error) = n − c<br />

SS(total) = SS(factor) + SS(error)<br />

df(total) = df(factor) + df(error)<br />

MS(factor) = SS(factor)<br />

df(factor)<br />

MS(error) = SS(error)<br />

df(error)<br />

Merk at MS(error) er et punktestimat <strong>for</strong> σ 2 .<br />

(Mean Square <strong>for</strong> Factor)<br />

(Mean Square <strong>for</strong> Error)<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

Eksempel 12.1 (<strong>for</strong>ts): Effekt av temperatur på produsert antall.<br />

Her er (x 2 )=10 2 + 12 2 + 10 2 + 9 2 + 7 2 + ···= 731 og<br />

x = 10 + 12 + 10 + 9 + 7 + ···= 91 slik at<br />

SS(total) = (x 2 ) − ( x) 2<br />

= 731 −<br />

n<br />

912<br />

SS(factor) =<br />

= 731 − 637 = 94<br />

<br />

13<br />

C2 1 +<br />

k1<br />

C2 2 +<br />

k2<br />

C2 <br />

3<br />

+ ··· −<br />

k3<br />

( x) 2<br />

=<br />

n<br />

<br />

412 352 152<br />

+ + −<br />

4 5 4<br />

912<br />

= 84.5<br />

13<br />

SS(error) = SS(total) − SS(factor) = 94 − 84.5 = 9.5<br />

(eller bruk egen <strong>for</strong>mel)<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16


<strong>ANOVA</strong>-tabell:<br />

Kilde df SS MS F P<br />

Temperatur 2 84.5 42.25 44.47 0.00001<br />

Error 10 9.5 0.95<br />

Total 12 94.0<br />

F ∗ = MS(factor)<br />

MS(error)<br />

= 42.25<br />

0.95<br />

= 44.47<br />

Hvis H0 gjelder har F ∗ en F -<strong>for</strong>deling med df1 = 3 − 1 = 2og<br />

df2 = 13 − 3 = 10 frihetsgrader.<br />

Tabell 9A: Med α = 0.05 <strong>for</strong>kastes H0 hvis<br />

F ∗ > F (2, 10, 0.05) =4.10, dvs. klar <strong>for</strong>kastning.<br />

p-verdi: P(F > 44.47) =0.00001 (fra CD).<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

Idé bak <strong>ANOVA</strong> (12.3)<br />

• MS(factor) er et mål <strong>for</strong> variasjonen mellom populasjonene<br />

• MS(error) er et mål <strong>for</strong> variasjonen innen populasjonene<br />

• F ∗ er <strong>for</strong>holdet mellom disse, og vi <strong>for</strong>kaster H0 hvis dette blir<br />

<strong>for</strong> stort.<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

Eksempel: Sammenligning av slaglengde <strong>for</strong> ulike typer golfballer.<br />

Type<br />

1 2 3 4 5<br />

Utvalg 286 279 270 284 281<br />

276 277 262 271 293<br />

281 284 277 269 276<br />

274 288 280 275 292<br />

Sum Ci 1117 1128 1083 1099 1142<br />

Gj. snitt ¯xi 279.25 282 272.25 274.75 285.5<br />

Populasjons- μ1 μ2 μ3 μ4 μ5<br />

gjennomsnitt<br />

Vil teste: H0 : μ1 = μ2 = μ3 = μ4 = μ5<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

(x 2 ) = 286 2 + ···+ 292 2 = 1555185<br />

x = 286 + ···+ 292 = 5575<br />

SS(total) = (x 2 ) − ( x) 2<br />

= 1555185 −<br />

n<br />

55752<br />

= 1153.75<br />

<br />

20<br />

C<br />

SS(factor) =<br />

2 <br />

1<br />

− ( x) 2<br />

n<br />

k1<br />

+ C2 2<br />

k2<br />

+ C2 3<br />

k3<br />

+ C2 4<br />

k4<br />

+ C2 5<br />

k5<br />

= 11172 11282 10892 10992 11422 55752<br />

+ + + + −<br />

4 4 4 4 4 20<br />

= 458.5<br />

SS(error) = SS(total) − SS(factor) = 1153.75 − 458.5 = 695.25<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16


<strong>ANOVA</strong>-tabell:<br />

Kilde df SS MS F P<br />

Balltype 4 458.5 114.625 2.47 0.0894<br />

Error 15 695.25 46.35<br />

Total 19 1153.75<br />

F ∗ = MS(factor)<br />

MS(error)<br />

= 114.625<br />

46.35<br />

= 2.47<br />

Hvis H0 gjelder har F ∗ en F -<strong>for</strong>deling med df1 = 5 − 1 = 4og<br />

df2 = 20 − 5 = 15 frihetsgrader.<br />

Tabell 9A: Med α = 0.05 <strong>for</strong>kastes H0 hvis<br />

F ∗ > F (4, 15, 0.05) =3.06, dvs. vi <strong>for</strong>kaster ikke H0.<br />

p-verdi: P(F > 2.47) =0.0894 (fra CD).<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

Fra eksamen 16. desember 2006<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

SS(factor)=68.082 SS(error) = 479.636<br />

<br />

<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

Oppgave: Gitt følgende utvalg fra tre populasjoner:<br />

Populasjon 1 2 3<br />

x 9 7 6<br />

11 9 8<br />

Beregn en komplett <strong>ANOVA</strong>-tabell!<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

Løsning:<br />

<br />

H0 <br />

H1 <br />

F = MS(factor)<br />

MS(error)<br />

H0<br />

SS(factor)/(4 − 1)<br />

= =0.757


Fra eksamen 16. desember 2006 (<strong>for</strong>ts. Oppgave 3)<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16<br />

Løsning (<strong>for</strong>ts.):<br />

<br />

<br />

<br />

H0 <br />

<br />

H1 <br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

H0<br />

t ∗ =<br />

¯d<br />

sD/ √ n =<br />

3.74<br />

1.698/ √ =4.93 >t(4, 0.025) = 2.78<br />

5<br />

<br />

<br />

<br />

<br />

<br />

<br />

www.ntnu.no ST0202, Uke 43, <strong>for</strong>elesn. 16

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!