28.02.2013 Views

Analisi della varianza - Marco Vicentini

Analisi della varianza - Marco Vicentini

Analisi della varianza - Marco Vicentini

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Facoltà di Psicologia<br />

Università di Padova<br />

Anno Accademico 2010-­‐2011<br />

Corso di Psicometria - Modulo B<br />

Dott. <strong>Marco</strong> <strong>Vicentini</strong><br />

marco.vicentini@unipd.it<br />

Rev. 19/01/2011


¡� Confronto tra medie di due campioni<br />

indipendenti<br />

¡� <strong>Analisi</strong> <strong>della</strong> Varianza<br />

§� Il calcolo <strong>della</strong> devianza<br />

§� Le fonti di variabilità e/o errore<br />

§� La distribuzione F e la sua significatività<br />

§� Confronti a coppie<br />

¡� <strong>Analisi</strong> <strong>della</strong> <strong>varianza</strong> con più livelli e fattori


Un esempio numerico<br />

3


¡� Poniamo di aver raccolto dei<br />

dati da un campione A e un<br />

campione B indipendenti.<br />

¡� Vogliamo verificare se i due<br />

campioni appartengono ad<br />

una popolazione con la<br />

medesima media.<br />

A<br />

1<br />

5<br />

4<br />

3<br />

2<br />

B<br />

6<br />

5<br />

4<br />

7<br />

8<br />

4


¡� Prepariamo le informazioni necessarie al<br />

calcolo <strong>della</strong> <strong>varianza</strong> di A e B:<br />

A<br />

1<br />

5<br />

4<br />

3<br />

2<br />

A 2<br />

1<br />

25<br />

16<br />

9<br />

4<br />

B<br />

6<br />

5<br />

4<br />

7<br />

8<br />

B 2<br />

36<br />

25<br />

16<br />

49<br />

81<br />

Σ 15 55 30 190<br />

n = 5<br />

A = 3<br />

B = 6<br />

5


¡� Come primo passo è sempre necessario<br />

verificare l’omogeneità delle varianze,<br />

tramite il test F, con d a =4 e d b =4.<br />

2<br />

! ˆ1<br />

=<br />

( ) 2<br />

X 2<br />

! " ! X<br />

n "1<br />

2 190 " 30<br />

! ˆ 2 =<br />

2<br />

! 1<br />

2<br />

! 2<br />

Fc = ˆ<br />

ˆ<br />

( ) 2<br />

5"1<br />

5<br />

= 2.5<br />

2.5 =1.00<br />

n<br />

= 2.5<br />

= 55" 15<br />

( ) 2<br />

5"1<br />

5<br />

= 2.5<br />

6


¡� Per individuare il valore critico di F per df a = 4<br />

e df b = 4 si procede:<br />

1<br />

2<br />

..<br />

..<br />

4<br />

..<br />

df - numeratore<br />

2 3 4 5<br />

6.39<br />

15.98<br />

Valore critico con<br />

significatività 0.05<br />

Valore critico con<br />

significatività 0.01<br />

7


¡� Il valore critico per α=.05 con d a =4 e d b =4 per<br />

la statistica F è 6.39.<br />

¡� Non possiamo rigettare l’ipotesi H 0 in quanto<br />

il valore calcolato F cal = 1.00 è minore del<br />

valore critico F c = 6.39.<br />

¡� Possiamo concludere che le varianze dei due<br />

campioni sono omogenee.<br />

8


¡� Procediamo con il calcolo <strong>della</strong> statistica t per il<br />

confronto tra medie, calcolando la stima <strong>della</strong><br />

deviazione standard <strong>della</strong> distribuzione<br />

campionaria <strong>della</strong> differenza tra le medie:<br />

ˆ<br />

! x1!x 2 =<br />

ˆ<br />

! x1!x 2 =<br />

2<br />

! ˆ1<br />

n1 !1<br />

( ) + ˆ<br />

n 1 + n 2 ! 2<br />

2.5" 4 + 2.5" 4<br />

5+ 5! 2<br />

2<br />

! 2<br />

n2 !1<br />

( )<br />

1<br />

5<br />

+ 1<br />

5<br />

"<br />

1<br />

n 1<br />

= 5<br />

2<br />

+ 1<br />

n 2<br />

=<br />

2<br />

5 =1<br />

9


¡� La statistica t per il confronto tra medie con<br />

gradi di libertà d= 5+5-­‐2 = 8 assume il valore:<br />

t c = X 1 ! X 2<br />

ˆ<br />

! x1!x 2<br />

= 3! 6<br />

1.00<br />

= !3<br />

1.00<br />

= !3.00<br />

¡� Per α=0.05 e d=8 il valore t crit =2.31.<br />

¡� Essendo t crit


¡� Vedremo di seguito come il test-­‐t applicato al<br />

confronto tra medie non rappresenta che un<br />

caso particolare dell’<strong>Analisi</strong> <strong>della</strong> Varianza.<br />

11


Modello teorico<br />

12


¡� L'analisi sta*s*ca più diffusa per i disegni sperimentali<br />

un cui viene manipolata una variabile indipendente VI<br />

somministrata a sogge7 diversi, assegna*<br />

casualmente a diversi gruppi di tra9amento,<br />

§� I gruppi possono essere chiama* anche livelli del fa2ore.<br />

¡� Consente di definire un indice empirico dell'effe9o<br />

<strong>della</strong> VI, e di paragonare questo indice alla<br />

distribuzione di Fischer che si riscontrano quando<br />

l'ipotesi nulla è vera<br />

§� Ovvero vi è l’assenza di effe7 del tra9amento.<br />

13


¡� Il calcolo dell'indice o rapporto F di Fisher si<br />

effe9ua mediante l'<strong>Analisi</strong> <strong>della</strong> Varianza<br />

(ANOVA) che consente di verificare le ipotesi<br />

paragonando gli indici di variabilità e<br />

precisamente le varianze.<br />

14


¡� Ciascun soggetto contribuisce a determinare<br />

tre devianze:<br />

§� uno scarto dalla media generale<br />

▪ Variabilità totale dei dati osservati (SS T )<br />

§� uno scarto dalla media del suo gruppo<br />

▪ Variabilità non spiegata dall’appartenenza al gruppo (SS err )<br />

§� uno scarto fra la media del suo gruppo e la media<br />

generale<br />

▪ Variabilità spiegata dalla suddivisione in gruppi o dal<br />

fattore a più livelli (SS F )<br />

15


A! B = 4.5<br />

A = 3 B = 6<br />

1 2 3 4 5 6 7 8<br />

Fattore F,<br />

Livelli A e B<br />

A<br />

1<br />

5<br />

4<br />

3<br />

2<br />

A! B<br />

B<br />

6<br />

5<br />

4<br />

7<br />

8<br />

16


Variabilità tra i gruppi<br />

A! B = 4.5<br />

A = 3 B = 6<br />

1 2 3 4 5 6 7 8<br />

Variabilità entro i gruppi<br />

Fattore F,<br />

Livelli A e B<br />

A<br />

1<br />

5<br />

4<br />

3<br />

2<br />

A! B<br />

B<br />

6<br />

5<br />

4<br />

7<br />

8<br />

17


Variabilità tra i gruppi<br />

A! B = 4.5<br />

A = 3 B = 6<br />

1 2 3 4 5 6 7 8<br />

!<br />

Variabilità entro i gruppi<br />

d( a;AB)<br />

= d( a;A)<br />

+ d( A;AB)<br />

Lo scarto di ogni dato dalla media<br />

generale (Y i -­‐ Y T ) può essere<br />

scomposto in due par*:<br />

1. La deviazione rispe9o alla<br />

media del suo gruppo (Y i -­‐ Y A )<br />

2. la deviazione tra la media del<br />

suo gruppo e la media generale<br />

(Y A – Y T )<br />

18


¡� Dato un insieme AUB, è<br />

possibile individuare:<br />

A<br />

1<br />

5<br />

4<br />

3<br />

2<br />

A = 3<br />

B = 6<br />

A! B = 4.5<br />

A i -­‐A<br />

-­‐2<br />

2<br />

1<br />

0<br />

-­‐1<br />

B<br />

6<br />

5<br />

4<br />

7<br />

8<br />

B i -­‐B<br />

0<br />

-­‐1<br />

-­‐2<br />

1<br />

2<br />

AB<br />

1<br />

5<br />

4<br />

3<br />

2<br />

6<br />

5<br />

4<br />

7<br />

8<br />

AB i -­‐AB<br />

-­‐3.5<br />

0.5<br />

-­‐0.5<br />

-­‐1.5<br />

-­‐2.5<br />

1.5<br />

0.5<br />

-­‐0.5<br />

2-­‐5<br />

3.5<br />

19


¡� Da cui si calcolano le sommatorie dei quadrati degli<br />

scarti rispetto alla media:<br />

A<br />

1<br />

5<br />

4<br />

3<br />

2<br />

A i -­‐A Δ 2<br />

-­‐2 4<br />

2 4<br />

1 1<br />

0 0<br />

-­‐1 1<br />

B<br />

6<br />

5<br />

4<br />

7<br />

8<br />

B i -­‐B Δ 2<br />

0 0<br />

-­‐1 1<br />

-­‐2 4<br />

1 1<br />

2 4<br />

Σ 10 10<br />

AB<br />

1<br />

5<br />

4<br />

3<br />

2<br />

6<br />

5<br />

4<br />

7<br />

8<br />

AB i -­‐AB Δ 2<br />

-­‐3.5 12.25<br />

0.5 0.25<br />

-­‐0.5 0.25<br />

-­‐1.5 2.25<br />

-­‐2.5 6.25<br />

1.5 2.25<br />

0.5 0.25<br />

-­‐0.5 0.25<br />

2-­‐5 6.25<br />

3.5 12.25<br />

42.5<br />

20


¡� Dato un insieme AUB, è quindi possibile<br />

individuare:<br />

( Ai ! A)<br />

2<br />

" = A 2 " ! A<br />

( Bi ! B)<br />

2<br />

" = B 2 " ! B<br />

" n = 10<br />

" n = 10<br />

( ABi ! AB)<br />

2<br />

" = AB 2 " ! AB<br />

" n = 42.5<br />

¡� Si veda anche il metodo di calcolo riportato in:<br />

anova-­‐ss.docx<br />

21


¡� Chiameremo:<br />

A<br />

1<br />

5<br />

4<br />

3<br />

2<br />

A i -­‐A Δ 2<br />

-­‐2 4<br />

2 4<br />

1 1<br />

0 0<br />

-­‐1 1<br />

SSerr = 10 + 10<br />

SS tot = 42.5<br />

B<br />

6<br />

5<br />

4<br />

7<br />

8<br />

B i -­‐B Δ 2<br />

0 0<br />

-­‐1 1<br />

-­‐2 4<br />

1 1<br />

2 4<br />

10 10<br />

SSF = 42.5 - ( 10 + 10<br />

=<br />

22.5<br />

)<br />

AB<br />

1<br />

5<br />

4<br />

3<br />

2<br />

6<br />

5<br />

4<br />

7<br />

8<br />

AB i -­‐AB Δ 2<br />

-­‐3.5 12.25<br />

0.5 0.25<br />

-­‐0.5 0.25<br />

-­‐1.5 2.25<br />

-­‐2.5 6.25<br />

1.5 2.25<br />

0.5 0.25<br />

-­‐0.5 0.25<br />

2-­‐5 6.25<br />

3.5 12.25<br />

42.5<br />

AB<br />

3<br />

3<br />

3<br />

3<br />

3<br />

6<br />

6<br />

6<br />

6<br />

6<br />

AB i -­‐AB Δ 2<br />

-­‐1.5 2.25<br />

-­‐1.5 2.25<br />

-­‐1.5 2.25<br />

-­‐1.5 2.25<br />

-­‐1.5 2.25<br />

1.5 2.25<br />

1.5 2.25<br />

1.5 2.25<br />

1.5 2.25<br />

1.5 2.25<br />

22.5<br />

22


¡� SS err : la somma delle variabilità entro i gruppi<br />

▪ chiamata anche variabilità non spiegata, o errore.<br />

SSerr = ( Ai ! A)<br />

2<br />

" + ( Bi ! B)<br />

2<br />

"<br />

¡� SS tot : la variabilità totale<br />

SStot = ( ABi ! AB)<br />

2<br />

"<br />

= 42.5<br />

=10 +10 = 20<br />

¡� SS F : la variabilità tra i gruppi<br />

▪ variabilità dovuta al fattore, ottenuta anche come differenza<br />

tra la variabilità totale e la variabilità non spiegata.<br />

( ) 2<br />

" + " Bi ! AB<br />

SS F = A i ! AB<br />

( ) 2<br />

= SS tot ! SS err = 42.5! 20 = 22.5<br />

= n a #A 2 + n b #B 2 =<br />

23


¡� Medesimi risultati possono essere ottenuti<br />

attraverso la formula semplificata: ( X i " X ) 2<br />

A<br />

1<br />

5<br />

4<br />

3<br />

2<br />

A 2<br />

1<br />

25<br />

16<br />

9<br />

4<br />

B<br />

6<br />

5<br />

4<br />

7<br />

8<br />

B 2<br />

36<br />

25<br />

16<br />

49<br />

81<br />

AB<br />

1<br />

5<br />

4<br />

3<br />

2<br />

6<br />

5<br />

4<br />

7<br />

8<br />

AB 2<br />

1<br />

25<br />

16<br />

9<br />

4<br />

36<br />

25<br />

16<br />

49<br />

15 55 30 190 45 245<br />

81<br />

!<br />

Σ<br />

# = X 2<br />

# " # X<br />

SS A = 55!15 2 5 =10<br />

( ) 2<br />

SS B =190 ! 30 2 5 =10<br />

SS err = SS A + SS B = 20<br />

SS T = 245! 45 2 10 = 42.5<br />

SS F = SS T ! SS err = 22.5<br />

24<br />

n


Si definisce devianza la sommatoria dei quadra* degli scar* di un<br />

elemento x i dalla media del gruppo di appartenenza.<br />

La grandezze delle devianze dipende dal numero degli scar*<br />

considera*.<br />

2 medie (due gruppi) Devianze tra i gruppi<br />

5 soggetti Devianze entro i gruppi<br />

10 soggetti Devianze totale<br />

Devianza media<br />

Varianza<br />

=<br />

Media <strong>della</strong> sommatoria degli scarti quadratici (MS)<br />

25


¡� La “<strong>varianza</strong>” è definita dal rapporto tra la<br />

sommatoria dei quadrati degli scarti (SS) e i<br />

gradi di libertà (d):<br />

MS = SS<br />

d<br />

26


Il numero degli elemen* di un insieme che sono in grado<br />

di variare liberamente senza essere sogge7 a restrizioni<br />

d =<br />

essendo n il numero delle osservazioni indipenden* in<br />

un campione, e perdendosi un grado di libertà nella<br />

s*ma <strong>della</strong> media <strong>della</strong> popolazione, nel calcolo <strong>della</strong><br />

<strong>varianza</strong> si avrà:<br />

d = n !1<br />

numero delle<br />

osservazioni<br />

nel campione<br />

- numero delle<br />

s*me dei<br />

parametri<br />

27


¡� SS F : basandosi sulla somma degli scar*<br />

delle medie dei gruppi dalla media<br />

generale, le osservazioni che possono<br />

variare sono le medie dei gruppi.<br />

¡� Quando si s*ma la media generale dalle<br />

medie dei gruppi queste perdono un<br />

grado di libertà.<br />

df F = k !1<br />

dove k è il numero dei gruppi sperimentali.<br />

Nel nostro esempio k=2, df F =1<br />

SS F = 22.5<br />

28


¡� SS err : si basa sulla somma degli scar*<br />

fra i singoli da* e la media del<br />

proprio gruppo, entro ciascun<br />

gruppo, definendo la media si perde<br />

un grado di libertà.<br />

¡� Poiché la devianza entro i gruppi si<br />

calcola sommando le devianze entro<br />

i gruppi, si sommano anche i rela*vi<br />

gradi di libertà:<br />

dferr = " ni !1 = ntot ! k<br />

SSerr = 10 + 10<br />

29


¡� Avremo così la possibilità di calcolare la<br />

statistica F associata al rapporto tra la<br />

variabilità tra gruppi e la variabilità non<br />

spiegata:<br />

F = SS F df F<br />

SS err df err<br />

= MS F<br />

MS err<br />

30


¡� Si avrà quindi:<br />

F 1,8 =<br />

SS F df F<br />

SS err df err<br />

MS F<br />

MS err<br />

= 22.5 1<br />

= 22.5<br />

2.5<br />

20.0 8 =<br />

Tramite un programma statistico è possibile<br />

calcolare la probabilità associata:<br />

p( F1,8 = 9.0)<br />

= 0.017<br />

= 9.0<br />

O, per un’altra strada … 31


¡� Si individua il valore critico di F per df F = 1 e<br />

df err = 8 :<br />

1<br />

2<br />

..<br />

..<br />

8<br />

..<br />

df - numeratore<br />

1 2 3 4 5<br />

5.32<br />

11.26<br />

Valore critico con<br />

significatività 0.05<br />

Valore critico con<br />

significatività 0.01<br />

32


¡� Il valore cri*co di F CRIT dipende dai gradi di<br />

libertà associa* al numeratore e al<br />

denominatore, e dal livello di significa*vità<br />

scelto (α).<br />

¡� Se la F cal è uguale o superiore al valore cri*co<br />

di F, l'ipotesi nulla H 0 sarà rifiutata.<br />

33


¡� Il valore di F cal(1,8) =9.0 è superiore al valore<br />

critico F crit =5.32<br />

¡� Si può accettare l’ipotesi H 1 che i due gruppi<br />

appartengano a popolazioni differenti,<br />

¡� ovvero che il fattore sia significativo<br />

§� nel porre una differenza tra le medie dei due livelli<br />

o gruppi.<br />

34


Fon$ di variabilità Devianza<br />

(SS)<br />

tra i gruppi (SS F )<br />

anche nota come SS A<br />

entro i gruppi<br />

(SS err )<br />

anche nota come SS S/A<br />

Gradi di libertà<br />

(df)<br />

Varianza<br />

(MS)<br />

22.5 1 22.5<br />

20 8 2.5<br />

Totale (T) 42.5 9<br />

F p<br />

9 0.017 *<br />

35


Fon$ di variabilità Devianza (SS) Gradi di libertà (df) Varianza (MS) F<br />

tra i gruppi (SS F )<br />

anche nota come SS A<br />

entro i gruppi (SS err )<br />

anche nota come SS S/A<br />

SS F k-­‐1 SS F /df F<br />

SS err n-­‐k SS err /df err<br />

Totale (T) SS T n-­‐1<br />

MS F<br />

MS err<br />

36


¡� Le devianze sono addi7ve<br />

I df sono addi7vi<br />

SS T = SS F + SS err 22.5 + 20 42.5<br />

df T = df F + df err 1+8 9<br />

Questa cara9eris*ca perme9e di controllare l'esa9ezza dei calcoli<br />

37


¡� È possibile calcolare la percentuale di<br />

<strong>varianza</strong> spiegata dal modello, altresì<br />

chiamata potenza dell’effetto, tramite:<br />

! 2 = SS F<br />

SS T<br />

= 22.5<br />

42.5<br />

= 0.53<br />

¡� Il 53% <strong>della</strong> <strong>varianza</strong> dei dati è spiegata dal<br />

fattore “gruppo di appartenenza”.<br />

38


¡� Per analizzare i da* di un esperimento mono-­‐<br />

fa9oriale randomizzato, si definiscono le due fon* di<br />

variabilità:<br />

§� l'effe=o del fa=ore sperimentale, ossia dalla somma degli<br />

scar* quadra*ci delle medie dei gruppi rispe9o alla media<br />

generale.<br />

§� l'errore sperimentale, misurato dalla devianza entro i<br />

gruppi, ossia dalla somma degli scar* dei punteggi dei<br />

sogge7 di un gruppo rispe9o alla media di quel gruppo.<br />

§� Le devianze non sono dire9amente rapportabili poiché si<br />

basano su un numero di osservazioni diverse. Per tale<br />

mo*vo viene usata la devianza media.<br />

39


¡� Le varianze sono ottenute calcolando le<br />

medie delle somme degli scarti quadratici<br />

diviso i gradi di libertà.<br />

¡� Il rapporto tra <strong>varianza</strong> tra gruppi e quella<br />

entro i gruppi fornisce l'indice F, ossia una<br />

stima <strong>della</strong> grandezza <strong>della</strong> manipolazione<br />

rispetto all'errore sperimentale<br />

40


Gli assun* su cui si fonda l'uso <strong>della</strong> distribuzione campionaria<br />

delle F riguardano delle cara9eris*che che devono avere<br />

delle popolazioni di un tra9amento:<br />

1) I punteggi si devono distribuire normalmente (assunto <strong>della</strong><br />

normalità dei da*)<br />

2) I punteggi delle popolazioni devono avere varianze<br />

omogenee (assunto <strong>della</strong> omoschedas*cità)<br />

3) I punteggi entro la stessa popolazione e fra popolazioni<br />

diverse devono essere indipenden* l'uno dell'altro (assunto<br />

dell'indipendenza dei punteggi)<br />

42


¡� È interessante osservare<br />

come il risultato di una<br />

ANOVA con un fattore a<br />

due livelli coincida con il<br />

risultato del test t per<br />

campioni indipendenti:<br />

F 1,8 = 9, p(F) = 0.017<br />

t 8 = !3, p(t) = 0.017<br />

dab<br />

0.05 0.10 0.15 0.20 0.25<br />

A U B<br />

1 2 3 4 5 6 7 8<br />

xab<br />

A U B<br />

A<br />

B<br />

43


¡� Ponendo nelle coordinate x={0,1} i corrispettivi valori<br />

di A e B, possiamo calcolare l’eq. di regressione:<br />

X<br />

0<br />

0<br />

0<br />

0<br />

0<br />

1<br />

1<br />

1<br />

1<br />

1<br />

Y<br />

1<br />

5<br />

4<br />

3<br />

2<br />

6<br />

5<br />

4<br />

7<br />

8<br />

A<br />

B<br />

X 2<br />

0<br />

0<br />

0<br />

0<br />

0<br />

1<br />

1<br />

1<br />

1<br />

1<br />

Y 2<br />

1<br />

25<br />

16<br />

9<br />

4<br />

36<br />

25<br />

16<br />

49<br />

64<br />

XY<br />

0<br />

0<br />

0<br />

0<br />

0<br />

6<br />

5<br />

4<br />

7<br />

8<br />

44<br />

! X = 5<br />

! Y = 45<br />

X 2<br />

! = 5<br />

Y 2<br />

! = 245<br />

! XY = 30<br />

b =<br />

30 " 5# 45 10<br />

5" 5 2 10<br />

= 7.5<br />

2.5<br />

a = 45 10 " 3# 5 10 = 3<br />

y $ = 3+ 3x<br />

= 3


¡� Ponendo nelle coordinate x={0,1} i<br />

corrispettivi valori di A e B,<br />

possiamo calcolare la seguente<br />

equazione di regressione:<br />

X<br />

0<br />

0<br />

0<br />

0<br />

0<br />

1<br />

1<br />

1<br />

1<br />

1<br />

Y<br />

1<br />

5<br />

4<br />

3<br />

2<br />

6<br />

5<br />

4<br />

7<br />

8<br />

A<br />

B<br />

y<br />

1 2 3 4 5 6 7 8<br />

y ! = 3+ 3x<br />

A B<br />

Gruppi


¡� Se calcoliamo la significatività del parametro<br />

b otteniamo:<br />

ES b =<br />

t n"2 = b<br />

ES b<br />

! 2<br />

! ( n " 2)<br />

( x " x)<br />

2<br />

!<br />

= 3.0<br />

1.0<br />

=1.0<br />

= 3.0, p(t) = 0.017<br />

46


¡� Tutti i programmi statistici riportano i dati in maniera<br />

equivalente a quanto calcolato:<br />

> y=c(1,5,4,3,2,6,5,4,7,8)!<br />

> x=c(0,0,0,0,0,1,1,1,1,1)!<br />

> summary(lm(y~x))!<br />

!<br />

Coefficients:!<br />

Estimate Std. Error t value Pr(>|t|) !<br />

(Intercept) 3.0000 0.7071 4.243 0.00283 **!<br />

x 3.0000 1.0000 3.000 0.01707 * !<br />

!<br />

R-squared: 0.5294!<br />

F-statistic: 9 on 1 and 8 DF, p-value: 0.01707 !<br />

47


¡� Tutti i programmi statistici riportano i dati in maniera<br />

equivalente a quanto calcolato:<br />

> y=c(1,5,4,3,2,6,5,4,7,8)!<br />

> g=gl(2,5)!<br />

> summary(aov(y~x))!<br />

Analysis of Variance Table!<br />

!<br />

Df Sum Sq Mean Sq F value Pr(>F) !<br />

x 1 22.5 22.5 9 0.01707 *!<br />

Residuals 8 20.0 2.5 !<br />

48


Trattamento<br />

Gruppo A X 1<br />

Gruppo B X 2<br />

Le differenze tra le medie sono dovute all’effe9o del<br />

tra9amento o al caso?<br />

Differenza tra medie delle diverse condizioni sperimentali<br />

X A<br />

X B<br />

Effetto <strong>della</strong> manipolazione <strong>della</strong> VI<br />

Effetto di fattori casuali<br />

Errore sperimentale<br />

Effetto del trattamento<br />

Variabilità tra i gruppi Effe9o del tra9amento + errore<br />

50


Gruppo A<br />

Sog01<br />

Sog02<br />

Sog03<br />

Sog04<br />

Trattamento X 1<br />

X 1<br />

X 1<br />

X 1<br />

X 1<br />

Gruppo B<br />

Sog11<br />

Sog12<br />

Sog13<br />

Sog14<br />

Stesso trattamento Stesso trattamento<br />

Trattamento X 2<br />

Variabilità entro i gruppi differenze dei punteggi individuali<br />

all'interno dello stesso gruppo<br />

X 2<br />

X 2<br />

X 2<br />

X 2<br />

Fornisce una stima dell'errore sperimentale<br />

51


Effetto del trattamento =<br />

Effetto del trattamento =<br />

variabilità tra i gruppi<br />

variabilità entro i gruppi<br />

trattamento + errore sperimentale<br />

errore sperimentale<br />

Un trattamento inefficace dovrebbe avere lo stesso effetto su entrambi i<br />

gruppi quindi:<br />

Effetto del trattamento =<br />

trattamento + errore sperimentale<br />

errore sperimentale<br />

= 1<br />

52


¡� Si è interessa* a sapere quali effe7 hanno alcuni<br />

addi*vi chimici alimentari sui livelli di a7vità dei<br />

bambini ipera7vi.<br />

¡� Sono assegna* casualmente 9 bambini ipera7vi<br />

alla cui dieta è stato aggiunto l'addi*vo chimico<br />

al gruppo A 1 , altre9an* bambini ipera7vi sono<br />

assegna* alla stessa dieta ma senza l’addi*vo<br />

chimico (gruppo A 2 ).<br />

¡� Ci si chiede se l’addi*vo chimico porta in essere<br />

differen* livelli di a7vità nei bambini.<br />

54


I da* riporta* forniscono in indice complessivo<br />

di a7vità psicomotoria:<br />

sogg<br />

Senza additivi<br />

(A1)<br />

Con additivi<br />

sogg<br />

(A2)<br />

Y1,1 31 Y2,1 30<br />

Y1,2 33 Y2,2 28<br />

Y1,3 25 Y2,3 36<br />

Y1,4 28 Y2,4 41<br />

Y1,5 24 Y2,5 29<br />

Y1,6 30 Y2,6 32<br />

Y1,7 31 Y2,7 27<br />

Y1,8 26 Y2,8 35<br />

Y1,9 30 Y2,9 36<br />

55


¡� Come procedere?<br />

1. Grafico delle distribuzioni<br />

2. Calcolo delle sommatorie dei quadrati<br />

3. Verifica <strong>della</strong> omogeneità <strong>della</strong> <strong>varianza</strong><br />

4. Calcolo <strong>della</strong> statistica F<br />

5. Decisione e discussione<br />

56


y<br />

25 30 35 40<br />

¡� Si può costruire un grafico a dispersione<br />

ovvero un boxplot:<br />

A_1 A_2<br />

25 30 35 40<br />

A_1 A_2<br />

57


¡� Calcolo delle sommatorie dei quadrati<br />

A1<br />

A2<br />

31 30<br />

33 28<br />

25 36<br />

28 41<br />

24 29<br />

30 32<br />

31 27<br />

26 35<br />

30 36<br />

A1 2 A2 2<br />

961 900<br />

1089 784<br />

625 1296<br />

784 1681<br />

576 841<br />

900 1024<br />

961 729<br />

676 1225<br />

900 1296<br />

n a = n b = 9<br />

! A1 = 258<br />

! A2 = 294<br />

!<br />

2<br />

A1 = 7472<br />

!<br />

2<br />

A2 = 9776<br />

58


¡� Si verifica l’omogeneità delle varianze, tramite il test<br />

F, con d a =8 e d b =8 (F crit =3.44).<br />

2<br />

s1 =<br />

( ) 2<br />

X 2<br />

! " ! X<br />

n "1<br />

2 9776 " 294<br />

s2 =<br />

9 "1<br />

Fc = s 2<br />

max<br />

2<br />

smin ( ) 2<br />

21.5<br />

=<br />

9.5<br />

9<br />

n<br />

= 2.26<br />

= 7472 " 258<br />

= 21.5<br />

( ) 2<br />

9 "1<br />

¡� Si tratta di due campioni con <strong>varianza</strong> omogenea.<br />

9<br />

= 9.5<br />

59


¡� Si calcolano le sommatorie dei quadrati tra ed<br />

entro i gruppi:<br />

!<br />

!<br />

( ) "<br />

2 2<br />

SST = A1 + A2<br />

SS F = n 1<br />

#<br />

%<br />

%<br />

$<br />

! n1<br />

A 1<br />

SS err = SS T " SS F<br />

#<br />

" %<br />

$<br />

!<br />

A 1 +<br />

! A1 + ! A2 ( ) 2<br />

!<br />

n 1 + n 2<br />

n 1 + n 2<br />

A 2<br />

&&<br />

( (<br />

( (<br />

''<br />

2<br />

#<br />

+ n %<br />

2 %<br />

$<br />

! n2<br />

A 2<br />

#<br />

" %<br />

$<br />

!<br />

A 1 +<br />

!<br />

n 1 + n 2<br />

A 2<br />

&&<br />

( (<br />

( (<br />

''<br />

2<br />

60


¡� Si calcolano le sommatorie dei quadrati tra ed<br />

entro i gruppi:<br />

2 2 ( ! A1 + ! A2 ) SST = ( ! A1 + ! A2 ) "<br />

2<br />

=<br />

SS F<br />

SS err<br />

= 7472 + 9776 "<br />

#<br />

= n %<br />

1%<br />

$<br />

! n1<br />

A 1<br />

#<br />

" %<br />

$<br />

!<br />

n 1 + n 2<br />

( 258+ 294)<br />

2<br />

18<br />

A 1 +<br />

!<br />

n 1 + n 2<br />

= 9 258 # # 258+ 294 &&<br />

% " % ( (<br />

$ 9 $ 18 ''<br />

A 2<br />

2<br />

&&<br />

( (<br />

( (<br />

''<br />

= SS T " SS F = 320 " 72 = 248<br />

2<br />

= 320<br />

#<br />

+ n %<br />

2 %<br />

$<br />

! n2<br />

A 2<br />

#<br />

" %<br />

$<br />

!<br />

A 1 +<br />

+ 9 294 # # 258+ 294 &&<br />

% " % ( (<br />

$ 9 $ 18 ''<br />

!<br />

n 1 + n 2<br />

2<br />

A 2<br />

= 72<br />

&&<br />

( (<br />

( (<br />

''<br />

2<br />

=<br />

61


¡� Calcolo <strong>della</strong> statistica F:<br />

F1,18 = SSF SSerr ( k !1)<br />

n ! k<br />

( )<br />

= 72.0 1<br />

248.0 16<br />

¡� Il valore critico F 1,16 =4.49.<br />

= 4.65<br />

¡� Poiché F cal >F crit possiamo accettare H1, ovvero<br />

l’ipotesi che l’additivo chimico ha prodotto un<br />

cambiamento nei livelli di attività dei bambini.<br />

62


Regola per distribuzioni di F<br />

H 0 viene mantenuta<br />

F=4.49 (valore cri*co di F)<br />

H 0 viene rifiutata<br />

1 2 3 4 5<br />

6<br />

Se la F calcolata è uguale o superiore al valore cri*co di F= 4.49 l'ipotesi nulla sarà<br />

rifiutata.<br />

5%<br />

63


¡� Nel riportare i risulta* in una tesi è molto u*le<br />

riportare la tabella riassun*va dell'analisi <strong>della</strong><br />

<strong>varianza</strong>.<br />

¡� Nei resocon* di ricerca queste sono<br />

generalmente omesse, a meno che il disegno<br />

sperimentale non sia par*colarmente<br />

complesso.<br />

¡� Non dimen*care di riportare le medie dei<br />

gruppi o delle condizioni, poiché senza le medie<br />

i risulta* sono incomple* o poco informa*vi.<br />

64


¡� Assumiamo di avere i seguenti dati,<br />

provenienti da un disegno monofattoriale a 3<br />

livelli:<br />

A1 A2 A3<br />

31 30 36<br />

33 28 35<br />

25 26 33<br />

28 41 28<br />

24 29 29<br />

30 32 40<br />

31 27 45<br />

26 35 39<br />

30 36 35 1 2 3<br />

25 30 35 40 45<br />

67


A1 A2 A3<br />

31 30 36<br />

33 28 35<br />

25 36 33<br />

28 41 28<br />

24 29 29<br />

30 32 40<br />

31 27 45<br />

26 35 39<br />

30 36 35<br />

A 2 1 A 2 2 A 2 3<br />

961 900 1296<br />

1089 784 1225<br />

625 676 1089<br />

784 1681 784<br />

576 841 841<br />

900 1024 1600<br />

961 729 2025<br />

676 1225 1521<br />

900 1296 1225<br />

! A1 = 258<br />

!<br />

2<br />

A1 = 7472<br />

! A2 = 284<br />

!<br />

2<br />

A2 = 9156<br />

! A3 = 320<br />

!<br />

2<br />

A3 =11606<br />

SS A1 = 76<br />

SS A2 =194.22<br />

SS A3 = 228.22<br />

SS err = 498.44<br />

SS tot = 713.85<br />

SS F = 215.41<br />

68


¡� Il risultato dell’ANOVA ci dirà se in generale i<br />

gruppi sono differenti dalla media generale;<br />

SS df MS F p<br />

tra i gruppi 215.41 2 107.70<br />

entro i<br />

gruppi<br />

498.44 24 20.77<br />

5.19 0.013 *<br />

¡� Ma non ci darà alcuna informazione relativa<br />

alle differente dei gruppi tra di loro.<br />

69


¡� Se l’effetto principale è significativo, è possibile<br />

valutare la significatività dei confronti a coppie<br />

§� Un metodo per verificare la significatività delle<br />

differenze è noto come pairwise comparison.<br />

§� Si paragonano due sole condizioni sperimentali,<br />

considerando il rapporto tra:<br />

▪ La <strong>varianza</strong> calcolata sulla base <strong>della</strong> differenza tra le medie.<br />

▪ La <strong>varianza</strong> entro i gruppi o <strong>varianza</strong> d’errore complessiva.<br />

¡� Se l’effetto principale non è significativo, non è<br />

lecito effettuare alcun tipo di test.<br />

70


¡� È possibile calcolare il rapporto tra la <strong>varianza</strong><br />

tra gruppi considerati e la <strong>varianza</strong> d’errore:<br />

F cfr = SS F cfr<br />

¡� Dove:<br />

SS err<br />

( kcfr !1)<br />

n ! k<br />

( )<br />

SS = n ( Fcfr A X " X ) A1 A2<br />

2<br />

2<br />

71


¡� Consideriamo ad esempio il confronto tra le<br />

medie di A 1 (X=28.67) e A 3 (X=35.55):<br />

SS cfrA1 "A 3<br />

F cfrA1"A3<br />

= n ( A X " X ) A1 A2<br />

2<br />

= SScfr ( 2 "1)<br />

A1"A3<br />

( n " k)<br />

SS err<br />

2 = 9 ( "6.89)<br />

2<br />

= 213.62<br />

20.77 =10.28<br />

2 = 213.62<br />

¡� Si identifica il valore critico F crit (1;24)=4.26.<br />

¡� Si conclude che la differenza tra A 1 e A 3 è<br />

statisticamente significativa.<br />

72


¡� Se l’effetto principale è significativo, è anche<br />

possibile effettuare una serie di test-­‐t per<br />

ciascuna coppia, avendo attenzione a<br />

correggere il valore critico di α per il numero<br />

di confronti a coppie (metodo di Bonferroni).<br />

¡� Se l’effetto principale non è significativo, non<br />

è lecito effettuare alcun tipo di test post-­‐hoc.<br />

73


¡� È una statistica molto più potente del t-­‐test e si applica a<br />

disegni molto più complessi (confronto tra medie di più<br />

gruppi e più condizioni).<br />

¡� Si può testare l'effetto di un fattore tenendo sotto<br />

controllo gli altri e si accede alla verifica delle interazioni<br />

tra fattori.<br />

¡� Se si stanno confrontando solo due medie tuttavia ANOVA<br />

fornirà gli stessi (identici) risultati del test t.<br />

§� Per quanto concerne gli aspetti tecnici e di implementazione si<br />

approfondisca l'argomento con la dispensa allegata preparata<br />

dalla dr.ssa Silvia Poli, Uso del programma STATISTICA 6.1, pag.<br />

25-­‐36.<br />

§� Oppure http://www.statsoft.com/textbook/stathome.html


¡� Il termine “analisi <strong>della</strong> <strong>varianza</strong>” deriva dal fatto che, pur<br />

basandosi su una analisi delle medie, la tecnica statistica utilizzata<br />

si basa sulla “scomposizione” <strong>della</strong> variabilità totale dei dati<br />

osservati in due parti:<br />

§� variabilità sperimentale (<strong>varianza</strong> sperimentale o spiegata o tra<br />

gruppi (between groups) detta anche Mean Square Effect, Media del<br />

Quadrato degli Effetti, o MSeffetto) che e dovuta alle variabili<br />

introdotte e studiate dal disegno di ricerca e cioè alla manipolazione<br />

<strong>della</strong> variabile indipendente.<br />

§� variabilità residua o accidentale (<strong>varianza</strong> non spiegata, o di errore, o<br />

entro i gruppi (within groups) detta anche Mean Square Error, Media<br />

del Quadrato dell'Errore o MSerrore) che e dovuta a tutte le condizioni<br />

o variabili non controllabili o non controllate dal disegno stesso.


¡� Ipotesi sperimentali<br />

¡� H 0 : non vi sono differenza tra le medie dei gruppi nella<br />

popolazione<br />

§� ci si può aspettare che la <strong>varianza</strong> stimata sulla base <strong>della</strong> variabilità<br />

tra i gruppi (dovuta alla manipolazione <strong>della</strong> VI) è all'incirca pari a<br />

quella dovuta alla variabilità entro gruppi (variabilità accidentale).<br />

¡� Queste due dimensioni di <strong>varianza</strong> possono essere confrontate<br />

tramite il test F.<br />

§� F = <strong>varianza</strong> tra i gruppi / <strong>varianza</strong> entro i gruppi<br />

¡� Il valore di F è tanto più grande quanto più è grande la <strong>varianza</strong> tra<br />

i gruppi e piccola quella entro i gruppi.<br />

¡� Per valutare se esso è abbastanza grande per rigettare l'ipotesi<br />

nulla si confronta la probabilità associata (p-­‐value) con il livello di<br />

significatività fissato (solitamente 0.05).


¡� H 0<br />

§� Se non possiamo rigettare l'ipotesi nulla<br />

§� possiamo concludere che i campioni provengano dalla stessa<br />

popolazione e quindi la <strong>varianza</strong> tra-­‐i-­‐gruppi e la <strong>varianza</strong> entro-­‐<br />

i-­‐gruppi sono due stime indipendenti <strong>della</strong> stessa <strong>varianza</strong> <strong>della</strong><br />

popolazione.<br />

¡� H 1<br />

§� se la <strong>varianza</strong> tra-­‐i-­‐gruppi è significativamente più grande di<br />

quella entro-­‐i-­‐gruppi,<br />

§� possiamo concludere che la variabilità osservata nella variabile<br />

dipendente è riconducibile alla manipolazione <strong>della</strong> variabile<br />

indipendente.<br />

§� Esiste una differenza tra le medie dei gruppi riconducibile alla<br />

variabile indipendente.


¡� Riassumendo<br />

§� Se il risultato del test F non è significativo è inutile procedere<br />

all'esame delle differenze tra medie particolari, perche vi è il rischio<br />

reale che un certo numero di confronti sia dato come significativo<br />

mentre la maggior parte di essi è dovuto solo alla variabilità casuale.<br />

§� Se invece il risultato del test F è statisticamente significativo vuol dire<br />

che almeno una media risulta essere diversa dalle altre.<br />

¡� Per individuare quale gruppo o quali gruppi differiscono si può<br />

procedere invece in due modi:<br />

§� confronti a priori o contrasti pianificati prima <strong>della</strong> raccolta dati, in<br />

quanto aventi “a priori” un particolare interesse.<br />

§� confronti a posteriori o post-­‐hoc (definiti dopo aver raccolto i dati ed<br />

esaminato le medie, tipicamente tutti i confronti a coppie possibili)


Nota bene:<br />

¡� L'attendibilita del test F nell'analisi <strong>della</strong> <strong>varianza</strong><br />

si basa sulla soddisfazione dei seguenti assunti:<br />

§� normalita <strong>della</strong> distribuzione <strong>della</strong> variabile<br />

dipendente.<br />

▪ Questa si verifica con i test di normalità di Kolmogorov-­‐<br />

Smirnof o di Shapiro-­‐Wilk;<br />

§� estrazione casuale dei campioni <strong>della</strong> popolazione;<br />

§� omogeneita delle varianze dei gruppi.<br />

▪ Si verifica con il test di Levene.


¡� A seconda del numero di Variabili Indipendenti avremo:<br />

§� analisi <strong>della</strong> <strong>varianza</strong> univariata a una via se si ha una sola VI<br />

§� analisi <strong>della</strong> <strong>varianza</strong> fattoriale se si hanno più variabili<br />

indipendenti<br />

¡� A seconda del numero delle Variabili Dipendenti oggetto<br />

di analisi potremmo avere:<br />

§� analisi <strong>della</strong> <strong>varianza</strong> univariata (ANOVA) se è indagata una sola<br />

VD<br />

§� disegni a misure ripetute se la VD è misurata più volte<br />

§� analisi <strong>della</strong> <strong>varianza</strong> multivariata (MANOVA) se sono indagate<br />

diverse VD

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!