Analisi della varianza - Marco Vicentini
Analisi della varianza - Marco Vicentini
Analisi della varianza - Marco Vicentini
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Facoltà di Psicologia<br />
Università di Padova<br />
Anno Accademico 2010-‐2011<br />
Corso di Psicometria - Modulo B<br />
Dott. <strong>Marco</strong> <strong>Vicentini</strong><br />
marco.vicentini@unipd.it<br />
Rev. 19/01/2011
¡� Confronto tra medie di due campioni<br />
indipendenti<br />
¡� <strong>Analisi</strong> <strong>della</strong> Varianza<br />
§� Il calcolo <strong>della</strong> devianza<br />
§� Le fonti di variabilità e/o errore<br />
§� La distribuzione F e la sua significatività<br />
§� Confronti a coppie<br />
¡� <strong>Analisi</strong> <strong>della</strong> <strong>varianza</strong> con più livelli e fattori
Un esempio numerico<br />
3
¡� Poniamo di aver raccolto dei<br />
dati da un campione A e un<br />
campione B indipendenti.<br />
¡� Vogliamo verificare se i due<br />
campioni appartengono ad<br />
una popolazione con la<br />
medesima media.<br />
A<br />
1<br />
5<br />
4<br />
3<br />
2<br />
B<br />
6<br />
5<br />
4<br />
7<br />
8<br />
4
¡� Prepariamo le informazioni necessarie al<br />
calcolo <strong>della</strong> <strong>varianza</strong> di A e B:<br />
A<br />
1<br />
5<br />
4<br />
3<br />
2<br />
A 2<br />
1<br />
25<br />
16<br />
9<br />
4<br />
B<br />
6<br />
5<br />
4<br />
7<br />
8<br />
B 2<br />
36<br />
25<br />
16<br />
49<br />
81<br />
Σ 15 55 30 190<br />
n = 5<br />
A = 3<br />
B = 6<br />
5
¡� Come primo passo è sempre necessario<br />
verificare l’omogeneità delle varianze,<br />
tramite il test F, con d a =4 e d b =4.<br />
2<br />
! ˆ1<br />
=<br />
( ) 2<br />
X 2<br />
! " ! X<br />
n "1<br />
2 190 " 30<br />
! ˆ 2 =<br />
2<br />
! 1<br />
2<br />
! 2<br />
Fc = ˆ<br />
ˆ<br />
( ) 2<br />
5"1<br />
5<br />
= 2.5<br />
2.5 =1.00<br />
n<br />
= 2.5<br />
= 55" 15<br />
( ) 2<br />
5"1<br />
5<br />
= 2.5<br />
6
¡� Per individuare il valore critico di F per df a = 4<br />
e df b = 4 si procede:<br />
1<br />
2<br />
..<br />
..<br />
4<br />
..<br />
df - numeratore<br />
2 3 4 5<br />
6.39<br />
15.98<br />
Valore critico con<br />
significatività 0.05<br />
Valore critico con<br />
significatività 0.01<br />
7
¡� Il valore critico per α=.05 con d a =4 e d b =4 per<br />
la statistica F è 6.39.<br />
¡� Non possiamo rigettare l’ipotesi H 0 in quanto<br />
il valore calcolato F cal = 1.00 è minore del<br />
valore critico F c = 6.39.<br />
¡� Possiamo concludere che le varianze dei due<br />
campioni sono omogenee.<br />
8
¡� Procediamo con il calcolo <strong>della</strong> statistica t per il<br />
confronto tra medie, calcolando la stima <strong>della</strong><br />
deviazione standard <strong>della</strong> distribuzione<br />
campionaria <strong>della</strong> differenza tra le medie:<br />
ˆ<br />
! x1!x 2 =<br />
ˆ<br />
! x1!x 2 =<br />
2<br />
! ˆ1<br />
n1 !1<br />
( ) + ˆ<br />
n 1 + n 2 ! 2<br />
2.5" 4 + 2.5" 4<br />
5+ 5! 2<br />
2<br />
! 2<br />
n2 !1<br />
( )<br />
1<br />
5<br />
+ 1<br />
5<br />
"<br />
1<br />
n 1<br />
= 5<br />
2<br />
+ 1<br />
n 2<br />
=<br />
2<br />
5 =1<br />
9
¡� La statistica t per il confronto tra medie con<br />
gradi di libertà d= 5+5-‐2 = 8 assume il valore:<br />
t c = X 1 ! X 2<br />
ˆ<br />
! x1!x 2<br />
= 3! 6<br />
1.00<br />
= !3<br />
1.00<br />
= !3.00<br />
¡� Per α=0.05 e d=8 il valore t crit =2.31.<br />
¡� Essendo t crit
¡� Vedremo di seguito come il test-‐t applicato al<br />
confronto tra medie non rappresenta che un<br />
caso particolare dell’<strong>Analisi</strong> <strong>della</strong> Varianza.<br />
11
Modello teorico<br />
12
¡� L'analisi sta*s*ca più diffusa per i disegni sperimentali<br />
un cui viene manipolata una variabile indipendente VI<br />
somministrata a sogge7 diversi, assegna*<br />
casualmente a diversi gruppi di tra9amento,<br />
§� I gruppi possono essere chiama* anche livelli del fa2ore.<br />
¡� Consente di definire un indice empirico dell'effe9o<br />
<strong>della</strong> VI, e di paragonare questo indice alla<br />
distribuzione di Fischer che si riscontrano quando<br />
l'ipotesi nulla è vera<br />
§� Ovvero vi è l’assenza di effe7 del tra9amento.<br />
13
¡� Il calcolo dell'indice o rapporto F di Fisher si<br />
effe9ua mediante l'<strong>Analisi</strong> <strong>della</strong> Varianza<br />
(ANOVA) che consente di verificare le ipotesi<br />
paragonando gli indici di variabilità e<br />
precisamente le varianze.<br />
14
¡� Ciascun soggetto contribuisce a determinare<br />
tre devianze:<br />
§� uno scarto dalla media generale<br />
▪ Variabilità totale dei dati osservati (SS T )<br />
§� uno scarto dalla media del suo gruppo<br />
▪ Variabilità non spiegata dall’appartenenza al gruppo (SS err )<br />
§� uno scarto fra la media del suo gruppo e la media<br />
generale<br />
▪ Variabilità spiegata dalla suddivisione in gruppi o dal<br />
fattore a più livelli (SS F )<br />
15
A! B = 4.5<br />
A = 3 B = 6<br />
1 2 3 4 5 6 7 8<br />
Fattore F,<br />
Livelli A e B<br />
A<br />
1<br />
5<br />
4<br />
3<br />
2<br />
A! B<br />
B<br />
6<br />
5<br />
4<br />
7<br />
8<br />
16
Variabilità tra i gruppi<br />
A! B = 4.5<br />
A = 3 B = 6<br />
1 2 3 4 5 6 7 8<br />
Variabilità entro i gruppi<br />
Fattore F,<br />
Livelli A e B<br />
A<br />
1<br />
5<br />
4<br />
3<br />
2<br />
A! B<br />
B<br />
6<br />
5<br />
4<br />
7<br />
8<br />
17
Variabilità tra i gruppi<br />
A! B = 4.5<br />
A = 3 B = 6<br />
1 2 3 4 5 6 7 8<br />
!<br />
Variabilità entro i gruppi<br />
d( a;AB)<br />
= d( a;A)<br />
+ d( A;AB)<br />
Lo scarto di ogni dato dalla media<br />
generale (Y i -‐ Y T ) può essere<br />
scomposto in due par*:<br />
1. La deviazione rispe9o alla<br />
media del suo gruppo (Y i -‐ Y A )<br />
2. la deviazione tra la media del<br />
suo gruppo e la media generale<br />
(Y A – Y T )<br />
18
¡� Dato un insieme AUB, è<br />
possibile individuare:<br />
A<br />
1<br />
5<br />
4<br />
3<br />
2<br />
A = 3<br />
B = 6<br />
A! B = 4.5<br />
A i -‐A<br />
-‐2<br />
2<br />
1<br />
0<br />
-‐1<br />
B<br />
6<br />
5<br />
4<br />
7<br />
8<br />
B i -‐B<br />
0<br />
-‐1<br />
-‐2<br />
1<br />
2<br />
AB<br />
1<br />
5<br />
4<br />
3<br />
2<br />
6<br />
5<br />
4<br />
7<br />
8<br />
AB i -‐AB<br />
-‐3.5<br />
0.5<br />
-‐0.5<br />
-‐1.5<br />
-‐2.5<br />
1.5<br />
0.5<br />
-‐0.5<br />
2-‐5<br />
3.5<br />
19
¡� Da cui si calcolano le sommatorie dei quadrati degli<br />
scarti rispetto alla media:<br />
A<br />
1<br />
5<br />
4<br />
3<br />
2<br />
A i -‐A Δ 2<br />
-‐2 4<br />
2 4<br />
1 1<br />
0 0<br />
-‐1 1<br />
B<br />
6<br />
5<br />
4<br />
7<br />
8<br />
B i -‐B Δ 2<br />
0 0<br />
-‐1 1<br />
-‐2 4<br />
1 1<br />
2 4<br />
Σ 10 10<br />
AB<br />
1<br />
5<br />
4<br />
3<br />
2<br />
6<br />
5<br />
4<br />
7<br />
8<br />
AB i -‐AB Δ 2<br />
-‐3.5 12.25<br />
0.5 0.25<br />
-‐0.5 0.25<br />
-‐1.5 2.25<br />
-‐2.5 6.25<br />
1.5 2.25<br />
0.5 0.25<br />
-‐0.5 0.25<br />
2-‐5 6.25<br />
3.5 12.25<br />
42.5<br />
20
¡� Dato un insieme AUB, è quindi possibile<br />
individuare:<br />
( Ai ! A)<br />
2<br />
" = A 2 " ! A<br />
( Bi ! B)<br />
2<br />
" = B 2 " ! B<br />
" n = 10<br />
" n = 10<br />
( ABi ! AB)<br />
2<br />
" = AB 2 " ! AB<br />
" n = 42.5<br />
¡� Si veda anche il metodo di calcolo riportato in:<br />
anova-‐ss.docx<br />
21
¡� Chiameremo:<br />
A<br />
1<br />
5<br />
4<br />
3<br />
2<br />
A i -‐A Δ 2<br />
-‐2 4<br />
2 4<br />
1 1<br />
0 0<br />
-‐1 1<br />
SSerr = 10 + 10<br />
SS tot = 42.5<br />
B<br />
6<br />
5<br />
4<br />
7<br />
8<br />
B i -‐B Δ 2<br />
0 0<br />
-‐1 1<br />
-‐2 4<br />
1 1<br />
2 4<br />
10 10<br />
SSF = 42.5 - ( 10 + 10<br />
=<br />
22.5<br />
)<br />
AB<br />
1<br />
5<br />
4<br />
3<br />
2<br />
6<br />
5<br />
4<br />
7<br />
8<br />
AB i -‐AB Δ 2<br />
-‐3.5 12.25<br />
0.5 0.25<br />
-‐0.5 0.25<br />
-‐1.5 2.25<br />
-‐2.5 6.25<br />
1.5 2.25<br />
0.5 0.25<br />
-‐0.5 0.25<br />
2-‐5 6.25<br />
3.5 12.25<br />
42.5<br />
AB<br />
3<br />
3<br />
3<br />
3<br />
3<br />
6<br />
6<br />
6<br />
6<br />
6<br />
AB i -‐AB Δ 2<br />
-‐1.5 2.25<br />
-‐1.5 2.25<br />
-‐1.5 2.25<br />
-‐1.5 2.25<br />
-‐1.5 2.25<br />
1.5 2.25<br />
1.5 2.25<br />
1.5 2.25<br />
1.5 2.25<br />
1.5 2.25<br />
22.5<br />
22
¡� SS err : la somma delle variabilità entro i gruppi<br />
▪ chiamata anche variabilità non spiegata, o errore.<br />
SSerr = ( Ai ! A)<br />
2<br />
" + ( Bi ! B)<br />
2<br />
"<br />
¡� SS tot : la variabilità totale<br />
SStot = ( ABi ! AB)<br />
2<br />
"<br />
= 42.5<br />
=10 +10 = 20<br />
¡� SS F : la variabilità tra i gruppi<br />
▪ variabilità dovuta al fattore, ottenuta anche come differenza<br />
tra la variabilità totale e la variabilità non spiegata.<br />
( ) 2<br />
" + " Bi ! AB<br />
SS F = A i ! AB<br />
( ) 2<br />
= SS tot ! SS err = 42.5! 20 = 22.5<br />
= n a #A 2 + n b #B 2 =<br />
23
¡� Medesimi risultati possono essere ottenuti<br />
attraverso la formula semplificata: ( X i " X ) 2<br />
A<br />
1<br />
5<br />
4<br />
3<br />
2<br />
A 2<br />
1<br />
25<br />
16<br />
9<br />
4<br />
B<br />
6<br />
5<br />
4<br />
7<br />
8<br />
B 2<br />
36<br />
25<br />
16<br />
49<br />
81<br />
AB<br />
1<br />
5<br />
4<br />
3<br />
2<br />
6<br />
5<br />
4<br />
7<br />
8<br />
AB 2<br />
1<br />
25<br />
16<br />
9<br />
4<br />
36<br />
25<br />
16<br />
49<br />
15 55 30 190 45 245<br />
81<br />
!<br />
Σ<br />
# = X 2<br />
# " # X<br />
SS A = 55!15 2 5 =10<br />
( ) 2<br />
SS B =190 ! 30 2 5 =10<br />
SS err = SS A + SS B = 20<br />
SS T = 245! 45 2 10 = 42.5<br />
SS F = SS T ! SS err = 22.5<br />
24<br />
n
Si definisce devianza la sommatoria dei quadra* degli scar* di un<br />
elemento x i dalla media del gruppo di appartenenza.<br />
La grandezze delle devianze dipende dal numero degli scar*<br />
considera*.<br />
2 medie (due gruppi) Devianze tra i gruppi<br />
5 soggetti Devianze entro i gruppi<br />
10 soggetti Devianze totale<br />
Devianza media<br />
Varianza<br />
=<br />
Media <strong>della</strong> sommatoria degli scarti quadratici (MS)<br />
25
¡� La “<strong>varianza</strong>” è definita dal rapporto tra la<br />
sommatoria dei quadrati degli scarti (SS) e i<br />
gradi di libertà (d):<br />
MS = SS<br />
d<br />
26
Il numero degli elemen* di un insieme che sono in grado<br />
di variare liberamente senza essere sogge7 a restrizioni<br />
d =<br />
essendo n il numero delle osservazioni indipenden* in<br />
un campione, e perdendosi un grado di libertà nella<br />
s*ma <strong>della</strong> media <strong>della</strong> popolazione, nel calcolo <strong>della</strong><br />
<strong>varianza</strong> si avrà:<br />
d = n !1<br />
numero delle<br />
osservazioni<br />
nel campione<br />
- numero delle<br />
s*me dei<br />
parametri<br />
27
¡� SS F : basandosi sulla somma degli scar*<br />
delle medie dei gruppi dalla media<br />
generale, le osservazioni che possono<br />
variare sono le medie dei gruppi.<br />
¡� Quando si s*ma la media generale dalle<br />
medie dei gruppi queste perdono un<br />
grado di libertà.<br />
df F = k !1<br />
dove k è il numero dei gruppi sperimentali.<br />
Nel nostro esempio k=2, df F =1<br />
SS F = 22.5<br />
28
¡� SS err : si basa sulla somma degli scar*<br />
fra i singoli da* e la media del<br />
proprio gruppo, entro ciascun<br />
gruppo, definendo la media si perde<br />
un grado di libertà.<br />
¡� Poiché la devianza entro i gruppi si<br />
calcola sommando le devianze entro<br />
i gruppi, si sommano anche i rela*vi<br />
gradi di libertà:<br />
dferr = " ni !1 = ntot ! k<br />
SSerr = 10 + 10<br />
29
¡� Avremo così la possibilità di calcolare la<br />
statistica F associata al rapporto tra la<br />
variabilità tra gruppi e la variabilità non<br />
spiegata:<br />
F = SS F df F<br />
SS err df err<br />
= MS F<br />
MS err<br />
30
¡� Si avrà quindi:<br />
F 1,8 =<br />
SS F df F<br />
SS err df err<br />
MS F<br />
MS err<br />
= 22.5 1<br />
= 22.5<br />
2.5<br />
20.0 8 =<br />
Tramite un programma statistico è possibile<br />
calcolare la probabilità associata:<br />
p( F1,8 = 9.0)<br />
= 0.017<br />
= 9.0<br />
O, per un’altra strada … 31
¡� Si individua il valore critico di F per df F = 1 e<br />
df err = 8 :<br />
1<br />
2<br />
..<br />
..<br />
8<br />
..<br />
df - numeratore<br />
1 2 3 4 5<br />
5.32<br />
11.26<br />
Valore critico con<br />
significatività 0.05<br />
Valore critico con<br />
significatività 0.01<br />
32
¡� Il valore cri*co di F CRIT dipende dai gradi di<br />
libertà associa* al numeratore e al<br />
denominatore, e dal livello di significa*vità<br />
scelto (α).<br />
¡� Se la F cal è uguale o superiore al valore cri*co<br />
di F, l'ipotesi nulla H 0 sarà rifiutata.<br />
33
¡� Il valore di F cal(1,8) =9.0 è superiore al valore<br />
critico F crit =5.32<br />
¡� Si può accettare l’ipotesi H 1 che i due gruppi<br />
appartengano a popolazioni differenti,<br />
¡� ovvero che il fattore sia significativo<br />
§� nel porre una differenza tra le medie dei due livelli<br />
o gruppi.<br />
34
Fon$ di variabilità Devianza<br />
(SS)<br />
tra i gruppi (SS F )<br />
anche nota come SS A<br />
entro i gruppi<br />
(SS err )<br />
anche nota come SS S/A<br />
Gradi di libertà<br />
(df)<br />
Varianza<br />
(MS)<br />
22.5 1 22.5<br />
20 8 2.5<br />
Totale (T) 42.5 9<br />
F p<br />
9 0.017 *<br />
35
Fon$ di variabilità Devianza (SS) Gradi di libertà (df) Varianza (MS) F<br />
tra i gruppi (SS F )<br />
anche nota come SS A<br />
entro i gruppi (SS err )<br />
anche nota come SS S/A<br />
SS F k-‐1 SS F /df F<br />
SS err n-‐k SS err /df err<br />
Totale (T) SS T n-‐1<br />
MS F<br />
MS err<br />
36
¡� Le devianze sono addi7ve<br />
I df sono addi7vi<br />
SS T = SS F + SS err 22.5 + 20 42.5<br />
df T = df F + df err 1+8 9<br />
Questa cara9eris*ca perme9e di controllare l'esa9ezza dei calcoli<br />
37
¡� È possibile calcolare la percentuale di<br />
<strong>varianza</strong> spiegata dal modello, altresì<br />
chiamata potenza dell’effetto, tramite:<br />
! 2 = SS F<br />
SS T<br />
= 22.5<br />
42.5<br />
= 0.53<br />
¡� Il 53% <strong>della</strong> <strong>varianza</strong> dei dati è spiegata dal<br />
fattore “gruppo di appartenenza”.<br />
38
¡� Per analizzare i da* di un esperimento mono-‐<br />
fa9oriale randomizzato, si definiscono le due fon* di<br />
variabilità:<br />
§� l'effe=o del fa=ore sperimentale, ossia dalla somma degli<br />
scar* quadra*ci delle medie dei gruppi rispe9o alla media<br />
generale.<br />
§� l'errore sperimentale, misurato dalla devianza entro i<br />
gruppi, ossia dalla somma degli scar* dei punteggi dei<br />
sogge7 di un gruppo rispe9o alla media di quel gruppo.<br />
§� Le devianze non sono dire9amente rapportabili poiché si<br />
basano su un numero di osservazioni diverse. Per tale<br />
mo*vo viene usata la devianza media.<br />
39
¡� Le varianze sono ottenute calcolando le<br />
medie delle somme degli scarti quadratici<br />
diviso i gradi di libertà.<br />
¡� Il rapporto tra <strong>varianza</strong> tra gruppi e quella<br />
entro i gruppi fornisce l'indice F, ossia una<br />
stima <strong>della</strong> grandezza <strong>della</strong> manipolazione<br />
rispetto all'errore sperimentale<br />
40
Gli assun* su cui si fonda l'uso <strong>della</strong> distribuzione campionaria<br />
delle F riguardano delle cara9eris*che che devono avere<br />
delle popolazioni di un tra9amento:<br />
1) I punteggi si devono distribuire normalmente (assunto <strong>della</strong><br />
normalità dei da*)<br />
2) I punteggi delle popolazioni devono avere varianze<br />
omogenee (assunto <strong>della</strong> omoschedas*cità)<br />
3) I punteggi entro la stessa popolazione e fra popolazioni<br />
diverse devono essere indipenden* l'uno dell'altro (assunto<br />
dell'indipendenza dei punteggi)<br />
42
¡� È interessante osservare<br />
come il risultato di una<br />
ANOVA con un fattore a<br />
due livelli coincida con il<br />
risultato del test t per<br />
campioni indipendenti:<br />
F 1,8 = 9, p(F) = 0.017<br />
t 8 = !3, p(t) = 0.017<br />
dab<br />
0.05 0.10 0.15 0.20 0.25<br />
A U B<br />
1 2 3 4 5 6 7 8<br />
xab<br />
A U B<br />
A<br />
B<br />
43
¡� Ponendo nelle coordinate x={0,1} i corrispettivi valori<br />
di A e B, possiamo calcolare l’eq. di regressione:<br />
X<br />
0<br />
0<br />
0<br />
0<br />
0<br />
1<br />
1<br />
1<br />
1<br />
1<br />
Y<br />
1<br />
5<br />
4<br />
3<br />
2<br />
6<br />
5<br />
4<br />
7<br />
8<br />
A<br />
B<br />
X 2<br />
0<br />
0<br />
0<br />
0<br />
0<br />
1<br />
1<br />
1<br />
1<br />
1<br />
Y 2<br />
1<br />
25<br />
16<br />
9<br />
4<br />
36<br />
25<br />
16<br />
49<br />
64<br />
XY<br />
0<br />
0<br />
0<br />
0<br />
0<br />
6<br />
5<br />
4<br />
7<br />
8<br />
44<br />
! X = 5<br />
! Y = 45<br />
X 2<br />
! = 5<br />
Y 2<br />
! = 245<br />
! XY = 30<br />
b =<br />
30 " 5# 45 10<br />
5" 5 2 10<br />
= 7.5<br />
2.5<br />
a = 45 10 " 3# 5 10 = 3<br />
y $ = 3+ 3x<br />
= 3
¡� Ponendo nelle coordinate x={0,1} i<br />
corrispettivi valori di A e B,<br />
possiamo calcolare la seguente<br />
equazione di regressione:<br />
X<br />
0<br />
0<br />
0<br />
0<br />
0<br />
1<br />
1<br />
1<br />
1<br />
1<br />
Y<br />
1<br />
5<br />
4<br />
3<br />
2<br />
6<br />
5<br />
4<br />
7<br />
8<br />
A<br />
B<br />
y<br />
1 2 3 4 5 6 7 8<br />
y ! = 3+ 3x<br />
A B<br />
Gruppi
¡� Se calcoliamo la significatività del parametro<br />
b otteniamo:<br />
ES b =<br />
t n"2 = b<br />
ES b<br />
! 2<br />
! ( n " 2)<br />
( x " x)<br />
2<br />
!<br />
= 3.0<br />
1.0<br />
=1.0<br />
= 3.0, p(t) = 0.017<br />
46
¡� Tutti i programmi statistici riportano i dati in maniera<br />
equivalente a quanto calcolato:<br />
> y=c(1,5,4,3,2,6,5,4,7,8)!<br />
> x=c(0,0,0,0,0,1,1,1,1,1)!<br />
> summary(lm(y~x))!<br />
!<br />
Coefficients:!<br />
Estimate Std. Error t value Pr(>|t|) !<br />
(Intercept) 3.0000 0.7071 4.243 0.00283 **!<br />
x 3.0000 1.0000 3.000 0.01707 * !<br />
!<br />
R-squared: 0.5294!<br />
F-statistic: 9 on 1 and 8 DF, p-value: 0.01707 !<br />
47
¡� Tutti i programmi statistici riportano i dati in maniera<br />
equivalente a quanto calcolato:<br />
> y=c(1,5,4,3,2,6,5,4,7,8)!<br />
> g=gl(2,5)!<br />
> summary(aov(y~x))!<br />
Analysis of Variance Table!<br />
!<br />
Df Sum Sq Mean Sq F value Pr(>F) !<br />
x 1 22.5 22.5 9 0.01707 *!<br />
Residuals 8 20.0 2.5 !<br />
48
Trattamento<br />
Gruppo A X 1<br />
Gruppo B X 2<br />
Le differenze tra le medie sono dovute all’effe9o del<br />
tra9amento o al caso?<br />
Differenza tra medie delle diverse condizioni sperimentali<br />
X A<br />
X B<br />
Effetto <strong>della</strong> manipolazione <strong>della</strong> VI<br />
Effetto di fattori casuali<br />
Errore sperimentale<br />
Effetto del trattamento<br />
Variabilità tra i gruppi Effe9o del tra9amento + errore<br />
50
Gruppo A<br />
Sog01<br />
Sog02<br />
Sog03<br />
Sog04<br />
Trattamento X 1<br />
X 1<br />
X 1<br />
X 1<br />
X 1<br />
Gruppo B<br />
Sog11<br />
Sog12<br />
Sog13<br />
Sog14<br />
Stesso trattamento Stesso trattamento<br />
Trattamento X 2<br />
Variabilità entro i gruppi differenze dei punteggi individuali<br />
all'interno dello stesso gruppo<br />
X 2<br />
X 2<br />
X 2<br />
X 2<br />
Fornisce una stima dell'errore sperimentale<br />
51
Effetto del trattamento =<br />
Effetto del trattamento =<br />
variabilità tra i gruppi<br />
variabilità entro i gruppi<br />
trattamento + errore sperimentale<br />
errore sperimentale<br />
Un trattamento inefficace dovrebbe avere lo stesso effetto su entrambi i<br />
gruppi quindi:<br />
Effetto del trattamento =<br />
trattamento + errore sperimentale<br />
errore sperimentale<br />
= 1<br />
52
¡� Si è interessa* a sapere quali effe7 hanno alcuni<br />
addi*vi chimici alimentari sui livelli di a7vità dei<br />
bambini ipera7vi.<br />
¡� Sono assegna* casualmente 9 bambini ipera7vi<br />
alla cui dieta è stato aggiunto l'addi*vo chimico<br />
al gruppo A 1 , altre9an* bambini ipera7vi sono<br />
assegna* alla stessa dieta ma senza l’addi*vo<br />
chimico (gruppo A 2 ).<br />
¡� Ci si chiede se l’addi*vo chimico porta in essere<br />
differen* livelli di a7vità nei bambini.<br />
54
I da* riporta* forniscono in indice complessivo<br />
di a7vità psicomotoria:<br />
sogg<br />
Senza additivi<br />
(A1)<br />
Con additivi<br />
sogg<br />
(A2)<br />
Y1,1 31 Y2,1 30<br />
Y1,2 33 Y2,2 28<br />
Y1,3 25 Y2,3 36<br />
Y1,4 28 Y2,4 41<br />
Y1,5 24 Y2,5 29<br />
Y1,6 30 Y2,6 32<br />
Y1,7 31 Y2,7 27<br />
Y1,8 26 Y2,8 35<br />
Y1,9 30 Y2,9 36<br />
55
¡� Come procedere?<br />
1. Grafico delle distribuzioni<br />
2. Calcolo delle sommatorie dei quadrati<br />
3. Verifica <strong>della</strong> omogeneità <strong>della</strong> <strong>varianza</strong><br />
4. Calcolo <strong>della</strong> statistica F<br />
5. Decisione e discussione<br />
56
y<br />
25 30 35 40<br />
¡� Si può costruire un grafico a dispersione<br />
ovvero un boxplot:<br />
A_1 A_2<br />
25 30 35 40<br />
A_1 A_2<br />
57
¡� Calcolo delle sommatorie dei quadrati<br />
A1<br />
A2<br />
31 30<br />
33 28<br />
25 36<br />
28 41<br />
24 29<br />
30 32<br />
31 27<br />
26 35<br />
30 36<br />
A1 2 A2 2<br />
961 900<br />
1089 784<br />
625 1296<br />
784 1681<br />
576 841<br />
900 1024<br />
961 729<br />
676 1225<br />
900 1296<br />
n a = n b = 9<br />
! A1 = 258<br />
! A2 = 294<br />
!<br />
2<br />
A1 = 7472<br />
!<br />
2<br />
A2 = 9776<br />
58
¡� Si verifica l’omogeneità delle varianze, tramite il test<br />
F, con d a =8 e d b =8 (F crit =3.44).<br />
2<br />
s1 =<br />
( ) 2<br />
X 2<br />
! " ! X<br />
n "1<br />
2 9776 " 294<br />
s2 =<br />
9 "1<br />
Fc = s 2<br />
max<br />
2<br />
smin ( ) 2<br />
21.5<br />
=<br />
9.5<br />
9<br />
n<br />
= 2.26<br />
= 7472 " 258<br />
= 21.5<br />
( ) 2<br />
9 "1<br />
¡� Si tratta di due campioni con <strong>varianza</strong> omogenea.<br />
9<br />
= 9.5<br />
59
¡� Si calcolano le sommatorie dei quadrati tra ed<br />
entro i gruppi:<br />
!<br />
!<br />
( ) "<br />
2 2<br />
SST = A1 + A2<br />
SS F = n 1<br />
#<br />
%<br />
%<br />
$<br />
! n1<br />
A 1<br />
SS err = SS T " SS F<br />
#<br />
" %<br />
$<br />
!<br />
A 1 +<br />
! A1 + ! A2 ( ) 2<br />
!<br />
n 1 + n 2<br />
n 1 + n 2<br />
A 2<br />
&&<br />
( (<br />
( (<br />
''<br />
2<br />
#<br />
+ n %<br />
2 %<br />
$<br />
! n2<br />
A 2<br />
#<br />
" %<br />
$<br />
!<br />
A 1 +<br />
!<br />
n 1 + n 2<br />
A 2<br />
&&<br />
( (<br />
( (<br />
''<br />
2<br />
60
¡� Si calcolano le sommatorie dei quadrati tra ed<br />
entro i gruppi:<br />
2 2 ( ! A1 + ! A2 ) SST = ( ! A1 + ! A2 ) "<br />
2<br />
=<br />
SS F<br />
SS err<br />
= 7472 + 9776 "<br />
#<br />
= n %<br />
1%<br />
$<br />
! n1<br />
A 1<br />
#<br />
" %<br />
$<br />
!<br />
n 1 + n 2<br />
( 258+ 294)<br />
2<br />
18<br />
A 1 +<br />
!<br />
n 1 + n 2<br />
= 9 258 # # 258+ 294 &&<br />
% " % ( (<br />
$ 9 $ 18 ''<br />
A 2<br />
2<br />
&&<br />
( (<br />
( (<br />
''<br />
= SS T " SS F = 320 " 72 = 248<br />
2<br />
= 320<br />
#<br />
+ n %<br />
2 %<br />
$<br />
! n2<br />
A 2<br />
#<br />
" %<br />
$<br />
!<br />
A 1 +<br />
+ 9 294 # # 258+ 294 &&<br />
% " % ( (<br />
$ 9 $ 18 ''<br />
!<br />
n 1 + n 2<br />
2<br />
A 2<br />
= 72<br />
&&<br />
( (<br />
( (<br />
''<br />
2<br />
=<br />
61
¡� Calcolo <strong>della</strong> statistica F:<br />
F1,18 = SSF SSerr ( k !1)<br />
n ! k<br />
( )<br />
= 72.0 1<br />
248.0 16<br />
¡� Il valore critico F 1,16 =4.49.<br />
= 4.65<br />
¡� Poiché F cal >F crit possiamo accettare H1, ovvero<br />
l’ipotesi che l’additivo chimico ha prodotto un<br />
cambiamento nei livelli di attività dei bambini.<br />
62
Regola per distribuzioni di F<br />
H 0 viene mantenuta<br />
F=4.49 (valore cri*co di F)<br />
H 0 viene rifiutata<br />
1 2 3 4 5<br />
6<br />
Se la F calcolata è uguale o superiore al valore cri*co di F= 4.49 l'ipotesi nulla sarà<br />
rifiutata.<br />
5%<br />
63
¡� Nel riportare i risulta* in una tesi è molto u*le<br />
riportare la tabella riassun*va dell'analisi <strong>della</strong><br />
<strong>varianza</strong>.<br />
¡� Nei resocon* di ricerca queste sono<br />
generalmente omesse, a meno che il disegno<br />
sperimentale non sia par*colarmente<br />
complesso.<br />
¡� Non dimen*care di riportare le medie dei<br />
gruppi o delle condizioni, poiché senza le medie<br />
i risulta* sono incomple* o poco informa*vi.<br />
64
¡� Assumiamo di avere i seguenti dati,<br />
provenienti da un disegno monofattoriale a 3<br />
livelli:<br />
A1 A2 A3<br />
31 30 36<br />
33 28 35<br />
25 26 33<br />
28 41 28<br />
24 29 29<br />
30 32 40<br />
31 27 45<br />
26 35 39<br />
30 36 35 1 2 3<br />
25 30 35 40 45<br />
67
A1 A2 A3<br />
31 30 36<br />
33 28 35<br />
25 36 33<br />
28 41 28<br />
24 29 29<br />
30 32 40<br />
31 27 45<br />
26 35 39<br />
30 36 35<br />
A 2 1 A 2 2 A 2 3<br />
961 900 1296<br />
1089 784 1225<br />
625 676 1089<br />
784 1681 784<br />
576 841 841<br />
900 1024 1600<br />
961 729 2025<br />
676 1225 1521<br />
900 1296 1225<br />
! A1 = 258<br />
!<br />
2<br />
A1 = 7472<br />
! A2 = 284<br />
!<br />
2<br />
A2 = 9156<br />
! A3 = 320<br />
!<br />
2<br />
A3 =11606<br />
SS A1 = 76<br />
SS A2 =194.22<br />
SS A3 = 228.22<br />
SS err = 498.44<br />
SS tot = 713.85<br />
SS F = 215.41<br />
68
¡� Il risultato dell’ANOVA ci dirà se in generale i<br />
gruppi sono differenti dalla media generale;<br />
SS df MS F p<br />
tra i gruppi 215.41 2 107.70<br />
entro i<br />
gruppi<br />
498.44 24 20.77<br />
5.19 0.013 *<br />
¡� Ma non ci darà alcuna informazione relativa<br />
alle differente dei gruppi tra di loro.<br />
69
¡� Se l’effetto principale è significativo, è possibile<br />
valutare la significatività dei confronti a coppie<br />
§� Un metodo per verificare la significatività delle<br />
differenze è noto come pairwise comparison.<br />
§� Si paragonano due sole condizioni sperimentali,<br />
considerando il rapporto tra:<br />
▪ La <strong>varianza</strong> calcolata sulla base <strong>della</strong> differenza tra le medie.<br />
▪ La <strong>varianza</strong> entro i gruppi o <strong>varianza</strong> d’errore complessiva.<br />
¡� Se l’effetto principale non è significativo, non è<br />
lecito effettuare alcun tipo di test.<br />
70
¡� È possibile calcolare il rapporto tra la <strong>varianza</strong><br />
tra gruppi considerati e la <strong>varianza</strong> d’errore:<br />
F cfr = SS F cfr<br />
¡� Dove:<br />
SS err<br />
( kcfr !1)<br />
n ! k<br />
( )<br />
SS = n ( Fcfr A X " X ) A1 A2<br />
2<br />
2<br />
71
¡� Consideriamo ad esempio il confronto tra le<br />
medie di A 1 (X=28.67) e A 3 (X=35.55):<br />
SS cfrA1 "A 3<br />
F cfrA1"A3<br />
= n ( A X " X ) A1 A2<br />
2<br />
= SScfr ( 2 "1)<br />
A1"A3<br />
( n " k)<br />
SS err<br />
2 = 9 ( "6.89)<br />
2<br />
= 213.62<br />
20.77 =10.28<br />
2 = 213.62<br />
¡� Si identifica il valore critico F crit (1;24)=4.26.<br />
¡� Si conclude che la differenza tra A 1 e A 3 è<br />
statisticamente significativa.<br />
72
¡� Se l’effetto principale è significativo, è anche<br />
possibile effettuare una serie di test-‐t per<br />
ciascuna coppia, avendo attenzione a<br />
correggere il valore critico di α per il numero<br />
di confronti a coppie (metodo di Bonferroni).<br />
¡� Se l’effetto principale non è significativo, non<br />
è lecito effettuare alcun tipo di test post-‐hoc.<br />
73
¡� È una statistica molto più potente del t-‐test e si applica a<br />
disegni molto più complessi (confronto tra medie di più<br />
gruppi e più condizioni).<br />
¡� Si può testare l'effetto di un fattore tenendo sotto<br />
controllo gli altri e si accede alla verifica delle interazioni<br />
tra fattori.<br />
¡� Se si stanno confrontando solo due medie tuttavia ANOVA<br />
fornirà gli stessi (identici) risultati del test t.<br />
§� Per quanto concerne gli aspetti tecnici e di implementazione si<br />
approfondisca l'argomento con la dispensa allegata preparata<br />
dalla dr.ssa Silvia Poli, Uso del programma STATISTICA 6.1, pag.<br />
25-‐36.<br />
§� Oppure http://www.statsoft.com/textbook/stathome.html
¡� Il termine “analisi <strong>della</strong> <strong>varianza</strong>” deriva dal fatto che, pur<br />
basandosi su una analisi delle medie, la tecnica statistica utilizzata<br />
si basa sulla “scomposizione” <strong>della</strong> variabilità totale dei dati<br />
osservati in due parti:<br />
§� variabilità sperimentale (<strong>varianza</strong> sperimentale o spiegata o tra<br />
gruppi (between groups) detta anche Mean Square Effect, Media del<br />
Quadrato degli Effetti, o MSeffetto) che e dovuta alle variabili<br />
introdotte e studiate dal disegno di ricerca e cioè alla manipolazione<br />
<strong>della</strong> variabile indipendente.<br />
§� variabilità residua o accidentale (<strong>varianza</strong> non spiegata, o di errore, o<br />
entro i gruppi (within groups) detta anche Mean Square Error, Media<br />
del Quadrato dell'Errore o MSerrore) che e dovuta a tutte le condizioni<br />
o variabili non controllabili o non controllate dal disegno stesso.
¡� Ipotesi sperimentali<br />
¡� H 0 : non vi sono differenza tra le medie dei gruppi nella<br />
popolazione<br />
§� ci si può aspettare che la <strong>varianza</strong> stimata sulla base <strong>della</strong> variabilità<br />
tra i gruppi (dovuta alla manipolazione <strong>della</strong> VI) è all'incirca pari a<br />
quella dovuta alla variabilità entro gruppi (variabilità accidentale).<br />
¡� Queste due dimensioni di <strong>varianza</strong> possono essere confrontate<br />
tramite il test F.<br />
§� F = <strong>varianza</strong> tra i gruppi / <strong>varianza</strong> entro i gruppi<br />
¡� Il valore di F è tanto più grande quanto più è grande la <strong>varianza</strong> tra<br />
i gruppi e piccola quella entro i gruppi.<br />
¡� Per valutare se esso è abbastanza grande per rigettare l'ipotesi<br />
nulla si confronta la probabilità associata (p-‐value) con il livello di<br />
significatività fissato (solitamente 0.05).
¡� H 0<br />
§� Se non possiamo rigettare l'ipotesi nulla<br />
§� possiamo concludere che i campioni provengano dalla stessa<br />
popolazione e quindi la <strong>varianza</strong> tra-‐i-‐gruppi e la <strong>varianza</strong> entro-‐<br />
i-‐gruppi sono due stime indipendenti <strong>della</strong> stessa <strong>varianza</strong> <strong>della</strong><br />
popolazione.<br />
¡� H 1<br />
§� se la <strong>varianza</strong> tra-‐i-‐gruppi è significativamente più grande di<br />
quella entro-‐i-‐gruppi,<br />
§� possiamo concludere che la variabilità osservata nella variabile<br />
dipendente è riconducibile alla manipolazione <strong>della</strong> variabile<br />
indipendente.<br />
§� Esiste una differenza tra le medie dei gruppi riconducibile alla<br />
variabile indipendente.
¡� Riassumendo<br />
§� Se il risultato del test F non è significativo è inutile procedere<br />
all'esame delle differenze tra medie particolari, perche vi è il rischio<br />
reale che un certo numero di confronti sia dato come significativo<br />
mentre la maggior parte di essi è dovuto solo alla variabilità casuale.<br />
§� Se invece il risultato del test F è statisticamente significativo vuol dire<br />
che almeno una media risulta essere diversa dalle altre.<br />
¡� Per individuare quale gruppo o quali gruppi differiscono si può<br />
procedere invece in due modi:<br />
§� confronti a priori o contrasti pianificati prima <strong>della</strong> raccolta dati, in<br />
quanto aventi “a priori” un particolare interesse.<br />
§� confronti a posteriori o post-‐hoc (definiti dopo aver raccolto i dati ed<br />
esaminato le medie, tipicamente tutti i confronti a coppie possibili)
Nota bene:<br />
¡� L'attendibilita del test F nell'analisi <strong>della</strong> <strong>varianza</strong><br />
si basa sulla soddisfazione dei seguenti assunti:<br />
§� normalita <strong>della</strong> distribuzione <strong>della</strong> variabile<br />
dipendente.<br />
▪ Questa si verifica con i test di normalità di Kolmogorov-‐<br />
Smirnof o di Shapiro-‐Wilk;<br />
§� estrazione casuale dei campioni <strong>della</strong> popolazione;<br />
§� omogeneita delle varianze dei gruppi.<br />
▪ Si verifica con il test di Levene.
¡� A seconda del numero di Variabili Indipendenti avremo:<br />
§� analisi <strong>della</strong> <strong>varianza</strong> univariata a una via se si ha una sola VI<br />
§� analisi <strong>della</strong> <strong>varianza</strong> fattoriale se si hanno più variabili<br />
indipendenti<br />
¡� A seconda del numero delle Variabili Dipendenti oggetto<br />
di analisi potremmo avere:<br />
§� analisi <strong>della</strong> <strong>varianza</strong> univariata (ANOVA) se è indagata una sola<br />
VD<br />
§� disegni a misure ripetute se la VD è misurata più volte<br />
§� analisi <strong>della</strong> <strong>varianza</strong> multivariata (MANOVA) se sono indagate<br />
diverse VD