anova_1 - Università del Piemonte Orientale
anova_1 - Università del Piemonte Orientale
anova_1 - Università del Piemonte Orientale
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong><br />
Corsi di Specialità<br />
Corso di Statistica Medica<br />
Analisi dei dati quantitativi :<br />
Analisi <strong>del</strong>la varianza<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in biotecnologie mediche Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad un criterio di classificazione
Analisi di una variabile quantitativa con il confronto tra diversi gruppi di<br />
soggetti:<br />
A. Confronto tra una media campionaria ed una popolazione i cui parametri<br />
sono noti<br />
B. Confronto tra una media campionaria ed una popolazione di cui è nota<br />
la media ma non la deviazione standard<br />
C. Confronto tra 2 campioni appaiati<br />
D. Confronto tra due campioni indipendenti<br />
E. Confronto tra n campioni indipendenti<br />
F. Confronto tra misure ripetute sugli stessi soggetti<br />
Il caso E corrisponde all'analisi <strong>del</strong>la varianza<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in biotecnologie mediche Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad un criterio di classificazione
L'analisi <strong>del</strong>la varianza serve a confrontare tra loro le medie di 3 o più gruppi di<br />
soggetti.<br />
Var.<br />
quantitativa<br />
L’analisi <strong>del</strong>la varianza consente di<br />
valutare quantitativamente<br />
l’importanza <strong>del</strong>le diverse fonti di<br />
variazione nella variabilità osservata<br />
nel corso di un esperimento. Le fonti di<br />
variazione possono<br />
essere:<br />
• sistematiche (sotto controllo <strong>del</strong>lo<br />
sperimentatore);<br />
• casuali (variabilità biologica,<br />
condizioni ambientali,<br />
errore di misura, ecc..)<br />
Var. Categorica<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in biotecnologie mediche Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad un criterio di classificazione
Obiettivo <strong>del</strong>l'analisi è misurare se la differenza tra le medie (variabilità tra<br />
gruppi) è superiore alla variabilità interna a ciascun gruppo (variabilità entro<br />
gruppi).<br />
Si tratta di un metodo molto potente che si presta anche ad analisi molto<br />
complesse.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in biotecnologie mediche Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad un criterio di classificazione
Parliamo di analisi <strong>del</strong>la varianza ad 1 criterio di classificazione quando<br />
consideriamo una sola variabile di ordinamento.<br />
Il livello minimo <strong>del</strong>la variabile di ordinamento è nominale.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in biotecnologie mediche Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad un criterio di classificazione
Partiamo da un esempio con dati sulla resa di una<br />
coltura agricola in relazione al tipo di trattamento<br />
fertilizzante.<br />
La resa è espressa in q.li / ha.<br />
Il tipo di trattamento è una variabile nominale con 3<br />
valori: 1, 2, 3.<br />
Incominciamo con alcune esplorazioni grafiche dei<br />
dati.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica<br />
6<br />
Confronto tra due medie
esa trattam.<br />
6,27 1<br />
5,36 1<br />
6,39 1<br />
4,85 1<br />
5,99 1<br />
7,14 1<br />
5,08 1<br />
4,07 1<br />
4,35 1<br />
4,95 1<br />
3,07 2<br />
3,29 2<br />
4,04 2<br />
4,19 2<br />
3,41 2<br />
3,75 2<br />
4,87 2<br />
3,94 2<br />
6,28 2<br />
3,15 2<br />
4,04 3<br />
3,79 3<br />
4,56 3<br />
4,55 3<br />
4,55 3<br />
4,53 3<br />
3,53 3<br />
3,71 3<br />
7,00 3<br />
4,61 3<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica<br />
7<br />
Confronto tra due medie
Plot dei dati<br />
r esa<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
0 5 10 15 20 25 30 35<br />
Case Number<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 8
Box plot<br />
8<br />
7<br />
6<br />
5<br />
X<br />
4<br />
3<br />
2<br />
1<br />
0<br />
a b c<br />
Group<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 9
Diagramma a punti<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 10
I grafici suggeriscono una differenza tra i tre gruppi.<br />
Vediamo dal grafico seguente che i tre gruppi sono in posizione diversa rispetto<br />
alla media generale, calcolata su tutte le osservazioni.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 11
esa<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
1 2 3<br />
0 5 10 15 20 25 30 35<br />
Case Number<br />
Media<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 12
Com'è distribuita la variabilità in queste osservazioni?<br />
Esaminiamo prima la variabilità totale, poi quella all'interno di ciascun gruppo ed<br />
in ultimo la variabilità <strong>del</strong>le medie dei diversi gruppi.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 13
La variabilità totale<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 14
La variabilità entro gruppi o within groups<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 15
La variabilità tra gruppi (la differenza tra le medie dei diversi gruppi e la media<br />
generale) o between groups<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 16
I dati osservati possono essere rappresentati mediante un mo<strong>del</strong>lo lineare<br />
in cui<br />
yij<br />
=<br />
u i<br />
+ ε<br />
ij<br />
• yij è la generica osservazione <strong>del</strong>l’i-esimo trattamento sulla j-esima unità sperimentale<br />
• u<br />
i è la media <strong>del</strong> trattamento<br />
ε<br />
• ij errore casuale<br />
Generalmente si assume i = 1, . . . , k e j =1, . . . , ni. Se il disegno è bilanciato, n1 = n2 =. . . = np =n.<br />
o più semplicemente:<br />
L'equazione fondamentale <strong>del</strong>l'analisi <strong>del</strong>la varianza<br />
Variabilità totale = variabilità tra gruppi + variabilità entro gruppi<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 17
Ipotesi di lavoro :<br />
H1: non tutti i tre gruppi hanno media uguale (sono possibili diverse<br />
combinazioni)<br />
H0: µ 1 = µ 2 = µ 3 =µ<br />
Vogliamo testare questa ipotesi a un livello di significatività pari a 0.05<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 18
Come costruire il test?<br />
Il test è basato sulla seguente considerazione:<br />
Se è vera l’ipotesi nulla, i dati differiscono tra loro per il solo effetto <strong>del</strong>la<br />
variabilità casuale.<br />
Se invece è vera l’ipotesi alternativa, entrambe le fonti di variabilità<br />
contribuiscono a determinare la variabilità complessiva<br />
Il test è quindi basato sull’analisi <strong>del</strong>la variabilità complessiva in funzione <strong>del</strong>le<br />
diverse cause.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 19
Per questo motivo, anche se il test è sulle medie, la tecnica viene chiamata<br />
Analisi <strong>del</strong>la Varianza.<br />
Assunzione fondamentale:<br />
σ<br />
2 2 2<br />
= = =<br />
1 2<br />
σ<br />
σ 3<br />
σ<br />
2<br />
La variabilità dei dati osservati può essere misurata mediante gli scostamenti<br />
dei dati dalla media.<br />
La devianza totale è definita nel modo seguente:<br />
n<br />
∑<br />
1<br />
_<br />
)<br />
2<br />
( x ij<br />
− x<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 20
La devianza totale può essere scomposta nel modo seguente:<br />
devianza totale= devianza tra i gruppi + devianza entro i gruppi<br />
n<br />
∑<br />
1<br />
_ k _ _ k<br />
2<br />
2<br />
2<br />
( xkj<br />
− x)<br />
= ∑nk<br />
( x k − x)<br />
+ ∑(<br />
nk<br />
−1)<br />
Sk<br />
1<br />
1<br />
Le due quantità sono dette rispettivamente:<br />
• Devianza tra gruppi (trattamenti): misura la quota di variabilità attribuibile<br />
alle differenze trai trattamenti.<br />
• Devianza entro gruppi (d’errore): misura la quota di variabilità imputabile a<br />
tutte le cause non controllate nell’esperimento e all’errore di campionamento<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 21
Se è vera l’ipotesi nulla, ci possiamo attendere uno scarso contributo <strong>del</strong>la<br />
devianza tra gruppi alla devianza totale.<br />
Se è vera l’ipotesi alternativa, ci possiamo attendere che entrambe le<br />
devianze contribuiscano a determinare la devianza totale.<br />
A questo livello non è però possibile fare confronti, perchè le devianze hanno un<br />
numero di addendi diverso.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 22
I gradi di libertà<br />
Ad ognuna <strong>del</strong>le devianze sono associati i gradi di libertà:<br />
• la devianza totale ha nkk − 1 gradi di libertà<br />
• la devianza tra gruppi ha k − 1 gradi di libertà<br />
• la devianza d’errore ha k(nk − 1) gradi di libertà<br />
Le varianze si ottengono dividendo le devianze per i gradi di libertà.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 23
Se l'assunzione <strong>del</strong>la stessa varianza per i diversi gruppi è vera, la variabilità<br />
'entro gruppi' (within groups) sarà uguale nei tre gruppi. La stima migliore di<br />
questa variabilità è la stima pooled (analoga a quella già vista per il test t di<br />
student per gruppi appaiati).<br />
S<br />
2<br />
w<br />
=<br />
k<br />
∑<br />
1<br />
( −1)<br />
n<br />
k<br />
n − k<br />
S<br />
2<br />
k<br />
k= numero dei gruppi<br />
n= numero osservazioni<br />
S<br />
2<br />
k<br />
= varianza nel gruppo k-esimo<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 24
La variabilità 'tra gruppi' (between groups) sarà stimata dalla somma degli<br />
scostamenti tra le medie dei diversi gruppi e la media generale pesati per il<br />
numero di osservazioni nel gruppo (<br />
n<br />
k ), divisa per il numero di gruppi -1 (k - 1) .<br />
S<br />
2<br />
b<br />
=<br />
k<br />
∑<br />
1<br />
n<br />
k<br />
( x − x)<br />
k<br />
k −1<br />
2<br />
k= numero dei gruppi ; n k = numero osservazioni nel gruppo k<br />
xk = media nel gruppo k-esimo<br />
x = media generale<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 25
Il test è basato sul confronto tra la varianza tra trattamenti e la varianza<br />
d’errore.<br />
Se l’ipotesi nulla è vera, le due varianze dovrebbero essere molto simili tra loro,<br />
mentre se l’ipotesi nulla è falsa, la varianza tra trattamenti dovrebbe essere<br />
molto più grande <strong>del</strong>la varianza d’errore.<br />
Se H0 è vera allora la variabilità tra gruppi sarà dovuta solo all'effetto degli errori<br />
casuali e quindi le variabilità tra ed entro gruppi saranno uguali<br />
S =<br />
2 2<br />
b<br />
S w<br />
Se rifiuto H0 allora la variabilità tra i gruppi non è dovuta al solo effetto <strong>del</strong> caso<br />
S ><br />
2 2<br />
b<br />
S w<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 26
Un test in grado di misurare la probabilità di osservare una differenza tra le due<br />
varianze è il test F<br />
F =<br />
S<br />
S<br />
2<br />
b<br />
2<br />
w<br />
Il valore <strong>del</strong> test F viene letto su apposite tavole (es tav. A5 <strong>del</strong> testo di Pagano<br />
e Gavreau o tav.G <strong>del</strong> testo di Daniel).<br />
Il numero di gradi di libertà a numeratore è: numero di gruppi-1<br />
Il numero di gradi di libertà a denominatore è:<br />
numero di soggetti -numero di gruppi<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 27
esa trattam. n media<br />
gruppo<br />
6,27 1 10<br />
5,36 1<br />
6,39 1<br />
4,85 1<br />
5,99 1<br />
7,14 1<br />
5,08 1<br />
4,07 1<br />
4,35 1<br />
4,95 1<br />
3,07 2 10<br />
3,29 2<br />
4,04 2<br />
4,19 2<br />
3,41 2<br />
3,75 2<br />
4,87 2<br />
3,94 2<br />
6,28 2<br />
3,15 2<br />
4,04 3 10<br />
3,79 3<br />
4,56 3<br />
4,55 3<br />
4,55 3<br />
4,53 3<br />
3,53 3<br />
3,71 3<br />
7,00 3<br />
4,61 3<br />
varianza<br />
gruppo<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1<br />
criterio di classificazione 28
Conviene calcolare separatamente le varianze dei diversi gruppi e quindi<br />
inserirle nella formula.<br />
Per convenienza calcolo separatamente i seguenti valori:<br />
Media generale (<strong>del</strong> totale <strong>del</strong>le osservazioni)<br />
Media in ciascun gruppo<br />
Scostamento tra la media <strong>del</strong> gruppo e la media generale<br />
Varianza in ciascun gruppo<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 29
n<br />
media gruppo<br />
mediagruppo -<br />
mediagenerale<br />
varianza nel<br />
gruppo<br />
10 5,445 0,8013 0,9525<br />
10 3,999 -0,6447 0,9443<br />
10 4,487 - 0,1567 0,9501<br />
media generale<br />
4,6434<br />
Numero totale<br />
numero gruppi<br />
30 3<br />
Occorre prestare attenzione al valore <strong>del</strong>la varianza in ciascun gruppo: se le<br />
varianze sono diverse cade un requisito essenziale per la validità <strong>del</strong>l'ANOVA<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 30
Posso quindi calcolare gli addendi alle sommatorie per il calcolo <strong>del</strong>la varianza<br />
tra gruppi ed entro gruppi. Questi addendi corrispondono alle devianze.<br />
S<br />
2<br />
b<br />
=<br />
k<br />
∑<br />
1<br />
n<br />
k<br />
( x − x)<br />
k<br />
k −1<br />
2<br />
S<br />
2<br />
w<br />
=<br />
k<br />
∑<br />
1<br />
( −1)<br />
n<br />
k<br />
n − k<br />
S<br />
2<br />
k<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 31
n media gruppo mediagruppo -<br />
mediagenerale<br />
Devianza tra<br />
10 5,445 0,8013 6,4214<br />
10 3,999 -0,6447 4,1560<br />
10 4,487 - 0,1567 0,2454<br />
media totale<br />
Numero<br />
gruppi<br />
4,6434 3<br />
S<br />
2<br />
b<br />
=<br />
k<br />
∑<br />
1<br />
n<br />
k<br />
( x − x)<br />
k<br />
k −1<br />
2<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 32
n<br />
varianza nel<br />
gruppo<br />
Devianza<br />
entro<br />
10 0,9525 8,5729<br />
10 0,9443 8,4987<br />
10 0,9501 8,5506<br />
numero<br />
totale<br />
Numero<br />
gruppi<br />
30 3<br />
S<br />
2<br />
w<br />
=<br />
k<br />
∑<br />
1<br />
( −1)<br />
n<br />
k<br />
n − k<br />
S<br />
2<br />
k<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 33
Calcolo quindi la varianza tra gruppi, sommando gli addendi e dividendo per i<br />
rispettivi gradi di libertà.<br />
n media gruppo mediagruppo -<br />
mediagenerale<br />
varianza nel<br />
gruppo Devianza tra Devianza<br />
entro<br />
10 5,445 0,8013 0,9525 6,4214 8,5729<br />
10 3,999 -0,6447 0,9443 4,1560 8,4987<br />
10 4,487 - 0,1567 0,9501 0,2454 8,5506<br />
g.l. 2<br />
numero<br />
Numero<br />
media totale<br />
Varianza tra<br />
totale<br />
gruppi<br />
30 4,6434 3 5,4114<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 34
Analogamente per la varianza entro gruppi<br />
n media gruppo mediagruppo -<br />
mediagenerale<br />
varianza nel<br />
gruppo Devianza tra Devianza<br />
entro<br />
10 5,445 0,8013 0,9525 6,4214 8,5729<br />
10 3,999 -0,6447 0,9443 4,1560 8,4987<br />
10 4,487 - 0,1567 0,9501 0,2454 8,5506<br />
g.l. 27<br />
numero<br />
Numero<br />
Varianza<br />
media totale<br />
Varianza tra<br />
totale<br />
gruppi<br />
entro<br />
30 4,6434 3 5,4114 0,9490<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 35
e la statistica F<br />
numero<br />
Numero<br />
Varianza<br />
media totale<br />
Varianza tra<br />
totale<br />
gruppi<br />
entro<br />
30 4,6434 3 5,4114 0,9490<br />
F= 5,4114 / 0,9490 = 5,7024<br />
Il valore <strong>del</strong>la statistica F (2; 27 gl) corrisponde ad una probabilità < 0,001<br />
Il numero di gradi di libertà a numeratore è: numero di gruppi-1<br />
Il numero di gradi di libertà a denominatore è: numero di soggetti -numero di gruppi<br />
Conclusione?<br />
Rifiutiamo l’ipotesi nulla: almeno una media è diversa dalle altre<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 36
Riepilogo dei calcoli<br />
Resa Trattam n<br />
mediagruppo -<br />
media<br />
mediagenerale<br />
gruppo<br />
varianza nel<br />
gruppo<br />
Contributo <strong>del</strong><br />
Contributo <strong>del</strong> gruppo<br />
gruppo alla<br />
alla varianza tra<br />
varianza entro<br />
6,27 1 10 5,445 0,8013 0,9525 6,4214 8,5729<br />
5,36 1<br />
6,39 1<br />
4,85 1<br />
5,99 1<br />
7,14 1<br />
5,08 1<br />
4,07 1<br />
4,35 1<br />
4,95 1<br />
3,07 2 10 3,999 -0,6447 0,9443 4,1560 8,4987<br />
3,29 2<br />
4,04 2<br />
4,19 2<br />
3,41 2<br />
3,75 2<br />
4,87 2<br />
3,94 2<br />
6,28 2<br />
3,15 2<br />
4,04 3 10 4,487 - 0,1567 0,9501 0,2454 8,5506<br />
3,79 3<br />
4,56 3<br />
4,55 3<br />
4,55 3<br />
4,53 3<br />
3,53 3<br />
3,71 3<br />
7 3<br />
4,61 3<br />
numero gruppi numero totale media totale<br />
Varianza tra Varianza entro<br />
3 30 4,6434 5,4114 0,9490<br />
F= 5,7024<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1<br />
criterio di classificazione 37
I valori di probabilità corrispondenti alla distribuzione F si leggono tra F e ∞<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 38
Un'avvertenza per chi usa programmi statistici<br />
La varianza entro gruppi è spesso indicata come:<br />
MS (Mean Sum Squares o Scarto Quadratico Medio) within groups<br />
oppure<br />
Error MS<br />
La varianza tra gruppi è spesso indicata come:<br />
MS between groups<br />
oppure<br />
Effect MS<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 39
Questo è l'output di XLstats, per i dati usati nell'esempio<br />
H 0 : All population means (of resa) are equal<br />
H 1 : Not all population means (of resa) are equal<br />
p-value = 0,008594<br />
Tra<br />
Entro<br />
ANOVA Table<br />
Source DF SS MS F<br />
trattam. 2 10,82275 5,411373 5,702374<br />
Error 27 25,62215 0,948969<br />
Total 29 36,4449<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 40
La devianza entro gruppi è spesso indicata come:<br />
SS (Sum of Squares o Somma degli Scarti Quadratici) within groups<br />
oppure<br />
Error SS<br />
La devianza tra gruppi è spesso indicata come:<br />
SS between groups<br />
oppure<br />
Effect SS<br />
La devianza totale è spesso indicata come:<br />
SS Total<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 41
H 0 : All population means (of resa) are equal<br />
H 1 : Not all population means (of resa) are equal<br />
p-value = 0,008594<br />
Tra<br />
Entro<br />
ANOVA Table<br />
Source DF SS MS F<br />
trattam. 2 10,82275 5,411373 5,702374<br />
Error 27 25,62215 0,948969<br />
Total 29 36,4449<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 42
MS = SS / DF<br />
Varianza = Devianza / Gradi_libertà<br />
H 0 : All population means (of resa) are equal<br />
H 1 : Not all population means (of resa) are equal<br />
p-value = 0,008594<br />
ANOVA Table<br />
Source DF SS MS F<br />
trattam. 2 10,82275 5,411373 5,702374<br />
Error 27 25,62215 0,948969<br />
Total 29 36,4449<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 43
Giunti a questo punto, vogliamo sapere quali sono i gruppi diversi tra loro.<br />
Sono possibili diversi confronti;<br />
gruppo 1 vs. gruppo 2<br />
gruppo 2 vs. gruppo 3<br />
gruppo 1 vs. gruppo 3<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 44
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 45
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 46
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 47
Problema……..<br />
Se conduciamo tutti questi confronti aumenta la probabilità di errore di I tipo<br />
α (0.05), ovvero la probabilità di rifiutare erroneamente l’ipotesi nulla, quando<br />
questa è vera.<br />
1 −α (0.95) è la probabilità di accettare H0 quando H0 è vera, in altri termini è la<br />
probabilità di ottenere un risultato non significativo.<br />
Se testiamo k ipotesi indipendenti la probabilità che i test siano congiuntamente<br />
non significativi è data da ( 1 α)<br />
− *( 1− α)<br />
*( 1− α)<br />
⇒<br />
( 1−<br />
α)<br />
ne consegue che la probabilità di avere almeno un test significativo sarà:<br />
1−<br />
(1 −α)<br />
numeroconfronti<br />
k<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 48
Nel nostro caso con 3 confronti otteniamo:<br />
= 1 - (0,95) 3<br />
= 1- 0,85 = 0,15<br />
L'errore di primo tipo complessivo (che almeno uno dei confronti dia risultato<br />
significativo solo per effetto <strong>del</strong> caso) è <strong>del</strong> 15%, ben superiore al valore<br />
prescelto <strong>del</strong> 5%.<br />
Attenzione: il non tener conto <strong>del</strong>la molteplicità dà luogo ad un aumento <strong>del</strong>la<br />
probabilità di trovare risultati significativi in favore <strong>del</strong>l’ipotesi alternativa, quando<br />
l’ipotesi nulla è vera<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 49
Per ovviare questo inconveniente Bonferroni ha proposto la seguente<br />
correzione:<br />
α ' = α /numero_confronti<br />
La soglia di rifiuto <strong>del</strong>l'ipotesi nulla viene quindi fissata a α / numero_confronti<br />
Il numero di confronti è il numero di confronti che si intende effettuare,<br />
pianificato nel disegno <strong>del</strong>l'analisi statisticaI confronti sono condotti usando il test<br />
t per il confronto tra le medie di due campioni indipendenti. Nella lettura <strong>del</strong><br />
valore di p viene applicata la correzione di Bonferroni.<br />
Riportiamo i risultati dei calcoli eseguiti con il programma XLstats.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 50
Tests for comparing two categories<br />
Categories Cat. 1: b<br />
Cat. 2:<br />
c<br />
Two-Sample t-tests (Differences Between Means, µ)<br />
Sample Data<br />
n 1 10 n 2 10<br />
X 1 3,999 X 2 4,487<br />
s 1 0,97175 s 2 0,974714<br />
Assume equal standard deviations<br />
X1 − X 2 -0,488<br />
SE Difference 0,435243<br />
Hypothesis Tests<br />
Confidence Intervals<br />
H 0 : µ 1 - µ 2 =0 for µ 1 - µ 2<br />
Alternative<br />
> <<br />
≠<br />
Type (2,U,L) 2<br />
Level 0,95<br />
H 1 : µ 1 - µ 2 ≠ 0 ME Lower Upper<br />
T -1,121212 0,918284 -1,406284 0,430284<br />
DF 17<br />
p-value = 0,277786<br />
Power Analysis<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 51
Tests for comparing two categories<br />
Categories Cat. 1: a<br />
Cat. 2:<br />
c<br />
Two-Sample t-tests (Differences Between Means, µ)<br />
Sample Data<br />
n 1 10 n 2 10<br />
X1 5,445 X 2 4,487<br />
s 1 0,975981 s 2 0,974714<br />
Assume equal standard deviations<br />
X1 − X 2 0,958<br />
SE Difference 0,436189<br />
Hypothesis Tests<br />
Confidence Intervals<br />
H 0 : µ 1 - µ 2 =0 for µ 1 - µ 2<br />
Alternative<br />
> <<br />
≠<br />
Type (2,U,L) 2<br />
Level 0,95<br />
H 1 : µ 1 - µ 2 ≠ 0 ME Lower Upper<br />
T 2,196297 0,920279 0,037721 1,878279<br />
DF 17<br />
p-value = 0,042231<br />
Power Analysis<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 52
Tests for comparing two categories<br />
Categories Cat. 1: a<br />
Cat. 2:<br />
b<br />
Two-Sample t-tests (Differences Between Means, µ)<br />
Sample Data<br />
n 1 10 n 2 10<br />
X 1 5,445 X 2 3,999<br />
s 1 0,975981 s 2 0,97175<br />
Assume equal standard deviations<br />
X1 − X 2 1,446<br />
SE Difference 0,435527<br />
Hypothesis Tests<br />
Confidence Intervals<br />
H 0 : µ 1 - µ 2 =0 for µ 1 - µ 2<br />
Alternative<br />
> <<br />
≠<br />
Type (2,U,L) 2<br />
Level 0,95<br />
H 1 : µ 1 - µ 2 ≠ 0 ME Lower Upper<br />
T 3,320116 0,918883 0,527117 2,364883<br />
DF 17<br />
p-value = 0,00405<br />
Power Analysis<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 53
Conclusioni? Quali dei tre confronti sono significativi?<br />
Se siamo interessati ad un errore α complessivo < 0,05<br />
ed applichiamo la correzione di Bonferroni<br />
dovremo considerare solo in confronti il cui valore di p è < 0,05 / 3<br />
p < 0,05 / 3<br />
p < 0,0167<br />
a vs. b -> rifiuto H0<br />
commento: il terreno a cui è stato applicato il trattamento A ha in media una resa migliore rispetto al<br />
terreno a cui è stato applicato il trattamento B<br />
a vs. c -> non rifiuto H0<br />
b vs. c -> non rifiuto H0<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 54
Approfondimento sugli errori conseguenti all'uso <strong>del</strong>l'ANOVA quando i tre gruppi<br />
hanno diverse varianze<br />
In questo esempio la varianza è uguale nei tre gruppi. In simili situazioni la probabilità di<br />
rifiutare l'ipotesi nulla in assenza di differenza nella media dei tre gruppi è simile al valore<br />
nominale (alpha o probabilità <strong>del</strong>l'errore di primo tipo).<br />
Results of 1000 Replication Experiment alpha = .05 alpha = .01<br />
Reject Null Hypothesis 5,6% 0,8%<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 55
In questo esempio la varianza è diversa nei tre gruppi. In simili situazioni la probabilità di<br />
rifiutare l'ipotesi nulla in assenza di differenza nella media dei tre gruppi è<br />
sistematicamente diversa dal valore nominale.<br />
Results of 1000 Replication Experiment alpha = .05 alpha = .01<br />
Reject Null Hypothesis 8,2% 2,0%<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 56
In questo esempio i tre gruppi hanno la stessa varianza e tre medie diverse.<br />
Qui l'analisi <strong>del</strong>la varianza è appropriata<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 57
Approfondimento sulla simulazione di analisi <strong>del</strong>la varianza<br />
Immaginiamo di condurre un esperimento ripetuto 1000 volte con campioni tratti<br />
dalla stessa popolazione: la distribuzione <strong>del</strong>le medie campionarie.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 58
la distribuzione <strong>del</strong>la statistica F.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 59
Il numero di campioni che avrebbe portato al rifiuto <strong>del</strong>l'ipotesi nulla.<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 60
Le corrispondenti immagini nel caso di campioni da tre diverse popolazioni<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 61
Esercizi dal testo<br />
p 226 n 2<br />
p 226 n 4<br />
p 226 n 6<br />
p 226 n 7<br />
p 226 n 8<br />
Università <strong>del</strong> <strong>Piemonte</strong> <strong>Orientale</strong> Corso di laurea in medicina e chirurgia Corso di Statistica Medica Analisi <strong>del</strong>la varianza ad 1 criterio di classificazione 62