Confronto tra la media - Università del Piemonte Orientale

www3.med.unipmn.it

Confronto tra la media - Università del Piemonte Orientale

Università del Piemonte Orientale

Corsi di laurea di area tecnica

Corso di Statistica Medica

Analisi dei dati quantitativi :

Confronto tra due medie

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 1

Consideriamo diverse situazioni, tutte riconducibili

all’analisi di una variabile quantitativa con il confronto

tra diversi gruppi di soggetti:

A. Confronto tra una media campionaria ed una

popolazione i cui parametri sono noti

B. Confronto tra una media campionaria ed una

popolazione di cui è nota la media ma non la

deviazione standard

C. Confronto tra 2 campioni appaiati

D. Confronto tra due campioni indipendenti

E. Confronto tra n campioni indipendenti

F. Confronto tra misure ripetute sugli stessi soggetti

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 2


I casi A e B sono già stati esaminati nella lezione sulle

statistiche campionarie

Il caso E corrisponde all'analisi della varianza

Il caso F non sarà considerato in questo corso.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 3

Riepilogo del caso A: Confronto tra una media campionaria ed

una popolazione i cui parametri sono noti

Siamo interessati al confronto tra la media campionaria e la

media della popolazione. I parametri della distribuzione di

probabilità della variabile nella popolazione (µ e σ) sono noti.

Il processo di verifica dell’ipotesi si svolge secondo

quanto visto in precedenza:

L’ipotesi di lavoro: il campione non è parte dalla popolazione

considerata ma di un’altra popolazione, con media differente.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 4


L’ipotesi nulla: il campione estratto ha media uguale a quella

della popolazione (corrisponde cioè ad un campione tratto da

tale popolazione).

L' errore di primo tipo è fissato al 5% (α=0,05)

L' errore di secondo tipo e la dimensione del campione vengono

definiti in modo appropriato, ad esempio l'errore di secondo tipo

viene fissato al 20% e la dimensione del campione è definita di

conseguenza usando apposite tavole (l'argomento non è ancora

stato trattato).

L’esperimento consiste nell’estrazione di un campione e nel

calcolo della media campionaria.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 5

Il test statistico consiste nel calcolo della deviata normale

standardizzata:

Z = ( X - µ)/ (σ/√n).

X

: media campionaria

Dove

µ: media della popolazione

(σ/√n): errore standard della media (cioè deviazione standard

della media campionaria)

σ: deviazione standard della popolazione

n: numerosità del campione

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 6


Il test è di tipo parametrico, cioè è valido a condizione che

siano validi i presupposti relativi alla distribuzione di

probabilità (gaussiana) della distribuzione delle medie

campionarie.

L’assunzione è generalmente vera dato il teorema del limite

centrale (sempre che n sia sufficientemente grande e la forma

della distribuzione della popolazione non sia troppo

asimmetrica). Nel calcolo della dimensione del campione

occorre quindi anche considerare che la distribuzione di

frequenza di campioni piccoli si differenzia dalla distribuzione

gaussiana maggiormente rispetto alla distribuzione di

frequenza di campioni grandi.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 7

Il valore di probabilità corrispondente al valore |Z| (valore

assoluto di Z) così ottenuto si legge dalla tabella della

distribuzione normale standard.

Se Z>0 viene letto il valore di probabilità compreso tra Z e ∞.

Se Z


Esempio 1

Confronto della pressione sistolica di un gruppo di pazienti affetti

da una forma di arteriopatia con la popolazione generale.

H lavoro= i soggetti considerati, affetti da una rara malattia delle

arterie hanno pressione arteriosa (sistolica) diversa dalla

popolazione generale. L’ipotesi è nata osservando che i primi

casi avevano valori pressori molto elevati.

H 0 = i pazienti appartengono ad una popolazione con media

della pressione sistolica 145 mmHg

La deviazione standard della misura della pressione della

popolazione è nota da precedenti studi ed è pari a 2,53 mmHg;

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 9

test bilaterale ('a due code'; sebbene l’ipotesi di lavoro sia

indirizzata maggiormente verso un rialzo pressorio, non ho

informazioni sufficientemente forti da scegliere un test ad

una coda).

errore 1°tipo =0,05

numerosità campionaria non modificabile poichè sono inclusi tutti i

pazienti disponibili. Non è stata calcolata la potenza statistica

Test statistico: test Z (confronto tra una media campionaria e la

media della popolazione). Il valore del test si legge sulle tabelle

della distribuzione di probabilità normale standard.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 10


Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 11

Requisiti del test scelto:

La deviazione standard della misura della pressione

della popolazione è nota da precedenti studi ed è pari

a 2,53 mmHg;

La distribuzione della variabile nella popolazione è

gaussiana, pertanto anche piccoli campioni saranno

distribuiti secondo tale distribuzione.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 12


I dati:

Obs pressure (mmHg)

1 155

2 145

3 165

4 134

5 154

6 130

7 161

8 139

9 140

10 143

11 157

12 148

13 165

14 152

15 149

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 13

Le statistiche campionarie necessarie per il test

N (dimensione campionaria) 15

Media campionaria 149,14 mmHg (calcolo omesso)

I parametri necessari per il test

µ = 145 mmHg

σ = 2,53 mmHg

Memo: Il valore della statistica Z corrispondente al limite per

il rifiuto dell’ipotesi nulla (dati errore 1° tipo


Il calcolo del test

Z = ( - µ) / (σ/√n).

X

Conclusione = ?

Z = (149,14 - 145) / (2,53/√15) = 6,34

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 15

Il calcolo del test

Z = ( - µ)/ (σ/√n).

X

Z = (149,14 - 145) / (2,53/√15) = 6,34

Conclusione = rifiuto l’ipotesi nulla, i soggetti hanno valori

pressori diversi da quelli della popolazione generale.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 16


Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 17

Esempio 2

Una compagnia di assicurazioni intende controllare quali

agenzie sono troppo severe oppure troppo disponibili nella

valutazione dei danni. Viene effettuato un campione delle

pratiche seguite da ciascuna agenzia. Per rendere omogenea

la popolazione di provenienza vengono esclusi gli incidenti

con feriti e quelli in autostrada.

Il costo medio nella popolazione (tutte le pratiche della

compagnia di assicurazione) (in migliaia di euro) = 1,6.

Deviazione standard della popolazione (in migliaia di euro) =

3,4

H lavoro: L'agenzia xxyy si discosta dai parametri definiti sulla

base della popolazione di tutti gli incidenti dell'anno in corso.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 18


H 0 : l'agenzia non si discosta.

test a due code (interessano entrambi gli scostamenti)

errore 1°tipo = 0,10 (dato il piano di lavoro di controllo)

numerosità campionaria 22 pratiche.

Test statistico: test Z (confronto tra una media

campionaria e la media della popolazione)

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 19

Requisiti del test scelto:

La deviazione standard del costo medio è nota, poichè

il centro di calcolo della compagnia ha tutte le pratiche.

La distribuzione della variabile nella popolazione è

asimmetrica con coda a destra (valori elevati), come

indicato dal centro di calcolo. Viene effettuata una

trasformazione logaritmica per renderla simile alla

gaussiana: dopo la trasformazione anche la distribuzione

di probabilità di piccoli campioni risulta gaussiana.

Il centro di calcolo fornisce µ e σ della popolazione

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 20


I dati

Obs costo

1 1,6

2 1,3

3 0,2

4 3,0

5 2,0

6 0,3

7 1,3

8 0,6

9 2,7

10 0,9

11 5,0

Obs costo

12 1,8

13 1,3

14 1,2

15 0,8

16 2,5

17 2,0

18 1,2

19 7,4

20 0,3

21 0,5

22 1,1

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 21

Variable: costo

Stem Leaf # Boxplot

7 4 1 *

6

5 0 1 0

4

3 0 1 |

2 0057 4 +-----+

1 12233368 8 *--+--*

0 2335689 7 +-----+

----+----+----+----+

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 22


Dati trasformati su scala logaritmica

Obs costo log(costo) Obs costo log(costo)

1 1,6 0,47000

2 1,3 0,26236

3 0,2 -1,60944

4 3,0 1,09861

5 2,0 0,69315

6 0,3 -1,20397

7 1,3 0,26236

8 0,6 -0,51083

9 2,7 0,99325

10 0,9 -0,10536

11 5,0 1,60944

12 1,8 0,58779

13 1,3 0,26236

14 1,2 0,18232

15 0,8 -0,22314

16 2,5 0,91629

17 2,0 0,69315

18 1,2 0,18232

19 7,4 2,00148

20 0,3 -1,20397

21 0,5 -0,69315

22 1,1 0,09531

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 23

Variable: lcosto

Stem Leaf # Boxplot

2 0 1 |

1 6 1 |

1 01 2 |

0 56779 5 +-----+

0 122333 6 *--+--*

-0 21 2 +-----+

-0 75 2 |

-1 22 2 |

-1 6 1 0

----+----+----+----+

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 24


Variable: log(costo) (log e del costo)

N 22

Mean 0,216379

Moments

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 25

Il calcolo del test

Media e deviazione standard della popolazione calcolati dai

logaritmi dei dati originali.

µ’ = 0,262364

σ’ = 0,875469

X = 0,216

Z = ( X - µ’)/ (σ’/√n)

Z = (0,216 - 0,262364) / (0,875469/√22) = - 0,2484

p=0,401

Conclusione = non rifiuto l’ipotesi nulla, quindi l’agenzia non si

discosta dai parametri definiti.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 26


Riepilogo del caso B: Confronto tra una media campionaria ed una

popolazione di cui non si conosce la deviazione standard.

Se non abbiamo informazioni sul parametro (il valore nella

popolazione), usiamo la statistica campionaria, che è stata

calcolata proprio per avere informazioni relative al valore

(ignoto) del parametro nella popolazione.

Si ricorda che l’atteso della varianza campionaria calcolata con

(n-1) al denominatore è una stima non distorta della varianza

della popolazione.

La varianza del campione però è affetta da variabilità casuale

rispetto alla varianza della popolazione, a causa del

campionamento. Pertanto non potremo usare statistiche basate

sulla distribuzione normale standardizzata, che risulterebbe troppo

poco conservativa ma dovremo usare la distribuzione t di Student.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 27

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 28


La probabilità corrispondente all’intervallo tra un dato t e ∞ si

legge su apposite tabelle (es. Appendice 2 del testo consigliato).

Si noti che i valori di probabilità cumulativa esterni ad un dato

valore di t sono maggiori man mano che si riduce il numero di

gradi di libertà.

La distribuzione t per 30 gradi di libertà è praticamente una

distribuzione normale standardizzata.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 29

Confronto tra un campione e la media della popolazione

La formula del test è simile a quella già vista per il calcolo del

test Z, con l'errore standard calcolato dalla deviazione

standard del campione:

t gl = ( - µ)/ (s/√n).

X

X : media campionaria

µ: media della popolazione

s: deviazione standard del campione

(s/√n): errore standard della media (cioè dev. standard

della media campionaria)

n: numerosità del campione

il numero di gradi di libertà è gl= n-1

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 30


Il test è di tipo parametrico, cioè è valido a condizione che:

la distribuzione delle medie campionarie sia

gaussiana;

• il campione stimi la varianza della popolazione.

La prima assunzione è generalmente vera dato il teorema

del limite centrale (sempre che n sia sufficientemente

grande e la forma della distribuzione della popolazione non

sia troppo asimmetrica).

La seconda assunzione è vera se vale H 0 (il campione

appartiene alla popolazione), mentre non è valutabile

altrimenti.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 31

Esempio

Confronto della pressione sistolica tra un gruppo di pazienti

affetti da una forma di arteriopatia con la popolazione

generale (è l’esempio precedente, sviluppato senza fare uso

dell’ informazione sulla deviazione standard della

popolazione).

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 32


H lavoro= i soggetti considerati, affetti da una rara malattia

delle arterie hanno pressione arteriosa (sistolica) diversa

dalla popolazione generale. L’ipotesi è nata osservando che

i primi casi diagnosticati avevano valori pressori molto

elevati

H 0 = media della popolazione: pressione sistolica 145 mmHg

test a due code (sebbene l’ipotesi di lavoro sia indirizzata

maggiormente verso un rialzo pressorio, non ho informazioni

sufficientemente forti da scegliere un test ad una coda)

errore 1°tipo = 0,05

numerosità campionaria non modificabile poiché sono

inclusi tutti i pazienti disponibili. Non è stata calcolata la

potenza statistica

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 33

Test statistico: test t

(confronto tra una media campionaria e la media della

popolazione, senza dati sulla deviazione standard della

popolazione).

Verifica dei requisiti del test scelto:

La deviazione standard della misura della pressione della

popolazione non è nota.

La distribuzione della variabile nella popolazione è

gaussiana, pertanto anche piccoli campioni saranno

distribuiti secondo tale distribuzione.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 34


I dati individuali:

Obs pressure (mmHg)

1 155

2 145

3 165

4 134

5 154

6 130

7 161

8 139

9 140

10 143

11 157

12 148

13 165

14 152

15 149

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 35

Le statistiche campionarie

N 15

Mean 149,13

Std Deviation 10,72

Variance 114,98

(nota: si tratta di un campione 'sfortunato' poichè la

varianza del campione è attesa simile a quella della

popolazione).

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 36


I dati necessari per il test

µ = 145 mmHg

media campione = 149,13

s = Std Deviation = 10,72

dimensione del campione = 15

numero di gradi di libertà = 14

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 37

Il calcolo del test

t 14 = (X - µ)/ (s/√n).

t 14 = (149,13 - 145) / (10,72/√15) =

= 1,496

Conclusione = non rifiuto l’ipotesi nulla.

NB: Il valore della statistica t corrispondente al limite per il

rifiuto dell’ipotesi nulla (errore 1° tipo


Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 39

1,496

Ricalcolate il test sul seguente campione

Obs pressure (mmHg)

1 146

2 145

3 155

4 134

5 154

6 137

7 159

8 139

9 140

10 143

11 147

12 148

13 162

14 152

15 149

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 40

t


C. Confronto tra due campioni appaiati

Parliamo di campioni appaiati quando ad ogni osservazione del

primo gruppo corrisponde un'osservazione del secondo gruppo.

E' una tecnica per ridurre l'influenza sui risultati da parte di

variabili estranee

Due possibilità:

• misure ripetute nello stesso soggetto

• soggetti diversi ma appaiati perché simili per

caratteristiche importanti (es della stessa età,

sesso, luogo di nascita e professione)

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 41

L'ipotesi alternativa (di lavoro) è di solito:

H1 : µ 1 ≠ µ 2

e la corrispondente ipotesi nulla è:

H0 : µ 1 = µ 2 quindi H0 : µ 1- µ 2 =0

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 42


In questo caso conviene costruire il test sulle differenze

dei valori tra le coppie di misure appaiate. Indichiamo la

media delle differenze nella popolazione con δ

L'ipotesi alternativa (di lavoro) è:

H1 : δ ≠ 0

e l'ipotesi nulla è:

H0 : δ = 0

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 43

Calcolo le differenze per le coppie di misure

d i = x i1 -x i2

calcolo quindi media e deviazione standard di d nel campione,

usando le formule consuete.

Media = d =

n


i=

1

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 44

n

d

i


Deviazione_

st.

= s =

i=

1

( d d)

∑ −

( n −1)

Calcolo infine l'errore standard

E . S . =

e la statistica t con g.l.= n.osservazioni – 1.

t

=

d

s

s

n

n

− 0

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 45

Esempio: in uno studio viene valutato l'accrescimento in peso

in coppie di topi nati dalla stessa nidiata e sottoposti a due

diverse diete.

H1 : tra i topi alimentati con le due diete si osserva una differenza

di crescita in peso

H0 : le due diete sono equivalenti e quindi tra i topi alimentati con

le due diete non si osserva una differenza di crescita in peso.

errore di 1° tipo = 0,05

viene condotto un esperimento con coppie di topi.

La distribuzione della variazione del peso è gaussiana.

Userò il test t di student.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 46

n

i

2


d

=3,1

1

2

3

4

5

6

7

8

9

10

(di – )

19 23 4

0,9 0,81

2

Dieta A Dieta B Differenza di1 di – d d

11

14

17

23

11

15

14

11

8

18

18

19

24

15

14

11

19

13

s 2 = Σ(d i – ) 2 / (n-1) =104,9 / 9 = 11,66

d

s=√11,66 = 3,41

7

4

2

1

4

-1

-3

8

5

-1,1

-2,1

-4,1

-6,1

Σ = 0,0

3,61

Σ =104,9

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 47

3,9

0,9

0,9

4,9

1,9

15,21

0,81

1,21

4,41

0,81

16,81

37,21

24,01

ES(d) = s/√ n

= 3,41 / √10

= 1,08

t9 = 3,1 / 1,08

= 2,87

il valore di t con 9 gl corrisponde ad una probabilità < 0,02 (nelle due

code della distribuzione t)

Dato che stiamo conducendo un test bilaterale dobbiamo sommare l'area

della coda superiore e della coda inferiore della distribuzione di probabilità

t.

Se utilizzassimo una tavola che riporta solo la coda superiore ma fossimo

interessati all'area nelle due code: 2 * area nella coda superiore.

Ad es. la probabilità corrispondente al valore di t(9 g.l.) = 2,821 è

0,01 sulla coda superiore.

Quindi la probabilità corrispondente al valore di t(9 g.l.) = 2,821 è 2 * 0,01

= 0,02 sulle due code.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 48


Conclusione ?

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 49

Possiamo anche calcolare un intervallo di confidenza della differenza media.

Calcoliamo l'intervallo di confidenza al 95%:

Limite fiduciale superiore = d + t9gl;0,025 *(s/√n) = 3,1 + 2,262 * 1,08 = 5,54

Limite fiduciale inferiore = d - t 9gl; 0,025 *(s/√n) = 3,1 - 2,262 * 1,08 = 0,66

t α/2 deve essere scelto tenendo conto del numero di gradi di libertà

(in questo caso 9)

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 50


Confronto tra la media di due campioni indipendenti

Nel caso del confronto tra due campioni indipendenti il

test è costruito per valutare la probabilità (data H 0 ) della

differenza osservata tra le medie dei due campioni,

correggendo per l’errore standard.

L'ipotesi alternativa (di lavoro) è di solito:

H 1 : µ 1 ≠ µ 2

e la corrispondente ipotesi nulla è:

H0 : µ 1 = µ 2 quindi H0 : µ 1- µ 2 =0

Non ho informazioni sulla popolazione ma solo sui

campioni pertanto dovrò usare il test t e la

distribuzione t

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 51

La differenza tra le due medie:

∆x = ( 1 – 2 ); X X

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 52


Il calcolo dell’errore standard richiede l’individuazione di

una stima comune della varianza.

Il caso di due campioni con varianze diverse si può

affrontare con i test non parametrici, considerati nelle

prossime lezioni.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 53

Nel caso di due campioni con varianza comune, lo stimatore

2

migliore della varianza comune (indicata come s(

pool)

) è la

media delle due varianze campionarie, pesata per il numero di

gradi di libertà di ciascun campione.

2

s pool

=

2 ( n1

−1)

s1

+ ( n2

−1)

( n −1)

+ ( n −1)

1

2

s

2

2

=

Σ

2

( x − x ) + Σ(

x − x )

( n + n − 2)

= somma delle devianze / gradi di libertà

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 54

1

1

1

2

2

2

2


Per il calcolo dell’errore standard si

consideri che l’errore standard della

differenza tra due medie campionarie è la

somma dei due errori standard:

ES⎜


⎝ x −

1

x

2




=

2

σ 1 +

1

n

2

σ 2

n2

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 55

( 1 2 ) X X ES − =

2

2

( s( pool ) / n1

+ s(

pool)

/ n2

=

2 [ * ( 1/

n + 1/

n ) ]

t gl

t

gl

=

=

s( pool )

s( pool )

( X − X ) ES(

X − )

=



s


1 2 / 1 X 2

pool

x1

−x

2

1 1 ⎞

∗ + ⎟

n n ⎟

1 2 ⎠

1

* ( 1/

n1

+ 1/

n2

)

Il numero di gradi di libertà è n 1 + n 2 -2

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 56

2


La verifica dei requisiti di normalità sarà considerata in

una delle prossime lezioni.

In modo approssimato si può:

1. Tenere conto che la distribuzione di campionamento è

sempre normale quando i campioni sono grandi. n > 30

garantisce la normalità della distribuzione dei campioni

anche se la distribuzione di base è asimmetrica

2. Disegnare un istogramma, che deve essere simmetrico

3. Utilizzare una procedura (grafici QQ o PP in SPSS) che

effettua il test di normalità

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 57

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 58


Esempio: In un laboratorio si intende confrontare l’effetto di due

differenti diete sulla crescita di ratti. La tabella indica

l’incremento di peso conseguito tra 7 e 60 giorni dalla nascita.

H lavoro: Le due diete sono diverse (in particolare ritengo che

la dieta 1 consenta una più veloce aumento di peso ma non

ho evidenze per rifiutare a priori altre possibilità).

H0 : le due diete sono uguali per quanto riguarda l’aumento di

peso.

Test a 2 code

Errore di primo tipo = 0,05

Lo studio riguarda animali già trattati, pertanto la numerosità

campionaria è definita in base al numero di animali già trattati

con le due diete

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 59

Test t-Student (confronto tra medie di 2 campioni indipendenti).

Valutazione dei requisiti per il test:

La distribuzione del peso degli animali è gaussiana.

Gli animali sono dello stesso ceppo, si suppone quindi che

la varianza del peso sia la stessa e che le due diete non

modifichino la varianza comune.

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 60


I dati: incremento tra peso a 7 gg e peso a 60 gg

Dieta 1 Dieta 2

134 70

146 118

104 101

119 85

124 107

161 132

107 94

83

113

129

97

123

X 120,

0

0 , 101 X

1 =

2 =

n 1 = 12 n 2 = 7

( X − ) = 120 −101

= 19,

0

∆x = X

1

2

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 61

La stima della varianza nei due gruppi viene effettuata con

una media pesata delle due varianze (nel primo e nel secondo

gruppo). Viene indicata come varianza pooled.

2

2

{ ( xi1

− X 1 ) + ( x 2 − X 2 ) } / ( n1

+ 2 − 2)

2

S i



S

[ ]

= ∑ ∑ n

2

( − X ) = 5032,

00

xi1 1

2

( − X ) = 2552,

00

2

xi 2

=

2

{ 5032 + 2552}

/ 17 = 446,

12

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 62


L'errore standard viene quindi calcolato usando la deviazione

standard pooled.

2

( X − X ) = [ s * ( 1/

n 1/

n ) ]

ES +

ES

1

2

( X − X ) = 446,

12 * ( 1/

12 + 1/

7)

1

2

=

1

[ ]

100,

90

= 10,04

2

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 63

t 17 = (120,0–101,0) / 10,04 = 1,89

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 64


Il valore di t con 17 gl corrispondente alla probabilità del 5%

sulle due code è 2,110

Conclusione?

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 65

Calcoliamo l'intervallo di confidenza della differenza

osservata tra i due gruppi.

Calcoliamo l'intervallo di confidenza al 95%:

x1 gl

2 [ s * ( 1/

n + 1/

) ]=

− x2

+ t ; 0,

025 * 1 n2

(120,0 - 101,0) + 2,110 * 10,04 = 40,18

[ ]

2

Limite fiduciale inferiore = x1 − x2

+ t gl ; 0,

025 * s * ( 1/

n1

+ 1/

n2

)

(120,0 - 101,0) - 2,110 * 10,04= - 2,18

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 66


Esercizi consigliati

da: Fowler et al, ed Edises.

• Cap 11 (p 229) es 4

• Cap 11 (p 229) es 9

• Cap 11 (p 229) es 12

• Cap 11 (p 229) es 13

• Cap 11 (p 229) es 14

• Cap 15 (p 238) es 1

Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Confronto tra due medie 67

More magazines by this user
Similar magazines