3. Confronto tra medie di due campioni indipendenti o ... - statistica.it

statistica.it

3. Confronto tra medie di due campioni indipendenti o ... - statistica.it

BIOSTATISTICA

3. Confronto tra medie

di due campioni

indipendenti o appaiati

Marta Blangiardo, Imperial College, London

Department of Epidemiology and Public Health

m.blangiardo@imperial.ac.uk

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.1


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI O APPAIATI

UNIVERSO

PROGRAMMARE

CAMPIONE

SPECULARE

DESCRIVERE

PARAMETRI

INFERIRE

STIMATORI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.2


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI O APPAIATI

Siamo interessati a valutare se

due diete (A e B) determinano

diversi incrementi del peso delle

cavie con esse nutrite

UNIVERSO

CAMPIONE

PARAMETRI

STIMATORI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.3


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Siamo interessati a valutare se

due diete (A e B) determinano

diversi incrementi del peso delle

cavie con esse nutrite

UNIVERSO

PROGRAMMARE

CAMPIONE

PARAMETRI

STIMATORI

Vengono scelti casualmente due

campioni di 12 e 13 cavie ciascuno, ad

ognuno di essi viene somministrata una

delle due diete in studio dalla nascita fino

all’età di 3 mesi e ne vengono registrati

gli incrementi di peso. I campioni sono

indipendenti

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.4


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

STATISTICHE DESCRIVERE STATISTICHE

n 1 = 12

CAMPIONE 1 CAMPIONE 2

STATISTICHE STATISTICHE

56 59

63 52

57 68

64 61

57 60

63 60

y i1 : generica i-esima osservazione

del campione 1 (j =1)

61 64

67 56

60 72

68 65

61 64

67 64

60

n 2 = 13

y i2 : generica i-esima osservazione

del campione 2 (j =2)

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.5


4

3

2

1

4

3

2

1

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

CAMPIONE 1

50 54 58 62 66 70

CAMPIONE 2

s 1 = 4.24

s 2 = 4.21

50 54 58 62 66 70

y 1 = 60

74

y 2 = 63.77

74

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.6


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

IPOTESI: I due campioni provengono dalla

stessa popolazione di cavie e se

potessimo misurare l’intera popolazione

sarebbe

X ~ N(μ,σ 2 )

μ

Media campionaria

Noi non conosciamo nè la media μμμμ nè la

varianza σσσσ 2 , ma conosciamo i parametri

campionari:

y 1

medie

y 2

s 1

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.7

s 2

Dev.

standard

n 1

n 2

numerosità


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

campione 1 campione 2

Dieta A Dieta B

n 1 = 12

y 1 = 60

s 1 = 4.24

POPOLAZIONE

n 2 = 13

y 2 = 63.77

s 2 = 4.21

Ai due campioni assegniamo diete diverse.

Le osservazioni ottenute sono ancora

compatibili con l’ipotesi che i due campioni

provengono dalla stessa popolazione?

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.8


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

UNIVERSO

PROGRAMMARE

CAMPIONE

SPECULARE

DESCRIVERE

PARAMETRI

INFERIRE

STIMATORI

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.9


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

POPOLAZIONE BERSAGLIO

Tutti i possibili campioni

y 1

μ

Media Medie campionaria

campionarie

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.10

y 2

δ = μ 2 - μ 1 = μ - μ =0

d = y 2 – y 1

H 0 : δ=0


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

POPOLAZIONE 1

(dieta A)

(tutte le medie

campionarie y 1 )

Tutti i possibili campioni

y 1

μ 1

Le due

distribuzioni

hanno la

stessa

varianza

δ = μ 2 - μ 1

d = y 2 – y 1

POPOLAZIONE 2

(dieta B)

(tutte le medie

campionarie y 2 )

Tutti i possibili campioni

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.11

μ 2

y 2

H1 : δ δ = 0


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

μ 1

n 1 = 12

y 1 = 60

s 1 = 4.24

IN GENERALE

δ = μ 1 - μ 2

POPOLAZIONE 1 POPOLAZIONE 2

d = y 2 - y 1 =

3.77

μ 2

n 2 = 13

y 2 = 63.77

s 2 = 4.21

La variabile di interesse non è più la

media campionaria bensì la differenza

tra medie campionarie

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.12


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

POPOLAZIONE BERSAGLIO

(tutte le possibili differenze tra medie campionarie)

Tutti i possibili campioni

d

Differenze tra medie campionarie

δ

ignota

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.13


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Ipotesi nulla:

H 0: μ 1 = μ 2

δ = 0

Cosa succede sotto l’ipotesi

nulla?

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.14


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

POPOLAZIONE BERSAGLIO

(tutte le possibili differenze tra medie campionarie)

Tutti i possibili campioni

d

Questa situazione è

compatibile con

l’ipotesi nulla?

δ = 0

Differenze tra medie campionarie

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.15


d

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

d

δ = 0

Situazione possibile

Situazione meno probabile

δ = 0

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.16


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Ipotesi nulla:

H 0: μ 1 = μ 2

δ = 0

L’ipotesi nulla non può essere mai

rigettata con assoluta certezza!

Dobbiamo agganciare alla stima d

un “livello di confidenza”.

P-Value: quanto estremo è il

risultato che abbiamo ottenuto?

δ = 0

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.17

d

d


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

P-Value: probabilità di ottenere un

risultato campionario altrettanto o più

estremo di quello osservato, se H 0 è

vera

P-value = Pr ( D >d sotto H 0 )

Più piccolo è il valore del p-value,

1) più “estremo” è il

valore d osservato

δ = 0

2) Più bassa

l’evidenza che i dati

siano coerenti con la

distribuzione sotto

l’ipotesi nulla

P-value=0.03

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.18

d

P-value=0.25

d


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

PROBLEMA: l’ipotesi è bidirezionale

H0: δ = 0 vs H1: δ = 0

P-value=0.03

-d

Unidirezionale

P-value = Pr ( D >d sotto H 0 )

Bidirezionale

2*P-value

P-value=0.06

δ = 0

P-value=0.03

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.19

d


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Tre procedure per saggiare

l’ipotesi nulla

A. Stima intervallare

B. Test basato sulla t di Student

C. Analisi della varianza e test F

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.20


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Ricordando la stima intervallare nel

caso di una media campionaria:

y ± t . es

la si adatti al confronto tra due medie

campionarie

MARTA BLANGIARDO – A. CONFRONTO Stima intervallare

TRA MEDIE DI 2 CAMPIONI- 3.21


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

y ± t . es

La variabile misurata di interesse non

è più la media campionaria y, bensì la

differenza tra medie campionarie d:

d ± t . es

A. Stima intervallare

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.22


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

n 1 = 12

y 1 = 60

s 1 1 = 4.24 4.2

d ± t . es

d = y 2 – y 1 = 3.77

A. Stima intervallare

n 2 = 13 12

y2 y= 2 = 63.77 64

s 2 2 = 4.21 4.2

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.23


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

d ± t . es

L’errore standard non è più s / √n

visto che, essendo implicati due

campioni, si dispone di due deviazioni

standard (s1 e s2) e due numerosità

campionarie (n1 e n2) s* =

Pooled

(n 1-1) . s 1 2 + (n2-1) . s 2 2

(n 1-1) + (n 2-1)

A. Stima intervallare

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.24


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

d ± t . es

L’errore standard non è più s / √n

visto che, essendo implicati due

campioni, si dispone di due deviazioni

standard (s1 e s2) e due numerosità

campionarie (n1 e n2) 1

n*

=

1

n1 +

1

n2 n 1 + n2

n 1 . n 2

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.25

=

A. Stima intervallare


es d =

es d

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

=

s*

n 1 = 12

y 1 = 60

s 1 = 4.24 4.2

1

n*

=

3.77 ± t . es

(12-1) . 4.23 + (13-1) . 2 2

4.21

(12-1) + (13-1)

= 1.69

n 2 = 12 13

y2 y2 = = 63.77 64

s 2 = 4.21 4.2

(n 1 -1) . s 1 2 + (n2 -1) . s 2 2

(n 1 -1) + (n 2 -1)

A. Stima intervallare

12 + 13

12 . 13

n 1 + n 2

n 1 . n 2

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.26


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

d ± t . es

Valore critico della variabile casuale t

di Student, caratterizzata da un certo

numero di gradi di libertà g e da una

probabilità (1-α). α). Quindi

d ± t g ; (1-α) . es

A. Stima intervallare

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.27


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

d ± t g ; (1-α) . es

I gradi di libertà non sono più n - 1

visto che, essendo implicati due

campioni, si dispone di due

numerosità campionarie (n 1 e n 2):

g = ( n 1 + n 2 ) - 2

A. Stima intervallare

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.28


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

d ± t g ; (1-α) . es

Dove 1 - α è il livello di confidenza

dell’intervallo (di solito definiamo 0.9,

0.95 o 0.99)

A. Stima intervallare

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.29


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

n 1 = 12

y 1 = 60

s 1 = 4.23

3.77 ± t g;(1-α) . 1.69

Fissando (1-α) = 0.9 e avendo due code

abbiamo 0.9 + 0.1/2 = 0.95

3.77 ± t 23;0.95 . 1.69

Dalla tavola della distribuzione t:

3.77 ± 1.7139 . 1.69

A. Stima intervallare

n 2 = 13

y 2 = 63.77

s 2 = 4.21

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.30


MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.31

Distribuzione t

1.8946

1.4149

1.1192

0.8960

0.7111

0.5491

0.2632

7

1.9432

1.4398

1.1342

0.9057

0.7176

0.5534

0.2648

6

2.0150

1.4759

1.1558

0.9195

0.7267

0.5594

0.2672

5

2.1318

1.5332

1.1896

0.9410

0.7407

0.5686

0.2707

4

2.3534

1.6377

1.2498

0.9785

0.7649

0.5844

0.2767

3

2.9200

1.8856

1.3862

1.0607

0.8165

0.6172

0.2887

2

6.3138

3.0777

1.9626

1.3764

1.0000

0.7265

0.3249

1

0.05

0.1

0.15

0.2

0.25

0.3

0.4

5.4079

4.7853

5.9588

5.2076

6.8688

5.8934

8.6103

7.1732

12.9240

10.2145

31.5991

22.3271

636.6192

318.3088

0.0005

0.001

….

….

1.6577

1.2886

1.0409

0.8446

0.6765

0.5258

0.2539

120

1.6602

1.2901

1.0418

0.8452

0.6770

0.5261

0.2540

100

1.6641

1.2922

1.0432

0.8461

0.6776

0.5265

0.2542

80

1.6669

1.2938

1.0442

0.8468

0.6780

0.5268

0.2543

70

1.6706

1.2958

1.0455

0.8477

0.6786

0.5272

0.2545

60

1.6759

1.2987

1.0473

0.8489

0.6794

0.5278

0.2547

50

1.6794

1.3006

1.0485

0.8497

0.6800

0.5281

0.2549

45

….

3.3735

3.1595

3.3905

3.1737

3.4163

3.1953

3.4350

3.2108

3.4602

3.2317

3.4960

3.2614

3.5203

3.2815

gdl

1.7139

1.3195

1.0603

0.8575

0.6853

0.5317

0.2563

23

….

3.7676

3.4850


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

n 1 = 12

y 1 = 60

s 1 = 4.23

-7 -6 -5 -4 -3 -2 -1

valore atteso sotto

l’ipotesi nulla

3.77 ± 1.7139 . 1.69

0.87 , 6.67

δ = 0

n 2 = 13

y 2 = 64

s 2 = 4.21

1 2 3 4 5 6 7 8

Ripetendo l’esperimento 100 volte nelle

stesse condizioni, ci si aspetta che in 90

casi le due diete differiscano

A. Stima intervallare

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.32


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

H 0: μ 1 = μ 2

Visto che l’intervallo non contiene il

valore atteso sotto l’ipotesi nulla

con:

α

δ = 0

= 0.1

allora concludiamo che non c’è

abbastanza evidenza che supporti che

i dati siano coerenti con l’ipotesi nulla

e quindi

H 1: μ 1 ≠ μ 2

δ ≠ 0

Le E se due avessimo medie differiscono

prefissato un errore di

primo significativamente

tipo più cautelativo (es. α = 0.01)?

A. Stima intervallare

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.33


MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.34

Distribuzione t

1.4149

1.1192

0.8960

0.7111

0.5491

0.2632

7

1.4398

1.1342

0.9057

0.7176

0.5534

0.2648

6

1.4759

1.1558

0.9195

0.7267

0.5594

0.2672

5

1.5332

1.1896

0.9410

0.7407

0.5686

0.2707

4

1.6377

1.2498

0.9785

0.7649

0.5844

0.2767

3

1.8856

1.3862

1.0607

0.8165

0.6172

0.2887

2

3.0777

1.9626

1.3764

1.0000

0.7265

0.3249

1

0.1

0.15

0.2

0.25

0.3

0.4

5.4079

4.7853

5.9588

5.2076

6.8688

5.8934

8.6103

7.1732

12.9240

10.2145

31.5991

22.3271

636.6192

318.3088

0.0005

0.001

….

….

1.2886

1.0409

0.8446

0.6765

0.5258

0.2539

120

1.2901

1.0418

0.8452

0.6770

0.5261

0.2540

100

1.2922

1.0432

0.8461

0.6776

0.5265

0.2542

80

1.2938

1.0442

0.8468

0.6780

0.5268

0.2543

70

1.2958

1.0455

0.8477

0.6786

0.5272

0.2545

60

1.2987

1.0473

0.8489

0.6794

0.5278

0.2547

50

1.3006

1.0485

0.8497

0.6800

0.5281

0.2549

45

….

3.3735

3.1595

3.3905

3.1737

3.4163

3.1953

3.4350

3.2108

3.4602

3.2317

3.4960

3.2614

3.5203

3.2815

gdl

1.3195

1.0603

0.8575

0.6853

0.5317

0.2563

23 ….

3.4995

3.7074

4.0321

4.6041

5.8409

9.9248

63.6567

0.005

2.6174

2.6259

2.6387

2.6479

2.6603

2.6778

2.6896

3.7676

3.4850

2.8073


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Se seguiamo un approcico più cautelativo

n 1 = 12

y 1 = 60

s 1 = 4.23

3.77 ± 2.8073 . 1.69

-7 -6 -5 -4 -3 -2 -1

valore atteso sotto

l’ipotesi nulla

e fissiamo 1-α α α α = 0.99

-0.98 , 8.52

δ = 0

n 2 = 13

y 2 = 63.77

s 2 = 4.21

1 2 3 4 5 6 7 8

Non c’è più evidenza che le due diete

differiscano

A. Stima intervallare

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.35


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Tre procedure per saggiare

l’ipotesi nulla

A. Stima intervallare

B. Test del t di Student

C. Analisi della varianza e test F

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.36


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Ricordando la variabile casuale t nel

caso di una media campionaria è:

t =

y - μ

s n

la si adatti al confronto tra due medie

campionarie

B. Test del t di Student

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.37


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

t =

y - μ

s n

È la differenza tra il valore osservato e

quello atteso sotto l’ipotesi nulla

Nel caso della differenza tra due

medie quindi:

(y 2 - y 1) - 0

d

B. Test del t di Student

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.38


t =

y - μ

s n

È l’errore standard di una media

campionaria

Nel caso della differenza tra due

medie quindi:

es d = s*

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

1

n*

=

(n 1 -1) . s 1 2 + (n2 -1) . s 2 2

(n 1 -1) + (n 2 -1)

B. Test del t di Student

n 1 + n 2

n 1 . n 2

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.39


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

t =

y - μ

s n

Il valore della variabile casuale t è

caratterizzato dai gradi di libertà (g):

Quindi dovrebbe essere scritta come:

t g =

(y 2 - y 1 ) - 0

es d

che rappresenta il valore empirico

(osservato) di t. La valutazione

dell’accettazione/rifiuto viene

ottenuta tramite il P-value

B. Test del t di Student

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.40


0.025

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

-t g

P-value


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

n 1 = 12

y 1 = 60

s 1 = 4.23

t g=

(y 2 - y 1 ) - 0

es d

3.77

t 23 = =2.23

1.69

n 2 = 13

y 2 = 64

s 2 = 4.21

è il valore empirico della statistica t.

Il P-value corrispondente è

P-value < 0.025

2*P-value < 0.05

Ipotesi bidirezionale

B. Test del t di Student


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Tre procedure per saggiare

l’ipotesi nulla

A. Stima intervallare

B. Test del t di Student

C. Analisi della varianza e test F

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.43


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

CAMPIONE 1 CAMPIONE 2

56 59

63 52

57 68

64 61

57 60

63 60

Media generale: y = 62

Devianza totale =

= (56-62) 2 + (59-62) 2 + (63 -62) 2 +...

...+ (67-62) 2 + (64-62) 2 + (60 -62) 2 =

= 499

61 64

67 56

60 72

68 65

61 64

67 64

60

Σ Σ (y ij - y) 2

j

i

Da quali fonti dipende la variabilità

(devianza) totale del fenomeno?

C. Analisi della varianza e test F

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.44


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

CAMPIONE 1 CAMPIONE 2

60 60

60 60

60 60

60 60

60 60

60 60

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8

Media generale: y = 62

y 1 = 60 y 2 = 63.8

Devianza tra i livelli del fattore

sperimentale

Σ n j (y j - y) 2

j

= 12 . (60-61.96) 2 + 13 .

(63.8-61.96) 2 = 88.65

Una prima fonte di variabilità è dovuta al

fatto che i due campioni sono stati sottoposti

a diverse diete (fattore sperimentale)

C. Analisi della varianza e test F

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.45


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

CAMPIONE 1 CAMPIONE 2

60 60

60 60

60 60

60 60

60 60

60 60

Una seconda fonte di

variabilità è dovuta al fatto

che ogni unità sperimentale

tende a rispondere in modo

diverso dalle altre allo

stesso stimolo (livello del

fattore sperimentale)

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8 63.8

63.8

Devianza entro i livelli del fattore

sperimentale

Σ Σ (y ij - y j) 2

i

j

y 1 = 60 y 2 = 63.8

= (56-60) 2 + (59-60) 2 +

(63 -60) 2 +...

...+ (67-63.8) 2 + (64-

63.8) 2 + (60 -63.8) 2 =

= 410.3

C. Analisi della varianza e test F

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.46


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

SISTEMATICA

Fonti di

variabilità devianza

Tra gruppi 88.65 +

Entro gruppi * 410.3 =

Totale 498.96

* Variabilità residua

CASUALE

C. Analisi della varianza e test F

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.47


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Fonti di

variabilità

Tra gruppi

Entro gruppi

Totale

devianza

88.65 +

410.3 =

498.96 =

gradi di

libertà

1 (N.gruppi-1) +

23 (N – N.gruppi)

=

24 (N-1)

C. Analisi della varianza e test F

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.48


Fonti di

variabilità

Tra gruppi

Entro gruppi

Totale

F 1, 23 =

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

devianza

88.65 96 + + 1 + = 88.65

410.3 396 = + 22 23 = + = = 17.8

498.96 =

Varianza tra gruppi

Varianza entro gruppi

gradi di

libertà

24

C. Analisi della varianza e test F

varianza

88.65

= = 4.97

17.8

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.49


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

DISTRIBUZIONE F g1;g2

Area = 1

1 Valore atteso sotto

l’ipotesi nulla

In questo caso le tavole disponibili non

permettono di calcolare il P-value. E’

possibile calcolare il P-value tramite

software (excel, R, Matlab).

=DISTRIB.F(4.97,1,23) = 0.036

P-value


Ci sono tavole tabulate che permettono di

calcolare una soglia di accettazione/rifiuto

per alcune prespecificate soglie 1-α

(0.9,0.95)

F g1,g2

Non

sufficiente

evidenza

contro H 0

F (1-α),g1,g2

F g1,g2

Sufficiente

evidenza

contro H 0

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.51


Gradi di libertà del denominatore

Distribuzione F g1;g2;0.95

Gradi di libertà del numeratore

1 2 3 4 5 10

1 161.45 199.50 215.71 224.58 230.16 241.88

2 18.51 19.00 19.16 19.25 19.30 19.40

3 10.13 9.55 9.28 9.12 9.01 8.79

4 7.71 6.94 6.59 6.39 6.26 5.96

5 6.61 5.79 5.41 5.19 5.05 4.74

6 5.99 5.14 4.76 4.53 4.39 4.06

7 5.59 4.74 4.35 4.12 3.97 3.64

8 5.32 4.46 4.07 3.84 3.69 3.35

9 5.12 4.26 3.86 3.63 3.48 3.14

10 4.96 4.10 3.71 3.48 3.33 2.98

11 4.84 3.98 3.59 3.36 3.20 2.85

12 4.75 3.89 3.49 3.26 3.11 2.75

13 4.67 3.81 3.41 3.18 3.03 2.67

14 4.60 3.74 3.34 3.11 2.96 2.60

15 4.54 3.68 3.29 3.06 2.90 2.54

16 4.49 3.63 3.24 3.01 2.85 2.49

17 4.45 3.59 3.20 2.96 2.81 2.45

18 4.41 3.55 3.16 2.93 2.77 2.41

19 4.38 3.52 3.13 2.90 2.74 2.38

20 4.35 3.49 3.10 2.87 2.71 2.35

21 4.32 3.47 3.07 2.84 2.68 2.32

22 4.30 3.44 3.05 2.82 2.66 2.30

23 4.28 3.42 3.03 2.80 2.64 2.27

24 4.26 3.40 3.01 2.78 2.62 2.25

25 4.24 3.39 2.99 2.76 2.60 2.24

30 4.17 3.32 2.92 2.69 2.53 2.16

50 4.03 3.18 2.79 2.56 2.40 2.03

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.52

F


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Distribuzione F 1,23

Area di accettazione

Valore tabulato

0.95 0.05

Valore empirico

4.28

Area di rifiuto

4.97

allora dovremmo rifiutare l’ipotesi nulla: p < 0.05

C. Analisi della varianza e test F

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.53


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI

INDIPENDENTI

Due vie equivalenti per

saggiare l’ipotesi nulla

Test del t di Student

t 23 = 2.23

Analisi della varianza

F 1,23 = 4.97

t

2

23

= F 1,23

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.54


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Siamo interessati a valutare se il pH di un

terreno acido sulla superficie è diversa da

quella del sottosuolo

UNIVERSO

PROGRAMMARE

CAMPIONE

PARAMETRI

STIMATORI

Si estrae un campione di 13 zolle di

terreno e su ognuna di esse si misura il

pH in superficie e nel sottosuolo.

Abbiamo due misurazioni per ogni zolla. I

campioni sono appaiati

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.55


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

CAMPIONE 1 CAMPIONE 2

Superficie Sottosuolo

STATISTICHE

6.57 6.77

STATISTICHE

8.34 6.13

6.53 6.71

6.72 6.01

4.99 5.49

5.56 5.32

5.92 6.55

6.93

n = 13

6.32 8.30

8.44 6.80

5.42 7.90

5.20 5.32

6.21 5.66

5.66

E’ lo stesso campione con due

diverse misurazioni

Per ogni zolla le due misurazioni

non sono indipendenti

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.56


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Calcoliamo la variabile differenza

tra le due misurazioni

Superficie Sottosuolo Differenza

6.57 6.77

6.53 6.71

6.72 6.01

4.99 5.49

5.56 5.32

5.92 6.55

6.93

8.34 6.13

6.32 8.30

8.44 6.80

5.42 7.90

5.20 5.32

6.21 5.66

5.66

La nuova variabile Differenza

è quella su cui vogliamo fare

inferenza

-1.77 0.64

0.21 -1.59

-1.72 -0.79

-0.43 -2.41

0.36 0.00

-0.29 0.89

1.27

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.57


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

IPOTESI: La differenza tra il pH in

superficie e nel sottosuolo si distribuisce

come una variabile casuale Normale

D ~ N(μ d ,σ 2 d )

μ

Media campionaria

Noi non conosciamo nè la media μμμμ d nè la

varianza σσσσ 2 d , ma conosciamo i parametri

campionari:

d

media

s d

Dev.

standard

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.58

n

numerosità

INFERENZA SU UN CAMPIONE


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

POPOLAZIONE BERSAGLIO

Tutti i possibili campioni di differenze

d

μ d

H 0 : μ d = 0

Media Medie campionaria

campionarie

Cosa succede sotto l’ipotesi nulla?

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.59


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

POPOLAZIONE BERSAGLIO

(tutte le possibili differenze)

Tutti i possibili campioni

d

È questa situazione

compatibile con

l’ipotesi nulla?

Differenze tra medie campionarie

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.60


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

d

d

Situazione possibile

Situazione meno probabile

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.61


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Ipotesi nulla:

H 0: μ d=0

L’ipotesi nulla non può essere mai

rigettata con assoluta certezza!

Dobbiamo agganciare alla stima d

un “livello di confidenza”.

P-Value: quanto estremo è il

risultato che abbiamo ottenuto?

μ d = 0

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.62

d

d 1


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Tre procedure per saggiare

l’ipotesi nulla

A. Stima intervallare

B. Test basato sulla t di Student

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.63


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Avendo un solo campione, in questo

caso la stima intervallare da utilizzare è

proprio quella introdotta

precedentemente nel caso di una media

campionaria:

y ± t . es

Che nel caso di campioni appaiati è

d ± t . es

n = 13

d = -0.43

se = 1.15

sd/radq(n)

MARTA BLANGIARDO – A. CONFRONTO Stima intervallare

TRA MEDIE DI 2 CAMPIONI- 3.64


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Noi non conosciamo la varianza σ 2

Valore critico della variabile casuale t

di Student, caratterizzata da un certo

numero di gradi di libertà g e da una

probabilità (1-α). α). α). Quindi l’intervallo di

confidenza sarà

T di Student

d ± t g ; (1-α) . es

n-1

t g ; (1-α)

A. Stima intervallare

livello di confidenza

dell’intervallo (di solito

definiamo 0.9, 0.95 o

0.99)

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.65


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

n = 13

d = -0.43

es = 1.15

-0.43 ± t g;(1-α) . 1.15

Fissando (1-α) = 0.95 e avendo due code

abbiamo 0.95 + 0.05/2 = 0.975

-0.43 ± t 12;0.975 . 1.15

Dalla tavola della distribuzione t:

-0.43 ± 2.1788 . 1.15

A. Stima intervallare

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.66


MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.67

Distribuzione t

1.8946

1.4149

1.1192

0.8960

0.7111

0.5491

0.2632

7

1.9432

1.4398

1.1342

0.9057

0.7176

0.5534

0.2648

6

2.0150

1.4759

1.1558

0.9195

0.7267

0.5594

0.2672

5

2.1318

1.5332

1.1896

0.9410

0.7407

0.5686

0.2707

4

2.3534

1.6377

1.2498

0.9785

0.7649

0.5844

0.2767

3

2.9200

1.8856

1.3862

1.0607

0.8165

0.6172

0.2887

2

6.3138

3.0777

1.9626

1.3764

1.0000

0.7265

0.3249

1

0.05

0.1

0.15

0.2

0.25

0.3

0.4

5.4079

4.7853

5.9588

5.2076

6.8688

5.8934

8.6103

7.1732

12.9240

10.2145

31.5991

22.3271

636.6192

318.3088

0.0005

0.001

….

….

1.6577

1.2886

1.0409

0.8446

0.6765

0.5258

0.2539

120

1.6602

1.2901

1.0418

0.8452

0.6770

0.5261

0.2540

100

1.6641

1.2922

1.0432

0.8461

0.6776

0.5265

0.2542

80

1.6669

1.2938

1.0442

0.8468

0.6780

0.5268

0.2543

70

1.6706

1.2958

1.0455

0.8477

0.6786

0.5272

0.2545

60

1.6759

1.2987

1.0473

0.8489

0.6794

0.5278

0.2547

50

1.6794

1.3006

1.0485

0.8497

0.6800

0.5281

0.2549

45

….

3.3735

3.1595

3.3905

3.1737

3.4163

3.1953

3.4350

3.2108

3.4602

3.2317

3.4960

3.2614

3.5203

3.2815

gdl

….

2.1788

1.7823

1.3562

1.0832

0.8726

0.6955

0.5386

0.2590

12

2.3646

2.4469

2.5706

2.7764

3.1824

4.3027

12.7062

0.025

1.9799

1.9840

1.9901

1.9944

2.0003

2.0086

2.0141

4.3178

3.9296

3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

-0.43 ± 2.1788. 1.15

-7 -6 -5 -4 -3 -2 -1

valore atteso sotto

l’ipotesi nulla

n = 13

d = -0.43

es = 1.15

-2.93 , 2.08

μ d = 0

1 2 3 4 5 6 7 8

Ripetendo l’esperimento 100 volte nelle

stesse condizioni, ci si aspetta che in 95

casi i due pH non siano diversi

significativamente

A. Stima intervallare

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.68


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Tre procedure per saggiare

l’ipotesi nulla

A. Stima intervallare

B. Test del t di Student

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.69


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Ricordando la variabile casuale t nel

caso di una media campionaria è:

t =

d - μ

s n

È la differenza tra il valore osservato

e quello atteso sotto l’ipotesi nulla

Nel caso di campioni appaiati

abbiamo:

d - 0

pH 1

6.57

6.77

6.53

6.93

B. Test del t di Student

5.66

1.27

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.70


pH 2

8.34

6.13

6.32


d

-1.77

0.64

0.21


d -0.43


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

t =

yi - μ

s n

È l’errore standard (es) di una media

campionaria

s

n

=

Σ(yi - y) 2

n

i =1

n - 1

B. Test del t di Student

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.71

n

= 1.15


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

t =

yi - μ

s n

Il valore della variabile casuale t è

caratterizzato dai gradi di libertà (g):

Quindi dovrebbe essere scritta come:

t g =

d - 0

es d

che rappresenta il valore empirico

(osservato) di t. La valutazione

dell’accettazione/rifiuto viene

ottenuta tramite il P-value

I gradi di libertà sono n-1

B. Test del t di Student

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.72


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

t g =

n = 13

d = -0.43

es d = 1.15

d - 0

se d

-0.43

t 12 = = -0.37

1.15

è il valore empirico della statistica t.

Il P-value corrispondente è

B. Test del t di Student

MARTA BLANGIARDO – CONFRONTO TRA MEDIE DI 2 CAMPIONI- 3.73


3. CONFRONTO TRA MEDIE DI DUE CAMPIONI APPAIATI

Il valore è

negativo

-0.37

Le tavole restituiscono la coda di destra

solo per valori positivi, ma

Pr(D0.37 sotto H 0 )

Dalle tavole otteniamo

0.37

0.3

More magazines by this user
Similar magazines