Lezioni sulle relazioni statistiche - Dipartimento di Economia e ...

Dalla matrice dei dati alla tabella doppia 

Operaio Importo Livello Operaio Importo Livello Operaio Importo Livello 

1 133754 A 41 139637 B 81 156488 A 

2 177321 D 42 196198 C 82 191405 A 

3 198093 B 43 183375 B 83 117894 F 

4 198951 F 44 148518 F 84 161926 A 

5 128050 A 45 126191 B 85 102978 B 

6 107152 B 46 148488 C 86 171470 A 

7 168502 B 47 129230 B 87 131906 A 

8 185872 C 48 193780 F 88 179658 C 

9 174107 A 49 141154 B 89 146534 A 

10 127670 F 50 100256 B 90 137011 B 

11 171307 B 51 140573 A 91 112452 D 

12 135016 A 52 191271 A 92 117509 A 

13 116721 B 53 194093 B 93 185801 C 

14 138590 E 54 109994 B 94 172984 A 

15 122672 C 55 177444 A 95 103235 B 

16 191676 D 56 100239 F 96 195622 B 

17 174958 B 57 176015 B 97 127726 D 

18 187423 D 58 170692 C 98 121094 A 

19 111110 C 59 187677 E 99 193272 B 

20 136503 E 60 199348 E 100 148265 B 

21 120768 C 61 123781 B 

22 191648 D 62 179708 D 

23 101570 D 63 139825 A 

24 145044 A 64 148948 C 

25 102990 F 65 146901 D 

26 187028 E 66 136471 D 

27 124437 D 67 104697 A 

28 122079 C 68 152657 E 

29 163468 E 69 170503 B 

30 140935 A 70 135280 D 

31 146843 A 71 107743 B 

32 172497 C 72 171517 D 

33 122209 D 73 193946 C 

34 135783 D 74 170884 A 

35 150789 C 75 181407 B 

36 121587 A 76 124571 E 

37 133415 D 77 139906 A 

38 194731 F 78 142344 A 

39 176619 B 79 190776 A 

40 104960 A 80 141811 B 

Su n=100 operai è stato rilevato l’importo 

dello straordinario settimanale e la classe 

stipendiale. 

In questa forma i dati non sono leggibili; 

Organizziamo gli importi in classi: 

Excel: Tabella pivot 

Count of Operaio Livello 

Imp.MGL A B C D E F Grand Total 

160 9 12 7 6 4 3 41 

Grand Total 27 27 14 16 8 8 100 

La tabella rivela che il 41% si colloca nella 4ª classe; che 

il 12% si trova nella combinazione (4,B) e che il livello 

“A” fa più straordinari (27%) rispetto a tutti gli altri. 

Partiamo dalla varaibile doppia: 

Trattazione generale 

Supponiamo che siano state organizzate in una tabella con “r” modalità distinte 

per la variabile sulle righe (X) e “c” modalità per la variabile sulle colonne (Y) 

Y 1 Y 2 

… Y c 

X 1 n 11 n 12 n 1c n 1. 

X 2 

n 21 

n 22 

n 2 c 

n 2 

. 

M 

X r n r1 n r2 n rc n r . 

n .1 

n .2 

… n .c 

n 

( X i ,Y i ); i =1,2,…,n 

cc 

Dove 

n i. 

= 

i. ∑ 

n ij 

= 

ij n i1 

+ 

i1 n i2 

+…+n i2 ic 

= 

ic totale di di riga riga 

j=1 j=1 

rr 

n ..j j 

= 

∑ 

n ij 

= 

ij n j1 

+ 

j1 n j2 j 2 

+…+n n rj 

= 

rj totale di di colonna 

i=1 i=1 

il punto indica l'indice rispetto a cui si è sommato 

r 

c 

n = ∑ n i. 

= ∑n .j 

= ∑ ∑n ij 

i=1 

j=1 

r 

c 

i=1 j=1 

Esempio 

Distribuzione congiunta di due variabili 

Occupati per settori di attività economica 

(media annua). Dati in migliaia 

Sesso 

Settori Maschi Femmine Totale 

Agricoltura 1.485 812 2.297 

Industria 5.270 1.626 6.896 

Terziario 7.232 4.318 11.550 

Totale 13.987 6.756 20.743 

r=3; c=2; n=20’743 

Frequency 

90 

80 

70 

60 

50 

40 

30 

20 

10 

0 

Altre attività 

Anche nella tabella doppia possiamo usare le frequenze relative: 

Y 1 Y 2 … Y c 

X 1 f 11 f 12 f 1c f 1. 

X 2 f 21 f 22 f 2c f 2. 

; 

: 

X r f r1 f r2 f rc f r. 

f .1 f .2 … f .c 1 

0 ≤ f ij ≤ 1 

f i. = 

f . j = 

r 

c 

c 

∑ f ij 

j=1 

r 

∑ f ij 

i=1 

∑ ∑ f ij = 1 

i=1j=1 

Le f ij 

sono dette frequenze relative 

congiunte; 

Le “f i. 

” e le “f .j 

” sono le frequenze 

relative marginali. 

La diversa struttura delle due 

componenti è evidente dal grafico 

SETTORE 

Industria 

Agricoltura 

Femmine 

SESSO 

Maschi 

L’insieme delle coppie (X i 

, Y i 

) e delle rispettive frequenze relative f ij 

costituisce la 

distribuzione congiunta delle variabili X ed Y; 

Essa associa ad ogni combinazione di modalità (X i 

,Y j 

) un numero in (0,1) e la cui 

somma è pari ad uno

Distribuzioni marginali 

A partire dalla distribuzione congiunta si definiscono le distribuzioni per ciascuna 

delle variabili a prescindere dall'altra 

c 

c 

f( X = x i )= ∑ f( X= x i ,Y = y j )= ∑ f ij = f i. ; i =1, 2,…,r 

j =1 

j=1 

Valore atteso delle marginali 

Le distribuzioni marginali sono delle vere e proprie distribuzioni univariate. 

In particolare, ci interessa il loro valore atteso 

r 

c 

( )= ∑ i i, =µ 

x ( )= ∑ j . j 

=µ y 

i= 1 j= 

1 

E X X f ; E Y Y f 

r 

r 

fY= ( y j )= ∑ f( X= x i ,Y = y j )= ∑ f ij = f . j ; j = 1, 2,…,c 

i=1 

Per ottenere la distribuzione marginale si somma rispetto alla variabile che 

NON interessa 

i=1 

Esempio 

⎡Y X 2 4 6 

⎤ 

⎢ 

⎥ 

⎢ 4 2 4 10 

1 20 20 20 20 ⎥ 

⎢ 

⎥ 

⎢ 4 1 5 10 ⎥ 

⎢ 

3 20 20 20 20 

⎥ 

⎢ 8 3 9 ⎥ 

20 20 20 1 

⎣⎢ 

⎦⎥ 

µ = ⎛ ⎝ ⎜ ⎞ 

⎟ + ⎛ ⎠ ⎝ ⎜ 

⎞ 

⎟ + ⎛ ⎠ ⎝ ⎜ 

⎞ 

x 

2 8 4 3 6 9 82 

⎟ = = 41 . 

20 20 20⎠ 

20 

µ = ⎛ ⎝ ⎜ ⎞ 

⎟ + ⎛ ⎠ ⎝ ⎜ 

⎞ 

y 

1 10 3 10 40 

⎟ = = 2 

20 20⎠ 

20 

Distribuzioni condizionate 

Esempio 

Per studiare il comportamento della "Y" rispetto alla "X" dividiamo la distribuzione 

Congiunta in tante sottodistribuzioni 

( ) 

( ) 

f( Y = y j X = x i )= f X = x i ,Y = y j 

f Y = y j 

; j = 1,2,…,c 

Distribuzione congiunta 

Sesso 

Settori Maschi Femmine Totale 

Agricoltura 7,16% 3,91% 11,07% 

Industria 25,41% 7,84% 33,24% 

Terziario 34,86% 20,82% 55,68% 

Totale 67,43% 32,57% 100,00% 

0,7 

Agricoltura 

Distribuzione marginale 

Donne 

Settori Femmine 

Agricoltura 12,02% 

Industria 24,07% 

Terziario 63,91% 

Totale 100,00% 

0,6 

Industria 

cioè un riscalamento pro-quota delle righe della tabella per assicurare la somma 

unitaria 

Analogamente, la distribuzione della X dato che Y è ad un livello prefissato è: 

( ) 

f( X = x i Y = y j )= f X = x i ,Y = y j 

f( X = x i ) 

; i = 1,2,…,r 

0,5 

0,4 

0,3 

0,2 

0,1 

0 

Maschi 

Femmine 

Terziario 

Distribuzione marginale 

maschi 

Settori Maschi 

Agricoltura 10,62% 

Industria 37,68% 

Terziario 51,71% 

Totale 100,00%

Indipendenza di eventi e di variabili 

Perché abbia senso lo studio CONGIUNTO esso deve essere più informativo dello 

studio SEPARATO delle due componenti 

Se la "X" assume valori in relazione ad eventi indipendenti da quelli che generano i 

valori della "Y" non esiste alcun legame statistico interessante 

Indipendenza in distribuzione 

Se la condizionata di Y|X non cambia al variare di X allora Y è INDIPENDENTE 

IN DISTRIBUZIONE da X. 

f( X = x i ,Y = y j )= f( X i ); i = 1, 2, …, r; j = 1, 2,…,c 

ESEMPIO 

Lancio di due dadi di diverso colore 

X: punteggio del dado rosso; 

Y: punteggio del dado blù; 

Sapere che lanciando i due dadi, X= 4 e, contemporaneamente, Y= 3 è come 

sapere che X=4 (ignorando "Y") e che Y=3 (ignorando "X") 

PX ( = 4∩ Y= 

3)= PX ( = 4) PY= 

3 

ovvero P( X = 4Y = 3)= P( X = 4) 

( ) 

L’indipendenza è una relazione simmetria: Se X è indipendente da Y anche Y 

è indipendente da X 

Se fra le due variabili c'è indipendenza, le frequenze assolute sono pari al 

prodotto delle frequenze marginali diviso per il totale frequenze: 

f( X= x i ,Y = y j )= f( X i )⇒ n ij 

= n i. 

n . j n ⇒ n ij = n i. * n . j 

n 

⎛ n ⎞ 

⎜ ⎟ ⎛ ⎝ ⎠⎝ ⎜ 

n ⎞ 

i. . j 

⎟ 

n n ⎠ 

= = f 

1 

* f 

i. . j 

Esempio 

Test del χ 2 (chi quadrato) 

Reddito familiare e rendimento scolastico 

Rendimento Alto Medio Basso Totale 

Ottimo 16 32 40 88 

Sufficiente 8 16 20 44 

Scarso 24 48 60 132 

Totale 48 96 120 264 

Reddito familiare 

Rendimento Alto Medio Basso Totale 

Ottimo 0,3333 0,3333 0,3333 0,3333 

Sufficiente 0,1667 0,1667 0,1667 0,1667 

Scarso 0,5000 0,5000 0,5000 0,5000 

Totale 1,0000 1,0000 1,0000 1,0000 

L’ipotesi da sottoporre a verifica è 

Si adopera la seguente statistica test: 

H : π =π π per ogni " i e j" 

0 

ij i. . j 

H : π ≠π π per almeno un " i e j" 

1 

ij i. . j 

Le frequenze assolute sono diverse, 

ma quelle relative coincidono per 

ogni distribuzione condizionata del 

rendimento. 

Verifica: 

40 = 88*120 44* 96 

;16= 

264 264 

0,50 

0,45 

0,40 

0,35 

0,30 

0,25 

0,20 

0,15 

0,10 

0,05 

0,00 

Alto Medio Basso 

Ottimo 

Sufficiente 

Scarso 

⎡ 

( ) 

2 

2 

k 

n 

n 

fij −πij 

nij 

n 

2 

ij 

χ c 

= n⎢ 

∑ ⎥ 

⎢ 

i 

π ⎥ = ∑ − π ⎡ 

= 

∑ 

ij 

i 

nπ 

= 1 

= 1 ij ⎢ 

i= 

1 

⎣ 

⎤ 

⎦ 

( ) 

che è è nulla se e solo se c'è indipendenza in distribuzione tra le due variabili. 

2 

Il χ c aumenta all'aumentare della differenza tra le frequenze ipotizzate in caso di 

indipendenza e quelle effettivamente osservate. 

⎣ 

n 

nπ 

2 

ij 

ij 

⎤ 

n 

⎦⎥ − 

Valori elevati di 2 

χ ridurranno il p-Value dell’ipotesi nulla 

c

Esempio 

Produzione di palloni di cuoio. Per il controllo della qualità i 

prodotti sono classificati rispetto a: X=pressione interna e 

Y=superficie esterna. 

( ) 

( ) 

2 

12 −14 

23 − 21 

χ c 

= + 

14 21 

gdl = ( 3−1)*( 3− 1) 

= 4 

Esempio (continua) 

( 119 −122) 

+ ... + 

= 1. 

599 

122 

2 2 2 

Per i gradi di libertà si tiene conto che frequenze 

marginali teoriche ed osservate coincidono e che la 

somma la loro somma deve essere pari ad uno 

(quest’ultimo totale deve essere contato solo una volta) 

P-Value 

gdl=rc-(c+r-1)=(r-1)(c-1) 

Gli scarti tra frequenze teoriche ed 

osservato sono dette contingenze 

Il valore dell’indice sembra basso, ma è abbastanza basso? 

2 

La distribuzione campionaria del χ c , per n grande, è ben approssimata dalla 

variabile casuale detta del chi-quadrato che quindi è usata per calcolare il p- 

value del test. 

DISTRIB.CHI(1.599;4)=0.80897 

In caso di indipendenza, la probabilità di osservare un valore minore o uguale a 

quello osservato (1.599) è dell’80%. 

Non c’è quindi evidenza di un legame tra la pressione interna e la superficie 

esterna dei prodotti. 

Esercizio (Excel) 

Indagine sulla mobilità di voto. Uso dello strumento PivotTable 

Esercizio 

Soggetto Ha votato Voterà Count Voterà 

Adua Centro Destra Iris Centro Centro Ha votato Centro Destra Sinistra Totale 

Aida Sinistra Sinistra Irma Destra Destra Centro 8 1 1 2 2 1 

Alda Destra Destra Jula Sinistra Centro Destra 2 9 2 1 3 

Alea Centro Centro Kara Sinistra Destra Sinistra 4 2 1 0 1 6 

Alfa Destra Centro Lara Destra Sinistra Totale 14 22 14 50 

Anna Sinistra Sinistra Leda Centro Centro 

Asia Centro Destra Lena Sinistra Sinistra 5.88 9.24 5.88 21 =I3*$F$6/$I$6 

Atte Sinistra Centro Lisa Centro Centro 3.64 5.72 3.64 13 

Beba Sinistra Sinistra Lory Sinistra Centro 4.48 7.04 4.48 16 

Bice Centro Destra Mara Centro Destra 1 4 2 2 1 4 5 0 

Cira Centro Sinistra Mena Centro Sinistra 

Cleo Destra Destra Mina Sinistra Sinistra 0.764 0.335 2.560 3.660 =(F3-F8)^2/F8 

Cora Sinistra Destra Mira Sinistra Sinistra 0.739 1.881 0.739 3.359 

Demi Centro Destra Olga Centro Destra 0.051 3.608 6.801 10.461 

Dina Centro Centro Pina Centro Centro C hi-quadrato 17.480 

Dora Destra Destra Rina Destra Centro Gdl 4 =(3-1)(3-1) 

Edda Centro Destra Rita Destra Destra p-Value 0.0016 =Distrib.Chi(I16;I17) 

Elsa Destra Sinistra Rosa Sinistra Sinistra 

Emma Sinistra Sinistra Sara Destra Destra 

Enza Centro Destra Teti Centro Destra 

Etta Centro Centro Tina Sinistra Sinistra 

Fede Destra Destra Vega Sinistra Sinistra 

Gina Sinistra Centro Vera Centro Destra 

Gisa Centro Destra Zita Destra Destra 

Ines Destra Destra Zora Centro Centro 

Un’indagine ha classificato i rivenditori di hardware di una regione secondo il 

tipo di società ed il tipo di collocazione 

Determinate il p-Value dell’ipotesi di indipendenza 

Tipologia società 

Negozio Persone Cooperativa Impresa Totale 

Autonomo 34 16 4 54 

Supermercato 4 2 3 9 

Misto proprio 17 21 32 70 

Misto altri 13 5 6 24 

Totale 68 44 45 157

Test dell’omogeneità di due campioni 

il test del χ 2 può essere utilizzato anche nella seguente situazione: 

Si osservano due classificazioni campionarie. 

Le ampiezze possono essere diverse, ma le 

categorie sono identiche. 

Ci si chiede se i campioni provengono dalla stessa 

popolazione 

H 0 : π 1i =π 2i per ogni "i" 

H 1 :π 1i ≠π 2i per almeno un "i" 

Esempio 

Due campioni di misurazioni del tempo precedente la prima 

disfunzione in due diversi macchinari hanno dato luogo alla tabella 

Tempi C_1 C_2 C_2/risc (f1i-f'2i) 2 /f'2 

0 - 20 29 56 32.78 0.436 

20 - 40 27 41 24.00 0.375 

40 - 60 14 32 18.73 1.195 

60 - 70 11 19 11.12 0.001 

60 - 80 8 13 7.61 0.020 

>80 7 3 1.76 15.659 

96 164 96.00 17.686 

Le “teoriche” sono ottenute come: 

' 

n 2i 

= n 1 f 2i 

La statistica test è χ 2 =17.686 con 6-1=5 gradi di libertà 

La statistica test assume ora la formula 

χ 

( πi 

− πi 

) 

π 

k 

2 

2 1 2 

c 

= ∑ 

i= 

1 i2 

DISTRIB.CHI(17.686;5)=0.00336 (p-Value) 

L’ipotesi si deve rifiutare aldilà di ogni ragionevole dubbio 

Esercizio 

Numero di incidenti automobilistici lungo una strada a scorrimento veloce. 

Frequenza per lato di percorrenza 

Valori attesi nelle distribuzioni doppie 

Nel caso di variabili quantitative metriche siamo interessati al … 

Verso Sud Settimane Verso Nord Settimane 

0 39 0 82 

1 28 1 60 

2 19 2 40 

3 13 3 27 

4 8 4 18 

5 4 5 8 

>5 2 >5 4 

113 239 

Valore atteso della somma 

r c 

∑∑( i j) 

ij 

i= 

1 j= 

1 

E( X + Y)= X + Y f 

Valore atteso del prodotto 

r c 

( )= ∑∑( i j) 

ij 

i= 

1 j= 

1 

E XY XY f 

Determinate il p-value dell’ipotesi di omogeneità dei due campioni

Valore atteso della somma 

r 

c 

∑∑ 

E( X + Y)= X f + Y f = X f + Y f 

i ij 

j ij i ij j 

i= 1 j= 

1 

j= 1 i= 

1 

i= 1 j= 

1 j= 

1 i= 

1 

r 

∑ 

c 

∑ 

= Xf+ Yf =µ +µ 

i i 

i= 1 j= 

1 

j 

c 

. j 

r 

∑∑ 

x 

y 

r 

∑ 

c 

∑ 

c 

∑ 

r 

∑ 

ij 

Valore atteso del prodotto 

E( XY)= 

r 

i= 

1 

c 

∑∑ 

j= 

1 

XY 

i j 

f 

ij 

Esempio 

Esempio 

⎡Y X 2 4 6 

⎤ 

⎢ 

⎥ 

⎢ 4 2 4 10 

1 20 20 20 20 ⎥ 

⎢ 

⎥ 

⎢ 4 1 5 10 ⎥ 

⎢ 

3 20 20 20 20 

⎥ 

⎢ 8 3 9 ⎥ 

20 20 20 1 

⎣⎢ 

⎦⎥ 

E( X + Y)= 2+ 

1 4 ⎟ + 4+ 

1 2 ⎟ + 6+ 

1 4 ⎟ + 

20⎠ 

20⎠ 

20⎠ 

( + ) ⎛ ⎝ ⎜ ⎞ 

⎟ + ( + ) ⎛ ⎠ ⎝ ⎜ ⎞ 

⎟ + ( + ) ⎛ ⎠ ⎝ ⎜ ⎞ 

2 3 4 4 3 1 6 3 5 ⎟ 

20 20 20⎠ 

12 + 10 + 28 + 20 + 7 + 45 122 

= 

= = 61 . 

20 

20 

µ 

x 

+ µ 

y 

= 41 . + 2= 

61 . 

( ) ⎛ ⎝ ⎜ ⎞ 

( ) ⎛ ⎝ ⎜ ⎞ 

( ) ⎛ ⎝ ⎜ ⎞ 

⎡Y X 2 4 6 

⎤ 

⎢ 

⎥ 

⎢ 4 2 4 10 

1 20 20 20 20 ⎥ 

⎢ 

⎥ 

⎢ 4 1 5 10 ⎥ 

⎢ 

3 20 20 20 20 

⎥ 

⎢ 8 3 9 ⎥ 

20 20 20 1 

⎣⎢ 

⎦⎥ 

( )= () ⎛ ⎝ ⎜ 4 ⎞ 

2 ⎟ + ( 4) ⎛ ⎝ ⎜ 

E XY 

2 ⎞ 

⎟ + () ⎛ ⎠ ⎠ ⎝ ⎜ 4 ⎞ 

6 ⎟ + 

20 20 20⎠ 

() ⎛ ⎝ ⎜ 4 ⎞ 

⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 1 ⎞ 

⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 5 ⎞ 

6 12 18 ⎟ 

20 20 20⎠ 

8 

= + 8 + 24 + 24 + 12 + 90 

= 83 . 

20 

E(XY) in caso di indipendenza 

Esercizio 

r 

c 

∑∑ 

EXY ( )= XYff = Xf Yf =µ µ 

r 

∑ 

i j i. . j i i. j . j x y 

i= 1 j= 

1 

i= 

1 j= 

1 

c 

∑ 

In questo caso, la media dei prodotti è pari al prodotto delle medie. 

Esempio 

⎡Y X 2 4 6 

⎤ 

⎢ 

⎥ 

⎢ 3 3 6 12 

1 20 20 20 20 ⎥ 

⎢ 

⎥ 

⎢ 2 2 4 8 ⎥ 

⎢ 

3 20 20 20 20 

⎥ 

⎢ 5 5 10 ⎥ 

20 20 20 1 

⎣⎢ 

⎦⎥ 

E( XY)= () ⎛ ⎝ ⎜ 3 ⎞ 

⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 3 ⎞ 

⎟ + () ⎛ ⎠ ⎝ ⎜ 6 ⎞ 

2 4 6 ⎟ + 

20 20 20⎠ 

() ⎛ ⎝ ⎜ 2 ⎞ 

⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 2 ⎞ 

⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 4 ⎞ 

6 12 18 ⎟ 

20 20 20⎠ 

6 

= + 12 + 36 + 12 + 24 + 72 

= 81 . 

20 

µ 

x 

=() ⎛ ⎝ ⎜ 5 ⎞ ⎛ 5 ⎞ 

2 ⎟ + ( 4) 

⎜ ⎟ + () 6 ⎛10 

45 

20⎠ 

⎝ 

20⎠ 

⎝ ⎜ 

⎞ 

⎟ = . 

20⎠ 

µ =() 1 ⎛12 

3 8 18 45 18 81 

⎝ ⎜ ⎞ 

⎟ + () ⎛ 20⎠ 

⎝ ⎜ 

⎞ 

y ⎟ = .; µ 

xµ y 

= . *. = . 

20⎠ 

• Calcolare E(X+Y) 

• Calcolare E(X-Y) 

• Calcolare E(XY)

La concordanza 

Un aspetto essenziale della dipendenza tra 

due variabili su scala almeno intervallare è 

la concordanza, cioè la ricerca della 

direzione della dipendenza tra Y ed X. 

Ci si chiede se valori inferiori (superiori) alla 

media si accompagnino con valori inferiori 

(superiori) alla media nell'altra 

Per ognuna delle combinazione di possibili valori si può averne una indicazione 

dagli SCARTI MISTI: 

( ) −µ 

S = X −µ Y 

( ) 

i i x i y 

Significato della concordanza 

Il segno degli scarti è utile per sapere se, per la combinazione dei valori ”X i 

" e 

”Y i 

" l'andamento delle due variabili è concorde oppure discorde: 

CONCORDANZA 

S > ⇒ X >µ e Y oppure X e Y 

DISCORDANZA 

0 ( ) ( >µ ) (

La presentazione congiunta 

delle due variabili rivela 

aspetti che rimangono 

oscurati nella 

rappresentazione separata 

dei due aspetti. 

Lo scatterplot indica la 

presenza di un gruppo di 

soggetti (in alto a sinistra) 

diversi dal resto. 

Esempio 

Esercizio 

C’e una relazione tra il tasso di crescita delle mangrovie e la salinità del suolo? 

Utilizzare il foglio elettronico per ottenere la rappresentazione grafica. 

PrelieviSalinityCrescita 

1 2.90 22.12 

2 40.25 19.29 

3 60.05 30.69 

4 8.24 15.80 

5 58.05 24.08 

6 95.07 27.85 

7 79.31 25.58 

8 8.35 14.59 

9 12.93 16.17 

10 22.21 16.31 

11 77.23 29.17 

12 74.11 25.87 

13 20.91 22.05 

14 83.08 30.68 

15 81.02 33.82 

16 82.31 26.30 

17 46.19 21.45 

18 65.12 30.34 

19 30.46 21.86 

20 39.31 22.42 

Salinit 

35.00 

33.00 

31.00 

29.00 

27.00 

25.00 

23.00 

21.00 

19.00 

17.00 

15.00 

Relazione tra salinit e crescita pia 

0.00 20.00 40.00 60.00 80.00 100.00 

Crescita 

Dominano gli scartj concordi 

La covarianza 

Esempio di calcolo della covarianza 

La sintesi più semplice di tutti gli scarti misti è il loro valore atteso che 

costituisce la covarianza tra Y ed X 

n 

Cov( X, Y)= ⎛ Xi 

x 

Yi 

⎝ ⎜ 1⎞ 

⎟∑( −µ ) −µ 

n⎠ 

i= 

1 

( y) 

Se Cov(Y,X)>0; Predominano gli scarti di segno concorde. Ci si 

aspetta X e Y tendano a cambiare nella stessa direzione 

Se Cov(Y,X)

Formula semplificata per la covarianza 

Covarianza e trasformazioni lineari 

Usando le proprietà delle sommatorie si ottiene 

n 

n 

Cov( X, Y)= ⎛ Xi 

x 

Yi y 

Xi x 

Yi 

Xi x y 

⎝ ⎜ 1⎞ 

⎟ ( −µ )( −µ )= ⎛ n⎠ 

⎝ ⎜ 1⎞ 

∑ 

⎟∑( −µ ) −( −µ )µ 

n⎠ 

i= 1 i= 

1 

n 

n 

= ⎛ Xi x 

Yi 

y 

X 

i x 

⎝ ⎜ ⎞ 

⎟ ( −µ ) − ⎛ n 

1 

n⎠ 

⎝ ⎜ 1⎞ 

⎛ 1⎞ 

∑ 

⎟µ ∑( −µ )= ⎜ ⎟∑( XY 

i i−µ 

xYi)− 

0 

n⎠ 

⎝ 

i= 1 i= 

1 

n⎠ 

i= 

1 

n 

n 

n 

n 

= ⎛ XY 

i i 

x 

Yi 

XY 

i i 

xn 

y 

XY 

i i 

⎝ ⎜ 1⎞ 

⎟ − ⎛ n⎠ 

⎝ ⎜ 1⎞ 

⎟µ = ⎛ n⎠ 

⎝ ⎜ 1⎞ 

⎟ − ⎛ n⎠ 

⎝ ⎜ 1⎞ 

⎟µ µ = ⎛ n⎠ 

⎝ ⎜ 1⎞ 

∑ ∑ ∑ ⎟∑ 

−µ 

n⎠ 

i= 1 i= 1 i= 1 i= 

1 

che semplifica il calcolo e soprattutto l’interpretazione della covarianza 

che è nulla in caso di indipendenza in distribuzione delle due variabili 

xµ y 

La covarianza, come la varianza, risente di trasformazioni moltiplicative, ma 

non di quelle additive 

n 

n 

Cov( X, Y)= ⎛ WZ 

i i w z 

a bXi 

c dY a b c d 

⎝ ⎜ 1⎞ 

⎟ −µ µ = ⎛ n⎠ 

⎝ ⎜ 1⎞ 

∑ 

⎟ ∑( + )( + )− + µ 

n⎠ 

i= 1 i= 

1 

[ ] 

[ ] + µ 

i x y 

n 

= ⎛ ac bcX 

i 

adYi bdX 

iYi 

ac ad bc bd 

⎝ ⎜ 1⎞ 

⎟ ∑[ + + + ]− + µ + µ + µ µ 

n⎠ 

i= 

1 

n 

⎛ 1⎞ 

= bd⎜ 

⎟∑ X 

iYi 

− bdµ xµ y 

= bdCov( X, Y) 

⎝ n ⎠ 

i= 

1 

W = a + bX ; Z = c + dY 

i i i i 

[ y x x y] 

i parametri additivi ”a" e ”c" sono scomparsi, quelli moltiplicativi compaiono 

come fattore 

Disuguaglianza Cauchy-Schwartz 

Consideriamo la relazione che lega linearmente gli scarti medi di Y agli scarti 

medi di X 

n 

n 

⎛ 1⎞ 

2 1 

2 

2 2 

⎜ ⎟ [( Yi −µ 

y)−b( Xi −µ 

x) 

] = ⎛ Yi y 

b Xi x 

2b Yi y 

Xi x 

0 

⎝ n⎠ 

⎝ ⎜ ⎞⎡ 

⎤ 

∑ 

⎟⎢∑( −µ ) + ( −µ ) − ( −µ )( −µ ) ⎥ ≥ 

n⎠ 

i= 1 

⎣ i= 

1 

⎦ 

1 2 

2 1 

= ⎛ Yi 

y 

b 

⎝ ⎜ ⎞⎡ 

n 

⎟ ( −µ ) + ⎛ n 

n 

⎞ 

2 ⎛ ⎞ 

⎢∑ 

⎜ ⎟ ( −µ ) − ⎜ ⎟ −µ 

n⎠⎣ 

⎝ n 

∑ Xi 

x 

2b 1 ∑ Y X 

⎠ 

⎝ ⎠ 

i= 1 i= 

1 

n 

i= 

1 

2 

= Var( Y) + b Var( X)−2Cov( X, Y) 

≥0 

( ) −µ 

( ) 

i y i x 

⎤ 

⎥ 

⎦ 

Perchè tale disequazione di 2° grado in ”b" sia sempre soddisfatta, il discriminante 

deve essere negativo e cioé: 

La covarianza, al quadrato, è inferiore o uguale al prodotto delle varianze delle 

distribuzioni marginali 

n 

* * X Y 

i x i y 

Cov( X , Y ) = ⎛ ⎝ ⎜ 1⎞ 

⎛ −µ ⎞⎛ 

−µ ⎞ 

⎟∑⎜ 

⎟ 

n⎠ 

⎜ ⎟ 

i= 

1⎝ 

σx 

⎠⎝ 

σy 

⎠

Coefficiente di correlazione 

E’ compreso tra -1 e +1 perché espresso come rapporto di una quantità 

(la covarianza) al suo massimo (in valore assoluto) 

E' standardizzato. Se una o entrambe le variabili subiscono una 

trasformazione lineare il coefficiente rimane lo stesso: 

r(a+bX,c+dY) = r(X,Y) 

Coefficiente di correlazione/2 

Assume i valori estremi solo in caso di relazione lineare esatta 

n 

n 

n 

Cov( X, a + bX) 

= ⎛ Xi 

a bXi 

x 

a b 

x 

aX 

i 

bX 

i 

a 

x 

b 

⎝ ⎜ 1⎞ 

⎟ ( + )−µ ( + µ )= ⎛ n⎠ 

⎝ ⎜ 1⎞⎡ 

⎤ 

2 

∑ 

⎟ ⎢∑( )+ ∑ ⎥− µ − µ 

n⎠⎣ 

⎦ 

i= 1 

i= 

1 

i= 

1 

n 

= a ⎛ aX 

i 

a 

x 

b 

⎝ ⎜ 1⎞ 

⎡ 

⎟ ( )− µ + ⎛ n 

n ⎠ 

⎝ ⎜ 1⎞ 

⎤ 

2 2 

∑ 

⎢ ⎟ −µ 

⎣ n 

∑ X 

i x 

a 

x 

a 

x 

b Var x 

⎠ ⎦ 

i= 

1 

= bVar( x) 

Ne consegue che 

i= 

1 

[ ] 

⎥ = µ − µ + ( ) 

2 

x 

E' simmetrico rispetto alle due variabili: r(Y,X)=r(X,Y) 

rXa ( , + bX) 

= 

bVar( x) bVar( x) 

b se b 

Var( x) Var( a + bx) = Var( x) b Var( x) = b = ⎧ − 1 < 0 

⎨ 

2 

⎩+ 1 se b > 0 

E' uguale a zero se c'è indipendenza tra le due variabili (il numeratore 

in questo caso è infatti zero) 

il coefficiente di correlazione misura, quindi, l'intensità del legame lineare che 

sussiste tra le due variabili. 

Calcolo di r(x,y) 

il calcolo è molto semplice purché opportunamente organizzato. 

Supponiamo che le due variabili presentino con frequenza 1/6 le coppie di valori 

inserite nelle prime due colonne. 

Una volta calcolato r(x,y) su di un campione di osservazioni cosa si può dire sul 

coefficiente di correlazione che lega le due variabili nell’intera popolazione? 

µ x 

µ y 

H1 

: ρ ≠ 0 

P-Value per r(x,y) 

H0 

: ρ = 0 

(assenza di un legame lineare) 

(presenza di un legame lineare) 

La statistica test che si po’ usare è 

⎛ 

ryx 

tc = n − ⎜ 

( , ) 

2 

⎜ 

⎝ 1 ryx , 

[ ] 

− ( ) 

2 

⎞ 

⎟ 

⎟ 

⎠ 

Le due variabili presentano una correlazione positiva tendendo a presentare insieme 

i valori più grandi 

La cui distribuzione è approssimata dalla t-Student con (n-2) gradi di libertà

Esito test Durata 

134 265 53 97 

122 239 49 94 

138 225 57 90 

134 218 50 83 

119 193 42 81 

99 193 51 81 

95 190 42 78 

94 179 48 78 

90 176 40 74 

104 174 36 72 

75 148 36 67 

75 142 40 66 

73 138 41 65 

71 135 33 65 

80 130 31 59 

61 120 31 56 

59 118 25 49 

69 115 29 49 

57 113 29 49 

58 112 23 42 

56 111 22 40 

57 110 22 40 

66 109 21 37 

55 109 25 36 

56 105 17 33 

52 99 16 32 

Esito 

Esercizio - Excel 

Durata ed esito di un te 

300 

250 

200 

150 

100 

50 

0 

0 50 100 150 

Durata 

=CORREL(B2:B53;C2:C53) 

n = 52 : gld = 50 : t = 39. 56, 

p − Value = 0 

c 

Esercizio 

Supponendo che una v.c. doppia presenti i seguenti valori 

a) Disegnare lo SCATTERPLOT 

b) Calcolare la Correlazione tra X e Y 

Significato di r(x,y) 

Scatterplot e correlazione 

Dalle proprietà di "r(x,y)" si deduce il suo significato: 

Quanto più i suoi valori si avvicinano, in modulo, ad uno tanto più i valori delle 

variabili risultano collegabili con una retta. 

Lo scatterplot fornisce una idea immediata della intensità del legame che 

intercorre tra le due variabili 

Si realizza riportando -in scala opportuna- le combinazioni osservate dei valori 

D'altra parte, quanto più "r" è vicino a "±1" tanto più la conoscenza di una delle 

variabili permette, attraverso la relazione lineare, di conoscere l'altra. 

In questo senso "r" è una misura del grado di concordanza tra i valori della 

variabile doppia (X,Y) 

INTENSITA' DEL LEGAME LINEARE 

PREVEDIBILITA’ DI UNA VARIABIULE CONOSCENDO L’ALtra 

GRADO DI CONCORDANZA 

La relazione tra due variabili tende a divenire più stretta ma mano che la nube 

di punti passa dalla forma circolare, alla ellisse ed alla retta

Scatterplot e correlazione/2 

Assenza di legami lineari 

Correlazione e causa-effetto 

L'esistenza di correlazione, per quanto intensa, non implica una relazione di 

causa ed effetto. 

LEGAME PLAUSIBILE 

Il tasso di criminalità è fortemente legato al tasso di disoccupazione. 

LEGAME SPURIO 

Nei bambini, la misura delle scarpe è molto correlata con la capacità di 

lettura. 

La correlazione indica solo che l'andamento di una variabile tende a disporsi 

secondo una retta se rappresentato in un diagramma cartesiano insieme 

all'altra. 

I "perchè?" di questa tendenza vanno cercati al di fuori della statistica. 

Correlazione spuria 

Spesso, il valore di r(y,x) altro non è che l'apparenza di un legame la cui 

sostanza è invece dovuta a fenomeni esterni. 

La situazione di causalità tra X e Y: 

Non è distinguibile dal legame spurio che fra di esse si pone a causa della 

comune dipendenza da una terza variabile Z 

L’apprendimento di nuove parole non 

rende i piedi più grandi ovvero avere 

piedi più grandi non aiuta a 

conoscere nuove parole. 

C’un terzo fattore nascosto dietro la 

correlazione: l’età 

Questo si verifica spesso a causa dell'esistenza di fenomeni tendenziali di 

lungo periodo che incidono allo stesso modo su variabili diverse

Anno Nidi di cicogne Nati vivi 

1972 19 104 

1973 24 123 

1974 27 130 

1975 33 136 

1976 40 144 

1977 43 149 

1978 47 156 

1979 49 160 

1980 54 168 

1981 55 171 

1982 61 184 

1983 67 195 

Esempio 

In una zona del Nord Europa è stato monitorato il 

numero di nidi costruiti dalle cicogne ed il numero di 

nati vivi nel loro periodo di permanenza. 

Dal punto di vista della correlazione le 

ipotesi che siano le cicogne a portare i 

bambini o che siano i bambini a portare le 

cicogne sono equivalenti. 

200 

190 

180 

170 

Nati vivi 

160 

150 

140 

130 

120 

110 

100 

J 

J 

J 

J 

J 

J 

10 20 30 40 50 60 70 

NIDI 

J 

J 

J 

J 

J 

J 

X Y W Z A 

54 35 87.0 68.0 22 

63 46 126.0 109.0 42 

71 87 78.5 94.5 5 

35 74 59.0 98.0 16 

1 88 35.5 122.5 23 

33 37 57.0 61.0 16 

61 66 106.0 111.0 30 

49 21 79.0 51.0 20 

86 30 129.5 73.5 29 

25 6 44.5 25.5 13 

65 32 87.5 54.5 15 

70 60 86.5 76.5 11 

61 36 127.0 102.0 44 

38 47 39.5 48.5 1 

5 28 48.5 71.5 29 

47 67 60.5 80.5 9 

19 87 43.0 111.0 16 

74 26 84.5 36.5 7 

26 6 53.0 33.0 18 

89 38 117.5 66.5 19 

25 80 77.5 132.5 35 

2 71 8.0 77.0 4 

7 54 61.0 108.0 36 

31 3 95.5 67.5 43 

17 54 71.0 108.0 36 

31 57 88.0 114.0 38 

37 82 98.5 143.5 41 

6 33 24.0 51.0 12 

59 1 99.5 41.5 27 

89 58 153.5 122.5 43 

90 88 120.0 118.0 20 

46 20 92.5 66.5 31 

51 71 55.5 75.5 3 

37 1 50.5 14.5 9 

23 62 63.5 102.5 27 

Esercizio 

Corr(X,Y) -0.037 

Corr(W,Z) 0.309 

W = X + 12 . A 

Z = Y + 12 . A 

Z 

Y 

Valori originar 

100 

90 

80 

70 

60 

50 

40 

30 

20 

10 

0 

0 20 40 60 80 100 

X 

Valori contaminati 

160.0 

140.0 

120.0 

100.0 

80.0 

60.0 

40.0 

20.0 

0.0 

0.0 50.0 100.0 150.0 200.0 

W 

Dipendenza dei ranghi 

Riguarda le variabili riportate in scala quantitativa ordinale. 

> Perché non esiste una vera misura, ma solo un punteggio o valutazione 

> Perché le misurazioni su sono imprecise o viziate da errore 

Esempio 

Un gruppo di clienti di una banca classificato per reddito e per importo del 

prestito 

> Perché sono presenti dei valori remoti 

Le modalità sono poste in corrispondenza con dei numeri naturali (ranghi) 

Per ogni unità si osserva una coppia di modalità che si trasforma poi in una 

coppia di ranghi

Correlazione tra ranghi (rho di Spearman) 

Esempio 

La misura forse più popolare della dipendenza tra i ranghi è la seguente 

r 

S 

= 

n 

∑ 

i= 

1 

n 

∑ 

i= 

1 

⎛ n n 

ri 

− + 1⎞ 

⎜ ⎟ ⎛ si 

− + 1⎞ 

⎜ ⎟ 

⎝ 2 ⎠⎝ 

2 ⎠ 

2 2 

⎛ n 

n 

n 

ri 

− + 1⎞ 

⎜ ⎟ ⎛ si 

− + 1⎞ 

∑⎜ 

⎟ 

⎝ 2 ⎠ ⎝ 2 ⎠ 

i= 

1 

detto rho di Spearman 

Caso delle n coppie di valori senza posizioni di parità. 

La definizione di r S 

è la stessa del coefficiente di correlazione. Comunque 

il particolare tipo di dati coinvolti consente delle semplificazioni 

r 

S 

n 

∑ 

2 

6 ( ri 

− si) 

i= 

1 

= 1− 

2 

nn −1 

( ) 

Considerazione sul rho di Spearman 

P-Value per rho 

Una volta calcolato rho su di un campione, cosa si può dire sul rho di Spearman 

che lega le variabili nell’intera popolazione? 

H 

H 

0 

1 

: ρ = 0 ( NON esiste una relazione monotona) 

: ρ ≠ 0 ( Esiste una relazione monotona) 

La statistica test che si puo’ usare è la stessa del coefficiente di correlazione 

⎛ 

tc = n − ρ 

⎞ 

2 

⎜ 

2 

⎝ 1− 

ρ 

⎟ 

⎠ 

Per n

X Y 

Unit Percorsi Vendite Rank(X) Rank(Y) 

A 121.5 373 21 25 

B 151.5 314 25 21 

C 146.2 301 24 20 

D 106.7 263 16 17 

E 98.9 204 11 9 

F 95.1 176 9 7 

G 90.1 138 4 1 

H 115.5 329 19 23 

I 71.7 225 1 11 

J 111.7 300 18 19 

K 93.6 164 7 5 

L 109.6 284 17 18 

M 105.3 252 15 16 

N 125.0 400 22 26 

O 91.7 239 6 15 

P 88.7 161 3 4 

Q 101.9 226 13 12 

R 162.3 322 26 22 

S 96.4 185 10 8 

T 90.7 143 5 2 

U 100.0 212 12 10 

V 102.6 232 14 13 

X 94.5 171 8 6 

Y 88.6 143 2 2 

W 119.4 358 20 24 

Z 142.9 232 23 13 

rho= 0.850084703 

gdl= 25 

tc= 7.907679188 

p-Value 2.90161E-08 

Rango vendite 

Esempio 

Venditori porta-a-porta per vendite e 

Km percorsi 

30 

25 

20 

15 

10 

5 

0 

Correlazione di rango 

0 5 10 15 20 25 30 

Rango percorsi 

La correlazione è elevata e significativa 

Rilevazione diretta dei ranghi 

Un certo insieme di n oggetti o situazioni sono 

ordinate secondo il grado con cui presentano 

una certa caratteristica X. 

Supponiamo … 

Che la caratteristica sia un mix di immaterialità 

che può essere graduato, ma non misurato. 

Che le valutazioni siano espresse con voti 

{1,2,…,n} così ottenendo la permutazione {s 1 

, 

s 2 

,…,s n 

} 

Esempio: giudizi degli esperti 

Ad un esperto è stato chiesto di pronunciarsi sulla 

posizione che le 20 squadre di un campionato di 

calcio occuperanno alla fine: {s 1 , s 2 ,…,s 20 }. 

Alla fine della stagione i giudizi sono comparati con le 

posizioni reali: {q 1 , q 2 ,…,q 20 }. 

Per semplificare il calcolo possiamo disporre le due 

serie di posizioni secondo l’ordine crescente della 

prima 

Ripetiamo la rilevazione per una Y misurata allo 

stesso modo e che produce una diversa 

permutazione degli interi: {q 1 

, q 2 

,…,q n 

} 

Condizione di ansia e stress 

Prima e dopo una separazione 

Squadra A B C D E F G H I L M N O P Q R S T U V Totale 

Prima 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 210 

Dopo 9 2 4 7 5 1 3 8 6 11 13 10 14 18 15 12 16 20 17 19 210 

Il rho di Spearman cerca di quantificare l’intensità del legame monotono tra i due 

insiemi di giudizi 

ρ=0.87 (p-value 0.000001). L’esperto ha dato un buon giudizio sebbene sembri più in grado di 

indovinare le squadre che avranno una cattiva stagione rispetto a quelle che l’avranno buona

Esercizio 

Presenza di valori uguali 

Ad un campione di consumatori stato 

chiesto di giudicare la qualit di un 

servizio con un voto da 0 a 12. 

E anche stato ch iesto di valutare con 

un voto da 0 a 12 la reputazione 

dell azienda c he forniva il servizio 

Azienda Rating servizio Reputazione aziend 

Alfa01 8 9 

Alfa02 9 12 

Alfa03 2 0 

Alfa04 5 10 

Alfa05 6 6 

Alfa06 4 11 

Alfa07 7 4 

Alfa08 10 3 

Alfa09 3 5 

Alfa10 1 2 

Alfa11 0 1 

Alfa12 12 7 

Alfa13 11 8 

Risulta che ci sia un legame tra le due valutazioni? 

Rho-Spearman= 0.4890 

Tc= 1.8593 

p-value 0.0899 

Esempio 

r S 

Accertamento di una relazione 

d'ordine tra il tasso di interesse 

effettivo "E" dei BOT trimestrali e 

l'indice di borsa "B" 

2 5 

2 0 

1 5 

1 0 

5 

0 

l 

l 

l 

ll 

l 

l 

l 

l 

l 

l 

l 

l l l 

l 

l 

l 

l 

l 

l l 

l 

P-value 0.000000 

0 5 1 0 1 5 2 0 2 5 

Voti in due discipline per un camipone 

di studenti. 

C un legame tra I due voti? 

rho-Spearman 0.7836 

Tc 7.5669 

p-value 0.0000 

Esercizio 

Matricola Disciplina A Disciplina B 

50825 18 18 

64506 18 18 

64289 18 18 

31136 18 18 

81016 20 19 

91817 20 19 

42720 20 19 

92614 21 20 

33491 21 20 

31947 21 21 

56554 21 21 

83355 22 21 

95516 22 21 

44659 22 22 

93637 22 22 

70350 22 22 

53806 23 24 

44509 23 24 

92149 23 24 

86848 23 24 

35750 24 24 

95748 24 25 

76681 25 25 

70776 25 25 

43071 26 26 

42950 26 26 

45653 26 26 

56123 28 27 

53240 28 27 

91805 28 27 

69069 28 27 

77209 29 27 

84099 29 27 

55360 30 29 

48820 30 29 

76747 30 30 

92951 30 30 

66366 30 30

Relazione tra due variabili 

Dopo aver rappresentato graficamente i dati a mezzo dello scatterplot si è 

interessati a determinare una curva che passi vicino ai punti 

Per sostituire uno schema semplice alla 

nube dei punti 

Relazioni stocastiche e deterministiche 

Secondo questo grafico ed ogni età corrisponde 

un ben determinato diametro del tronco 

Per sintetizzare le tendenze di fondo 

Per ricostruire o determinare il valore della Y 

noto quello della X o viceversa 

il presupposto è che esiste una variabile (la "X” detta indipendente o esogrena) che 

è causa o comunque agisce sulla’altra (la "Y” detta dipendente o endogena). 

La scelta del ruolo delle due variabili è però esterna alla statistica. 

il diametro del tronco aumenta con l'età, ma 

l'incremento non è certo: talvolta aumenta di 

più, altre volte di meno 

Proposta del modello lineare 

La semplicità è una convenzione: giudichiamo semplice ciò che è regolare 

o prevedibile e che appare com’è a chiunque possa e voglia vedere 

Esempio 

La teoria di un fenomeno può spesso essere sintetizzata da un modello 

espresso da una equazione. 

il rasoio di Occam 

Se è necessario dare una soluzione 

ad un problema di cui si sa poco, la 

risposta più semplice comporta 

meno rischi in caso di errore ed è 

spesso quella giusta 

Sia ”D" l'ampiezza in cm del diametro alla base del tronco di una data 

specie arborea e sia ”E" l'età . 

L'idea che il diametro sia più grande secondo l'età può essere espressa 

dalla relazione funzionale: 

L uovo di Colombo 

Principio di semplicità di Galilei 

La natura procede per vie semplici ed offre così la sicura 

scelta tra le varie spiegazioni possibili dei suoi fenomeni 

D=f(E) 

queste variazioni assicurano all'albero adeguata resistenza e flessibilità.

Proposta del modello lineare/2 

il legame più semplice tra due variabili è quello lineare 

D = β 0 + β 1 E + u 

Y 

Teorema di Taylor. 

Una ragione di più 

Se la funzione "f" che lega "D" ad "E'" ha 

derivate prime e seconde continue in un 

intorno del punto E0, in tale intorno la "f" è 

ben approssimata dalla retta 

Zoom 

X 

Ipotizziamo che l’ordinata “Y” sia dovuta alla combinazione ADDITIVA di 

due valori: la parte deterministica (lineare) ed un errore 

In generale si può dire che la scelta del modello lineare è motivata da 

il termine "u" è il risultato di: 

Errori e carenze nella misurazione e nella rilevazione di “D” e di “E” 

Insufficienza del solo fattore E a "spiegare" da solo la D 

Inadeguatezza della "semplice" relazione lineare 

Ragioni di semplicità 

Esigenze di sintesi 

Approssimazione funzionale 

Formulazione matematica 

Supponiamo di disporre di "n" coppie di osservazioni 

Il modello di regressione lineare semplice è 

La terminologia 

Modello. Perché è un insieme di ipotesi rispetto al legame esistente tra 

la variabile esogena ed endogena. Le ipotesi in genere danno luogo ad 

una equazione, lineare nel nostro caso 

"i" indice che denota l'ordine 

COMPONENTE 

DETERMINISTICA 

COMPONENTE 

STOCASTICA 

(Non osservabile) 

Regressione . E' una etichetta storica dovuta agli studi di Francis Galton 

(1889) sull'effetto di regressione: la tendenza a prevalere dei valori 

medi. 

β 0 = intercetta. 

Rappresenta il valore a cui tende a stabilizzarsi la Y quando la X è zero. 

Lineare. Perché i parametri incogniti vi compaiono con potenza 1 

β 1 

= Coefficiente angolare. 

Rappresenta la variazione che si realizza nella Y per ogni aumento unitario in X 

Semplice. Perchè c'è una sola variabile esplicativa (REGRESSORE) in 

contrapposizione a multipla termine usato quando vi sono più variabili 

esplicative.

Calcolo dei parametri 

Se per due punti passa una sola retta fra più di due punti non allineati ne 

passano infinite. 

Ogni scelta determina degli errori 

dovuti alla sostituzione di un valore 

presunto o teorico ad un valore 

osservato 

Partiamo dall’errore i-esimo: 

Soluzione dei minimi quadrati 

( y i − ŷ i ) = y i − β 0 − β 1 X i = y i − β 0 − β 1 X i ± y ± β 1 x 

= ( y i − y) + ( y − β 0 − β 1 x) − β 1 ( X i − x) 

( ) 

che evidenzia il ruolo del punto x,y baricentro fisico dello scatterplot 

Elevando al quadrato e sviluppando si ottiene: 

( y i − ŷ i ) 2 = [( y i − y)+ ( y − β 0 − β 1 x)− β 1 ( x i − x) 

] 2 = ( y i − y) 2 + ( y − β 0 − β 1 x) 2 + β 2 1 ( x i − x) 2 + 

+ 2( y i − y) ( y − β 0 − β 1 x)− 2β 1 ( y i − y) ( x i − x)− 2β 1 ( y − β 0 − β 1 x) ( x i − x) 

ŷ i = valore stimato (ottenuto in base al modello) 

Occorre stabilire un criterio che ci permetta di scegliere quella che passa 

più vicino ai punti ovvero si adatta bene allo scatterplot 

Considerando la somma di tutti gli “n” termini e ricordando che la somma degli 

scarti dalla media aritmetica e nulla si arriva a: 

n 

2 

n 

2 

n 

2 

n 

n 

∑ ( yi 

− yˆ 

i) 

= ∑ ( yi 

−y) 

+ ∑( y− 0 − 1x) + 1 2 

2 

β β β ∑( xi 

− x) 

−2β1 ∑( yi 

−y) xi 

− x 

i= 1 

i= 1 

i= 1 

i= 1 

i= 

1 

( ) 

Soluzione dei minimi quadrati/2 

n 

Definiamo: S xx = ( x i − x) 2 n 

∑ ; S yy = ( y i − y) 2 n 

∑ ; S xy = ∑( x i − x) ( y i − y); 

i=1 

i=1 

i=1 

Tali quantità sono note come devianze e codevianze 

n 

Ne consegue: ∑ ( y i − ŷ i ) 2 = S yy + n( y − β 0 − β 1 x) 2 + β 2 1 S xx − 2β 1 S xy 

i=1 

= S yy + n( y − β 0 − β 1 x) 2 + β 2 1 S xx − 2β 1 S xy + S 2 

xy 

− S 2 

xy 

S xx S xx 

= S yy + n( y − β 0 − β 1 x) 2 ⎡ 

+ S xx β 2 1 − 2βl1 S xy 

+ S 2 

xy ⎤ 

⎢ 

⎥ 

⎣⎢ 

S xx S − S 2 

xy 

xx ⎦⎥ 

S xx 

( ) 2 + S xx β 1 − S xy 

= S yy + n y − β 0 − β 1 x 

2 

⎤ 

S 

⎥ xx ⎦ 

La somma degli errori dipende dalle incognite solo attraverso dei termini al quadrato 

per cui il minimo si ottiene azzerando quei termini e cioè 

⎡ 

⎢ 

⎣ 

− S 2 

xy 

S xx 

Esempio 

ˆβ 1 = S yx 

S xx 

; ˆβ0 = y − ˆβ 1 x

Altro esempio 

Il prezzo dell'usato per una particolare auto è stato rilevato in alcuni esemplari 

Esercizio con l’Excel 

Di seguito si riportano dei dati relativi ad X=ampiezza totale della sede stradale e 

Y= distanza tra un ciclista e un auto (ottenuta con misurazioni su foto) 

1) Calcolare le stime dei parametri 

2) Disegnare la retta teorica 

SUMMARY OUTPUT 

ATSD DIST 

12.8 5.5 

12.9 6.2 

12.9 6.3 

13.6 7.0 

14.5 7.8 

14.6 8.3 

15.1 7.1 

17.5 10.0 

19.5 10.8 

20.8 11.0 

Dist 

Misurazioni su fot 

12.0 

11.0 

10.0 

9.0 

8.0 

7.0 

6.0 

5.0 

4.0 

10.0 12.0 14.0 16.0 18.0 20.0 22.0 

ATSD 

Regression Statistics 

Multiple R 0.9607 

R Square 0.9229 

Adjusted R Square 0.9133 

Standard Error 0.5821 

Observations 10 

Strumenti-->Analisi dei dati-->Regressione 

Coefficients Standard Error t Stat P-value 

Intercept -2.1825 1.0567 -2.0654 0.0727 

X Variable 1 0.6603 0.0675 9.7858 0.0000 

Esercizio 

Analisi della relazione tra i rapporti Terra/Lavoro (T/L) e Redditività del 

Lavoro (RL/L) in alcuni settori colturali calabresi 

Proprietà della retta di regressione 

La retta di regressione passa per il punto di coordinate 

La retta stimata può essere scritta come: 

( x,y) 

y = y + ˆβ 1 ( x − x) ⇒ y + ˆβ 1 ( x − x)= y 

La somma degli scarti tra osservate e teoriche è nulla: 

n 

n 

∑ y i − ŷ i = ∑ y i −y − ˆβ 

n 

1 ( x − x) ⇒ ∑( y i − y) 

− ˆβ 

n 

1 ∑( x − x)= 0 − ˆβ 1 *0= 0 

i=1 i=1 

i=1 

i=1 

Ciò implica che Media osservate = Media teoriche 

1) Calcolare i parametri della regressione di Y su X 

2) Disegnare la retta teorica e lo scatterplot 

n n 

ŷ i ∑ y + 

i=1 

∑n ˆβ 1 x − x 

= i=1 

n 

( ) ny + ˆβ 1 ∑( x − x) 

= i=1 

n 

n 

= ny + 0 

n 

= y

Esercizio 

L'urbanista Palmira Morrone sta investigando la relazione tra il flusso di traffico X (in 

termini migliaia di auto ogni 24 ore) ed il contenuto di piombo Y nella cortegga degli 

alberi che fiancheggiano una superstrada (peso a secco in µg/g) 

a) disegnare lo scatterplot; b) Stimare i parametri; c) Calcolare i valori teorici 

d) Verificare che le proprietà indicate nel precedente lucido. 

Proprietà della retta di regressione/2 

il ruolo di esogena ed endogena può essere scambiato: 

⎧ ˆβ 

y i = β 0 + β 1 x i + e i ⇒ ŷ i = ˆβ 0 + ˆβ 

0 = y − ˆβ 1 x 

⎪ 

1 x i dove⎨ 

ˆβ 1 = S xy 

⎩ 

⎪ S xx 

⎧ ˆγ 0 = x − ˆγ 1 y 

' ⎪ 

x i = γ 0 + γ 1 x i + e i ⇒ ˆx i = ˆγ 0 + ˆγ 1 x i dove⎨ 

ˆγ 1 = S xy 

⎩ 

⎪ S yy 

x = y 

tg( θ)= r2 −1 

r 

Le due rette interpolanti sono legate: 

ˆγ 1 = S xy 

S yy 

= 

ˆβ 1 = S xy 

= 

S xx 

ˆγ 1 * ˆβ 1 = r 2 

S xx 

S yy 

* 

S yy 

S xx 

* 

S xy 

S xx S yy 

= S xx 

S yy 

* r 

S xy 

S xx S yy 

= S yy 

S xx 

* r 

i coefficienti angolari hanno sempre lo stesso segno 

per cui le due rette non sono mai perpendicolari 

Le due rette sono parallele (e coincidenti) se e solo 

se Y=X dato che tg(θ)=0 

Se poi allora le due rette coincidono 

Stima della varianza degli errori 

Esercizio 

L'aziendalista Costantina Tenuta fa parte di una commissione chiamata a valutare una serie 

di progetti per l'idoneità al finanziamento. Per controllarne la congruità pone in relazione il 

numero X dei progetti per area e il tempo medio di completamento Y. 

a) Disegnare lo scatterplot; 

b) Stimare i parametri; 

c) stimare la varianza degli errori 

Per ottenerne un valore approssimato si usa la seguente quantità 

Che possiede alcune utili proprietà statistiche

Uso della retta di regressione 

Esempio 

Unità di lavoro part-time e aumento di produzione 

INTERPOLAZIONE 

Lo scopo è trovare i valori della dipendente o di sostituirne i valori 

particolarmente anomali, per valori noti della indipendente. 

ESTRAPOLAZIONE 

Determinazione del valore della dipendente che corrisponde ad un valore 

della indipendente non necessariamente osservato. 

CONTROLLO 

Determinazione del valore della indipendente idoneo a determinare 

un fissato livello della dipendente 

In ogni caso si ottengono dei VALORI TEORICI costituenti la stima dei 

VALORI VERI che rimangono comunque sconosciuti 

Ogni unità di lavoro part-time addizionale è 

responsabile di 2.167 tonn. di produzione. 

Se il lavoro part-time non fosse impiegato 

la produzione media sarebbe a 2.25 tonn. 

Supponiamo che si decida di impiegare più di 8 ULPT, diciamo 10, quale sarà 

l'incremento di produzione? 

yˆ 10 = 225 . + 2167 . * 10= 225 . + 2167 . = 2392 . 

Se invece si volesse stabilire quante unità di lavoro part-time impiegare per 

ottenere 16 semilavorati allora 

16 − 2 25 

16 = 2 . 25 + 2 . 167 * ˆ ⇒ ˆ ( . ) 

X X = = 6. 

345 

2. 

167 

Esercizio 

La dott.ssa Sarina Bonofiglio, analista finanziario, sta studiando la relazione tra X= Tasso 

medio sui prestiti nel sistema interbancario e Y=importo della cedola semestrale di un titolo 

obbligazionario. 

a) Disegnare lo scatterplot 

b) Stimare 

c) Supponendo che il dato del 93 sia non 

affidabile perché affetto dalla crisi nello 

SME calcolare il valore interpolato. 

d) Quale sarà la cedola semestrale se nel '94 

il TMPSI arriva a 5.5? 

L’effetto di regressione 

I principi del ritorno alla media lo si ritrova in varie occasioni 

Un docente che loda gli studenti per il buon risultato raggiunto in una 

prova vedrà un esito peggiore nella prova successiva. 

il docente che sgrida gli studenti per la pessima riuscita di un test otterrà 

risultati molto migliori nella seguente prova. 

Un buon governo sarà seguito da una amministrazione inefficace e ad un 

premier inadeguato succederà un brillante primo ministro. 

Nelle competizioni articolate su due fasi è frequente notare il ribaltamento 

degli esiti tra la prima e seconda prova: i migliori che peggiorano ed i 

peggiori che migliorano.

Alle origine del concetto di regressione 

L’effetto di regressione/2 

L’elemento comune è spiegabile così: 

Per ottenere un buon risultato in un’impresa difficile 

concorrono due fattori: 

Talento/Genio 

Sorte 

il successo in una prova ardua implica che entrambi i fattori hanno agito a favore. 

Nella seconda prova il talento/genio magari migliorano o agiscono con la stessa 

intensità 

Sir Francis Galton notò che i figli di padri alti erano più alti della media, ma meno 

di quanto non eccedessero dalla media i loro padri. I figli di padri bassi erano in 

media bassi, ma meno bassi della media generale di quanto non lo fossero i padri 

La Sorte è capricciosa e imprevedibile e non si ripete. 

Ed ecco l’effetto di regressione alla media in cui gli scarti si annullano tutti. 

Misura dell'adattamento 

I minimi quadrati ci garantiscono il miglior adattamento possibile, ma questo 

potrebbe non essere abbastanza. 

Dobbiamo trovare misure standardizzate e normalizzate che siano in grado di 

quantificare il grado di scostamento tra valori stimati e valori osservati 

SCARTO QUADRATICO MEDIO DEGLI ERRORI (errore standard della stima) 

Correlazione teoriche-osservate 

Una possibilità di valutare l’adattamento potrebbe basarsi su: 

n 

∑( y 

Cov( y i ,ŷ i ) i − y) ( y − ˆβ 1 ( x i − x)− y) 

ˆβ 

σ( y i )σ( ŷ i ) = i=1 

1 S xy 

= 

n 

S yy ∑( y − ˆβ 1 ( x i − x)− y) 2 S yy ˆβ1 2 = 

S xx 

i=1 

= ˆβ 1 

ˆβ 1 

r 

con i minimi quadrati 

( ) 

s 2 e = S yy 

1− r2 

n − 2 

E' nullo solo in caso di perfetta relazione lineare (r=1). Non 

varia però entro limiti predefiniti. 

Possiamo solo dire che un adattamento è peggiore di un 

altro, ma non se un dato adattamento è buono o no 

Risente anche delle unità di misura della dipendente. 

Ne consegue che l’adattamento è misurabile da: 

( ) 

( ) = ˆβ 1 

Cov y i ,ŷ i 

σ( y i )σ ŷ i 

ˆβ 1 

r = r 

cioè dal valore assoluto del coefficiente di correlazione tra osservate e stimate che 

coincide con il valore assoluto del coefficiente di correlazione “r” tra X ed Y.

Coefficiente di determinazione ( R 2 ) 

La variabilità della "Y" può essere scomposta in due parti distinte. Infatti, l'identità 

n 

n 

∑ ( y i − y) 

= ∑ y i − ŷ i 

[( ) + ( ŷ i − y) 

] 

i=1 i=1 

rimane anche quando si considerano i quadrati 

(se la retta è quella dei minimi quadrati) 

n 2 

∑( y i − y) 

= 

n 

∑ y i − ŷ i 

i=1 

i=1 

( ) 2 + ∑( ŷ i − y) 2 

Dividendo per "n" si ha la seguente relazione: 

Varianza totale=Varianza errori+Varianza stime 

La varianza delle stime è la parte di variabilità (attitudine a presentare modalità diverse) 

che il nostro modello riesce a spiegare, quella degli errori è la parte che rimane ignota. 

Varianza totale=Varianza NON spiegata+Varianza spiegata 

n 

i=1 

Formula dell' R 2 

Dalla formula della scomposizione abbiamo: 

Dividendo i membri per la devianza totale si ha 

n 2 

∑( y i − y) 

= 

n 

∑ y i − ŷ i 

i=1 

i=1 

( ) 2 + ∑( ŷ i − y) 2 

il 1° addendo è il rapporto tra varianza non spiegata e varianza totale, il 2° è il 

rapporto tra varianza spiegata e varianza totale. 

Questo rapporto è usato come indice della bontà di adattamento ed è noto come il 

COEFFICIENTE DI DETERMINAZIONE 

n 

i=1 

n 

( y i − ŷ i ) 2 n 

∑ 

∑( ŷ i − y) 2 

= i=1 

n 2 + i=1 

n 2 

∑( y i − y) 

∑( y i − y) 

i=1 

i=1 

n 

( ŷ i − y) 2 n 

∑ 

( y i − ŷ i ) 2 n 

2 

∑ 

∑ ê i 

R 2 = i=1 

n 2 = 1− i=1 

n 2 = 1− i=1 

n 

2 

∑( y i − y) 

∑( y i − y) 

y i − ny 

2 

∑ 

i=1 

i=1 

i=1 

Casi estremi 

Se tutte le osservate sono allineate su di una retta, 

teoriche ed osservate coincidono e quindi 

Esempio 

Studio della relazione tra il massimo del battito cardiaco sotto stress ed età 

n 

∑( ŷ i − y) 2 

Se y i = ŷ i per ogni "i" ⇒ R 2 = i=1 

n 2 = 1; 

∑( y i − y) 

i=1 

ŷ i = y + ˆβ 1 ( x i − x) 

Se la retta di regressione è piatta (coefficiente 

angolare nullo) allora le teoriche sono tutte pari 

alla media e quindi 

n 

∑( y i − ŷ i ) 2 

Se ŷ i = y per ogni "i" ⇒ R 2 = 1 − i=1 

n 2 = 1−1 = 0 

∑( y i − y) 

i=1

Test sul coefficiente angolare 

La prima è più importante verifica riguarda l'esistenza o meno di una relazione tra 

la "Y" e la "X" 

Continua test su β1 

La statistica test necessaria per la verifica si ottiene come per i test sulla media. In 

particolare si adopera la t-Student 

ESISTE O NON ESISTE UNA RELAZIONE TRA Y ed X? 

t 

( β )= 

n−2 1 

βˆ 

1 

se 

S 

xx 

dove 

⎧ n 

⎪ ∑ yi 

− yˆ 

i 

⎪ i= 

1 

⎨ 

se 

= 

n − 2 

⎪ n 

Sxx = xi −µ 

x 

⎩⎪ 

∑ 

i= 

1 

( ) 

( ) 

2 

2 

Se H 0 

non potesse essere rifiutata la retta di 

regressione si presenterebbe come parallela 

all'asse delle X e non in grado di spiegare la "Y" 

retta sotto H 0 

Se il campione è abbastanza grande si cambierà la t-Student con la Normale 

Esempio 

Si ritiene che il consumo di energia elettrica sia determinato da un modello lineare 

nella temperatura media del giorno 

Test sull'intercetta 

La verifica dell'intercetta è poco interessante dato che non ha incidenza sulla bontà 

di adattamento. In genere si sottopone a verifica l'ipotesi che sia uguale a zero 

Statistica test 

tc 

= 

se 

ˆβ 0 

⎛ n 

2 ⎞ 

∑ x 

⎜ i ⎟ 

i= 

1 

⎜ ⎟ 

Sxx 

⎜ 

⎟ 

⎝ ⎠ 

Il p-value del test è TDIST(8.1;8;2)= 0.000040 

E’ evidente l’elevata significatività del parametro 

−419. 

85 

Nel caso di temperature e consumo di energia si ha: t c = 

=− 

16 18 84103 1. 

745 

. 

380. 

5 

L’intercetta non risulta significativa: p-Value=DISTRIB.T(1.745;8;2)=11.9%

Esercizio 

Reddito SuperficieSUMMARY OUTPUT 

22 106 

26 117 Regression Statistics 

45 128 Multiple R 0.832286982 

37 132 R Square 0.692701621 

28 80 Adjusted R S 0.667093423 

50 95 Standard Err 29.31437326 

56 168 Observations 14 

34 65 

60 150 

40 120 Beta SE t Stat P-value 

45 110 Intercept 44.9592 17.2813 2.6016 0.0232 

36 45 X Variable 1 1.6518 0.3176 5.2010 0.0002 

80 205 

120 230 

RESIDUAL OUTPUT 

Observation Predicted Y Residuals 

1 81.2988 24.7012 

2 87.9060 29.0940 

3 119.2901 8.7099 

4 106.0757 25.9243 

5 91.2096 -11.2096 

6 127.5491 -32.5491 

7 137.4599 30.5401 

8 101.1203 -36.1203 

9 144.0671 5.9329 

10 111.0311 8.9689 

11 119.2901 -9.2901 

12 104.4239 -59.4239 

13 177.1031 27.8969 

14 243.1750438 -13.17504381 

Y 

Si supponga che la proprietaria di 

un'agenzia immobiliare voglia stabilire la 

relazione tra reddito familiare e 

superficie dell'appartamento. 

300 

250 

200 

150 

100 

50 

X Variable 1 Line Fit P 

0 

0 50 100 150 

X Variable 1 

Y 

Predicted 

Linear (Y) 

Test sull'intercetta 

La verifica dell'intercetta è poco interessante dato che non ha incidenza sulla bontà 

di adattamento. In genere si sottopone a verifica l'ipotesi che sia uguale a zero 

Nel caso di temperature e consumo di energia si ha: 

tc 

= 

L’intercetta non risulta significativa: p-Value=DISTRIB.T(1.745;8;2)=11.9% 

se 

Statistica test 

ˆβ 0 

2 

⎛ n ⎞ 

x 

⎜ 

∑ i ⎟ 

i= 

1 

⎜ ⎟ 

Sxx 

⎜ 

⎟ 

⎝ ⎠ 

−419. 

85 

t c = 

=− 

16 18 84103 1. 

745 

. 

380. 

5 

X Y 

1 17.27 

2 23.49 

3 1.72 

4 16.87 

5 14.58 

6 -2.76 

7 8.04 

8 17.65 

9 4.75 

10 14.39 

11 13.61 

12 17.22 

13 11.22 

14 17.39 

15 5.31 

16 18.39 

17 7.64 

18 -0.73 

19 10.86 

20 9.89 

2 7 100.00 

3 4 150.00 

4 1 190.00 

4 8 260.00 

Indipendente 

Dipendente 

25.00 

20.00 

15.00 

10.00 

5.00 

Effetto dei valori anomali 

Effetto dei valorianomali 

0.00 

0 5 10 15 20 25 

-5.00 

300.00 

250.00 

200.00 

150.00 

100.00 

50.00 

Indipendente 

Titolo del grafico 

L’impatto della “X” può essere fuorviato 

dalla presenza di alcuni valori remoti. 

R multiplo 0.2064 

R al quadrato 0.0426 

R al quadrato -0.0106 

Errore standa 7.0803 

Osservazioni 2 0 

Beta Stat t p-value 

Intercetta 13.9197 4.2322 0.0005 

Variabile X 1 -0.2457 -0.8950 0.3826 

Il metodo dei minimi quadrati trascura il 

blocco di 20 dati tra i quali non c’è 

relazione significativa (o è negativa). 

Invece, pone attenzione ai quattro punti 

tra i quali c’è una relazione positiva 

R multiplo 0.8795 



Errore standa 32.7075 

Osservazioni 2 4 

0.00 

0 10 20 30 40 50 60 

-50.00 

Dipendente 

beta Stat t p-value 

Intercetta -34.9737 -3.2383 0.0038 

Variabile X 1 4.9060 8.6687 0.0000

Lezioni sulle relazioni statistiche - Dipartimento di Economia e ...

Create successful ePaper yourself

Delete template?

Save as template?