16.11.2014 Views

Lezioni sulle relazioni statistiche - Dipartimento di Economia e ...

Lezioni sulle relazioni statistiche - Dipartimento di Economia e ...

Lezioni sulle relazioni statistiche - Dipartimento di Economia e ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Dalla matrice dei dati alla tabella doppia<br />

Operaio Importo Livello Operaio Importo Livello Operaio Importo Livello<br />

1 133754 A 41 139637 B 81 156488 A<br />

2 177321 D 42 196198 C 82 191405 A<br />

3 198093 B 43 183375 B 83 117894 F<br />

4 198951 F 44 148518 F 84 161926 A<br />

5 128050 A 45 126191 B 85 102978 B<br />

6 107152 B 46 148488 C 86 171470 A<br />

7 168502 B 47 129230 B 87 131906 A<br />

8 185872 C 48 193780 F 88 179658 C<br />

9 174107 A 49 141154 B 89 146534 A<br />

10 127670 F 50 100256 B 90 137011 B<br />

11 171307 B 51 140573 A 91 112452 D<br />

12 135016 A 52 191271 A 92 117509 A<br />

13 116721 B 53 194093 B 93 185801 C<br />

14 138590 E 54 109994 B 94 172984 A<br />

15 122672 C 55 177444 A 95 103235 B<br />

16 191676 D 56 100239 F 96 195622 B<br />

17 174958 B 57 176015 B 97 127726 D<br />

18 187423 D 58 170692 C 98 121094 A<br />

19 111110 C 59 187677 E 99 193272 B<br />

20 136503 E 60 199348 E 100 148265 B<br />

21 120768 C 61 123781 B<br />

22 191648 D 62 179708 D<br />

23 101570 D 63 139825 A<br />

24 145044 A 64 148948 C<br />

25 102990 F 65 146901 D<br />

26 187028 E 66 136471 D<br />

27 124437 D 67 104697 A<br />

28 122079 C 68 152657 E<br />

29 163468 E 69 170503 B<br />

30 140935 A 70 135280 D<br />

31 146843 A 71 107743 B<br />

32 172497 C 72 171517 D<br />

33 122209 D 73 193946 C<br />

34 135783 D 74 170884 A<br />

35 150789 C 75 181407 B<br />

36 121587 A 76 124571 E<br />

37 133415 D 77 139906 A<br />

38 194731 F 78 142344 A<br />

39 176619 B 79 190776 A<br />

40 104960 A 80 141811 B<br />

Su n=100 operai è stato rilevato l’importo<br />

dello straor<strong>di</strong>nario settimanale e la classe<br />

stipen<strong>di</strong>ale.<br />

In questa forma i dati non sono leggibili;<br />

Organizziamo gli importi in classi:<br />

Excel: Tabella pivot<br />

Count of Operaio Livello<br />

Imp.MGL A B C D E F Grand Total<br />

160 9 12 7 6 4 3 41<br />

Grand Total 27 27 14 16 8 8 100<br />

La tabella rivela che il 41% si colloca nella 4ª classe; che<br />

il 12% si trova nella combinazione (4,B) e che il livello<br />

“A” fa più straor<strong>di</strong>nari (27%) rispetto a tutti gli altri.<br />

Partiamo dalla varaibile doppia:<br />

Trattazione generale<br />

Supponiamo che siano state organizzate in una tabella con “r” modalità <strong>di</strong>stinte<br />

per la variabile <strong>sulle</strong> righe (X) e “c” modalità per la variabile <strong>sulle</strong> colonne (Y)<br />

Y 1 Y 2<br />

… Y c<br />

X 1 n 11 n 12 n 1c n 1.<br />

X 2<br />

n 21<br />

n 22<br />

n 2 c<br />

n 2<br />

.<br />

M<br />

X r n r1 n r2 n rc n r .<br />

n .1<br />

n .2<br />

… n .c<br />

n<br />

( X i ,Y i ); i =1,2,…,n<br />

cc<br />

Dove<br />

n i.<br />

=<br />

i. ∑<br />

n ij<br />

=<br />

ij n i1<br />

+<br />

i1 n i2<br />

+…+n i2 ic<br />

=<br />

ic totale <strong>di</strong> <strong>di</strong> riga riga<br />

j=1 j=1<br />

rr<br />

n ..j j<br />

=<br />

∑<br />

n ij<br />

=<br />

ij n j1<br />

+<br />

j1 n j2 j 2<br />

+…+n n rj<br />

=<br />

rj totale <strong>di</strong> <strong>di</strong> colonna<br />

i=1 i=1<br />

il punto in<strong>di</strong>ca l'in<strong>di</strong>ce rispetto a cui si è sommato<br />

r<br />

c<br />

n = ∑ n i.<br />

= ∑n .j<br />

= ∑ ∑n ij<br />

i=1<br />

j=1<br />

r<br />

c<br />

i=1 j=1<br />

Esempio<br />

Distribuzione congiunta <strong>di</strong> due variabili<br />

Occupati per settori <strong>di</strong> attività economica<br />

(me<strong>di</strong>a annua). Dati in migliaia<br />

Sesso<br />

Settori Maschi Femmine Totale<br />

Agricoltura 1.485 812 2.297<br />

Industria 5.270 1.626 6.896<br />

Terziario 7.232 4.318 11.550<br />

Totale 13.987 6.756 20.743<br />

r=3; c=2; n=20’743<br />

Frequency<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

Altre attività<br />

Anche nella tabella doppia possiamo usare le frequenze relative:<br />

Y 1 Y 2 … Y c<br />

X 1 f 11 f 12 f 1c f 1.<br />

X 2 f 21 f 22 f 2c f 2.<br />

;<br />

:<br />

X r f r1 f r2 f rc f r.<br />

f .1 f .2 … f .c 1<br />

0 ≤ f ij ≤ 1<br />

f i. =<br />

f . j =<br />

r<br />

c<br />

c<br />

∑ f ij<br />

j=1<br />

r<br />

∑ f ij<br />

i=1<br />

∑ ∑ f ij = 1<br />

i=1j=1<br />

Le f ij<br />

sono dette frequenze relative<br />

congiunte;<br />

Le “f i.<br />

” e le “f .j<br />

” sono le frequenze<br />

relative marginali.<br />

La <strong>di</strong>versa struttura delle due<br />

componenti è evidente dal grafico<br />

SETTORE<br />

Industria<br />

Agricoltura<br />

Femmine<br />

SESSO<br />

Maschi<br />

L’insieme delle coppie (X i<br />

, Y i<br />

) e delle rispettive frequenze relative f ij<br />

costituisce la<br />

<strong>di</strong>stribuzione congiunta delle variabili X ed Y;<br />

Essa associa ad ogni combinazione <strong>di</strong> modalità (X i<br />

,Y j<br />

) un numero in (0,1) e la cui<br />

somma è pari ad uno


Distribuzioni marginali<br />

A partire dalla <strong>di</strong>stribuzione congiunta si definiscono le <strong>di</strong>stribuzioni per ciascuna<br />

delle variabili a prescindere dall'altra<br />

c<br />

c<br />

f( X = x i )= ∑ f( X= x i ,Y = y j )= ∑ f ij = f i. ; i =1, 2,…,r<br />

j =1<br />

j=1<br />

Valore atteso delle marginali<br />

Le <strong>di</strong>stribuzioni marginali sono delle vere e proprie <strong>di</strong>stribuzioni univariate.<br />

In particolare, ci interessa il loro valore atteso<br />

r<br />

c<br />

( )= ∑ i i, =µ<br />

x ( )= ∑ j . j<br />

=µ y<br />

i= 1 j=<br />

1<br />

E X X f ; E Y Y f<br />

r<br />

r<br />

fY= ( y j )= ∑ f( X= x i ,Y = y j )= ∑ f ij = f . j ; j = 1, 2,…,c<br />

i=1<br />

Per ottenere la <strong>di</strong>stribuzione marginale si somma rispetto alla variabile che<br />

NON interessa<br />

i=1<br />

Esempio<br />

⎡Y X 2 4 6<br />

⎤<br />

⎢<br />

⎥<br />

⎢ 4 2 4 10<br />

1 20 20 20 20 ⎥<br />

⎢<br />

⎥<br />

⎢ 4 1 5 10 ⎥<br />

⎢<br />

3 20 20 20 20<br />

⎥<br />

⎢ 8 3 9 ⎥<br />

20 20 20 1<br />

⎣⎢<br />

⎦⎥<br />

µ = ⎛ ⎝ ⎜ ⎞<br />

⎟ + ⎛ ⎠ ⎝ ⎜<br />

⎞<br />

⎟ + ⎛ ⎠ ⎝ ⎜<br />

⎞<br />

x<br />

2 8 4 3 6 9 82<br />

⎟ = = 41 .<br />

20 20 20⎠<br />

20<br />

µ = ⎛ ⎝ ⎜ ⎞<br />

⎟ + ⎛ ⎠ ⎝ ⎜<br />

⎞<br />

y<br />

1 10 3 10 40<br />

⎟ = = 2<br />

20 20⎠<br />

20<br />

Distribuzioni con<strong>di</strong>zionate<br />

Esempio<br />

Per stu<strong>di</strong>are il comportamento della "Y" rispetto alla "X" <strong>di</strong>vi<strong>di</strong>amo la <strong>di</strong>stribuzione<br />

Congiunta in tante sotto<strong>di</strong>stribuzioni<br />

( )<br />

( )<br />

f( Y = y j X = x i )= f X = x i ,Y = y j<br />

f Y = y j<br />

; j = 1,2,…,c<br />

Distribuzione congiunta<br />

Sesso<br />

Settori Maschi Femmine Totale<br />

Agricoltura 7,16% 3,91% 11,07%<br />

Industria 25,41% 7,84% 33,24%<br />

Terziario 34,86% 20,82% 55,68%<br />

Totale 67,43% 32,57% 100,00%<br />

0,7<br />

Agricoltura<br />

Distribuzione marginale<br />

Donne<br />

Settori Femmine<br />

Agricoltura 12,02%<br />

Industria 24,07%<br />

Terziario 63,91%<br />

Totale 100,00%<br />

0,6<br />

Industria<br />

cioè un riscalamento pro-quota delle righe della tabella per assicurare la somma<br />

unitaria<br />

Analogamente, la <strong>di</strong>stribuzione della X dato che Y è ad un livello prefissato è:<br />

( )<br />

f( X = x i Y = y j )= f X = x i ,Y = y j<br />

f( X = x i )<br />

; i = 1,2,…,r<br />

0,5<br />

0,4<br />

0,3<br />

0,2<br />

0,1<br />

0<br />

Maschi<br />

Femmine<br />

Terziario<br />

Distribuzione marginale<br />

maschi<br />

Settori Maschi<br />

Agricoltura 10,62%<br />

Industria 37,68%<br />

Terziario 51,71%<br />

Totale 100,00%


In<strong>di</strong>pendenza <strong>di</strong> eventi e <strong>di</strong> variabili<br />

Perché abbia senso lo stu<strong>di</strong>o CONGIUNTO esso deve essere più informativo dello<br />

stu<strong>di</strong>o SEPARATO delle due componenti<br />

Se la "X" assume valori in relazione ad eventi in<strong>di</strong>pendenti da quelli che generano i<br />

valori della "Y" non esiste alcun legame statistico interessante<br />

In<strong>di</strong>pendenza in <strong>di</strong>stribuzione<br />

Se la con<strong>di</strong>zionata <strong>di</strong> Y|X non cambia al variare <strong>di</strong> X allora Y è INDIPENDENTE<br />

IN DISTRIBUZIONE da X.<br />

f( X = x i ,Y = y j )= f( X i ); i = 1, 2, …, r; j = 1, 2,…,c<br />

ESEMPIO<br />

Lancio <strong>di</strong> due da<strong>di</strong> <strong>di</strong> <strong>di</strong>verso colore<br />

X: punteggio del dado rosso;<br />

Y: punteggio del dado blù;<br />

Sapere che lanciando i due da<strong>di</strong>, X= 4 e, contemporaneamente, Y= 3 è come<br />

sapere che X=4 (ignorando "Y") e che Y=3 (ignorando "X")<br />

PX ( = 4∩ Y=<br />

3)= PX ( = 4) PY=<br />

3<br />

ovvero P( X = 4Y = 3)= P( X = 4)<br />

( )<br />

L’in<strong>di</strong>pendenza è una relazione simmetria: Se X è in<strong>di</strong>pendente da Y anche Y<br />

è in<strong>di</strong>pendente da X<br />

Se fra le due variabili c'è in<strong>di</strong>pendenza, le frequenze assolute sono pari al<br />

prodotto delle frequenze marginali <strong>di</strong>viso per il totale frequenze:<br />

f( X= x i ,Y = y j )= f( X i )⇒ n ij<br />

= n i.<br />

n . j n ⇒ n ij = n i. * n . j<br />

n<br />

⎛ n ⎞<br />

⎜ ⎟ ⎛ ⎝ ⎠⎝ ⎜<br />

n ⎞<br />

i. . j<br />

⎟<br />

n n ⎠<br />

= = f<br />

1<br />

* f<br />

i. . j<br />

Esempio<br />

Test del χ 2 (chi quadrato)<br />

Red<strong>di</strong>to familiare e ren<strong>di</strong>mento scolastico<br />

Ren<strong>di</strong>mento Alto Me<strong>di</strong>o Basso Totale<br />

Ottimo 16 32 40 88<br />

Sufficiente 8 16 20 44<br />

Scarso 24 48 60 132<br />

Totale 48 96 120 264<br />

Red<strong>di</strong>to familiare<br />

Ren<strong>di</strong>mento Alto Me<strong>di</strong>o Basso Totale<br />

Ottimo 0,3333 0,3333 0,3333 0,3333<br />

Sufficiente 0,1667 0,1667 0,1667 0,1667<br />

Scarso 0,5000 0,5000 0,5000 0,5000<br />

Totale 1,0000 1,0000 1,0000 1,0000<br />

L’ipotesi da sottoporre a verifica è<br />

Si adopera la seguente statistica test:<br />

H : π =π π per ogni " i e j"<br />

0<br />

ij i. . j<br />

H : π ≠π π per almeno un " i e j"<br />

1<br />

ij i. . j<br />

Le frequenze assolute sono <strong>di</strong>verse,<br />

ma quelle relative coincidono per<br />

ogni <strong>di</strong>stribuzione con<strong>di</strong>zionata del<br />

ren<strong>di</strong>mento.<br />

Verifica:<br />

40 = 88*120 44* 96<br />

;16=<br />

264 264<br />

0,50<br />

0,45<br />

0,40<br />

0,35<br />

0,30<br />

0,25<br />

0,20<br />

0,15<br />

0,10<br />

0,05<br />

0,00<br />

Alto Me<strong>di</strong>o Basso<br />

Ottimo<br />

Sufficiente<br />

Scarso<br />

⎡<br />

( )<br />

2<br />

2<br />

k<br />

n<br />

n<br />

fij −πij<br />

nij<br />

n<br />

2<br />

ij<br />

χ c<br />

= n⎢<br />

∑ ⎥<br />

⎢<br />

i<br />

π ⎥ = ∑ − π ⎡<br />

=<br />

∑<br />

ij<br />

i<br />

nπ<br />

= 1<br />

= 1 ij ⎢<br />

i=<br />

1<br />

⎣<br />

⎤<br />

⎦<br />

( )<br />

che è è nulla se e solo se c'è in<strong>di</strong>pendenza in <strong>di</strong>stribuzione tra le due variabili.<br />

2<br />

Il χ c aumenta all'aumentare della <strong>di</strong>fferenza tra le frequenze ipotizzate in caso <strong>di</strong><br />

in<strong>di</strong>pendenza e quelle effettivamente osservate.<br />

⎣<br />

n<br />

nπ<br />

2<br />

ij<br />

ij<br />

⎤<br />

n<br />

⎦⎥ −<br />

Valori elevati <strong>di</strong> 2<br />

χ ridurranno il p-Value dell’ipotesi nulla<br />

c


Esempio<br />

Produzione <strong>di</strong> palloni <strong>di</strong> cuoio. Per il controllo della qualità i<br />

prodotti sono classificati rispetto a: X=pressione interna e<br />

Y=superficie esterna.<br />

( )<br />

( )<br />

2<br />

12 −14<br />

23 − 21<br />

χ c<br />

= +<br />

14 21<br />

gdl = ( 3−1)*( 3− 1)<br />

= 4<br />

Esempio (continua)<br />

( 119 −122)<br />

+ ... +<br />

= 1.<br />

599<br />

122<br />

2 2 2<br />

Per i gra<strong>di</strong> <strong>di</strong> libertà si tiene conto che frequenze<br />

marginali teoriche ed osservate coincidono e che la<br />

somma la loro somma deve essere pari ad uno<br />

(quest’ultimo totale deve essere contato solo una volta)<br />

P-Value<br />

gdl=rc-(c+r-1)=(r-1)(c-1)<br />

Gli scarti tra frequenze teoriche ed<br />

osservato sono dette contingenze<br />

Il valore dell’in<strong>di</strong>ce sembra basso, ma è abbastanza basso?<br />

2<br />

La <strong>di</strong>stribuzione campionaria del χ c , per n grande, è ben approssimata dalla<br />

variabile casuale detta del chi-quadrato che quin<strong>di</strong> è usata per calcolare il p-<br />

value del test.<br />

DISTRIB.CHI(1.599;4)=0.80897<br />

In caso <strong>di</strong> in<strong>di</strong>pendenza, la probabilità <strong>di</strong> osservare un valore minore o uguale a<br />

quello osservato (1.599) è dell’80%.<br />

Non c’è quin<strong>di</strong> evidenza <strong>di</strong> un legame tra la pressione interna e la superficie<br />

esterna dei prodotti.<br />

Esercizio (Excel)<br />

Indagine sulla mobilità <strong>di</strong> voto. Uso dello strumento PivotTable<br />

Esercizio<br />

Soggetto Ha votato Voterà Count Voterà<br />

Adua Centro Destra Iris Centro Centro Ha votato Centro Destra Sinistra Totale<br />

Aida Sinistra Sinistra Irma Destra Destra Centro 8 1 1 2 2 1<br />

Alda Destra Destra Jula Sinistra Centro Destra 2 9 2 1 3<br />

Alea Centro Centro Kara Sinistra Destra Sinistra 4 2 1 0 1 6<br />

Alfa Destra Centro Lara Destra Sinistra Totale 14 22 14 50<br />

Anna Sinistra Sinistra Leda Centro Centro<br />

Asia Centro Destra Lena Sinistra Sinistra 5.88 9.24 5.88 21 =I3*$F$6/$I$6<br />

Atte Sinistra Centro Lisa Centro Centro 3.64 5.72 3.64 13<br />

Beba Sinistra Sinistra Lory Sinistra Centro 4.48 7.04 4.48 16<br />

Bice Centro Destra Mara Centro Destra 1 4 2 2 1 4 5 0<br />

Cira Centro Sinistra Mena Centro Sinistra<br />

Cleo Destra Destra Mina Sinistra Sinistra 0.764 0.335 2.560 3.660 =(F3-F8)^2/F8<br />

Cora Sinistra Destra Mira Sinistra Sinistra 0.739 1.881 0.739 3.359<br />

Demi Centro Destra Olga Centro Destra 0.051 3.608 6.801 10.461<br />

Dina Centro Centro Pina Centro Centro C hi-quadrato 17.480<br />

Dora Destra Destra Rina Destra Centro Gdl 4 =(3-1)(3-1)<br />

Edda Centro Destra Rita Destra Destra p-Value 0.0016 =Distrib.Chi(I16;I17)<br />

Elsa Destra Sinistra Rosa Sinistra Sinistra<br />

Emma Sinistra Sinistra Sara Destra Destra<br />

Enza Centro Destra Teti Centro Destra<br />

Etta Centro Centro Tina Sinistra Sinistra<br />

Fede Destra Destra Vega Sinistra Sinistra<br />

Gina Sinistra Centro Vera Centro Destra<br />

Gisa Centro Destra Zita Destra Destra<br />

Ines Destra Destra Zora Centro Centro<br />

Un’indagine ha classificato i riven<strong>di</strong>tori <strong>di</strong> hardware <strong>di</strong> una regione secondo il<br />

tipo <strong>di</strong> società ed il tipo <strong>di</strong> collocazione<br />

Determinate il p-Value dell’ipotesi <strong>di</strong> in<strong>di</strong>pendenza<br />

Tipologia società<br />

Negozio Persone Cooperativa Impresa Totale<br />

Autonomo 34 16 4 54<br />

Supermercato 4 2 3 9<br />

Misto proprio 17 21 32 70<br />

Misto altri 13 5 6 24<br />

Totale 68 44 45 157


Test dell’omogeneità <strong>di</strong> due campioni<br />

il test del χ 2 può essere utilizzato anche nella seguente situazione:<br />

Si osservano due classificazioni campionarie.<br />

Le ampiezze possono essere <strong>di</strong>verse, ma le<br />

categorie sono identiche.<br />

Ci si chiede se i campioni provengono dalla stessa<br />

popolazione<br />

H 0 : π 1i =π 2i per ogni "i"<br />

H 1 :π 1i ≠π 2i per almeno un "i"<br />

Esempio<br />

Due campioni <strong>di</strong> misurazioni del tempo precedente la prima<br />

<strong>di</strong>sfunzione in due <strong>di</strong>versi macchinari hanno dato luogo alla tabella<br />

Tempi C_1 C_2 C_2/risc (f1i-f'2i) 2 /f'2<br />

0 - 20 29 56 32.78 0.436<br />

20 - 40 27 41 24.00 0.375<br />

40 - 60 14 32 18.73 1.195<br />

60 - 70 11 19 11.12 0.001<br />

60 - 80 8 13 7.61 0.020<br />

>80 7 3 1.76 15.659<br />

96 164 96.00 17.686<br />

Le “teoriche” sono ottenute come:<br />

'<br />

n 2i<br />

= n 1 f 2i<br />

La statistica test è χ 2 =17.686 con 6-1=5 gra<strong>di</strong> <strong>di</strong> libertà<br />

La statistica test assume ora la formula<br />

χ<br />

( πi<br />

− πi<br />

)<br />

π<br />

k<br />

2<br />

2 1 2<br />

c<br />

= ∑<br />

i=<br />

1 i2<br />

DISTRIB.CHI(17.686;5)=0.00336 (p-Value)<br />

L’ipotesi si deve rifiutare al<strong>di</strong>là <strong>di</strong> ogni ragionevole dubbio<br />

Esercizio<br />

Numero <strong>di</strong> incidenti automobilistici lungo una strada a scorrimento veloce.<br />

Frequenza per lato <strong>di</strong> percorrenza<br />

Valori attesi nelle <strong>di</strong>stribuzioni doppie<br />

Nel caso <strong>di</strong> variabili quantitative metriche siamo interessati al …<br />

Verso Sud Settimane Verso Nord Settimane<br />

0 39 0 82<br />

1 28 1 60<br />

2 19 2 40<br />

3 13 3 27<br />

4 8 4 18<br />

5 4 5 8<br />

>5 2 >5 4<br />

113 239<br />

Valore atteso della somma<br />

r c<br />

∑∑( i j)<br />

ij<br />

i=<br />

1 j=<br />

1<br />

E( X + Y)= X + Y f<br />

Valore atteso del prodotto<br />

r c<br />

( )= ∑∑( i j)<br />

ij<br />

i=<br />

1 j=<br />

1<br />

E XY XY f<br />

Determinate il p-value dell’ipotesi <strong>di</strong> omogeneità dei due campioni


Valore atteso della somma<br />

r<br />

c<br />

∑∑<br />

E( X + Y)= X f + Y f = X f + Y f<br />

i ij<br />

j ij i ij j<br />

i= 1 j=<br />

1<br />

j= 1 i=<br />

1<br />

i= 1 j=<br />

1 j=<br />

1 i=<br />

1<br />

r<br />

∑<br />

c<br />

∑<br />

= Xf+ Yf =µ +µ<br />

i i<br />

i= 1 j=<br />

1<br />

j<br />

c<br />

. j<br />

r<br />

∑∑<br />

x<br />

y<br />

r<br />

∑<br />

c<br />

∑<br />

c<br />

∑<br />

r<br />

∑<br />

ij<br />

Valore atteso del prodotto<br />

E( XY)=<br />

r<br />

i=<br />

1<br />

c<br />

∑∑<br />

j=<br />

1<br />

XY<br />

i j<br />

f<br />

ij<br />

Esempio<br />

Esempio<br />

⎡Y X 2 4 6<br />

⎤<br />

⎢<br />

⎥<br />

⎢ 4 2 4 10<br />

1 20 20 20 20 ⎥<br />

⎢<br />

⎥<br />

⎢ 4 1 5 10 ⎥<br />

⎢<br />

3 20 20 20 20<br />

⎥<br />

⎢ 8 3 9 ⎥<br />

20 20 20 1<br />

⎣⎢<br />

⎦⎥<br />

E( X + Y)= 2+<br />

1 4 ⎟ + 4+<br />

1 2 ⎟ + 6+<br />

1 4 ⎟ +<br />

20⎠<br />

20⎠<br />

20⎠<br />

( + ) ⎛ ⎝ ⎜ ⎞<br />

⎟ + ( + ) ⎛ ⎠ ⎝ ⎜ ⎞<br />

⎟ + ( + ) ⎛ ⎠ ⎝ ⎜ ⎞<br />

2 3 4 4 3 1 6 3 5 ⎟<br />

20 20 20⎠<br />

12 + 10 + 28 + 20 + 7 + 45 122<br />

=<br />

= = 61 .<br />

20<br />

20<br />

µ<br />

x<br />

+ µ<br />

y<br />

= 41 . + 2=<br />

61 .<br />

( ) ⎛ ⎝ ⎜ ⎞<br />

( ) ⎛ ⎝ ⎜ ⎞<br />

( ) ⎛ ⎝ ⎜ ⎞<br />

⎡Y X 2 4 6<br />

⎤<br />

⎢<br />

⎥<br />

⎢ 4 2 4 10<br />

1 20 20 20 20 ⎥<br />

⎢<br />

⎥<br />

⎢ 4 1 5 10 ⎥<br />

⎢<br />

3 20 20 20 20<br />

⎥<br />

⎢ 8 3 9 ⎥<br />

20 20 20 1<br />

⎣⎢<br />

⎦⎥<br />

( )= () ⎛ ⎝ ⎜ 4 ⎞<br />

2 ⎟ + ( 4) ⎛ ⎝ ⎜<br />

E XY<br />

2 ⎞<br />

⎟ + () ⎛ ⎠ ⎠ ⎝ ⎜ 4 ⎞<br />

6 ⎟ +<br />

20 20 20⎠<br />

() ⎛ ⎝ ⎜ 4 ⎞<br />

⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 1 ⎞<br />

⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 5 ⎞<br />

6 12 18 ⎟<br />

20 20 20⎠<br />

8<br />

= + 8 + 24 + 24 + 12 + 90<br />

= 83 .<br />

20<br />

E(XY) in caso <strong>di</strong> in<strong>di</strong>pendenza<br />

Esercizio<br />

r<br />

c<br />

∑∑<br />

EXY ( )= XYff = Xf Yf =µ µ<br />

r<br />

∑<br />

i j i. . j i i. j . j x y<br />

i= 1 j=<br />

1<br />

i=<br />

1 j=<br />

1<br />

c<br />

∑<br />

In questo caso, la me<strong>di</strong>a dei prodotti è pari al prodotto delle me<strong>di</strong>e.<br />

Esempio<br />

⎡Y X 2 4 6<br />

⎤<br />

⎢<br />

⎥<br />

⎢ 3 3 6 12<br />

1 20 20 20 20 ⎥<br />

⎢<br />

⎥<br />

⎢ 2 2 4 8 ⎥<br />

⎢<br />

3 20 20 20 20<br />

⎥<br />

⎢ 5 5 10 ⎥<br />

20 20 20 1<br />

⎣⎢<br />

⎦⎥<br />

E( XY)= () ⎛ ⎝ ⎜ 3 ⎞<br />

⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 3 ⎞<br />

⎟ + () ⎛ ⎠ ⎝ ⎜ 6 ⎞<br />

2 4 6 ⎟ +<br />

20 20 20⎠<br />

() ⎛ ⎝ ⎜ 2 ⎞<br />

⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 2 ⎞<br />

⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 4 ⎞<br />

6 12 18 ⎟<br />

20 20 20⎠<br />

6<br />

= + 12 + 36 + 12 + 24 + 72<br />

= 81 .<br />

20<br />

µ<br />

x<br />

=() ⎛ ⎝ ⎜ 5 ⎞ ⎛ 5 ⎞<br />

2 ⎟ + ( 4)<br />

⎜ ⎟ + () 6 ⎛10<br />

45<br />

20⎠<br />

⎝<br />

20⎠<br />

⎝ ⎜<br />

⎞<br />

⎟ = .<br />

20⎠<br />

µ =() 1 ⎛12<br />

3 8 18 45 18 81<br />

⎝ ⎜ ⎞<br />

⎟ + () ⎛ 20⎠<br />

⎝ ⎜<br />

⎞<br />

y ⎟ = .; µ<br />

xµ y<br />

= . *. = .<br />

20⎠<br />

• Calcolare E(X+Y)<br />

• Calcolare E(X-Y)<br />

• Calcolare E(XY)


La concordanza<br />

Un aspetto essenziale della <strong>di</strong>pendenza tra<br />

due variabili su scala almeno intervallare è<br />

la concordanza, cioè la ricerca della<br />

<strong>di</strong>rezione della <strong>di</strong>pendenza tra Y ed X.<br />

Ci si chiede se valori inferiori (superiori) alla<br />

me<strong>di</strong>a si accompagnino con valori inferiori<br />

(superiori) alla me<strong>di</strong>a nell'altra<br />

Per ognuna delle combinazione <strong>di</strong> possibili valori si può averne una in<strong>di</strong>cazione<br />

dagli SCARTI MISTI:<br />

( ) −µ<br />

S = X −µ Y<br />

( )<br />

i i x i y<br />

Significato della concordanza<br />

Il segno degli scarti è utile per sapere se, per la combinazione dei valori ”X i<br />

" e<br />

”Y i<br />

" l'andamento delle due variabili è concorde oppure <strong>di</strong>scorde:<br />

CONCORDANZA<br />

S > ⇒ X >µ e Y oppure X e Y<br />

DISCORDANZA<br />

0 ( ) ( >µ ) (


La presentazione congiunta<br />

delle due variabili rivela<br />

aspetti che rimangono<br />

oscurati nella<br />

rappresentazione separata<br />

dei due aspetti.<br />

Lo scatterplot in<strong>di</strong>ca la<br />

presenza <strong>di</strong> un gruppo <strong>di</strong><br />

soggetti (in alto a sinistra)<br />

<strong>di</strong>versi dal resto.<br />

Esempio<br />

Esercizio<br />

C’e una relazione tra il tasso <strong>di</strong> crescita delle mangrovie e la salinità del suolo?<br />

Utilizzare il foglio elettronico per ottenere la rappresentazione grafica.<br />

PrelieviSalinityCrescita<br />

1 2.90 22.12<br />

2 40.25 19.29<br />

3 60.05 30.69<br />

4 8.24 15.80<br />

5 58.05 24.08<br />

6 95.07 27.85<br />

7 79.31 25.58<br />

8 8.35 14.59<br />

9 12.93 16.17<br />

10 22.21 16.31<br />

11 77.23 29.17<br />

12 74.11 25.87<br />

13 20.91 22.05<br />

14 83.08 30.68<br />

15 81.02 33.82<br />

16 82.31 26.30<br />

17 46.19 21.45<br />

18 65.12 30.34<br />

19 30.46 21.86<br />

20 39.31 22.42<br />

Salinit<br />

35.00<br />

33.00<br />

31.00<br />

29.00<br />

27.00<br />

25.00<br />

23.00<br />

21.00<br />

19.00<br />

17.00<br />

15.00<br />

Relazione tra salinit e crescita pia<br />

0.00 20.00 40.00 60.00 80.00 100.00<br />

Crescita<br />

Dominano gli scartj concor<strong>di</strong><br />

La covarianza<br />

Esempio <strong>di</strong> calcolo della covarianza<br />

La sintesi più semplice <strong>di</strong> tutti gli scarti misti è il loro valore atteso che<br />

costituisce la covarianza tra Y ed X<br />

n<br />

Cov( X, Y)= ⎛ Xi<br />

x<br />

Yi<br />

⎝ ⎜ 1⎞<br />

⎟∑( −µ ) −µ<br />

n⎠<br />

i=<br />

1<br />

( y)<br />

Se Cov(Y,X)>0; Predominano gli scarti <strong>di</strong> segno concorde. Ci si<br />

aspetta X e Y tendano a cambiare nella stessa <strong>di</strong>rezione<br />

Se Cov(Y,X)


Formula semplificata per la covarianza<br />

Covarianza e trasformazioni lineari<br />

Usando le proprietà delle sommatorie si ottiene<br />

n<br />

n<br />

Cov( X, Y)= ⎛ Xi<br />

x<br />

Yi y<br />

Xi x<br />

Yi<br />

Xi x y<br />

⎝ ⎜ 1⎞<br />

⎟ ( −µ )( −µ )= ⎛ n⎠<br />

⎝ ⎜ 1⎞<br />

∑<br />

⎟∑( −µ ) −( −µ )µ<br />

n⎠<br />

i= 1 i=<br />

1<br />

n<br />

n<br />

= ⎛ Xi x<br />

Yi<br />

y<br />

X<br />

i x<br />

⎝ ⎜ ⎞<br />

⎟ ( −µ ) − ⎛ n<br />

1<br />

n⎠<br />

⎝ ⎜ 1⎞<br />

⎛ 1⎞<br />

∑<br />

⎟µ ∑( −µ )= ⎜ ⎟∑( XY<br />

i i−µ<br />

xYi)−<br />

0<br />

n⎠<br />

⎝<br />

i= 1 i=<br />

1<br />

n⎠<br />

i=<br />

1<br />

n<br />

n<br />

n<br />

n<br />

= ⎛ XY<br />

i i<br />

x<br />

Yi<br />

XY<br />

i i<br />

xn<br />

y<br />

XY<br />

i i<br />

⎝ ⎜ 1⎞<br />

⎟ − ⎛ n⎠<br />

⎝ ⎜ 1⎞<br />

⎟µ = ⎛ n⎠<br />

⎝ ⎜ 1⎞<br />

⎟ − ⎛ n⎠<br />

⎝ ⎜ 1⎞<br />

⎟µ µ = ⎛ n⎠<br />

⎝ ⎜ 1⎞<br />

∑ ∑ ∑ ⎟∑<br />

−µ<br />

n⎠<br />

i= 1 i= 1 i= 1 i=<br />

1<br />

che semplifica il calcolo e soprattutto l’interpretazione della covarianza<br />

che è nulla in caso <strong>di</strong> in<strong>di</strong>pendenza in <strong>di</strong>stribuzione delle due variabili<br />

xµ y<br />

La covarianza, come la varianza, risente <strong>di</strong> trasformazioni moltiplicative, ma<br />

non <strong>di</strong> quelle ad<strong>di</strong>tive<br />

n<br />

n<br />

Cov( X, Y)= ⎛ WZ<br />

i i w z<br />

a bXi<br />

c dY a b c d<br />

⎝ ⎜ 1⎞<br />

⎟ −µ µ = ⎛ n⎠<br />

⎝ ⎜ 1⎞<br />

∑<br />

⎟ ∑( + )( + )− + µ<br />

n⎠<br />

i= 1 i=<br />

1<br />

[ ]<br />

[ ] + µ<br />

i x y<br />

n<br />

= ⎛ ac bcX<br />

i<br />

adYi bdX<br />

iYi<br />

ac ad bc bd<br />

⎝ ⎜ 1⎞<br />

⎟ ∑[ + + + ]− + µ + µ + µ µ<br />

n⎠<br />

i=<br />

1<br />

n<br />

⎛ 1⎞<br />

= bd⎜<br />

⎟∑ X<br />

iYi<br />

− bdµ xµ y<br />

= bdCov( X, Y)<br />

⎝ n ⎠<br />

i=<br />

1<br />

W = a + bX ; Z = c + dY<br />

i i i i<br />

[ y x x y]<br />

i parametri ad<strong>di</strong>tivi ”a" e ”c" sono scomparsi, quelli moltiplicativi compaiono<br />

come fattore<br />

Disuguaglianza Cauchy-Schwartz<br />

Consideriamo la relazione che lega linearmente gli scarti me<strong>di</strong> <strong>di</strong> Y agli scarti<br />

me<strong>di</strong> <strong>di</strong> X<br />

n<br />

n<br />

⎛ 1⎞<br />

2 1<br />

2<br />

2 2<br />

⎜ ⎟ [( Yi −µ<br />

y)−b( Xi −µ<br />

x)<br />

] = ⎛ Yi y<br />

b Xi x<br />

2b Yi y<br />

Xi x<br />

0<br />

⎝ n⎠<br />

⎝ ⎜ ⎞⎡<br />

⎤<br />

∑<br />

⎟⎢∑( −µ ) + ( −µ ) − ( −µ )( −µ ) ⎥ ≥<br />

n⎠<br />

i= 1<br />

⎣ i=<br />

1<br />

⎦<br />

1 2<br />

2 1<br />

= ⎛ Yi<br />

y<br />

b<br />

⎝ ⎜ ⎞⎡<br />

n<br />

⎟ ( −µ ) + ⎛ n<br />

n<br />

⎞<br />

2 ⎛ ⎞<br />

⎢∑<br />

⎜ ⎟ ( −µ ) − ⎜ ⎟ −µ<br />

n⎠⎣<br />

⎝ n<br />

∑ Xi<br />

x<br />

2b 1 ∑ Y X<br />

⎠<br />

⎝ ⎠<br />

i= 1 i=<br />

1<br />

n<br />

i=<br />

1<br />

2<br />

= Var( Y) + b Var( X)−2Cov( X, Y)<br />

≥0<br />

( ) −µ<br />

( )<br />

i y i x<br />

⎤<br />

⎥<br />

⎦<br />

Perchè tale <strong>di</strong>sequazione <strong>di</strong> 2° grado in ”b" sia sempre sod<strong>di</strong>sfatta, il <strong>di</strong>scriminante<br />

deve essere negativo e cioé:<br />

La covarianza, al quadrato, è inferiore o uguale al prodotto delle varianze delle<br />

<strong>di</strong>stribuzioni marginali<br />

n<br />

* * X Y<br />

i x i y<br />

Cov( X , Y ) = ⎛ ⎝ ⎜ 1⎞<br />

⎛ −µ ⎞⎛<br />

−µ ⎞<br />

⎟∑⎜<br />

⎟<br />

n⎠<br />

⎜ ⎟<br />

i=<br />

1⎝<br />

σx<br />

⎠⎝<br />

σy<br />


Coefficiente <strong>di</strong> correlazione<br />

E’ compreso tra -1 e +1 perché espresso come rapporto <strong>di</strong> una quantità<br />

(la covarianza) al suo massimo (in valore assoluto)<br />

E' standar<strong>di</strong>zzato. Se una o entrambe le variabili subiscono una<br />

trasformazione lineare il coefficiente rimane lo stesso:<br />

r(a+bX,c+dY) = r(X,Y)<br />

Coefficiente <strong>di</strong> correlazione/2<br />

Assume i valori estremi solo in caso <strong>di</strong> relazione lineare esatta<br />

n<br />

n<br />

n<br />

Cov( X, a + bX)<br />

= ⎛ Xi<br />

a bXi<br />

x<br />

a b<br />

x<br />

aX<br />

i<br />

bX<br />

i<br />

a<br />

x<br />

b<br />

⎝ ⎜ 1⎞<br />

⎟ ( + )−µ ( + µ )= ⎛ n⎠<br />

⎝ ⎜ 1⎞⎡<br />

⎤<br />

2<br />

∑<br />

⎟ ⎢∑( )+ ∑ ⎥− µ − µ<br />

n⎠⎣<br />

⎦<br />

i= 1<br />

i=<br />

1<br />

i=<br />

1<br />

n<br />

= a ⎛ aX<br />

i<br />

a<br />

x<br />

b<br />

⎝ ⎜ 1⎞<br />

⎡<br />

⎟ ( )− µ + ⎛ n<br />

n ⎠<br />

⎝ ⎜ 1⎞<br />

⎤<br />

2 2<br />

∑<br />

⎢ ⎟ −µ<br />

⎣ n<br />

∑ X<br />

i x<br />

a<br />

x<br />

a<br />

x<br />

b Var x<br />

⎠ ⎦<br />

i=<br />

1<br />

= bVar( x)<br />

Ne consegue che<br />

i=<br />

1<br />

[ ]<br />

⎥ = µ − µ + ( )<br />

2<br />

x<br />

E' simmetrico rispetto alle due variabili: r(Y,X)=r(X,Y)<br />

rXa ( , + bX)<br />

=<br />

bVar( x) bVar( x)<br />

b se b<br />

Var( x) Var( a + bx) = Var( x) b Var( x) = b = ⎧ − 1 < 0<br />

⎨<br />

2<br />

⎩+ 1 se b > 0<br />

E' uguale a zero se c'è in<strong>di</strong>pendenza tra le due variabili (il numeratore<br />

in questo caso è infatti zero)<br />

il coefficiente <strong>di</strong> correlazione misura, quin<strong>di</strong>, l'intensità del legame lineare che<br />

sussiste tra le due variabili.<br />

Calcolo <strong>di</strong> r(x,y)<br />

il calcolo è molto semplice purché opportunamente organizzato.<br />

Supponiamo che le due variabili presentino con frequenza 1/6 le coppie <strong>di</strong> valori<br />

inserite nelle prime due colonne.<br />

Una volta calcolato r(x,y) su <strong>di</strong> un campione <strong>di</strong> osservazioni cosa si può <strong>di</strong>re sul<br />

coefficiente <strong>di</strong> correlazione che lega le due variabili nell’intera popolazione?<br />

µ x<br />

µ y<br />

H1<br />

: ρ ≠ 0<br />

P-Value per r(x,y)<br />

H0<br />

: ρ = 0<br />

(assenza <strong>di</strong> un legame lineare)<br />

(presenza <strong>di</strong> un legame lineare)<br />

La statistica test che si po’ usare è<br />

⎛<br />

ryx<br />

tc = n − ⎜<br />

( , )<br />

2<br />

⎜<br />

⎝ 1 ryx ,<br />

[ ]<br />

− ( )<br />

2<br />

⎞<br />

⎟<br />

⎟<br />

⎠<br />

Le due variabili presentano una correlazione positiva tendendo a presentare insieme<br />

i valori più gran<strong>di</strong><br />

La cui <strong>di</strong>stribuzione è approssimata dalla t-Student con (n-2) gra<strong>di</strong> <strong>di</strong> libertà


Esito test Durata<br />

134 265 53 97<br />

122 239 49 94<br />

138 225 57 90<br />

134 218 50 83<br />

119 193 42 81<br />

99 193 51 81<br />

95 190 42 78<br />

94 179 48 78<br />

90 176 40 74<br />

104 174 36 72<br />

75 148 36 67<br />

75 142 40 66<br />

73 138 41 65<br />

71 135 33 65<br />

80 130 31 59<br />

61 120 31 56<br />

59 118 25 49<br />

69 115 29 49<br />

57 113 29 49<br />

58 112 23 42<br />

56 111 22 40<br />

57 110 22 40<br />

66 109 21 37<br />

55 109 25 36<br />

56 105 17 33<br />

52 99 16 32<br />

Esito<br />

Esercizio - Excel<br />

Durata ed esito <strong>di</strong> un te<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

0<br />

0 50 100 150<br />

Durata<br />

=CORREL(B2:B53;C2:C53)<br />

n = 52 : gld = 50 : t = 39. 56,<br />

p − Value = 0<br />

c<br />

Esercizio<br />

Supponendo che una v.c. doppia presenti i seguenti valori<br />

a) Disegnare lo SCATTERPLOT<br />

b) Calcolare la Correlazione tra X e Y<br />

Significato <strong>di</strong> r(x,y)<br />

Scatterplot e correlazione<br />

Dalle proprietà <strong>di</strong> "r(x,y)" si deduce il suo significato:<br />

Quanto più i suoi valori si avvicinano, in modulo, ad uno tanto più i valori delle<br />

variabili risultano collegabili con una retta.<br />

Lo scatterplot fornisce una idea imme<strong>di</strong>ata della intensità del legame che<br />

intercorre tra le due variabili<br />

Si realizza riportando -in scala opportuna- le combinazioni osservate dei valori<br />

D'altra parte, quanto più "r" è vicino a "±1" tanto più la conoscenza <strong>di</strong> una delle<br />

variabili permette, attraverso la relazione lineare, <strong>di</strong> conoscere l'altra.<br />

In questo senso "r" è una misura del grado <strong>di</strong> concordanza tra i valori della<br />

variabile doppia (X,Y)<br />

INTENSITA' DEL LEGAME LINEARE<br />

PREVEDIBILITA’ DI UNA VARIABIULE CONOSCENDO L’ALtra<br />

GRADO DI CONCORDANZA<br />

La relazione tra due variabili tende a <strong>di</strong>venire più stretta ma mano che la nube<br />

<strong>di</strong> punti passa dalla forma circolare, alla ellisse ed alla retta


Scatterplot e correlazione/2<br />

Assenza <strong>di</strong> legami lineari<br />

Correlazione e causa-effetto<br />

L'esistenza <strong>di</strong> correlazione, per quanto intensa, non implica una relazione <strong>di</strong><br />

causa ed effetto.<br />

LEGAME PLAUSIBILE<br />

Il tasso <strong>di</strong> criminalità è fortemente legato al tasso <strong>di</strong> <strong>di</strong>soccupazione.<br />

LEGAME SPURIO<br />

Nei bambini, la misura delle scarpe è molto correlata con la capacità <strong>di</strong><br />

lettura.<br />

La correlazione in<strong>di</strong>ca solo che l'andamento <strong>di</strong> una variabile tende a <strong>di</strong>sporsi<br />

secondo una retta se rappresentato in un <strong>di</strong>agramma cartesiano insieme<br />

all'altra.<br />

I "perchè?" <strong>di</strong> questa tendenza vanno cercati al <strong>di</strong> fuori della statistica.<br />

Correlazione spuria<br />

Spesso, il valore <strong>di</strong> r(y,x) altro non è che l'apparenza <strong>di</strong> un legame la cui<br />

sostanza è invece dovuta a fenomeni esterni.<br />

La situazione <strong>di</strong> causalità tra X e Y:<br />

Non è <strong>di</strong>stinguibile dal legame spurio che fra <strong>di</strong> esse si pone a causa della<br />

comune <strong>di</strong>pendenza da una terza variabile Z<br />

L’appren<strong>di</strong>mento <strong>di</strong> nuove parole non<br />

rende i pie<strong>di</strong> più gran<strong>di</strong> ovvero avere<br />

pie<strong>di</strong> più gran<strong>di</strong> non aiuta a<br />

conoscere nuove parole.<br />

C’un terzo fattore nascosto <strong>di</strong>etro la<br />

correlazione: l’età<br />

Questo si verifica spesso a causa dell'esistenza <strong>di</strong> fenomeni tendenziali <strong>di</strong><br />

lungo periodo che incidono allo stesso modo su variabili <strong>di</strong>verse


Anno Ni<strong>di</strong> <strong>di</strong> cicogne Nati vivi<br />

1972 19 104<br />

1973 24 123<br />

1974 27 130<br />

1975 33 136<br />

1976 40 144<br />

1977 43 149<br />

1978 47 156<br />

1979 49 160<br />

1980 54 168<br />

1981 55 171<br />

1982 61 184<br />

1983 67 195<br />

Esempio<br />

In una zona del Nord Europa è stato monitorato il<br />

numero <strong>di</strong> ni<strong>di</strong> costruiti dalle cicogne ed il numero <strong>di</strong><br />

nati vivi nel loro periodo <strong>di</strong> permanenza.<br />

Dal punto <strong>di</strong> vista della correlazione le<br />

ipotesi che siano le cicogne a portare i<br />

bambini o che siano i bambini a portare le<br />

cicogne sono equivalenti.<br />

200<br />

190<br />

180<br />

170<br />

Nati vivi<br />

160<br />

150<br />

140<br />

130<br />

120<br />

110<br />

100<br />

J<br />

J<br />

J<br />

J<br />

J<br />

J<br />

10 20 30 40 50 60 70<br />

NIDI<br />

J<br />

J<br />

J<br />

J<br />

J<br />

J<br />

X Y W Z A<br />

54 35 87.0 68.0 22<br />

63 46 126.0 109.0 42<br />

71 87 78.5 94.5 5<br />

35 74 59.0 98.0 16<br />

1 88 35.5 122.5 23<br />

33 37 57.0 61.0 16<br />

61 66 106.0 111.0 30<br />

49 21 79.0 51.0 20<br />

86 30 129.5 73.5 29<br />

25 6 44.5 25.5 13<br />

65 32 87.5 54.5 15<br />

70 60 86.5 76.5 11<br />

61 36 127.0 102.0 44<br />

38 47 39.5 48.5 1<br />

5 28 48.5 71.5 29<br />

47 67 60.5 80.5 9<br />

19 87 43.0 111.0 16<br />

74 26 84.5 36.5 7<br />

26 6 53.0 33.0 18<br />

89 38 117.5 66.5 19<br />

25 80 77.5 132.5 35<br />

2 71 8.0 77.0 4<br />

7 54 61.0 108.0 36<br />

31 3 95.5 67.5 43<br />

17 54 71.0 108.0 36<br />

31 57 88.0 114.0 38<br />

37 82 98.5 143.5 41<br />

6 33 24.0 51.0 12<br />

59 1 99.5 41.5 27<br />

89 58 153.5 122.5 43<br />

90 88 120.0 118.0 20<br />

46 20 92.5 66.5 31<br />

51 71 55.5 75.5 3<br />

37 1 50.5 14.5 9<br />

23 62 63.5 102.5 27<br />

Esercizio<br />

Corr(X,Y) -0.037<br />

Corr(W,Z) 0.309<br />

W = X + 12 . A<br />

Z = Y + 12 . A<br />

Z<br />

Y<br />

Valori originar<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

0 20 40 60 80 100<br />

X<br />

Valori contaminati<br />

160.0<br />

140.0<br />

120.0<br />

100.0<br />

80.0<br />

60.0<br />

40.0<br />

20.0<br />

0.0<br />

0.0 50.0 100.0 150.0 200.0<br />

W<br />

Dipendenza dei ranghi<br />

Riguarda le variabili riportate in scala quantitativa or<strong>di</strong>nale.<br />

> Perché non esiste una vera misura, ma solo un punteggio o valutazione<br />

> Perché le misurazioni su sono imprecise o viziate da errore<br />

Esempio<br />

Un gruppo <strong>di</strong> clienti <strong>di</strong> una banca classificato per red<strong>di</strong>to e per importo del<br />

prestito<br />

> Perché sono presenti dei valori remoti<br />

Le modalità sono poste in corrispondenza con dei numeri naturali (ranghi)<br />

Per ogni unità si osserva una coppia <strong>di</strong> modalità che si trasforma poi in una<br />

coppia <strong>di</strong> ranghi


Correlazione tra ranghi (rho <strong>di</strong> Spearman)<br />

Esempio<br />

La misura forse più popolare della <strong>di</strong>pendenza tra i ranghi è la seguente<br />

r<br />

S<br />

=<br />

n<br />

∑<br />

i=<br />

1<br />

n<br />

∑<br />

i=<br />

1<br />

⎛ n n<br />

ri<br />

− + 1⎞<br />

⎜ ⎟ ⎛ si<br />

− + 1⎞<br />

⎜ ⎟<br />

⎝ 2 ⎠⎝<br />

2 ⎠<br />

2 2<br />

⎛ n<br />

n<br />

n<br />

ri<br />

− + 1⎞<br />

⎜ ⎟ ⎛ si<br />

− + 1⎞<br />

∑⎜<br />

⎟<br />

⎝ 2 ⎠ ⎝ 2 ⎠<br />

i=<br />

1<br />

detto rho <strong>di</strong> Spearman<br />

Caso delle n coppie <strong>di</strong> valori senza posizioni <strong>di</strong> parità.<br />

La definizione <strong>di</strong> r S<br />

è la stessa del coefficiente <strong>di</strong> correlazione. Comunque<br />

il particolare tipo <strong>di</strong> dati coinvolti consente delle semplificazioni<br />

r<br />

S<br />

n<br />

∑<br />

2<br />

6 ( ri<br />

− si)<br />

i=<br />

1<br />

= 1−<br />

2<br />

nn −1<br />

( )<br />

Considerazione sul rho <strong>di</strong> Spearman<br />

P-Value per rho<br />

Una volta calcolato rho su <strong>di</strong> un campione, cosa si può <strong>di</strong>re sul rho <strong>di</strong> Spearman<br />

che lega le variabili nell’intera popolazione?<br />

H<br />

H<br />

0<br />

1<br />

: ρ = 0 ( NON esiste una relazione monotona)<br />

: ρ ≠ 0 ( Esiste una relazione monotona)<br />

La statistica test che si puo’ usare è la stessa del coefficiente <strong>di</strong> correlazione<br />

⎛<br />

tc = n − ρ<br />

⎞<br />

2<br />

⎜<br />

2<br />

⎝ 1−<br />

ρ<br />

⎟<br />

⎠<br />

Per n


X Y<br />

Unit Percorsi Ven<strong>di</strong>te Rank(X) Rank(Y)<br />

A 121.5 373 21 25<br />

B 151.5 314 25 21<br />

C 146.2 301 24 20<br />

D 106.7 263 16 17<br />

E 98.9 204 11 9<br />

F 95.1 176 9 7<br />

G 90.1 138 4 1<br />

H 115.5 329 19 23<br />

I 71.7 225 1 11<br />

J 111.7 300 18 19<br />

K 93.6 164 7 5<br />

L 109.6 284 17 18<br />

M 105.3 252 15 16<br />

N 125.0 400 22 26<br />

O 91.7 239 6 15<br />

P 88.7 161 3 4<br />

Q 101.9 226 13 12<br />

R 162.3 322 26 22<br />

S 96.4 185 10 8<br />

T 90.7 143 5 2<br />

U 100.0 212 12 10<br />

V 102.6 232 14 13<br />

X 94.5 171 8 6<br />

Y 88.6 143 2 2<br />

W 119.4 358 20 24<br />

Z 142.9 232 23 13<br />

rho= 0.850084703<br />

gdl= 25<br />

tc= 7.907679188<br />

p-Value 2.90161E-08<br />

Rango ven<strong>di</strong>te<br />

Esempio<br />

Ven<strong>di</strong>tori porta-a-porta per ven<strong>di</strong>te e<br />

Km percorsi<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

Correlazione <strong>di</strong> rango<br />

0 5 10 15 20 25 30<br />

Rango percorsi<br />

La correlazione è elevata e significativa<br />

Rilevazione <strong>di</strong>retta dei ranghi<br />

Un certo insieme <strong>di</strong> n oggetti o situazioni sono<br />

or<strong>di</strong>nate secondo il grado con cui presentano<br />

una certa caratteristica X.<br />

Supponiamo …<br />

Che la caratteristica sia un mix <strong>di</strong> immaterialità<br />

che può essere graduato, ma non misurato.<br />

Che le valutazioni siano espresse con voti<br />

{1,2,…,n} così ottenendo la permutazione {s 1<br />

,<br />

s 2<br />

,…,s n<br />

}<br />

Esempio: giu<strong>di</strong>zi degli esperti<br />

Ad un esperto è stato chiesto <strong>di</strong> pronunciarsi sulla<br />

posizione che le 20 squadre <strong>di</strong> un campionato <strong>di</strong><br />

calcio occuperanno alla fine: {s 1 , s 2 ,…,s 20 }.<br />

Alla fine della stagione i giu<strong>di</strong>zi sono comparati con le<br />

posizioni reali: {q 1 , q 2 ,…,q 20 }.<br />

Per semplificare il calcolo possiamo <strong>di</strong>sporre le due<br />

serie <strong>di</strong> posizioni secondo l’or<strong>di</strong>ne crescente della<br />

prima<br />

Ripetiamo la rilevazione per una Y misurata allo<br />

stesso modo e che produce una <strong>di</strong>versa<br />

permutazione degli interi: {q 1<br />

, q 2<br />

,…,q n<br />

}<br />

Con<strong>di</strong>zione <strong>di</strong> ansia e stress<br />

Prima e dopo una separazione<br />

Squadra A B C D E F G H I L M N O P Q R S T U V Totale<br />

Prima 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 210<br />

Dopo 9 2 4 7 5 1 3 8 6 11 13 10 14 18 15 12 16 20 17 19 210<br />

Il rho <strong>di</strong> Spearman cerca <strong>di</strong> quantificare l’intensità del legame monotono tra i due<br />

insiemi <strong>di</strong> giu<strong>di</strong>zi<br />

ρ=0.87 (p-value 0.000001). L’esperto ha dato un buon giu<strong>di</strong>zio sebbene sembri più in grado <strong>di</strong><br />

indovinare le squadre che avranno una cattiva stagione rispetto a quelle che l’avranno buona


Esercizio<br />

Presenza <strong>di</strong> valori uguali<br />

Ad un campione <strong>di</strong> consumatori stato<br />

chiesto <strong>di</strong> giu<strong>di</strong>care la qualit <strong>di</strong> un<br />

servizio con un voto da 0 a 12.<br />

E anche stato ch iesto <strong>di</strong> valutare con<br />

un voto da 0 a 12 la reputazione<br />

dell azienda c he forniva il servizio<br />

Azienda Rating servizio Reputazione aziend<br />

Alfa01 8 9<br />

Alfa02 9 12<br />

Alfa03 2 0<br />

Alfa04 5 10<br />

Alfa05 6 6<br />

Alfa06 4 11<br />

Alfa07 7 4<br />

Alfa08 10 3<br />

Alfa09 3 5<br />

Alfa10 1 2<br />

Alfa11 0 1<br />

Alfa12 12 7<br />

Alfa13 11 8<br />

Risulta che ci sia un legame tra le due valutazioni?<br />

Rho-Spearman= 0.4890<br />

Tc= 1.8593<br />

p-value 0.0899<br />

Esempio<br />

r S<br />

Accertamento <strong>di</strong> una relazione<br />

d'or<strong>di</strong>ne tra il tasso <strong>di</strong> interesse<br />

effettivo "E" dei BOT trimestrali e<br />

l'in<strong>di</strong>ce <strong>di</strong> borsa "B"<br />

2 5<br />

2 0<br />

1 5<br />

1 0<br />

5<br />

0<br />

l<br />

l<br />

l<br />

ll<br />

l<br />

l<br />

l<br />

l<br />

l<br />

l<br />

l<br />

l l l<br />

l<br />

l<br />

l<br />

l<br />

l<br />

l l<br />

l<br />

P-value 0.000000<br />

0 5 1 0 1 5 2 0 2 5<br />

Voti in due <strong>di</strong>scipline per un camipone<br />

<strong>di</strong> studenti.<br />

C un legame tra I due voti?<br />

rho-Spearman 0.7836<br />

Tc 7.5669<br />

p-value 0.0000<br />

Esercizio<br />

Matricola Disciplina A Disciplina B<br />

50825 18 18<br />

64506 18 18<br />

64289 18 18<br />

31136 18 18<br />

81016 20 19<br />

91817 20 19<br />

42720 20 19<br />

92614 21 20<br />

33491 21 20<br />

31947 21 21<br />

56554 21 21<br />

83355 22 21<br />

95516 22 21<br />

44659 22 22<br />

93637 22 22<br />

70350 22 22<br />

53806 23 24<br />

44509 23 24<br />

92149 23 24<br />

86848 23 24<br />

35750 24 24<br />

95748 24 25<br />

76681 25 25<br />

70776 25 25<br />

43071 26 26<br />

42950 26 26<br />

45653 26 26<br />

56123 28 27<br />

53240 28 27<br />

91805 28 27<br />

69069 28 27<br />

77209 29 27<br />

84099 29 27<br />

55360 30 29<br />

48820 30 29<br />

76747 30 30<br />

92951 30 30<br />

66366 30 30


Relazione tra due variabili<br />

Dopo aver rappresentato graficamente i dati a mezzo dello scatterplot si è<br />

interessati a determinare una curva che passi vicino ai punti<br />

Per sostituire uno schema semplice alla<br />

nube dei punti<br />

Relazioni stocastiche e deterministiche<br />

Secondo questo grafico ed ogni età corrisponde<br />

un ben determinato <strong>di</strong>ametro del tronco<br />

Per sintetizzare le tendenze <strong>di</strong> fondo<br />

Per ricostruire o determinare il valore della Y<br />

noto quello della X o viceversa<br />

il presupposto è che esiste una variabile (la "X” detta in<strong>di</strong>pendente o esogrena) che<br />

è causa o comunque agisce sulla’altra (la "Y” detta <strong>di</strong>pendente o endogena).<br />

La scelta del ruolo delle due variabili è però esterna alla statistica.<br />

il <strong>di</strong>ametro del tronco aumenta con l'età, ma<br />

l'incremento non è certo: talvolta aumenta <strong>di</strong><br />

più, altre volte <strong>di</strong> meno<br />

Proposta del modello lineare<br />

La semplicità è una convenzione: giu<strong>di</strong>chiamo semplice ciò che è regolare<br />

o preve<strong>di</strong>bile e che appare com’è a chiunque possa e voglia vedere<br />

Esempio<br />

La teoria <strong>di</strong> un fenomeno può spesso essere sintetizzata da un modello<br />

espresso da una equazione.<br />

il rasoio <strong>di</strong> Occam<br />

Se è necessario dare una soluzione<br />

ad un problema <strong>di</strong> cui si sa poco, la<br />

risposta più semplice comporta<br />

meno rischi in caso <strong>di</strong> errore ed è<br />

spesso quella giusta<br />

Sia ”D" l'ampiezza in cm del <strong>di</strong>ametro alla base del tronco <strong>di</strong> una data<br />

specie arborea e sia ”E" l'età .<br />

L'idea che il <strong>di</strong>ametro sia più grande secondo l'età può essere espressa<br />

dalla relazione funzionale:<br />

L uovo <strong>di</strong> Colombo<br />

Principio <strong>di</strong> semplicità <strong>di</strong> Galilei<br />

La natura procede per vie semplici ed offre così la sicura<br />

scelta tra le varie spiegazioni possibili dei suoi fenomeni<br />

D=f(E)<br />

queste variazioni assicurano all'albero adeguata resistenza e flessibilità.


Proposta del modello lineare/2<br />

il legame più semplice tra due variabili è quello lineare<br />

D = β 0 + β 1 E + u<br />

Y<br />

Teorema <strong>di</strong> Taylor.<br />

Una ragione <strong>di</strong> più<br />

Se la funzione "f" che lega "D" ad "E'" ha<br />

derivate prime e seconde continue in un<br />

intorno del punto E0, in tale intorno la "f" è<br />

ben approssimata dalla retta<br />

Zoom<br />

X<br />

Ipotizziamo che l’or<strong>di</strong>nata “Y” sia dovuta alla combinazione ADDITIVA <strong>di</strong><br />

due valori: la parte deterministica (lineare) ed un errore<br />

In generale si può <strong>di</strong>re che la scelta del modello lineare è motivata da<br />

il termine "u" è il risultato <strong>di</strong>:<br />

Errori e carenze nella misurazione e nella rilevazione <strong>di</strong> “D” e <strong>di</strong> “E”<br />

Insufficienza del solo fattore E a "spiegare" da solo la D<br />

Inadeguatezza della "semplice" relazione lineare<br />

Ragioni <strong>di</strong> semplicità<br />

Esigenze <strong>di</strong> sintesi<br />

Approssimazione funzionale<br />

Formulazione matematica<br />

Supponiamo <strong>di</strong> <strong>di</strong>sporre <strong>di</strong> "n" coppie <strong>di</strong> osservazioni<br />

Il modello <strong>di</strong> regressione lineare semplice è<br />

La terminologia<br />

Modello. Perché è un insieme <strong>di</strong> ipotesi rispetto al legame esistente tra<br />

la variabile esogena ed endogena. Le ipotesi in genere danno luogo ad<br />

una equazione, lineare nel nostro caso<br />

"i" in<strong>di</strong>ce che denota l'or<strong>di</strong>ne<br />

COMPONENTE<br />

DETERMINISTICA<br />

COMPONENTE<br />

STOCASTICA<br />

(Non osservabile)<br />

Regressione . E' una etichetta storica dovuta agli stu<strong>di</strong> <strong>di</strong> Francis Galton<br />

(1889) sull'effetto <strong>di</strong> regressione: la tendenza a prevalere dei valori<br />

me<strong>di</strong>.<br />

β 0 = intercetta.<br />

Rappresenta il valore a cui tende a stabilizzarsi la Y quando la X è zero.<br />

Lineare. Perché i parametri incogniti vi compaiono con potenza 1<br />

β 1<br />

= Coefficiente angolare.<br />

Rappresenta la variazione che si realizza nella Y per ogni aumento unitario in X<br />

Semplice. Perchè c'è una sola variabile esplicativa (REGRESSORE) in<br />

contrapposizione a multipla termine usato quando vi sono più variabili<br />

esplicative.


Calcolo dei parametri<br />

Se per due punti passa una sola retta fra più <strong>di</strong> due punti non allineati ne<br />

passano infinite.<br />

Ogni scelta determina degli errori<br />

dovuti alla sostituzione <strong>di</strong> un valore<br />

presunto o teorico ad un valore<br />

osservato<br />

Partiamo dall’errore i-esimo:<br />

Soluzione dei minimi quadrati<br />

( y i − ŷ i ) = y i − β 0 − β 1 X i = y i − β 0 − β 1 X i ± y ± β 1 x<br />

= ( y i − y) + ( y − β 0 − β 1 x) − β 1 ( X i − x)<br />

( )<br />

che evidenzia il ruolo del punto x,y baricentro fisico dello scatterplot<br />

Elevando al quadrato e sviluppando si ottiene:<br />

( y i − ŷ i ) 2 = [( y i − y)+ ( y − β 0 − β 1 x)− β 1 ( x i − x)<br />

] 2 = ( y i − y) 2 + ( y − β 0 − β 1 x) 2 + β 2 1 ( x i − x) 2 +<br />

+ 2( y i − y) ( y − β 0 − β 1 x)− 2β 1 ( y i − y) ( x i − x)− 2β 1 ( y − β 0 − β 1 x) ( x i − x)<br />

ŷ i = valore stimato (ottenuto in base al modello)<br />

Occorre stabilire un criterio che ci permetta <strong>di</strong> scegliere quella che passa<br />

più vicino ai punti ovvero si adatta bene allo scatterplot<br />

Considerando la somma <strong>di</strong> tutti gli “n” termini e ricordando che la somma degli<br />

scarti dalla me<strong>di</strong>a aritmetica e nulla si arriva a:<br />

n<br />

2<br />

n<br />

2<br />

n<br />

2<br />

n<br />

n<br />

∑ ( yi<br />

− yˆ<br />

i)<br />

= ∑ ( yi<br />

−y)<br />

+ ∑( y− 0 − 1x) + 1 2<br />

2<br />

β β β ∑( xi<br />

− x)<br />

−2β1 ∑( yi<br />

−y) xi<br />

− x<br />

i= 1<br />

i= 1<br />

i= 1<br />

i= 1<br />

i=<br />

1<br />

( )<br />

Soluzione dei minimi quadrati/2<br />

n<br />

Definiamo: S xx = ( x i − x) 2 n<br />

∑ ; S yy = ( y i − y) 2 n<br />

∑ ; S xy = ∑( x i − x) ( y i − y);<br />

i=1<br />

i=1<br />

i=1<br />

Tali quantità sono note come devianze e codevianze<br />

n<br />

Ne consegue: ∑ ( y i − ŷ i ) 2 = S yy + n( y − β 0 − β 1 x) 2 + β 2 1 S xx − 2β 1 S xy<br />

i=1<br />

= S yy + n( y − β 0 − β 1 x) 2 + β 2 1 S xx − 2β 1 S xy + S 2<br />

xy<br />

− S 2<br />

xy<br />

S xx S xx<br />

= S yy + n( y − β 0 − β 1 x) 2 ⎡<br />

+ S xx β 2 1 − 2βl1 S xy<br />

+ S 2<br />

xy ⎤<br />

⎢<br />

⎥<br />

⎣⎢<br />

S xx S − S 2<br />

xy<br />

xx ⎦⎥<br />

S xx<br />

( ) 2 + S xx β 1 − S xy<br />

= S yy + n y − β 0 − β 1 x<br />

2<br />

⎤<br />

S<br />

⎥ xx ⎦<br />

La somma degli errori <strong>di</strong>pende dalle incognite solo attraverso dei termini al quadrato<br />

per cui il minimo si ottiene azzerando quei termini e cioè<br />

⎡<br />

⎢<br />

⎣<br />

− S 2<br />

xy<br />

S xx<br />

Esempio<br />

ˆβ 1 = S yx<br />

S xx<br />

; ˆβ0 = y − ˆβ 1 x


Altro esempio<br />

Il prezzo dell'usato per una particolare auto è stato rilevato in alcuni esemplari<br />

Esercizio con l’Excel<br />

Di seguito si riportano dei dati relativi ad X=ampiezza totale della sede stradale e<br />

Y= <strong>di</strong>stanza tra un ciclista e un auto (ottenuta con misurazioni su foto)<br />

1) Calcolare le stime dei parametri<br />

2) Disegnare la retta teorica<br />

SUMMARY OUTPUT<br />

ATSD DIST<br />

12.8 5.5<br />

12.9 6.2<br />

12.9 6.3<br />

13.6 7.0<br />

14.5 7.8<br />

14.6 8.3<br />

15.1 7.1<br />

17.5 10.0<br />

19.5 10.8<br />

20.8 11.0<br />

Dist<br />

Misurazioni su fot<br />

12.0<br />

11.0<br />

10.0<br />

9.0<br />

8.0<br />

7.0<br />

6.0<br />

5.0<br />

4.0<br />

10.0 12.0 14.0 16.0 18.0 20.0 22.0<br />

ATSD<br />

Regression Statistics<br />

Multiple R 0.9607<br />

R Square 0.9229<br />

Adjusted R Square 0.9133<br />

Standard Error 0.5821<br />

Observations 10<br />

Strumenti-->Analisi dei dati-->Regressione<br />

Coefficients Standard Error t Stat P-value<br />

Intercept -2.1825 1.0567 -2.0654 0.0727<br />

X Variable 1 0.6603 0.0675 9.7858 0.0000<br />

Esercizio<br />

Analisi della relazione tra i rapporti Terra/Lavoro (T/L) e Red<strong>di</strong>tività del<br />

Lavoro (RL/L) in alcuni settori colturali calabresi<br />

Proprietà della retta <strong>di</strong> regressione<br />

La retta <strong>di</strong> regressione passa per il punto <strong>di</strong> coor<strong>di</strong>nate<br />

La retta stimata può essere scritta come:<br />

( x,y)<br />

y = y + ˆβ 1 ( x − x) ⇒ y + ˆβ 1 ( x − x)= y<br />

La somma degli scarti tra osservate e teoriche è nulla:<br />

n<br />

n<br />

∑ y i − ŷ i = ∑ y i −y − ˆβ<br />

n<br />

1 ( x − x) ⇒ ∑( y i − y)<br />

− ˆβ<br />

n<br />

1 ∑( x − x)= 0 − ˆβ 1 *0= 0<br />

i=1 i=1<br />

i=1<br />

i=1<br />

Ciò implica che Me<strong>di</strong>a osservate = Me<strong>di</strong>a teoriche<br />

1) Calcolare i parametri della regressione <strong>di</strong> Y su X<br />

2) Disegnare la retta teorica e lo scatterplot<br />

n n<br />

ŷ i ∑ y +<br />

i=1<br />

∑n ˆβ 1 x − x<br />

= i=1<br />

n<br />

( ) ny + ˆβ 1 ∑( x − x)<br />

= i=1<br />

n<br />

n<br />

= ny + 0<br />

n<br />

= y


Esercizio<br />

L'urbanista Palmira Morrone sta investigando la relazione tra il flusso <strong>di</strong> traffico X (in<br />

termini migliaia <strong>di</strong> auto ogni 24 ore) ed il contenuto <strong>di</strong> piombo Y nella cortegga degli<br />

alberi che fiancheggiano una superstrada (peso a secco in µg/g)<br />

a) <strong>di</strong>segnare lo scatterplot; b) Stimare i parametri; c) Calcolare i valori teorici<br />

d) Verificare che le proprietà in<strong>di</strong>cate nel precedente lucido.<br />

Proprietà della retta <strong>di</strong> regressione/2<br />

il ruolo <strong>di</strong> esogena ed endogena può essere scambiato:<br />

⎧ ˆβ<br />

y i = β 0 + β 1 x i + e i ⇒ ŷ i = ˆβ 0 + ˆβ<br />

0 = y − ˆβ 1 x<br />

⎪<br />

1 x i dove⎨<br />

ˆβ 1 = S xy<br />

⎩<br />

⎪ S xx<br />

⎧ ˆγ 0 = x − ˆγ 1 y<br />

' ⎪<br />

x i = γ 0 + γ 1 x i + e i ⇒ ˆx i = ˆγ 0 + ˆγ 1 x i dove⎨<br />

ˆγ 1 = S xy<br />

⎩<br />

⎪ S yy<br />

x = y<br />

tg( θ)= r2 −1<br />

r<br />

Le due rette interpolanti sono legate:<br />

ˆγ 1 = S xy<br />

S yy<br />

=<br />

ˆβ 1 = S xy<br />

=<br />

S xx<br />

ˆγ 1 * ˆβ 1 = r 2<br />

S xx<br />

S yy<br />

*<br />

S yy<br />

S xx<br />

*<br />

S xy<br />

S xx S yy<br />

= S xx<br />

S yy<br />

* r<br />

S xy<br />

S xx S yy<br />

= S yy<br />

S xx<br />

* r<br />

i coefficienti angolari hanno sempre lo stesso segno<br />

per cui le due rette non sono mai perpen<strong>di</strong>colari<br />

Le due rette sono parallele (e coincidenti) se e solo<br />

se Y=X dato che tg(θ)=0<br />

Se poi allora le due rette coincidono<br />

Stima della varianza degli errori<br />

Esercizio<br />

L'aziendalista Costantina Tenuta fa parte <strong>di</strong> una commissione chiamata a valutare una serie<br />

<strong>di</strong> progetti per l'idoneità al finanziamento. Per controllarne la congruità pone in relazione il<br />

numero X dei progetti per area e il tempo me<strong>di</strong>o <strong>di</strong> completamento Y.<br />

a) Disegnare lo scatterplot;<br />

b) Stimare i parametri;<br />

c) stimare la varianza degli errori<br />

Per ottenerne un valore approssimato si usa la seguente quantità<br />

Che possiede alcune utili proprietà <strong>statistiche</strong>


Uso della retta <strong>di</strong> regressione<br />

Esempio<br />

Unità <strong>di</strong> lavoro part-time e aumento <strong>di</strong> produzione<br />

INTERPOLAZIONE<br />

Lo scopo è trovare i valori della <strong>di</strong>pendente o <strong>di</strong> sostituirne i valori<br />

particolarmente anomali, per valori noti della in<strong>di</strong>pendente.<br />

ESTRAPOLAZIONE<br />

Determinazione del valore della <strong>di</strong>pendente che corrisponde ad un valore<br />

della in<strong>di</strong>pendente non necessariamente osservato.<br />

CONTROLLO<br />

Determinazione del valore della in<strong>di</strong>pendente idoneo a determinare<br />

un fissato livello della <strong>di</strong>pendente<br />

In ogni caso si ottengono dei VALORI TEORICI costituenti la stima dei<br />

VALORI VERI che rimangono comunque sconosciuti<br />

Ogni unità <strong>di</strong> lavoro part-time ad<strong>di</strong>zionale è<br />

responsabile <strong>di</strong> 2.167 tonn. <strong>di</strong> produzione.<br />

Se il lavoro part-time non fosse impiegato<br />

la produzione me<strong>di</strong>a sarebbe a 2.25 tonn.<br />

Supponiamo che si decida <strong>di</strong> impiegare più <strong>di</strong> 8 ULPT, <strong>di</strong>ciamo 10, quale sarà<br />

l'incremento <strong>di</strong> produzione?<br />

yˆ 10 = 225 . + 2167 . * 10= 225 . + 2167 . = 2392 .<br />

Se invece si volesse stabilire quante unità <strong>di</strong> lavoro part-time impiegare per<br />

ottenere 16 semilavorati allora<br />

16 − 2 25<br />

16 = 2 . 25 + 2 . 167 * ˆ ⇒ ˆ ( . )<br />

X X = = 6.<br />

345<br />

2.<br />

167<br />

Esercizio<br />

La dott.ssa Sarina Bonofiglio, analista finanziario, sta stu<strong>di</strong>ando la relazione tra X= Tasso<br />

me<strong>di</strong>o sui prestiti nel sistema interbancario e Y=importo della cedola semestrale <strong>di</strong> un titolo<br />

obbligazionario.<br />

a) Disegnare lo scatterplot<br />

b) Stimare<br />

c) Supponendo che il dato del 93 sia non<br />

affidabile perché affetto dalla crisi nello<br />

SME calcolare il valore interpolato.<br />

d) Quale sarà la cedola semestrale se nel '94<br />

il TMPSI arriva a 5.5?<br />

L’effetto <strong>di</strong> regressione<br />

I principi del ritorno alla me<strong>di</strong>a lo si ritrova in varie occasioni<br />

Un docente che loda gli studenti per il buon risultato raggiunto in una<br />

prova vedrà un esito peggiore nella prova successiva.<br />

il docente che sgrida gli studenti per la pessima riuscita <strong>di</strong> un test otterrà<br />

risultati molto migliori nella seguente prova.<br />

Un buon governo sarà seguito da una amministrazione inefficace e ad un<br />

premier inadeguato succederà un brillante primo ministro.<br />

Nelle competizioni articolate su due fasi è frequente notare il ribaltamento<br />

degli esiti tra la prima e seconda prova: i migliori che peggiorano ed i<br />

peggiori che migliorano.


Alle origine del concetto <strong>di</strong> regressione<br />

L’effetto <strong>di</strong> regressione/2<br />

L’elemento comune è spiegabile così:<br />

Per ottenere un buon risultato in un’impresa <strong>di</strong>fficile<br />

concorrono due fattori:<br />

Talento/Genio<br />

Sorte<br />

il successo in una prova ardua implica che entrambi i fattori hanno agito a favore.<br />

Nella seconda prova il talento/genio magari migliorano o agiscono con la stessa<br />

intensità<br />

Sir Francis Galton notò che i figli <strong>di</strong> padri alti erano più alti della me<strong>di</strong>a, ma meno<br />

<strong>di</strong> quanto non eccedessero dalla me<strong>di</strong>a i loro padri. I figli <strong>di</strong> padri bassi erano in<br />

me<strong>di</strong>a bassi, ma meno bassi della me<strong>di</strong>a generale <strong>di</strong> quanto non lo fossero i padri<br />

La Sorte è capricciosa e impreve<strong>di</strong>bile e non si ripete.<br />

Ed ecco l’effetto <strong>di</strong> regressione alla me<strong>di</strong>a in cui gli scarti si annullano tutti.<br />

Misura dell'adattamento<br />

I minimi quadrati ci garantiscono il miglior adattamento possibile, ma questo<br />

potrebbe non essere abbastanza.<br />

Dobbiamo trovare misure standar<strong>di</strong>zzate e normalizzate che siano in grado <strong>di</strong><br />

quantificare il grado <strong>di</strong> scostamento tra valori stimati e valori osservati<br />

SCARTO QUADRATICO MEDIO DEGLI ERRORI (errore standard della stima)<br />

Correlazione teoriche-osservate<br />

Una possibilità <strong>di</strong> valutare l’adattamento potrebbe basarsi su:<br />

n<br />

∑( y<br />

Cov( y i ,ŷ i ) i − y) ( y − ˆβ 1 ( x i − x)− y)<br />

ˆβ<br />

σ( y i )σ( ŷ i ) = i=1<br />

1 S xy<br />

=<br />

n<br />

S yy ∑( y − ˆβ 1 ( x i − x)− y) 2 S yy ˆβ1 2 =<br />

S xx<br />

i=1<br />

= ˆβ 1<br />

ˆβ 1<br />

r<br />

con i minimi quadrati<br />

( )<br />

s 2 e = S yy<br />

1− r2<br />

n − 2<br />

E' nullo solo in caso <strong>di</strong> perfetta relazione lineare (r=1). Non<br />

varia però entro limiti predefiniti.<br />

Possiamo solo <strong>di</strong>re che un adattamento è peggiore <strong>di</strong> un<br />

altro, ma non se un dato adattamento è buono o no<br />

Risente anche delle unità <strong>di</strong> misura della <strong>di</strong>pendente.<br />

Ne consegue che l’adattamento è misurabile da:<br />

( )<br />

( ) = ˆβ 1<br />

Cov y i ,ŷ i<br />

σ( y i )σ ŷ i<br />

ˆβ 1<br />

r = r<br />

cioè dal valore assoluto del coefficiente <strong>di</strong> correlazione tra osservate e stimate che<br />

coincide con il valore assoluto del coefficiente <strong>di</strong> correlazione “r” tra X ed Y.


Coefficiente <strong>di</strong> determinazione ( R 2 )<br />

La variabilità della "Y" può essere scomposta in due parti <strong>di</strong>stinte. Infatti, l'identità<br />

n<br />

n<br />

∑ ( y i − y)<br />

= ∑ y i − ŷ i<br />

[( ) + ( ŷ i − y)<br />

]<br />

i=1 i=1<br />

rimane anche quando si considerano i quadrati<br />

(se la retta è quella dei minimi quadrati)<br />

n 2<br />

∑( y i − y)<br />

=<br />

n<br />

∑ y i − ŷ i<br />

i=1<br />

i=1<br />

( ) 2 + ∑( ŷ i − y) 2<br />

Dividendo per "n" si ha la seguente relazione:<br />

Varianza totale=Varianza errori+Varianza stime<br />

La varianza delle stime è la parte <strong>di</strong> variabilità (attitu<strong>di</strong>ne a presentare modalità <strong>di</strong>verse)<br />

che il nostro modello riesce a spiegare, quella degli errori è la parte che rimane ignota.<br />

Varianza totale=Varianza NON spiegata+Varianza spiegata<br />

n<br />

i=1<br />

Formula dell' R 2<br />

Dalla formula della scomposizione abbiamo:<br />

Dividendo i membri per la devianza totale si ha<br />

n 2<br />

∑( y i − y)<br />

=<br />

n<br />

∑ y i − ŷ i<br />

i=1<br />

i=1<br />

( ) 2 + ∑( ŷ i − y) 2<br />

il 1° addendo è il rapporto tra varianza non spiegata e varianza totale, il 2° è il<br />

rapporto tra varianza spiegata e varianza totale.<br />

Questo rapporto è usato come in<strong>di</strong>ce della bontà <strong>di</strong> adattamento ed è noto come il<br />

COEFFICIENTE DI DETERMINAZIONE<br />

n<br />

i=1<br />

n<br />

( y i − ŷ i ) 2 n<br />

∑<br />

∑( ŷ i − y) 2<br />

= i=1<br />

n 2 + i=1<br />

n 2<br />

∑( y i − y)<br />

∑( y i − y)<br />

i=1<br />

i=1<br />

n<br />

( ŷ i − y) 2 n<br />

∑<br />

( y i − ŷ i ) 2 n<br />

2<br />

∑<br />

∑ ê i<br />

R 2 = i=1<br />

n 2 = 1− i=1<br />

n 2 = 1− i=1<br />

n<br />

2<br />

∑( y i − y)<br />

∑( y i − y)<br />

y i − ny<br />

2<br />

∑<br />

i=1<br />

i=1<br />

i=1<br />

Casi estremi<br />

Se tutte le osservate sono allineate su <strong>di</strong> una retta,<br />

teoriche ed osservate coincidono e quin<strong>di</strong><br />

Esempio<br />

Stu<strong>di</strong>o della relazione tra il massimo del battito car<strong>di</strong>aco sotto stress ed età<br />

n<br />

∑( ŷ i − y) 2<br />

Se y i = ŷ i per ogni "i" ⇒ R 2 = i=1<br />

n 2 = 1;<br />

∑( y i − y)<br />

i=1<br />

ŷ i = y + ˆβ 1 ( x i − x)<br />

Se la retta <strong>di</strong> regressione è piatta (coefficiente<br />

angolare nullo) allora le teoriche sono tutte pari<br />

alla me<strong>di</strong>a e quin<strong>di</strong><br />

n<br />

∑( y i − ŷ i ) 2<br />

Se ŷ i = y per ogni "i" ⇒ R 2 = 1 − i=1<br />

n 2 = 1−1 = 0<br />

∑( y i − y)<br />

i=1


Test sul coefficiente angolare<br />

La prima è più importante verifica riguarda l'esistenza o meno <strong>di</strong> una relazione tra<br />

la "Y" e la "X"<br />

Continua test su β1<br />

La statistica test necessaria per la verifica si ottiene come per i test sulla me<strong>di</strong>a. In<br />

particolare si adopera la t-Student<br />

ESISTE O NON ESISTE UNA RELAZIONE TRA Y ed X?<br />

t<br />

( β )=<br />

n−2 1<br />

βˆ<br />

1<br />

se<br />

S<br />

xx<br />

dove<br />

⎧ n<br />

⎪ ∑ yi<br />

− yˆ<br />

i<br />

⎪ i=<br />

1<br />

⎨<br />

se<br />

=<br />

n − 2<br />

⎪ n<br />

Sxx = xi −µ<br />

x<br />

⎩⎪<br />

∑<br />

i=<br />

1<br />

( )<br />

( )<br />

2<br />

2<br />

Se H 0<br />

non potesse essere rifiutata la retta <strong>di</strong><br />

regressione si presenterebbe come parallela<br />

all'asse delle X e non in grado <strong>di</strong> spiegare la "Y"<br />

retta sotto H 0<br />

Se il campione è abbastanza grande si cambierà la t-Student con la Normale<br />

Esempio<br />

Si ritiene che il consumo <strong>di</strong> energia elettrica sia determinato da un modello lineare<br />

nella temperatura me<strong>di</strong>a del giorno<br />

Test sull'intercetta<br />

La verifica dell'intercetta è poco interessante dato che non ha incidenza sulla bontà<br />

<strong>di</strong> adattamento. In genere si sottopone a verifica l'ipotesi che sia uguale a zero<br />

Statistica test<br />

tc<br />

=<br />

se<br />

ˆβ 0<br />

⎛ n<br />

2 ⎞<br />

∑ x<br />

⎜ i ⎟<br />

i=<br />

1<br />

⎜ ⎟<br />

Sxx<br />

⎜<br />

⎟<br />

⎝ ⎠<br />

Il p-value del test è TDIST(8.1;8;2)= 0.000040<br />

E’ evidente l’elevata significatività del parametro<br />

−419.<br />

85<br />

Nel caso <strong>di</strong> temperature e consumo <strong>di</strong> energia si ha: t c =<br />

=−<br />

16 18 84103 1.<br />

745<br />

.<br />

380.<br />

5<br />

L’intercetta non risulta significativa: p-Value=DISTRIB.T(1.745;8;2)=11.9%


Esercizio<br />

Red<strong>di</strong>to SuperficieSUMMARY OUTPUT<br />

22 106<br />

26 117 Regression Statistics<br />

45 128 Multiple R 0.832286982<br />

37 132 R Square 0.692701621<br />

28 80 Adjusted R S 0.667093423<br />

50 95 Standard Err 29.31437326<br />

56 168 Observations 14<br />

34 65<br />

60 150<br />

40 120 Beta SE t Stat P-value<br />

45 110 Intercept 44.9592 17.2813 2.6016 0.0232<br />

36 45 X Variable 1 1.6518 0.3176 5.2010 0.0002<br />

80 205<br />

120 230<br />

RESIDUAL OUTPUT<br />

Observation Pre<strong>di</strong>cted Y Residuals<br />

1 81.2988 24.7012<br />

2 87.9060 29.0940<br />

3 119.2901 8.7099<br />

4 106.0757 25.9243<br />

5 91.2096 -11.2096<br />

6 127.5491 -32.5491<br />

7 137.4599 30.5401<br />

8 101.1203 -36.1203<br />

9 144.0671 5.9329<br />

10 111.0311 8.9689<br />

11 119.2901 -9.2901<br />

12 104.4239 -59.4239<br />

13 177.1031 27.8969<br />

14 243.1750438 -13.17504381<br />

Y<br />

Si supponga che la proprietaria <strong>di</strong><br />

un'agenzia immobiliare voglia stabilire la<br />

relazione tra red<strong>di</strong>to familiare e<br />

superficie dell'appartamento.<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

X Variable 1 Line Fit P<br />

0<br />

0 50 100 150<br />

X Variable 1<br />

Y<br />

Pre<strong>di</strong>cted<br />

Linear (Y)<br />

Test sull'intercetta<br />

La verifica dell'intercetta è poco interessante dato che non ha incidenza sulla bontà<br />

<strong>di</strong> adattamento. In genere si sottopone a verifica l'ipotesi che sia uguale a zero<br />

Nel caso <strong>di</strong> temperature e consumo <strong>di</strong> energia si ha:<br />

tc<br />

=<br />

L’intercetta non risulta significativa: p-Value=DISTRIB.T(1.745;8;2)=11.9%<br />

se<br />

Statistica test<br />

ˆβ 0<br />

2<br />

⎛ n ⎞<br />

x<br />

⎜<br />

∑ i ⎟<br />

i=<br />

1<br />

⎜ ⎟<br />

Sxx<br />

⎜<br />

⎟<br />

⎝ ⎠<br />

−419.<br />

85<br />

t c =<br />

=−<br />

16 18 84103 1.<br />

745<br />

.<br />

380.<br />

5<br />

X Y<br />

1 17.27<br />

2 23.49<br />

3 1.72<br />

4 16.87<br />

5 14.58<br />

6 -2.76<br />

7 8.04<br />

8 17.65<br />

9 4.75<br />

10 14.39<br />

11 13.61<br />

12 17.22<br />

13 11.22<br />

14 17.39<br />

15 5.31<br />

16 18.39<br />

17 7.64<br />

18 -0.73<br />

19 10.86<br />

20 9.89<br />

2 7 100.00<br />

3 4 150.00<br />

4 1 190.00<br />

4 8 260.00<br />

In<strong>di</strong>pendente<br />

Dipendente<br />

25.00<br />

20.00<br />

15.00<br />

10.00<br />

5.00<br />

Effetto dei valori anomali<br />

Effetto dei valorianomali<br />

0.00<br />

0 5 10 15 20 25<br />

-5.00<br />

300.00<br />

250.00<br />

200.00<br />

150.00<br />

100.00<br />

50.00<br />

In<strong>di</strong>pendente<br />

Titolo del grafico<br />

L’impatto della “X” può essere fuorviato<br />

dalla presenza <strong>di</strong> alcuni valori remoti.<br />

R multiplo 0.2064<br />

R al quadrato 0.0426<br />

R al quadrato -0.0106<br />

Errore standa 7.0803<br />

Osservazioni 2 0<br />

Beta Stat t p-value<br />

Intercetta 13.9197 4.2322 0.0005<br />

Variabile X 1 -0.2457 -0.8950 0.3826<br />

Il metodo dei minimi quadrati trascura il<br />

blocco <strong>di</strong> 20 dati tra i quali non c’è<br />

relazione significativa (o è negativa).<br />

Invece, pone attenzione ai quattro punti<br />

tra i quali c’è una relazione positiva<br />

R multiplo 0.8795<br />

R al quadrato 0.7735<br />

R al quadrato 0.7632<br />

Errore standa 32.7075<br />

Osservazioni 2 4<br />

0.00<br />

0 10 20 30 40 50 60<br />

-50.00<br />

Dipendente<br />

beta Stat t p-value<br />

Intercetta -34.9737 -3.2383 0.0038<br />

Variabile X 1 4.9060 8.6687 0.0000

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!