Lezioni sulle relazioni statistiche - Dipartimento di Economia e ...
Lezioni sulle relazioni statistiche - Dipartimento di Economia e ...
Lezioni sulle relazioni statistiche - Dipartimento di Economia e ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Dalla matrice dei dati alla tabella doppia<br />
Operaio Importo Livello Operaio Importo Livello Operaio Importo Livello<br />
1 133754 A 41 139637 B 81 156488 A<br />
2 177321 D 42 196198 C 82 191405 A<br />
3 198093 B 43 183375 B 83 117894 F<br />
4 198951 F 44 148518 F 84 161926 A<br />
5 128050 A 45 126191 B 85 102978 B<br />
6 107152 B 46 148488 C 86 171470 A<br />
7 168502 B 47 129230 B 87 131906 A<br />
8 185872 C 48 193780 F 88 179658 C<br />
9 174107 A 49 141154 B 89 146534 A<br />
10 127670 F 50 100256 B 90 137011 B<br />
11 171307 B 51 140573 A 91 112452 D<br />
12 135016 A 52 191271 A 92 117509 A<br />
13 116721 B 53 194093 B 93 185801 C<br />
14 138590 E 54 109994 B 94 172984 A<br />
15 122672 C 55 177444 A 95 103235 B<br />
16 191676 D 56 100239 F 96 195622 B<br />
17 174958 B 57 176015 B 97 127726 D<br />
18 187423 D 58 170692 C 98 121094 A<br />
19 111110 C 59 187677 E 99 193272 B<br />
20 136503 E 60 199348 E 100 148265 B<br />
21 120768 C 61 123781 B<br />
22 191648 D 62 179708 D<br />
23 101570 D 63 139825 A<br />
24 145044 A 64 148948 C<br />
25 102990 F 65 146901 D<br />
26 187028 E 66 136471 D<br />
27 124437 D 67 104697 A<br />
28 122079 C 68 152657 E<br />
29 163468 E 69 170503 B<br />
30 140935 A 70 135280 D<br />
31 146843 A 71 107743 B<br />
32 172497 C 72 171517 D<br />
33 122209 D 73 193946 C<br />
34 135783 D 74 170884 A<br />
35 150789 C 75 181407 B<br />
36 121587 A 76 124571 E<br />
37 133415 D 77 139906 A<br />
38 194731 F 78 142344 A<br />
39 176619 B 79 190776 A<br />
40 104960 A 80 141811 B<br />
Su n=100 operai è stato rilevato l’importo<br />
dello straor<strong>di</strong>nario settimanale e la classe<br />
stipen<strong>di</strong>ale.<br />
In questa forma i dati non sono leggibili;<br />
Organizziamo gli importi in classi:<br />
Excel: Tabella pivot<br />
Count of Operaio Livello<br />
Imp.MGL A B C D E F Grand Total<br />
160 9 12 7 6 4 3 41<br />
Grand Total 27 27 14 16 8 8 100<br />
La tabella rivela che il 41% si colloca nella 4ª classe; che<br />
il 12% si trova nella combinazione (4,B) e che il livello<br />
“A” fa più straor<strong>di</strong>nari (27%) rispetto a tutti gli altri.<br />
Partiamo dalla varaibile doppia:<br />
Trattazione generale<br />
Supponiamo che siano state organizzate in una tabella con “r” modalità <strong>di</strong>stinte<br />
per la variabile <strong>sulle</strong> righe (X) e “c” modalità per la variabile <strong>sulle</strong> colonne (Y)<br />
Y 1 Y 2<br />
… Y c<br />
X 1 n 11 n 12 n 1c n 1.<br />
X 2<br />
n 21<br />
n 22<br />
n 2 c<br />
n 2<br />
.<br />
M<br />
X r n r1 n r2 n rc n r .<br />
n .1<br />
n .2<br />
… n .c<br />
n<br />
( X i ,Y i ); i =1,2,…,n<br />
cc<br />
Dove<br />
n i.<br />
=<br />
i. ∑<br />
n ij<br />
=<br />
ij n i1<br />
+<br />
i1 n i2<br />
+…+n i2 ic<br />
=<br />
ic totale <strong>di</strong> <strong>di</strong> riga riga<br />
j=1 j=1<br />
rr<br />
n ..j j<br />
=<br />
∑<br />
n ij<br />
=<br />
ij n j1<br />
+<br />
j1 n j2 j 2<br />
+…+n n rj<br />
=<br />
rj totale <strong>di</strong> <strong>di</strong> colonna<br />
i=1 i=1<br />
il punto in<strong>di</strong>ca l'in<strong>di</strong>ce rispetto a cui si è sommato<br />
r<br />
c<br />
n = ∑ n i.<br />
= ∑n .j<br />
= ∑ ∑n ij<br />
i=1<br />
j=1<br />
r<br />
c<br />
i=1 j=1<br />
Esempio<br />
Distribuzione congiunta <strong>di</strong> due variabili<br />
Occupati per settori <strong>di</strong> attività economica<br />
(me<strong>di</strong>a annua). Dati in migliaia<br />
Sesso<br />
Settori Maschi Femmine Totale<br />
Agricoltura 1.485 812 2.297<br />
Industria 5.270 1.626 6.896<br />
Terziario 7.232 4.318 11.550<br />
Totale 13.987 6.756 20.743<br />
r=3; c=2; n=20’743<br />
Frequency<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
Altre attività<br />
Anche nella tabella doppia possiamo usare le frequenze relative:<br />
Y 1 Y 2 … Y c<br />
X 1 f 11 f 12 f 1c f 1.<br />
X 2 f 21 f 22 f 2c f 2.<br />
;<br />
:<br />
X r f r1 f r2 f rc f r.<br />
f .1 f .2 … f .c 1<br />
0 ≤ f ij ≤ 1<br />
f i. =<br />
f . j =<br />
r<br />
c<br />
c<br />
∑ f ij<br />
j=1<br />
r<br />
∑ f ij<br />
i=1<br />
∑ ∑ f ij = 1<br />
i=1j=1<br />
Le f ij<br />
sono dette frequenze relative<br />
congiunte;<br />
Le “f i.<br />
” e le “f .j<br />
” sono le frequenze<br />
relative marginali.<br />
La <strong>di</strong>versa struttura delle due<br />
componenti è evidente dal grafico<br />
SETTORE<br />
Industria<br />
Agricoltura<br />
Femmine<br />
SESSO<br />
Maschi<br />
L’insieme delle coppie (X i<br />
, Y i<br />
) e delle rispettive frequenze relative f ij<br />
costituisce la<br />
<strong>di</strong>stribuzione congiunta delle variabili X ed Y;<br />
Essa associa ad ogni combinazione <strong>di</strong> modalità (X i<br />
,Y j<br />
) un numero in (0,1) e la cui<br />
somma è pari ad uno
Distribuzioni marginali<br />
A partire dalla <strong>di</strong>stribuzione congiunta si definiscono le <strong>di</strong>stribuzioni per ciascuna<br />
delle variabili a prescindere dall'altra<br />
c<br />
c<br />
f( X = x i )= ∑ f( X= x i ,Y = y j )= ∑ f ij = f i. ; i =1, 2,…,r<br />
j =1<br />
j=1<br />
Valore atteso delle marginali<br />
Le <strong>di</strong>stribuzioni marginali sono delle vere e proprie <strong>di</strong>stribuzioni univariate.<br />
In particolare, ci interessa il loro valore atteso<br />
r<br />
c<br />
( )= ∑ i i, =µ<br />
x ( )= ∑ j . j<br />
=µ y<br />
i= 1 j=<br />
1<br />
E X X f ; E Y Y f<br />
r<br />
r<br />
fY= ( y j )= ∑ f( X= x i ,Y = y j )= ∑ f ij = f . j ; j = 1, 2,…,c<br />
i=1<br />
Per ottenere la <strong>di</strong>stribuzione marginale si somma rispetto alla variabile che<br />
NON interessa<br />
i=1<br />
Esempio<br />
⎡Y X 2 4 6<br />
⎤<br />
⎢<br />
⎥<br />
⎢ 4 2 4 10<br />
1 20 20 20 20 ⎥<br />
⎢<br />
⎥<br />
⎢ 4 1 5 10 ⎥<br />
⎢<br />
3 20 20 20 20<br />
⎥<br />
⎢ 8 3 9 ⎥<br />
20 20 20 1<br />
⎣⎢<br />
⎦⎥<br />
µ = ⎛ ⎝ ⎜ ⎞<br />
⎟ + ⎛ ⎠ ⎝ ⎜<br />
⎞<br />
⎟ + ⎛ ⎠ ⎝ ⎜<br />
⎞<br />
x<br />
2 8 4 3 6 9 82<br />
⎟ = = 41 .<br />
20 20 20⎠<br />
20<br />
µ = ⎛ ⎝ ⎜ ⎞<br />
⎟ + ⎛ ⎠ ⎝ ⎜<br />
⎞<br />
y<br />
1 10 3 10 40<br />
⎟ = = 2<br />
20 20⎠<br />
20<br />
Distribuzioni con<strong>di</strong>zionate<br />
Esempio<br />
Per stu<strong>di</strong>are il comportamento della "Y" rispetto alla "X" <strong>di</strong>vi<strong>di</strong>amo la <strong>di</strong>stribuzione<br />
Congiunta in tante sotto<strong>di</strong>stribuzioni<br />
( )<br />
( )<br />
f( Y = y j X = x i )= f X = x i ,Y = y j<br />
f Y = y j<br />
; j = 1,2,…,c<br />
Distribuzione congiunta<br />
Sesso<br />
Settori Maschi Femmine Totale<br />
Agricoltura 7,16% 3,91% 11,07%<br />
Industria 25,41% 7,84% 33,24%<br />
Terziario 34,86% 20,82% 55,68%<br />
Totale 67,43% 32,57% 100,00%<br />
0,7<br />
Agricoltura<br />
Distribuzione marginale<br />
Donne<br />
Settori Femmine<br />
Agricoltura 12,02%<br />
Industria 24,07%<br />
Terziario 63,91%<br />
Totale 100,00%<br />
0,6<br />
Industria<br />
cioè un riscalamento pro-quota delle righe della tabella per assicurare la somma<br />
unitaria<br />
Analogamente, la <strong>di</strong>stribuzione della X dato che Y è ad un livello prefissato è:<br />
( )<br />
f( X = x i Y = y j )= f X = x i ,Y = y j<br />
f( X = x i )<br />
; i = 1,2,…,r<br />
0,5<br />
0,4<br />
0,3<br />
0,2<br />
0,1<br />
0<br />
Maschi<br />
Femmine<br />
Terziario<br />
Distribuzione marginale<br />
maschi<br />
Settori Maschi<br />
Agricoltura 10,62%<br />
Industria 37,68%<br />
Terziario 51,71%<br />
Totale 100,00%
In<strong>di</strong>pendenza <strong>di</strong> eventi e <strong>di</strong> variabili<br />
Perché abbia senso lo stu<strong>di</strong>o CONGIUNTO esso deve essere più informativo dello<br />
stu<strong>di</strong>o SEPARATO delle due componenti<br />
Se la "X" assume valori in relazione ad eventi in<strong>di</strong>pendenti da quelli che generano i<br />
valori della "Y" non esiste alcun legame statistico interessante<br />
In<strong>di</strong>pendenza in <strong>di</strong>stribuzione<br />
Se la con<strong>di</strong>zionata <strong>di</strong> Y|X non cambia al variare <strong>di</strong> X allora Y è INDIPENDENTE<br />
IN DISTRIBUZIONE da X.<br />
f( X = x i ,Y = y j )= f( X i ); i = 1, 2, …, r; j = 1, 2,…,c<br />
ESEMPIO<br />
Lancio <strong>di</strong> due da<strong>di</strong> <strong>di</strong> <strong>di</strong>verso colore<br />
X: punteggio del dado rosso;<br />
Y: punteggio del dado blù;<br />
Sapere che lanciando i due da<strong>di</strong>, X= 4 e, contemporaneamente, Y= 3 è come<br />
sapere che X=4 (ignorando "Y") e che Y=3 (ignorando "X")<br />
PX ( = 4∩ Y=<br />
3)= PX ( = 4) PY=<br />
3<br />
ovvero P( X = 4Y = 3)= P( X = 4)<br />
( )<br />
L’in<strong>di</strong>pendenza è una relazione simmetria: Se X è in<strong>di</strong>pendente da Y anche Y<br />
è in<strong>di</strong>pendente da X<br />
Se fra le due variabili c'è in<strong>di</strong>pendenza, le frequenze assolute sono pari al<br />
prodotto delle frequenze marginali <strong>di</strong>viso per il totale frequenze:<br />
f( X= x i ,Y = y j )= f( X i )⇒ n ij<br />
= n i.<br />
n . j n ⇒ n ij = n i. * n . j<br />
n<br />
⎛ n ⎞<br />
⎜ ⎟ ⎛ ⎝ ⎠⎝ ⎜<br />
n ⎞<br />
i. . j<br />
⎟<br />
n n ⎠<br />
= = f<br />
1<br />
* f<br />
i. . j<br />
Esempio<br />
Test del χ 2 (chi quadrato)<br />
Red<strong>di</strong>to familiare e ren<strong>di</strong>mento scolastico<br />
Ren<strong>di</strong>mento Alto Me<strong>di</strong>o Basso Totale<br />
Ottimo 16 32 40 88<br />
Sufficiente 8 16 20 44<br />
Scarso 24 48 60 132<br />
Totale 48 96 120 264<br />
Red<strong>di</strong>to familiare<br />
Ren<strong>di</strong>mento Alto Me<strong>di</strong>o Basso Totale<br />
Ottimo 0,3333 0,3333 0,3333 0,3333<br />
Sufficiente 0,1667 0,1667 0,1667 0,1667<br />
Scarso 0,5000 0,5000 0,5000 0,5000<br />
Totale 1,0000 1,0000 1,0000 1,0000<br />
L’ipotesi da sottoporre a verifica è<br />
Si adopera la seguente statistica test:<br />
H : π =π π per ogni " i e j"<br />
0<br />
ij i. . j<br />
H : π ≠π π per almeno un " i e j"<br />
1<br />
ij i. . j<br />
Le frequenze assolute sono <strong>di</strong>verse,<br />
ma quelle relative coincidono per<br />
ogni <strong>di</strong>stribuzione con<strong>di</strong>zionata del<br />
ren<strong>di</strong>mento.<br />
Verifica:<br />
40 = 88*120 44* 96<br />
;16=<br />
264 264<br />
0,50<br />
0,45<br />
0,40<br />
0,35<br />
0,30<br />
0,25<br />
0,20<br />
0,15<br />
0,10<br />
0,05<br />
0,00<br />
Alto Me<strong>di</strong>o Basso<br />
Ottimo<br />
Sufficiente<br />
Scarso<br />
⎡<br />
( )<br />
2<br />
2<br />
k<br />
n<br />
n<br />
fij −πij<br />
nij<br />
n<br />
2<br />
ij<br />
χ c<br />
= n⎢<br />
∑ ⎥<br />
⎢<br />
i<br />
π ⎥ = ∑ − π ⎡<br />
=<br />
∑<br />
ij<br />
i<br />
nπ<br />
= 1<br />
= 1 ij ⎢<br />
i=<br />
1<br />
⎣<br />
⎤<br />
⎦<br />
( )<br />
che è è nulla se e solo se c'è in<strong>di</strong>pendenza in <strong>di</strong>stribuzione tra le due variabili.<br />
2<br />
Il χ c aumenta all'aumentare della <strong>di</strong>fferenza tra le frequenze ipotizzate in caso <strong>di</strong><br />
in<strong>di</strong>pendenza e quelle effettivamente osservate.<br />
⎣<br />
n<br />
nπ<br />
2<br />
ij<br />
ij<br />
⎤<br />
n<br />
⎦⎥ −<br />
Valori elevati <strong>di</strong> 2<br />
χ ridurranno il p-Value dell’ipotesi nulla<br />
c
Esempio<br />
Produzione <strong>di</strong> palloni <strong>di</strong> cuoio. Per il controllo della qualità i<br />
prodotti sono classificati rispetto a: X=pressione interna e<br />
Y=superficie esterna.<br />
( )<br />
( )<br />
2<br />
12 −14<br />
23 − 21<br />
χ c<br />
= +<br />
14 21<br />
gdl = ( 3−1)*( 3− 1)<br />
= 4<br />
Esempio (continua)<br />
( 119 −122)<br />
+ ... +<br />
= 1.<br />
599<br />
122<br />
2 2 2<br />
Per i gra<strong>di</strong> <strong>di</strong> libertà si tiene conto che frequenze<br />
marginali teoriche ed osservate coincidono e che la<br />
somma la loro somma deve essere pari ad uno<br />
(quest’ultimo totale deve essere contato solo una volta)<br />
P-Value<br />
gdl=rc-(c+r-1)=(r-1)(c-1)<br />
Gli scarti tra frequenze teoriche ed<br />
osservato sono dette contingenze<br />
Il valore dell’in<strong>di</strong>ce sembra basso, ma è abbastanza basso?<br />
2<br />
La <strong>di</strong>stribuzione campionaria del χ c , per n grande, è ben approssimata dalla<br />
variabile casuale detta del chi-quadrato che quin<strong>di</strong> è usata per calcolare il p-<br />
value del test.<br />
DISTRIB.CHI(1.599;4)=0.80897<br />
In caso <strong>di</strong> in<strong>di</strong>pendenza, la probabilità <strong>di</strong> osservare un valore minore o uguale a<br />
quello osservato (1.599) è dell’80%.<br />
Non c’è quin<strong>di</strong> evidenza <strong>di</strong> un legame tra la pressione interna e la superficie<br />
esterna dei prodotti.<br />
Esercizio (Excel)<br />
Indagine sulla mobilità <strong>di</strong> voto. Uso dello strumento PivotTable<br />
Esercizio<br />
Soggetto Ha votato Voterà Count Voterà<br />
Adua Centro Destra Iris Centro Centro Ha votato Centro Destra Sinistra Totale<br />
Aida Sinistra Sinistra Irma Destra Destra Centro 8 1 1 2 2 1<br />
Alda Destra Destra Jula Sinistra Centro Destra 2 9 2 1 3<br />
Alea Centro Centro Kara Sinistra Destra Sinistra 4 2 1 0 1 6<br />
Alfa Destra Centro Lara Destra Sinistra Totale 14 22 14 50<br />
Anna Sinistra Sinistra Leda Centro Centro<br />
Asia Centro Destra Lena Sinistra Sinistra 5.88 9.24 5.88 21 =I3*$F$6/$I$6<br />
Atte Sinistra Centro Lisa Centro Centro 3.64 5.72 3.64 13<br />
Beba Sinistra Sinistra Lory Sinistra Centro 4.48 7.04 4.48 16<br />
Bice Centro Destra Mara Centro Destra 1 4 2 2 1 4 5 0<br />
Cira Centro Sinistra Mena Centro Sinistra<br />
Cleo Destra Destra Mina Sinistra Sinistra 0.764 0.335 2.560 3.660 =(F3-F8)^2/F8<br />
Cora Sinistra Destra Mira Sinistra Sinistra 0.739 1.881 0.739 3.359<br />
Demi Centro Destra Olga Centro Destra 0.051 3.608 6.801 10.461<br />
Dina Centro Centro Pina Centro Centro C hi-quadrato 17.480<br />
Dora Destra Destra Rina Destra Centro Gdl 4 =(3-1)(3-1)<br />
Edda Centro Destra Rita Destra Destra p-Value 0.0016 =Distrib.Chi(I16;I17)<br />
Elsa Destra Sinistra Rosa Sinistra Sinistra<br />
Emma Sinistra Sinistra Sara Destra Destra<br />
Enza Centro Destra Teti Centro Destra<br />
Etta Centro Centro Tina Sinistra Sinistra<br />
Fede Destra Destra Vega Sinistra Sinistra<br />
Gina Sinistra Centro Vera Centro Destra<br />
Gisa Centro Destra Zita Destra Destra<br />
Ines Destra Destra Zora Centro Centro<br />
Un’indagine ha classificato i riven<strong>di</strong>tori <strong>di</strong> hardware <strong>di</strong> una regione secondo il<br />
tipo <strong>di</strong> società ed il tipo <strong>di</strong> collocazione<br />
Determinate il p-Value dell’ipotesi <strong>di</strong> in<strong>di</strong>pendenza<br />
Tipologia società<br />
Negozio Persone Cooperativa Impresa Totale<br />
Autonomo 34 16 4 54<br />
Supermercato 4 2 3 9<br />
Misto proprio 17 21 32 70<br />
Misto altri 13 5 6 24<br />
Totale 68 44 45 157
Test dell’omogeneità <strong>di</strong> due campioni<br />
il test del χ 2 può essere utilizzato anche nella seguente situazione:<br />
Si osservano due classificazioni campionarie.<br />
Le ampiezze possono essere <strong>di</strong>verse, ma le<br />
categorie sono identiche.<br />
Ci si chiede se i campioni provengono dalla stessa<br />
popolazione<br />
H 0 : π 1i =π 2i per ogni "i"<br />
H 1 :π 1i ≠π 2i per almeno un "i"<br />
Esempio<br />
Due campioni <strong>di</strong> misurazioni del tempo precedente la prima<br />
<strong>di</strong>sfunzione in due <strong>di</strong>versi macchinari hanno dato luogo alla tabella<br />
Tempi C_1 C_2 C_2/risc (f1i-f'2i) 2 /f'2<br />
0 - 20 29 56 32.78 0.436<br />
20 - 40 27 41 24.00 0.375<br />
40 - 60 14 32 18.73 1.195<br />
60 - 70 11 19 11.12 0.001<br />
60 - 80 8 13 7.61 0.020<br />
>80 7 3 1.76 15.659<br />
96 164 96.00 17.686<br />
Le “teoriche” sono ottenute come:<br />
'<br />
n 2i<br />
= n 1 f 2i<br />
La statistica test è χ 2 =17.686 con 6-1=5 gra<strong>di</strong> <strong>di</strong> libertà<br />
La statistica test assume ora la formula<br />
χ<br />
( πi<br />
− πi<br />
)<br />
π<br />
k<br />
2<br />
2 1 2<br />
c<br />
= ∑<br />
i=<br />
1 i2<br />
DISTRIB.CHI(17.686;5)=0.00336 (p-Value)<br />
L’ipotesi si deve rifiutare al<strong>di</strong>là <strong>di</strong> ogni ragionevole dubbio<br />
Esercizio<br />
Numero <strong>di</strong> incidenti automobilistici lungo una strada a scorrimento veloce.<br />
Frequenza per lato <strong>di</strong> percorrenza<br />
Valori attesi nelle <strong>di</strong>stribuzioni doppie<br />
Nel caso <strong>di</strong> variabili quantitative metriche siamo interessati al …<br />
Verso Sud Settimane Verso Nord Settimane<br />
0 39 0 82<br />
1 28 1 60<br />
2 19 2 40<br />
3 13 3 27<br />
4 8 4 18<br />
5 4 5 8<br />
>5 2 >5 4<br />
113 239<br />
Valore atteso della somma<br />
r c<br />
∑∑( i j)<br />
ij<br />
i=<br />
1 j=<br />
1<br />
E( X + Y)= X + Y f<br />
Valore atteso del prodotto<br />
r c<br />
( )= ∑∑( i j)<br />
ij<br />
i=<br />
1 j=<br />
1<br />
E XY XY f<br />
Determinate il p-value dell’ipotesi <strong>di</strong> omogeneità dei due campioni
Valore atteso della somma<br />
r<br />
c<br />
∑∑<br />
E( X + Y)= X f + Y f = X f + Y f<br />
i ij<br />
j ij i ij j<br />
i= 1 j=<br />
1<br />
j= 1 i=<br />
1<br />
i= 1 j=<br />
1 j=<br />
1 i=<br />
1<br />
r<br />
∑<br />
c<br />
∑<br />
= Xf+ Yf =µ +µ<br />
i i<br />
i= 1 j=<br />
1<br />
j<br />
c<br />
. j<br />
r<br />
∑∑<br />
x<br />
y<br />
r<br />
∑<br />
c<br />
∑<br />
c<br />
∑<br />
r<br />
∑<br />
ij<br />
Valore atteso del prodotto<br />
E( XY)=<br />
r<br />
i=<br />
1<br />
c<br />
∑∑<br />
j=<br />
1<br />
XY<br />
i j<br />
f<br />
ij<br />
Esempio<br />
Esempio<br />
⎡Y X 2 4 6<br />
⎤<br />
⎢<br />
⎥<br />
⎢ 4 2 4 10<br />
1 20 20 20 20 ⎥<br />
⎢<br />
⎥<br />
⎢ 4 1 5 10 ⎥<br />
⎢<br />
3 20 20 20 20<br />
⎥<br />
⎢ 8 3 9 ⎥<br />
20 20 20 1<br />
⎣⎢<br />
⎦⎥<br />
E( X + Y)= 2+<br />
1 4 ⎟ + 4+<br />
1 2 ⎟ + 6+<br />
1 4 ⎟ +<br />
20⎠<br />
20⎠<br />
20⎠<br />
( + ) ⎛ ⎝ ⎜ ⎞<br />
⎟ + ( + ) ⎛ ⎠ ⎝ ⎜ ⎞<br />
⎟ + ( + ) ⎛ ⎠ ⎝ ⎜ ⎞<br />
2 3 4 4 3 1 6 3 5 ⎟<br />
20 20 20⎠<br />
12 + 10 + 28 + 20 + 7 + 45 122<br />
=<br />
= = 61 .<br />
20<br />
20<br />
µ<br />
x<br />
+ µ<br />
y<br />
= 41 . + 2=<br />
61 .<br />
( ) ⎛ ⎝ ⎜ ⎞<br />
( ) ⎛ ⎝ ⎜ ⎞<br />
( ) ⎛ ⎝ ⎜ ⎞<br />
⎡Y X 2 4 6<br />
⎤<br />
⎢<br />
⎥<br />
⎢ 4 2 4 10<br />
1 20 20 20 20 ⎥<br />
⎢<br />
⎥<br />
⎢ 4 1 5 10 ⎥<br />
⎢<br />
3 20 20 20 20<br />
⎥<br />
⎢ 8 3 9 ⎥<br />
20 20 20 1<br />
⎣⎢<br />
⎦⎥<br />
( )= () ⎛ ⎝ ⎜ 4 ⎞<br />
2 ⎟ + ( 4) ⎛ ⎝ ⎜<br />
E XY<br />
2 ⎞<br />
⎟ + () ⎛ ⎠ ⎠ ⎝ ⎜ 4 ⎞<br />
6 ⎟ +<br />
20 20 20⎠<br />
() ⎛ ⎝ ⎜ 4 ⎞<br />
⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 1 ⎞<br />
⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 5 ⎞<br />
6 12 18 ⎟<br />
20 20 20⎠<br />
8<br />
= + 8 + 24 + 24 + 12 + 90<br />
= 83 .<br />
20<br />
E(XY) in caso <strong>di</strong> in<strong>di</strong>pendenza<br />
Esercizio<br />
r<br />
c<br />
∑∑<br />
EXY ( )= XYff = Xf Yf =µ µ<br />
r<br />
∑<br />
i j i. . j i i. j . j x y<br />
i= 1 j=<br />
1<br />
i=<br />
1 j=<br />
1<br />
c<br />
∑<br />
In questo caso, la me<strong>di</strong>a dei prodotti è pari al prodotto delle me<strong>di</strong>e.<br />
Esempio<br />
⎡Y X 2 4 6<br />
⎤<br />
⎢<br />
⎥<br />
⎢ 3 3 6 12<br />
1 20 20 20 20 ⎥<br />
⎢<br />
⎥<br />
⎢ 2 2 4 8 ⎥<br />
⎢<br />
3 20 20 20 20<br />
⎥<br />
⎢ 5 5 10 ⎥<br />
20 20 20 1<br />
⎣⎢<br />
⎦⎥<br />
E( XY)= () ⎛ ⎝ ⎜ 3 ⎞<br />
⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 3 ⎞<br />
⎟ + () ⎛ ⎠ ⎝ ⎜ 6 ⎞<br />
2 4 6 ⎟ +<br />
20 20 20⎠<br />
() ⎛ ⎝ ⎜ 2 ⎞<br />
⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 2 ⎞<br />
⎟ + ( ) ⎛ ⎠ ⎝ ⎜ 4 ⎞<br />
6 12 18 ⎟<br />
20 20 20⎠<br />
6<br />
= + 12 + 36 + 12 + 24 + 72<br />
= 81 .<br />
20<br />
µ<br />
x<br />
=() ⎛ ⎝ ⎜ 5 ⎞ ⎛ 5 ⎞<br />
2 ⎟ + ( 4)<br />
⎜ ⎟ + () 6 ⎛10<br />
45<br />
20⎠<br />
⎝<br />
20⎠<br />
⎝ ⎜<br />
⎞<br />
⎟ = .<br />
20⎠<br />
µ =() 1 ⎛12<br />
3 8 18 45 18 81<br />
⎝ ⎜ ⎞<br />
⎟ + () ⎛ 20⎠<br />
⎝ ⎜<br />
⎞<br />
y ⎟ = .; µ<br />
xµ y<br />
= . *. = .<br />
20⎠<br />
• Calcolare E(X+Y)<br />
• Calcolare E(X-Y)<br />
• Calcolare E(XY)
La concordanza<br />
Un aspetto essenziale della <strong>di</strong>pendenza tra<br />
due variabili su scala almeno intervallare è<br />
la concordanza, cioè la ricerca della<br />
<strong>di</strong>rezione della <strong>di</strong>pendenza tra Y ed X.<br />
Ci si chiede se valori inferiori (superiori) alla<br />
me<strong>di</strong>a si accompagnino con valori inferiori<br />
(superiori) alla me<strong>di</strong>a nell'altra<br />
Per ognuna delle combinazione <strong>di</strong> possibili valori si può averne una in<strong>di</strong>cazione<br />
dagli SCARTI MISTI:<br />
( ) −µ<br />
S = X −µ Y<br />
( )<br />
i i x i y<br />
Significato della concordanza<br />
Il segno degli scarti è utile per sapere se, per la combinazione dei valori ”X i<br />
" e<br />
”Y i<br />
" l'andamento delle due variabili è concorde oppure <strong>di</strong>scorde:<br />
CONCORDANZA<br />
S > ⇒ X >µ e Y oppure X e Y<br />
DISCORDANZA<br />
0 ( ) ( >µ ) (
La presentazione congiunta<br />
delle due variabili rivela<br />
aspetti che rimangono<br />
oscurati nella<br />
rappresentazione separata<br />
dei due aspetti.<br />
Lo scatterplot in<strong>di</strong>ca la<br />
presenza <strong>di</strong> un gruppo <strong>di</strong><br />
soggetti (in alto a sinistra)<br />
<strong>di</strong>versi dal resto.<br />
Esempio<br />
Esercizio<br />
C’e una relazione tra il tasso <strong>di</strong> crescita delle mangrovie e la salinità del suolo?<br />
Utilizzare il foglio elettronico per ottenere la rappresentazione grafica.<br />
PrelieviSalinityCrescita<br />
1 2.90 22.12<br />
2 40.25 19.29<br />
3 60.05 30.69<br />
4 8.24 15.80<br />
5 58.05 24.08<br />
6 95.07 27.85<br />
7 79.31 25.58<br />
8 8.35 14.59<br />
9 12.93 16.17<br />
10 22.21 16.31<br />
11 77.23 29.17<br />
12 74.11 25.87<br />
13 20.91 22.05<br />
14 83.08 30.68<br />
15 81.02 33.82<br />
16 82.31 26.30<br />
17 46.19 21.45<br />
18 65.12 30.34<br />
19 30.46 21.86<br />
20 39.31 22.42<br />
Salinit<br />
35.00<br />
33.00<br />
31.00<br />
29.00<br />
27.00<br />
25.00<br />
23.00<br />
21.00<br />
19.00<br />
17.00<br />
15.00<br />
Relazione tra salinit e crescita pia<br />
0.00 20.00 40.00 60.00 80.00 100.00<br />
Crescita<br />
Dominano gli scartj concor<strong>di</strong><br />
La covarianza<br />
Esempio <strong>di</strong> calcolo della covarianza<br />
La sintesi più semplice <strong>di</strong> tutti gli scarti misti è il loro valore atteso che<br />
costituisce la covarianza tra Y ed X<br />
n<br />
Cov( X, Y)= ⎛ Xi<br />
x<br />
Yi<br />
⎝ ⎜ 1⎞<br />
⎟∑( −µ ) −µ<br />
n⎠<br />
i=<br />
1<br />
( y)<br />
Se Cov(Y,X)>0; Predominano gli scarti <strong>di</strong> segno concorde. Ci si<br />
aspetta X e Y tendano a cambiare nella stessa <strong>di</strong>rezione<br />
Se Cov(Y,X)
Formula semplificata per la covarianza<br />
Covarianza e trasformazioni lineari<br />
Usando le proprietà delle sommatorie si ottiene<br />
n<br />
n<br />
Cov( X, Y)= ⎛ Xi<br />
x<br />
Yi y<br />
Xi x<br />
Yi<br />
Xi x y<br />
⎝ ⎜ 1⎞<br />
⎟ ( −µ )( −µ )= ⎛ n⎠<br />
⎝ ⎜ 1⎞<br />
∑<br />
⎟∑( −µ ) −( −µ )µ<br />
n⎠<br />
i= 1 i=<br />
1<br />
n<br />
n<br />
= ⎛ Xi x<br />
Yi<br />
y<br />
X<br />
i x<br />
⎝ ⎜ ⎞<br />
⎟ ( −µ ) − ⎛ n<br />
1<br />
n⎠<br />
⎝ ⎜ 1⎞<br />
⎛ 1⎞<br />
∑<br />
⎟µ ∑( −µ )= ⎜ ⎟∑( XY<br />
i i−µ<br />
xYi)−<br />
0<br />
n⎠<br />
⎝<br />
i= 1 i=<br />
1<br />
n⎠<br />
i=<br />
1<br />
n<br />
n<br />
n<br />
n<br />
= ⎛ XY<br />
i i<br />
x<br />
Yi<br />
XY<br />
i i<br />
xn<br />
y<br />
XY<br />
i i<br />
⎝ ⎜ 1⎞<br />
⎟ − ⎛ n⎠<br />
⎝ ⎜ 1⎞<br />
⎟µ = ⎛ n⎠<br />
⎝ ⎜ 1⎞<br />
⎟ − ⎛ n⎠<br />
⎝ ⎜ 1⎞<br />
⎟µ µ = ⎛ n⎠<br />
⎝ ⎜ 1⎞<br />
∑ ∑ ∑ ⎟∑<br />
−µ<br />
n⎠<br />
i= 1 i= 1 i= 1 i=<br />
1<br />
che semplifica il calcolo e soprattutto l’interpretazione della covarianza<br />
che è nulla in caso <strong>di</strong> in<strong>di</strong>pendenza in <strong>di</strong>stribuzione delle due variabili<br />
xµ y<br />
La covarianza, come la varianza, risente <strong>di</strong> trasformazioni moltiplicative, ma<br />
non <strong>di</strong> quelle ad<strong>di</strong>tive<br />
n<br />
n<br />
Cov( X, Y)= ⎛ WZ<br />
i i w z<br />
a bXi<br />
c dY a b c d<br />
⎝ ⎜ 1⎞<br />
⎟ −µ µ = ⎛ n⎠<br />
⎝ ⎜ 1⎞<br />
∑<br />
⎟ ∑( + )( + )− + µ<br />
n⎠<br />
i= 1 i=<br />
1<br />
[ ]<br />
[ ] + µ<br />
i x y<br />
n<br />
= ⎛ ac bcX<br />
i<br />
adYi bdX<br />
iYi<br />
ac ad bc bd<br />
⎝ ⎜ 1⎞<br />
⎟ ∑[ + + + ]− + µ + µ + µ µ<br />
n⎠<br />
i=<br />
1<br />
n<br />
⎛ 1⎞<br />
= bd⎜<br />
⎟∑ X<br />
iYi<br />
− bdµ xµ y<br />
= bdCov( X, Y)<br />
⎝ n ⎠<br />
i=<br />
1<br />
W = a + bX ; Z = c + dY<br />
i i i i<br />
[ y x x y]<br />
i parametri ad<strong>di</strong>tivi ”a" e ”c" sono scomparsi, quelli moltiplicativi compaiono<br />
come fattore<br />
Disuguaglianza Cauchy-Schwartz<br />
Consideriamo la relazione che lega linearmente gli scarti me<strong>di</strong> <strong>di</strong> Y agli scarti<br />
me<strong>di</strong> <strong>di</strong> X<br />
n<br />
n<br />
⎛ 1⎞<br />
2 1<br />
2<br />
2 2<br />
⎜ ⎟ [( Yi −µ<br />
y)−b( Xi −µ<br />
x)<br />
] = ⎛ Yi y<br />
b Xi x<br />
2b Yi y<br />
Xi x<br />
0<br />
⎝ n⎠<br />
⎝ ⎜ ⎞⎡<br />
⎤<br />
∑<br />
⎟⎢∑( −µ ) + ( −µ ) − ( −µ )( −µ ) ⎥ ≥<br />
n⎠<br />
i= 1<br />
⎣ i=<br />
1<br />
⎦<br />
1 2<br />
2 1<br />
= ⎛ Yi<br />
y<br />
b<br />
⎝ ⎜ ⎞⎡<br />
n<br />
⎟ ( −µ ) + ⎛ n<br />
n<br />
⎞<br />
2 ⎛ ⎞<br />
⎢∑<br />
⎜ ⎟ ( −µ ) − ⎜ ⎟ −µ<br />
n⎠⎣<br />
⎝ n<br />
∑ Xi<br />
x<br />
2b 1 ∑ Y X<br />
⎠<br />
⎝ ⎠<br />
i= 1 i=<br />
1<br />
n<br />
i=<br />
1<br />
2<br />
= Var( Y) + b Var( X)−2Cov( X, Y)<br />
≥0<br />
( ) −µ<br />
( )<br />
i y i x<br />
⎤<br />
⎥<br />
⎦<br />
Perchè tale <strong>di</strong>sequazione <strong>di</strong> 2° grado in ”b" sia sempre sod<strong>di</strong>sfatta, il <strong>di</strong>scriminante<br />
deve essere negativo e cioé:<br />
La covarianza, al quadrato, è inferiore o uguale al prodotto delle varianze delle<br />
<strong>di</strong>stribuzioni marginali<br />
n<br />
* * X Y<br />
i x i y<br />
Cov( X , Y ) = ⎛ ⎝ ⎜ 1⎞<br />
⎛ −µ ⎞⎛<br />
−µ ⎞<br />
⎟∑⎜<br />
⎟<br />
n⎠<br />
⎜ ⎟<br />
i=<br />
1⎝<br />
σx<br />
⎠⎝<br />
σy<br />
⎠
Coefficiente <strong>di</strong> correlazione<br />
E’ compreso tra -1 e +1 perché espresso come rapporto <strong>di</strong> una quantità<br />
(la covarianza) al suo massimo (in valore assoluto)<br />
E' standar<strong>di</strong>zzato. Se una o entrambe le variabili subiscono una<br />
trasformazione lineare il coefficiente rimane lo stesso:<br />
r(a+bX,c+dY) = r(X,Y)<br />
Coefficiente <strong>di</strong> correlazione/2<br />
Assume i valori estremi solo in caso <strong>di</strong> relazione lineare esatta<br />
n<br />
n<br />
n<br />
Cov( X, a + bX)<br />
= ⎛ Xi<br />
a bXi<br />
x<br />
a b<br />
x<br />
aX<br />
i<br />
bX<br />
i<br />
a<br />
x<br />
b<br />
⎝ ⎜ 1⎞<br />
⎟ ( + )−µ ( + µ )= ⎛ n⎠<br />
⎝ ⎜ 1⎞⎡<br />
⎤<br />
2<br />
∑<br />
⎟ ⎢∑( )+ ∑ ⎥− µ − µ<br />
n⎠⎣<br />
⎦<br />
i= 1<br />
i=<br />
1<br />
i=<br />
1<br />
n<br />
= a ⎛ aX<br />
i<br />
a<br />
x<br />
b<br />
⎝ ⎜ 1⎞<br />
⎡<br />
⎟ ( )− µ + ⎛ n<br />
n ⎠<br />
⎝ ⎜ 1⎞<br />
⎤<br />
2 2<br />
∑<br />
⎢ ⎟ −µ<br />
⎣ n<br />
∑ X<br />
i x<br />
a<br />
x<br />
a<br />
x<br />
b Var x<br />
⎠ ⎦<br />
i=<br />
1<br />
= bVar( x)<br />
Ne consegue che<br />
i=<br />
1<br />
[ ]<br />
⎥ = µ − µ + ( )<br />
2<br />
x<br />
E' simmetrico rispetto alle due variabili: r(Y,X)=r(X,Y)<br />
rXa ( , + bX)<br />
=<br />
bVar( x) bVar( x)<br />
b se b<br />
Var( x) Var( a + bx) = Var( x) b Var( x) = b = ⎧ − 1 < 0<br />
⎨<br />
2<br />
⎩+ 1 se b > 0<br />
E' uguale a zero se c'è in<strong>di</strong>pendenza tra le due variabili (il numeratore<br />
in questo caso è infatti zero)<br />
il coefficiente <strong>di</strong> correlazione misura, quin<strong>di</strong>, l'intensità del legame lineare che<br />
sussiste tra le due variabili.<br />
Calcolo <strong>di</strong> r(x,y)<br />
il calcolo è molto semplice purché opportunamente organizzato.<br />
Supponiamo che le due variabili presentino con frequenza 1/6 le coppie <strong>di</strong> valori<br />
inserite nelle prime due colonne.<br />
Una volta calcolato r(x,y) su <strong>di</strong> un campione <strong>di</strong> osservazioni cosa si può <strong>di</strong>re sul<br />
coefficiente <strong>di</strong> correlazione che lega le due variabili nell’intera popolazione?<br />
µ x<br />
µ y<br />
H1<br />
: ρ ≠ 0<br />
P-Value per r(x,y)<br />
H0<br />
: ρ = 0<br />
(assenza <strong>di</strong> un legame lineare)<br />
(presenza <strong>di</strong> un legame lineare)<br />
La statistica test che si po’ usare è<br />
⎛<br />
ryx<br />
tc = n − ⎜<br />
( , )<br />
2<br />
⎜<br />
⎝ 1 ryx ,<br />
[ ]<br />
− ( )<br />
2<br />
⎞<br />
⎟<br />
⎟<br />
⎠<br />
Le due variabili presentano una correlazione positiva tendendo a presentare insieme<br />
i valori più gran<strong>di</strong><br />
La cui <strong>di</strong>stribuzione è approssimata dalla t-Student con (n-2) gra<strong>di</strong> <strong>di</strong> libertà
Esito test Durata<br />
134 265 53 97<br />
122 239 49 94<br />
138 225 57 90<br />
134 218 50 83<br />
119 193 42 81<br />
99 193 51 81<br />
95 190 42 78<br />
94 179 48 78<br />
90 176 40 74<br />
104 174 36 72<br />
75 148 36 67<br />
75 142 40 66<br />
73 138 41 65<br />
71 135 33 65<br />
80 130 31 59<br />
61 120 31 56<br />
59 118 25 49<br />
69 115 29 49<br />
57 113 29 49<br />
58 112 23 42<br />
56 111 22 40<br />
57 110 22 40<br />
66 109 21 37<br />
55 109 25 36<br />
56 105 17 33<br />
52 99 16 32<br />
Esito<br />
Esercizio - Excel<br />
Durata ed esito <strong>di</strong> un te<br />
300<br />
250<br />
200<br />
150<br />
100<br />
50<br />
0<br />
0 50 100 150<br />
Durata<br />
=CORREL(B2:B53;C2:C53)<br />
n = 52 : gld = 50 : t = 39. 56,<br />
p − Value = 0<br />
c<br />
Esercizio<br />
Supponendo che una v.c. doppia presenti i seguenti valori<br />
a) Disegnare lo SCATTERPLOT<br />
b) Calcolare la Correlazione tra X e Y<br />
Significato <strong>di</strong> r(x,y)<br />
Scatterplot e correlazione<br />
Dalle proprietà <strong>di</strong> "r(x,y)" si deduce il suo significato:<br />
Quanto più i suoi valori si avvicinano, in modulo, ad uno tanto più i valori delle<br />
variabili risultano collegabili con una retta.<br />
Lo scatterplot fornisce una idea imme<strong>di</strong>ata della intensità del legame che<br />
intercorre tra le due variabili<br />
Si realizza riportando -in scala opportuna- le combinazioni osservate dei valori<br />
D'altra parte, quanto più "r" è vicino a "±1" tanto più la conoscenza <strong>di</strong> una delle<br />
variabili permette, attraverso la relazione lineare, <strong>di</strong> conoscere l'altra.<br />
In questo senso "r" è una misura del grado <strong>di</strong> concordanza tra i valori della<br />
variabile doppia (X,Y)<br />
INTENSITA' DEL LEGAME LINEARE<br />
PREVEDIBILITA’ DI UNA VARIABIULE CONOSCENDO L’ALtra<br />
GRADO DI CONCORDANZA<br />
La relazione tra due variabili tende a <strong>di</strong>venire più stretta ma mano che la nube<br />
<strong>di</strong> punti passa dalla forma circolare, alla ellisse ed alla retta
Scatterplot e correlazione/2<br />
Assenza <strong>di</strong> legami lineari<br />
Correlazione e causa-effetto<br />
L'esistenza <strong>di</strong> correlazione, per quanto intensa, non implica una relazione <strong>di</strong><br />
causa ed effetto.<br />
LEGAME PLAUSIBILE<br />
Il tasso <strong>di</strong> criminalità è fortemente legato al tasso <strong>di</strong> <strong>di</strong>soccupazione.<br />
LEGAME SPURIO<br />
Nei bambini, la misura delle scarpe è molto correlata con la capacità <strong>di</strong><br />
lettura.<br />
La correlazione in<strong>di</strong>ca solo che l'andamento <strong>di</strong> una variabile tende a <strong>di</strong>sporsi<br />
secondo una retta se rappresentato in un <strong>di</strong>agramma cartesiano insieme<br />
all'altra.<br />
I "perchè?" <strong>di</strong> questa tendenza vanno cercati al <strong>di</strong> fuori della statistica.<br />
Correlazione spuria<br />
Spesso, il valore <strong>di</strong> r(y,x) altro non è che l'apparenza <strong>di</strong> un legame la cui<br />
sostanza è invece dovuta a fenomeni esterni.<br />
La situazione <strong>di</strong> causalità tra X e Y:<br />
Non è <strong>di</strong>stinguibile dal legame spurio che fra <strong>di</strong> esse si pone a causa della<br />
comune <strong>di</strong>pendenza da una terza variabile Z<br />
L’appren<strong>di</strong>mento <strong>di</strong> nuove parole non<br />
rende i pie<strong>di</strong> più gran<strong>di</strong> ovvero avere<br />
pie<strong>di</strong> più gran<strong>di</strong> non aiuta a<br />
conoscere nuove parole.<br />
C’un terzo fattore nascosto <strong>di</strong>etro la<br />
correlazione: l’età<br />
Questo si verifica spesso a causa dell'esistenza <strong>di</strong> fenomeni tendenziali <strong>di</strong><br />
lungo periodo che incidono allo stesso modo su variabili <strong>di</strong>verse
Anno Ni<strong>di</strong> <strong>di</strong> cicogne Nati vivi<br />
1972 19 104<br />
1973 24 123<br />
1974 27 130<br />
1975 33 136<br />
1976 40 144<br />
1977 43 149<br />
1978 47 156<br />
1979 49 160<br />
1980 54 168<br />
1981 55 171<br />
1982 61 184<br />
1983 67 195<br />
Esempio<br />
In una zona del Nord Europa è stato monitorato il<br />
numero <strong>di</strong> ni<strong>di</strong> costruiti dalle cicogne ed il numero <strong>di</strong><br />
nati vivi nel loro periodo <strong>di</strong> permanenza.<br />
Dal punto <strong>di</strong> vista della correlazione le<br />
ipotesi che siano le cicogne a portare i<br />
bambini o che siano i bambini a portare le<br />
cicogne sono equivalenti.<br />
200<br />
190<br />
180<br />
170<br />
Nati vivi<br />
160<br />
150<br />
140<br />
130<br />
120<br />
110<br />
100<br />
J<br />
J<br />
J<br />
J<br />
J<br />
J<br />
10 20 30 40 50 60 70<br />
NIDI<br />
J<br />
J<br />
J<br />
J<br />
J<br />
J<br />
X Y W Z A<br />
54 35 87.0 68.0 22<br />
63 46 126.0 109.0 42<br />
71 87 78.5 94.5 5<br />
35 74 59.0 98.0 16<br />
1 88 35.5 122.5 23<br />
33 37 57.0 61.0 16<br />
61 66 106.0 111.0 30<br />
49 21 79.0 51.0 20<br />
86 30 129.5 73.5 29<br />
25 6 44.5 25.5 13<br />
65 32 87.5 54.5 15<br />
70 60 86.5 76.5 11<br />
61 36 127.0 102.0 44<br />
38 47 39.5 48.5 1<br />
5 28 48.5 71.5 29<br />
47 67 60.5 80.5 9<br />
19 87 43.0 111.0 16<br />
74 26 84.5 36.5 7<br />
26 6 53.0 33.0 18<br />
89 38 117.5 66.5 19<br />
25 80 77.5 132.5 35<br />
2 71 8.0 77.0 4<br />
7 54 61.0 108.0 36<br />
31 3 95.5 67.5 43<br />
17 54 71.0 108.0 36<br />
31 57 88.0 114.0 38<br />
37 82 98.5 143.5 41<br />
6 33 24.0 51.0 12<br />
59 1 99.5 41.5 27<br />
89 58 153.5 122.5 43<br />
90 88 120.0 118.0 20<br />
46 20 92.5 66.5 31<br />
51 71 55.5 75.5 3<br />
37 1 50.5 14.5 9<br />
23 62 63.5 102.5 27<br />
Esercizio<br />
Corr(X,Y) -0.037<br />
Corr(W,Z) 0.309<br />
W = X + 12 . A<br />
Z = Y + 12 . A<br />
Z<br />
Y<br />
Valori originar<br />
100<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
0 20 40 60 80 100<br />
X<br />
Valori contaminati<br />
160.0<br />
140.0<br />
120.0<br />
100.0<br />
80.0<br />
60.0<br />
40.0<br />
20.0<br />
0.0<br />
0.0 50.0 100.0 150.0 200.0<br />
W<br />
Dipendenza dei ranghi<br />
Riguarda le variabili riportate in scala quantitativa or<strong>di</strong>nale.<br />
> Perché non esiste una vera misura, ma solo un punteggio o valutazione<br />
> Perché le misurazioni su sono imprecise o viziate da errore<br />
Esempio<br />
Un gruppo <strong>di</strong> clienti <strong>di</strong> una banca classificato per red<strong>di</strong>to e per importo del<br />
prestito<br />
> Perché sono presenti dei valori remoti<br />
Le modalità sono poste in corrispondenza con dei numeri naturali (ranghi)<br />
Per ogni unità si osserva una coppia <strong>di</strong> modalità che si trasforma poi in una<br />
coppia <strong>di</strong> ranghi
Correlazione tra ranghi (rho <strong>di</strong> Spearman)<br />
Esempio<br />
La misura forse più popolare della <strong>di</strong>pendenza tra i ranghi è la seguente<br />
r<br />
S<br />
=<br />
n<br />
∑<br />
i=<br />
1<br />
n<br />
∑<br />
i=<br />
1<br />
⎛ n n<br />
ri<br />
− + 1⎞<br />
⎜ ⎟ ⎛ si<br />
− + 1⎞<br />
⎜ ⎟<br />
⎝ 2 ⎠⎝<br />
2 ⎠<br />
2 2<br />
⎛ n<br />
n<br />
n<br />
ri<br />
− + 1⎞<br />
⎜ ⎟ ⎛ si<br />
− + 1⎞<br />
∑⎜<br />
⎟<br />
⎝ 2 ⎠ ⎝ 2 ⎠<br />
i=<br />
1<br />
detto rho <strong>di</strong> Spearman<br />
Caso delle n coppie <strong>di</strong> valori senza posizioni <strong>di</strong> parità.<br />
La definizione <strong>di</strong> r S<br />
è la stessa del coefficiente <strong>di</strong> correlazione. Comunque<br />
il particolare tipo <strong>di</strong> dati coinvolti consente delle semplificazioni<br />
r<br />
S<br />
n<br />
∑<br />
2<br />
6 ( ri<br />
− si)<br />
i=<br />
1<br />
= 1−<br />
2<br />
nn −1<br />
( )<br />
Considerazione sul rho <strong>di</strong> Spearman<br />
P-Value per rho<br />
Una volta calcolato rho su <strong>di</strong> un campione, cosa si può <strong>di</strong>re sul rho <strong>di</strong> Spearman<br />
che lega le variabili nell’intera popolazione?<br />
H<br />
H<br />
0<br />
1<br />
: ρ = 0 ( NON esiste una relazione monotona)<br />
: ρ ≠ 0 ( Esiste una relazione monotona)<br />
La statistica test che si puo’ usare è la stessa del coefficiente <strong>di</strong> correlazione<br />
⎛<br />
tc = n − ρ<br />
⎞<br />
2<br />
⎜<br />
2<br />
⎝ 1−<br />
ρ<br />
⎟<br />
⎠<br />
Per n
X Y<br />
Unit Percorsi Ven<strong>di</strong>te Rank(X) Rank(Y)<br />
A 121.5 373 21 25<br />
B 151.5 314 25 21<br />
C 146.2 301 24 20<br />
D 106.7 263 16 17<br />
E 98.9 204 11 9<br />
F 95.1 176 9 7<br />
G 90.1 138 4 1<br />
H 115.5 329 19 23<br />
I 71.7 225 1 11<br />
J 111.7 300 18 19<br />
K 93.6 164 7 5<br />
L 109.6 284 17 18<br />
M 105.3 252 15 16<br />
N 125.0 400 22 26<br />
O 91.7 239 6 15<br />
P 88.7 161 3 4<br />
Q 101.9 226 13 12<br />
R 162.3 322 26 22<br />
S 96.4 185 10 8<br />
T 90.7 143 5 2<br />
U 100.0 212 12 10<br />
V 102.6 232 14 13<br />
X 94.5 171 8 6<br />
Y 88.6 143 2 2<br />
W 119.4 358 20 24<br />
Z 142.9 232 23 13<br />
rho= 0.850084703<br />
gdl= 25<br />
tc= 7.907679188<br />
p-Value 2.90161E-08<br />
Rango ven<strong>di</strong>te<br />
Esempio<br />
Ven<strong>di</strong>tori porta-a-porta per ven<strong>di</strong>te e<br />
Km percorsi<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
Correlazione <strong>di</strong> rango<br />
0 5 10 15 20 25 30<br />
Rango percorsi<br />
La correlazione è elevata e significativa<br />
Rilevazione <strong>di</strong>retta dei ranghi<br />
Un certo insieme <strong>di</strong> n oggetti o situazioni sono<br />
or<strong>di</strong>nate secondo il grado con cui presentano<br />
una certa caratteristica X.<br />
Supponiamo …<br />
Che la caratteristica sia un mix <strong>di</strong> immaterialità<br />
che può essere graduato, ma non misurato.<br />
Che le valutazioni siano espresse con voti<br />
{1,2,…,n} così ottenendo la permutazione {s 1<br />
,<br />
s 2<br />
,…,s n<br />
}<br />
Esempio: giu<strong>di</strong>zi degli esperti<br />
Ad un esperto è stato chiesto <strong>di</strong> pronunciarsi sulla<br />
posizione che le 20 squadre <strong>di</strong> un campionato <strong>di</strong><br />
calcio occuperanno alla fine: {s 1 , s 2 ,…,s 20 }.<br />
Alla fine della stagione i giu<strong>di</strong>zi sono comparati con le<br />
posizioni reali: {q 1 , q 2 ,…,q 20 }.<br />
Per semplificare il calcolo possiamo <strong>di</strong>sporre le due<br />
serie <strong>di</strong> posizioni secondo l’or<strong>di</strong>ne crescente della<br />
prima<br />
Ripetiamo la rilevazione per una Y misurata allo<br />
stesso modo e che produce una <strong>di</strong>versa<br />
permutazione degli interi: {q 1<br />
, q 2<br />
,…,q n<br />
}<br />
Con<strong>di</strong>zione <strong>di</strong> ansia e stress<br />
Prima e dopo una separazione<br />
Squadra A B C D E F G H I L M N O P Q R S T U V Totale<br />
Prima 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 210<br />
Dopo 9 2 4 7 5 1 3 8 6 11 13 10 14 18 15 12 16 20 17 19 210<br />
Il rho <strong>di</strong> Spearman cerca <strong>di</strong> quantificare l’intensità del legame monotono tra i due<br />
insiemi <strong>di</strong> giu<strong>di</strong>zi<br />
ρ=0.87 (p-value 0.000001). L’esperto ha dato un buon giu<strong>di</strong>zio sebbene sembri più in grado <strong>di</strong><br />
indovinare le squadre che avranno una cattiva stagione rispetto a quelle che l’avranno buona
Esercizio<br />
Presenza <strong>di</strong> valori uguali<br />
Ad un campione <strong>di</strong> consumatori stato<br />
chiesto <strong>di</strong> giu<strong>di</strong>care la qualit <strong>di</strong> un<br />
servizio con un voto da 0 a 12.<br />
E anche stato ch iesto <strong>di</strong> valutare con<br />
un voto da 0 a 12 la reputazione<br />
dell azienda c he forniva il servizio<br />
Azienda Rating servizio Reputazione aziend<br />
Alfa01 8 9<br />
Alfa02 9 12<br />
Alfa03 2 0<br />
Alfa04 5 10<br />
Alfa05 6 6<br />
Alfa06 4 11<br />
Alfa07 7 4<br />
Alfa08 10 3<br />
Alfa09 3 5<br />
Alfa10 1 2<br />
Alfa11 0 1<br />
Alfa12 12 7<br />
Alfa13 11 8<br />
Risulta che ci sia un legame tra le due valutazioni?<br />
Rho-Spearman= 0.4890<br />
Tc= 1.8593<br />
p-value 0.0899<br />
Esempio<br />
r S<br />
Accertamento <strong>di</strong> una relazione<br />
d'or<strong>di</strong>ne tra il tasso <strong>di</strong> interesse<br />
effettivo "E" dei BOT trimestrali e<br />
l'in<strong>di</strong>ce <strong>di</strong> borsa "B"<br />
2 5<br />
2 0<br />
1 5<br />
1 0<br />
5<br />
0<br />
l<br />
l<br />
l<br />
ll<br />
l<br />
l<br />
l<br />
l<br />
l<br />
l<br />
l<br />
l l l<br />
l<br />
l<br />
l<br />
l<br />
l<br />
l l<br />
l<br />
P-value 0.000000<br />
0 5 1 0 1 5 2 0 2 5<br />
Voti in due <strong>di</strong>scipline per un camipone<br />
<strong>di</strong> studenti.<br />
C un legame tra I due voti?<br />
rho-Spearman 0.7836<br />
Tc 7.5669<br />
p-value 0.0000<br />
Esercizio<br />
Matricola Disciplina A Disciplina B<br />
50825 18 18<br />
64506 18 18<br />
64289 18 18<br />
31136 18 18<br />
81016 20 19<br />
91817 20 19<br />
42720 20 19<br />
92614 21 20<br />
33491 21 20<br />
31947 21 21<br />
56554 21 21<br />
83355 22 21<br />
95516 22 21<br />
44659 22 22<br />
93637 22 22<br />
70350 22 22<br />
53806 23 24<br />
44509 23 24<br />
92149 23 24<br />
86848 23 24<br />
35750 24 24<br />
95748 24 25<br />
76681 25 25<br />
70776 25 25<br />
43071 26 26<br />
42950 26 26<br />
45653 26 26<br />
56123 28 27<br />
53240 28 27<br />
91805 28 27<br />
69069 28 27<br />
77209 29 27<br />
84099 29 27<br />
55360 30 29<br />
48820 30 29<br />
76747 30 30<br />
92951 30 30<br />
66366 30 30
Relazione tra due variabili<br />
Dopo aver rappresentato graficamente i dati a mezzo dello scatterplot si è<br />
interessati a determinare una curva che passi vicino ai punti<br />
Per sostituire uno schema semplice alla<br />
nube dei punti<br />
Relazioni stocastiche e deterministiche<br />
Secondo questo grafico ed ogni età corrisponde<br />
un ben determinato <strong>di</strong>ametro del tronco<br />
Per sintetizzare le tendenze <strong>di</strong> fondo<br />
Per ricostruire o determinare il valore della Y<br />
noto quello della X o viceversa<br />
il presupposto è che esiste una variabile (la "X” detta in<strong>di</strong>pendente o esogrena) che<br />
è causa o comunque agisce sulla’altra (la "Y” detta <strong>di</strong>pendente o endogena).<br />
La scelta del ruolo delle due variabili è però esterna alla statistica.<br />
il <strong>di</strong>ametro del tronco aumenta con l'età, ma<br />
l'incremento non è certo: talvolta aumenta <strong>di</strong><br />
più, altre volte <strong>di</strong> meno<br />
Proposta del modello lineare<br />
La semplicità è una convenzione: giu<strong>di</strong>chiamo semplice ciò che è regolare<br />
o preve<strong>di</strong>bile e che appare com’è a chiunque possa e voglia vedere<br />
Esempio<br />
La teoria <strong>di</strong> un fenomeno può spesso essere sintetizzata da un modello<br />
espresso da una equazione.<br />
il rasoio <strong>di</strong> Occam<br />
Se è necessario dare una soluzione<br />
ad un problema <strong>di</strong> cui si sa poco, la<br />
risposta più semplice comporta<br />
meno rischi in caso <strong>di</strong> errore ed è<br />
spesso quella giusta<br />
Sia ”D" l'ampiezza in cm del <strong>di</strong>ametro alla base del tronco <strong>di</strong> una data<br />
specie arborea e sia ”E" l'età .<br />
L'idea che il <strong>di</strong>ametro sia più grande secondo l'età può essere espressa<br />
dalla relazione funzionale:<br />
L uovo <strong>di</strong> Colombo<br />
Principio <strong>di</strong> semplicità <strong>di</strong> Galilei<br />
La natura procede per vie semplici ed offre così la sicura<br />
scelta tra le varie spiegazioni possibili dei suoi fenomeni<br />
D=f(E)<br />
queste variazioni assicurano all'albero adeguata resistenza e flessibilità.
Proposta del modello lineare/2<br />
il legame più semplice tra due variabili è quello lineare<br />
D = β 0 + β 1 E + u<br />
Y<br />
Teorema <strong>di</strong> Taylor.<br />
Una ragione <strong>di</strong> più<br />
Se la funzione "f" che lega "D" ad "E'" ha<br />
derivate prime e seconde continue in un<br />
intorno del punto E0, in tale intorno la "f" è<br />
ben approssimata dalla retta<br />
Zoom<br />
X<br />
Ipotizziamo che l’or<strong>di</strong>nata “Y” sia dovuta alla combinazione ADDITIVA <strong>di</strong><br />
due valori: la parte deterministica (lineare) ed un errore<br />
In generale si può <strong>di</strong>re che la scelta del modello lineare è motivata da<br />
il termine "u" è il risultato <strong>di</strong>:<br />
Errori e carenze nella misurazione e nella rilevazione <strong>di</strong> “D” e <strong>di</strong> “E”<br />
Insufficienza del solo fattore E a "spiegare" da solo la D<br />
Inadeguatezza della "semplice" relazione lineare<br />
Ragioni <strong>di</strong> semplicità<br />
Esigenze <strong>di</strong> sintesi<br />
Approssimazione funzionale<br />
Formulazione matematica<br />
Supponiamo <strong>di</strong> <strong>di</strong>sporre <strong>di</strong> "n" coppie <strong>di</strong> osservazioni<br />
Il modello <strong>di</strong> regressione lineare semplice è<br />
La terminologia<br />
Modello. Perché è un insieme <strong>di</strong> ipotesi rispetto al legame esistente tra<br />
la variabile esogena ed endogena. Le ipotesi in genere danno luogo ad<br />
una equazione, lineare nel nostro caso<br />
"i" in<strong>di</strong>ce che denota l'or<strong>di</strong>ne<br />
COMPONENTE<br />
DETERMINISTICA<br />
COMPONENTE<br />
STOCASTICA<br />
(Non osservabile)<br />
Regressione . E' una etichetta storica dovuta agli stu<strong>di</strong> <strong>di</strong> Francis Galton<br />
(1889) sull'effetto <strong>di</strong> regressione: la tendenza a prevalere dei valori<br />
me<strong>di</strong>.<br />
β 0 = intercetta.<br />
Rappresenta il valore a cui tende a stabilizzarsi la Y quando la X è zero.<br />
Lineare. Perché i parametri incogniti vi compaiono con potenza 1<br />
β 1<br />
= Coefficiente angolare.<br />
Rappresenta la variazione che si realizza nella Y per ogni aumento unitario in X<br />
Semplice. Perchè c'è una sola variabile esplicativa (REGRESSORE) in<br />
contrapposizione a multipla termine usato quando vi sono più variabili<br />
esplicative.
Calcolo dei parametri<br />
Se per due punti passa una sola retta fra più <strong>di</strong> due punti non allineati ne<br />
passano infinite.<br />
Ogni scelta determina degli errori<br />
dovuti alla sostituzione <strong>di</strong> un valore<br />
presunto o teorico ad un valore<br />
osservato<br />
Partiamo dall’errore i-esimo:<br />
Soluzione dei minimi quadrati<br />
( y i − ŷ i ) = y i − β 0 − β 1 X i = y i − β 0 − β 1 X i ± y ± β 1 x<br />
= ( y i − y) + ( y − β 0 − β 1 x) − β 1 ( X i − x)<br />
( )<br />
che evidenzia il ruolo del punto x,y baricentro fisico dello scatterplot<br />
Elevando al quadrato e sviluppando si ottiene:<br />
( y i − ŷ i ) 2 = [( y i − y)+ ( y − β 0 − β 1 x)− β 1 ( x i − x)<br />
] 2 = ( y i − y) 2 + ( y − β 0 − β 1 x) 2 + β 2 1 ( x i − x) 2 +<br />
+ 2( y i − y) ( y − β 0 − β 1 x)− 2β 1 ( y i − y) ( x i − x)− 2β 1 ( y − β 0 − β 1 x) ( x i − x)<br />
ŷ i = valore stimato (ottenuto in base al modello)<br />
Occorre stabilire un criterio che ci permetta <strong>di</strong> scegliere quella che passa<br />
più vicino ai punti ovvero si adatta bene allo scatterplot<br />
Considerando la somma <strong>di</strong> tutti gli “n” termini e ricordando che la somma degli<br />
scarti dalla me<strong>di</strong>a aritmetica e nulla si arriva a:<br />
n<br />
2<br />
n<br />
2<br />
n<br />
2<br />
n<br />
n<br />
∑ ( yi<br />
− yˆ<br />
i)<br />
= ∑ ( yi<br />
−y)<br />
+ ∑( y− 0 − 1x) + 1 2<br />
2<br />
β β β ∑( xi<br />
− x)<br />
−2β1 ∑( yi<br />
−y) xi<br />
− x<br />
i= 1<br />
i= 1<br />
i= 1<br />
i= 1<br />
i=<br />
1<br />
( )<br />
Soluzione dei minimi quadrati/2<br />
n<br />
Definiamo: S xx = ( x i − x) 2 n<br />
∑ ; S yy = ( y i − y) 2 n<br />
∑ ; S xy = ∑( x i − x) ( y i − y);<br />
i=1<br />
i=1<br />
i=1<br />
Tali quantità sono note come devianze e codevianze<br />
n<br />
Ne consegue: ∑ ( y i − ŷ i ) 2 = S yy + n( y − β 0 − β 1 x) 2 + β 2 1 S xx − 2β 1 S xy<br />
i=1<br />
= S yy + n( y − β 0 − β 1 x) 2 + β 2 1 S xx − 2β 1 S xy + S 2<br />
xy<br />
− S 2<br />
xy<br />
S xx S xx<br />
= S yy + n( y − β 0 − β 1 x) 2 ⎡<br />
+ S xx β 2 1 − 2βl1 S xy<br />
+ S 2<br />
xy ⎤<br />
⎢<br />
⎥<br />
⎣⎢<br />
S xx S − S 2<br />
xy<br />
xx ⎦⎥<br />
S xx<br />
( ) 2 + S xx β 1 − S xy<br />
= S yy + n y − β 0 − β 1 x<br />
2<br />
⎤<br />
S<br />
⎥ xx ⎦<br />
La somma degli errori <strong>di</strong>pende dalle incognite solo attraverso dei termini al quadrato<br />
per cui il minimo si ottiene azzerando quei termini e cioè<br />
⎡<br />
⎢<br />
⎣<br />
− S 2<br />
xy<br />
S xx<br />
Esempio<br />
ˆβ 1 = S yx<br />
S xx<br />
; ˆβ0 = y − ˆβ 1 x
Altro esempio<br />
Il prezzo dell'usato per una particolare auto è stato rilevato in alcuni esemplari<br />
Esercizio con l’Excel<br />
Di seguito si riportano dei dati relativi ad X=ampiezza totale della sede stradale e<br />
Y= <strong>di</strong>stanza tra un ciclista e un auto (ottenuta con misurazioni su foto)<br />
1) Calcolare le stime dei parametri<br />
2) Disegnare la retta teorica<br />
SUMMARY OUTPUT<br />
ATSD DIST<br />
12.8 5.5<br />
12.9 6.2<br />
12.9 6.3<br />
13.6 7.0<br />
14.5 7.8<br />
14.6 8.3<br />
15.1 7.1<br />
17.5 10.0<br />
19.5 10.8<br />
20.8 11.0<br />
Dist<br />
Misurazioni su fot<br />
12.0<br />
11.0<br />
10.0<br />
9.0<br />
8.0<br />
7.0<br />
6.0<br />
5.0<br />
4.0<br />
10.0 12.0 14.0 16.0 18.0 20.0 22.0<br />
ATSD<br />
Regression Statistics<br />
Multiple R 0.9607<br />
R Square 0.9229<br />
Adjusted R Square 0.9133<br />
Standard Error 0.5821<br />
Observations 10<br />
Strumenti-->Analisi dei dati-->Regressione<br />
Coefficients Standard Error t Stat P-value<br />
Intercept -2.1825 1.0567 -2.0654 0.0727<br />
X Variable 1 0.6603 0.0675 9.7858 0.0000<br />
Esercizio<br />
Analisi della relazione tra i rapporti Terra/Lavoro (T/L) e Red<strong>di</strong>tività del<br />
Lavoro (RL/L) in alcuni settori colturali calabresi<br />
Proprietà della retta <strong>di</strong> regressione<br />
La retta <strong>di</strong> regressione passa per il punto <strong>di</strong> coor<strong>di</strong>nate<br />
La retta stimata può essere scritta come:<br />
( x,y)<br />
y = y + ˆβ 1 ( x − x) ⇒ y + ˆβ 1 ( x − x)= y<br />
La somma degli scarti tra osservate e teoriche è nulla:<br />
n<br />
n<br />
∑ y i − ŷ i = ∑ y i −y − ˆβ<br />
n<br />
1 ( x − x) ⇒ ∑( y i − y)<br />
− ˆβ<br />
n<br />
1 ∑( x − x)= 0 − ˆβ 1 *0= 0<br />
i=1 i=1<br />
i=1<br />
i=1<br />
Ciò implica che Me<strong>di</strong>a osservate = Me<strong>di</strong>a teoriche<br />
1) Calcolare i parametri della regressione <strong>di</strong> Y su X<br />
2) Disegnare la retta teorica e lo scatterplot<br />
n n<br />
ŷ i ∑ y +<br />
i=1<br />
∑n ˆβ 1 x − x<br />
= i=1<br />
n<br />
( ) ny + ˆβ 1 ∑( x − x)<br />
= i=1<br />
n<br />
n<br />
= ny + 0<br />
n<br />
= y
Esercizio<br />
L'urbanista Palmira Morrone sta investigando la relazione tra il flusso <strong>di</strong> traffico X (in<br />
termini migliaia <strong>di</strong> auto ogni 24 ore) ed il contenuto <strong>di</strong> piombo Y nella cortegga degli<br />
alberi che fiancheggiano una superstrada (peso a secco in µg/g)<br />
a) <strong>di</strong>segnare lo scatterplot; b) Stimare i parametri; c) Calcolare i valori teorici<br />
d) Verificare che le proprietà in<strong>di</strong>cate nel precedente lucido.<br />
Proprietà della retta <strong>di</strong> regressione/2<br />
il ruolo <strong>di</strong> esogena ed endogena può essere scambiato:<br />
⎧ ˆβ<br />
y i = β 0 + β 1 x i + e i ⇒ ŷ i = ˆβ 0 + ˆβ<br />
0 = y − ˆβ 1 x<br />
⎪<br />
1 x i dove⎨<br />
ˆβ 1 = S xy<br />
⎩<br />
⎪ S xx<br />
⎧ ˆγ 0 = x − ˆγ 1 y<br />
' ⎪<br />
x i = γ 0 + γ 1 x i + e i ⇒ ˆx i = ˆγ 0 + ˆγ 1 x i dove⎨<br />
ˆγ 1 = S xy<br />
⎩<br />
⎪ S yy<br />
x = y<br />
tg( θ)= r2 −1<br />
r<br />
Le due rette interpolanti sono legate:<br />
ˆγ 1 = S xy<br />
S yy<br />
=<br />
ˆβ 1 = S xy<br />
=<br />
S xx<br />
ˆγ 1 * ˆβ 1 = r 2<br />
S xx<br />
S yy<br />
*<br />
S yy<br />
S xx<br />
*<br />
S xy<br />
S xx S yy<br />
= S xx<br />
S yy<br />
* r<br />
S xy<br />
S xx S yy<br />
= S yy<br />
S xx<br />
* r<br />
i coefficienti angolari hanno sempre lo stesso segno<br />
per cui le due rette non sono mai perpen<strong>di</strong>colari<br />
Le due rette sono parallele (e coincidenti) se e solo<br />
se Y=X dato che tg(θ)=0<br />
Se poi allora le due rette coincidono<br />
Stima della varianza degli errori<br />
Esercizio<br />
L'aziendalista Costantina Tenuta fa parte <strong>di</strong> una commissione chiamata a valutare una serie<br />
<strong>di</strong> progetti per l'idoneità al finanziamento. Per controllarne la congruità pone in relazione il<br />
numero X dei progetti per area e il tempo me<strong>di</strong>o <strong>di</strong> completamento Y.<br />
a) Disegnare lo scatterplot;<br />
b) Stimare i parametri;<br />
c) stimare la varianza degli errori<br />
Per ottenerne un valore approssimato si usa la seguente quantità<br />
Che possiede alcune utili proprietà <strong>statistiche</strong>
Uso della retta <strong>di</strong> regressione<br />
Esempio<br />
Unità <strong>di</strong> lavoro part-time e aumento <strong>di</strong> produzione<br />
INTERPOLAZIONE<br />
Lo scopo è trovare i valori della <strong>di</strong>pendente o <strong>di</strong> sostituirne i valori<br />
particolarmente anomali, per valori noti della in<strong>di</strong>pendente.<br />
ESTRAPOLAZIONE<br />
Determinazione del valore della <strong>di</strong>pendente che corrisponde ad un valore<br />
della in<strong>di</strong>pendente non necessariamente osservato.<br />
CONTROLLO<br />
Determinazione del valore della in<strong>di</strong>pendente idoneo a determinare<br />
un fissato livello della <strong>di</strong>pendente<br />
In ogni caso si ottengono dei VALORI TEORICI costituenti la stima dei<br />
VALORI VERI che rimangono comunque sconosciuti<br />
Ogni unità <strong>di</strong> lavoro part-time ad<strong>di</strong>zionale è<br />
responsabile <strong>di</strong> 2.167 tonn. <strong>di</strong> produzione.<br />
Se il lavoro part-time non fosse impiegato<br />
la produzione me<strong>di</strong>a sarebbe a 2.25 tonn.<br />
Supponiamo che si decida <strong>di</strong> impiegare più <strong>di</strong> 8 ULPT, <strong>di</strong>ciamo 10, quale sarà<br />
l'incremento <strong>di</strong> produzione?<br />
yˆ 10 = 225 . + 2167 . * 10= 225 . + 2167 . = 2392 .<br />
Se invece si volesse stabilire quante unità <strong>di</strong> lavoro part-time impiegare per<br />
ottenere 16 semilavorati allora<br />
16 − 2 25<br />
16 = 2 . 25 + 2 . 167 * ˆ ⇒ ˆ ( . )<br />
X X = = 6.<br />
345<br />
2.<br />
167<br />
Esercizio<br />
La dott.ssa Sarina Bonofiglio, analista finanziario, sta stu<strong>di</strong>ando la relazione tra X= Tasso<br />
me<strong>di</strong>o sui prestiti nel sistema interbancario e Y=importo della cedola semestrale <strong>di</strong> un titolo<br />
obbligazionario.<br />
a) Disegnare lo scatterplot<br />
b) Stimare<br />
c) Supponendo che il dato del 93 sia non<br />
affidabile perché affetto dalla crisi nello<br />
SME calcolare il valore interpolato.<br />
d) Quale sarà la cedola semestrale se nel '94<br />
il TMPSI arriva a 5.5?<br />
L’effetto <strong>di</strong> regressione<br />
I principi del ritorno alla me<strong>di</strong>a lo si ritrova in varie occasioni<br />
Un docente che loda gli studenti per il buon risultato raggiunto in una<br />
prova vedrà un esito peggiore nella prova successiva.<br />
il docente che sgrida gli studenti per la pessima riuscita <strong>di</strong> un test otterrà<br />
risultati molto migliori nella seguente prova.<br />
Un buon governo sarà seguito da una amministrazione inefficace e ad un<br />
premier inadeguato succederà un brillante primo ministro.<br />
Nelle competizioni articolate su due fasi è frequente notare il ribaltamento<br />
degli esiti tra la prima e seconda prova: i migliori che peggiorano ed i<br />
peggiori che migliorano.
Alle origine del concetto <strong>di</strong> regressione<br />
L’effetto <strong>di</strong> regressione/2<br />
L’elemento comune è spiegabile così:<br />
Per ottenere un buon risultato in un’impresa <strong>di</strong>fficile<br />
concorrono due fattori:<br />
Talento/Genio<br />
Sorte<br />
il successo in una prova ardua implica che entrambi i fattori hanno agito a favore.<br />
Nella seconda prova il talento/genio magari migliorano o agiscono con la stessa<br />
intensità<br />
Sir Francis Galton notò che i figli <strong>di</strong> padri alti erano più alti della me<strong>di</strong>a, ma meno<br />
<strong>di</strong> quanto non eccedessero dalla me<strong>di</strong>a i loro padri. I figli <strong>di</strong> padri bassi erano in<br />
me<strong>di</strong>a bassi, ma meno bassi della me<strong>di</strong>a generale <strong>di</strong> quanto non lo fossero i padri<br />
La Sorte è capricciosa e impreve<strong>di</strong>bile e non si ripete.<br />
Ed ecco l’effetto <strong>di</strong> regressione alla me<strong>di</strong>a in cui gli scarti si annullano tutti.<br />
Misura dell'adattamento<br />
I minimi quadrati ci garantiscono il miglior adattamento possibile, ma questo<br />
potrebbe non essere abbastanza.<br />
Dobbiamo trovare misure standar<strong>di</strong>zzate e normalizzate che siano in grado <strong>di</strong><br />
quantificare il grado <strong>di</strong> scostamento tra valori stimati e valori osservati<br />
SCARTO QUADRATICO MEDIO DEGLI ERRORI (errore standard della stima)<br />
Correlazione teoriche-osservate<br />
Una possibilità <strong>di</strong> valutare l’adattamento potrebbe basarsi su:<br />
n<br />
∑( y<br />
Cov( y i ,ŷ i ) i − y) ( y − ˆβ 1 ( x i − x)− y)<br />
ˆβ<br />
σ( y i )σ( ŷ i ) = i=1<br />
1 S xy<br />
=<br />
n<br />
S yy ∑( y − ˆβ 1 ( x i − x)− y) 2 S yy ˆβ1 2 =<br />
S xx<br />
i=1<br />
= ˆβ 1<br />
ˆβ 1<br />
r<br />
con i minimi quadrati<br />
( )<br />
s 2 e = S yy<br />
1− r2<br />
n − 2<br />
E' nullo solo in caso <strong>di</strong> perfetta relazione lineare (r=1). Non<br />
varia però entro limiti predefiniti.<br />
Possiamo solo <strong>di</strong>re che un adattamento è peggiore <strong>di</strong> un<br />
altro, ma non se un dato adattamento è buono o no<br />
Risente anche delle unità <strong>di</strong> misura della <strong>di</strong>pendente.<br />
Ne consegue che l’adattamento è misurabile da:<br />
( )<br />
( ) = ˆβ 1<br />
Cov y i ,ŷ i<br />
σ( y i )σ ŷ i<br />
ˆβ 1<br />
r = r<br />
cioè dal valore assoluto del coefficiente <strong>di</strong> correlazione tra osservate e stimate che<br />
coincide con il valore assoluto del coefficiente <strong>di</strong> correlazione “r” tra X ed Y.
Coefficiente <strong>di</strong> determinazione ( R 2 )<br />
La variabilità della "Y" può essere scomposta in due parti <strong>di</strong>stinte. Infatti, l'identità<br />
n<br />
n<br />
∑ ( y i − y)<br />
= ∑ y i − ŷ i<br />
[( ) + ( ŷ i − y)<br />
]<br />
i=1 i=1<br />
rimane anche quando si considerano i quadrati<br />
(se la retta è quella dei minimi quadrati)<br />
n 2<br />
∑( y i − y)<br />
=<br />
n<br />
∑ y i − ŷ i<br />
i=1<br />
i=1<br />
( ) 2 + ∑( ŷ i − y) 2<br />
Dividendo per "n" si ha la seguente relazione:<br />
Varianza totale=Varianza errori+Varianza stime<br />
La varianza delle stime è la parte <strong>di</strong> variabilità (attitu<strong>di</strong>ne a presentare modalità <strong>di</strong>verse)<br />
che il nostro modello riesce a spiegare, quella degli errori è la parte che rimane ignota.<br />
Varianza totale=Varianza NON spiegata+Varianza spiegata<br />
n<br />
i=1<br />
Formula dell' R 2<br />
Dalla formula della scomposizione abbiamo:<br />
Dividendo i membri per la devianza totale si ha<br />
n 2<br />
∑( y i − y)<br />
=<br />
n<br />
∑ y i − ŷ i<br />
i=1<br />
i=1<br />
( ) 2 + ∑( ŷ i − y) 2<br />
il 1° addendo è il rapporto tra varianza non spiegata e varianza totale, il 2° è il<br />
rapporto tra varianza spiegata e varianza totale.<br />
Questo rapporto è usato come in<strong>di</strong>ce della bontà <strong>di</strong> adattamento ed è noto come il<br />
COEFFICIENTE DI DETERMINAZIONE<br />
n<br />
i=1<br />
n<br />
( y i − ŷ i ) 2 n<br />
∑<br />
∑( ŷ i − y) 2<br />
= i=1<br />
n 2 + i=1<br />
n 2<br />
∑( y i − y)<br />
∑( y i − y)<br />
i=1<br />
i=1<br />
n<br />
( ŷ i − y) 2 n<br />
∑<br />
( y i − ŷ i ) 2 n<br />
2<br />
∑<br />
∑ ê i<br />
R 2 = i=1<br />
n 2 = 1− i=1<br />
n 2 = 1− i=1<br />
n<br />
2<br />
∑( y i − y)<br />
∑( y i − y)<br />
y i − ny<br />
2<br />
∑<br />
i=1<br />
i=1<br />
i=1<br />
Casi estremi<br />
Se tutte le osservate sono allineate su <strong>di</strong> una retta,<br />
teoriche ed osservate coincidono e quin<strong>di</strong><br />
Esempio<br />
Stu<strong>di</strong>o della relazione tra il massimo del battito car<strong>di</strong>aco sotto stress ed età<br />
n<br />
∑( ŷ i − y) 2<br />
Se y i = ŷ i per ogni "i" ⇒ R 2 = i=1<br />
n 2 = 1;<br />
∑( y i − y)<br />
i=1<br />
ŷ i = y + ˆβ 1 ( x i − x)<br />
Se la retta <strong>di</strong> regressione è piatta (coefficiente<br />
angolare nullo) allora le teoriche sono tutte pari<br />
alla me<strong>di</strong>a e quin<strong>di</strong><br />
n<br />
∑( y i − ŷ i ) 2<br />
Se ŷ i = y per ogni "i" ⇒ R 2 = 1 − i=1<br />
n 2 = 1−1 = 0<br />
∑( y i − y)<br />
i=1
Test sul coefficiente angolare<br />
La prima è più importante verifica riguarda l'esistenza o meno <strong>di</strong> una relazione tra<br />
la "Y" e la "X"<br />
Continua test su β1<br />
La statistica test necessaria per la verifica si ottiene come per i test sulla me<strong>di</strong>a. In<br />
particolare si adopera la t-Student<br />
ESISTE O NON ESISTE UNA RELAZIONE TRA Y ed X?<br />
t<br />
( β )=<br />
n−2 1<br />
βˆ<br />
1<br />
se<br />
S<br />
xx<br />
dove<br />
⎧ n<br />
⎪ ∑ yi<br />
− yˆ<br />
i<br />
⎪ i=<br />
1<br />
⎨<br />
se<br />
=<br />
n − 2<br />
⎪ n<br />
Sxx = xi −µ<br />
x<br />
⎩⎪<br />
∑<br />
i=<br />
1<br />
( )<br />
( )<br />
2<br />
2<br />
Se H 0<br />
non potesse essere rifiutata la retta <strong>di</strong><br />
regressione si presenterebbe come parallela<br />
all'asse delle X e non in grado <strong>di</strong> spiegare la "Y"<br />
retta sotto H 0<br />
Se il campione è abbastanza grande si cambierà la t-Student con la Normale<br />
Esempio<br />
Si ritiene che il consumo <strong>di</strong> energia elettrica sia determinato da un modello lineare<br />
nella temperatura me<strong>di</strong>a del giorno<br />
Test sull'intercetta<br />
La verifica dell'intercetta è poco interessante dato che non ha incidenza sulla bontà<br />
<strong>di</strong> adattamento. In genere si sottopone a verifica l'ipotesi che sia uguale a zero<br />
Statistica test<br />
tc<br />
=<br />
se<br />
ˆβ 0<br />
⎛ n<br />
2 ⎞<br />
∑ x<br />
⎜ i ⎟<br />
i=<br />
1<br />
⎜ ⎟<br />
Sxx<br />
⎜<br />
⎟<br />
⎝ ⎠<br />
Il p-value del test è TDIST(8.1;8;2)= 0.000040<br />
E’ evidente l’elevata significatività del parametro<br />
−419.<br />
85<br />
Nel caso <strong>di</strong> temperature e consumo <strong>di</strong> energia si ha: t c =<br />
=−<br />
16 18 84103 1.<br />
745<br />
.<br />
380.<br />
5<br />
L’intercetta non risulta significativa: p-Value=DISTRIB.T(1.745;8;2)=11.9%
Esercizio<br />
Red<strong>di</strong>to SuperficieSUMMARY OUTPUT<br />
22 106<br />
26 117 Regression Statistics<br />
45 128 Multiple R 0.832286982<br />
37 132 R Square 0.692701621<br />
28 80 Adjusted R S 0.667093423<br />
50 95 Standard Err 29.31437326<br />
56 168 Observations 14<br />
34 65<br />
60 150<br />
40 120 Beta SE t Stat P-value<br />
45 110 Intercept 44.9592 17.2813 2.6016 0.0232<br />
36 45 X Variable 1 1.6518 0.3176 5.2010 0.0002<br />
80 205<br />
120 230<br />
RESIDUAL OUTPUT<br />
Observation Pre<strong>di</strong>cted Y Residuals<br />
1 81.2988 24.7012<br />
2 87.9060 29.0940<br />
3 119.2901 8.7099<br />
4 106.0757 25.9243<br />
5 91.2096 -11.2096<br />
6 127.5491 -32.5491<br />
7 137.4599 30.5401<br />
8 101.1203 -36.1203<br />
9 144.0671 5.9329<br />
10 111.0311 8.9689<br />
11 119.2901 -9.2901<br />
12 104.4239 -59.4239<br />
13 177.1031 27.8969<br />
14 243.1750438 -13.17504381<br />
Y<br />
Si supponga che la proprietaria <strong>di</strong><br />
un'agenzia immobiliare voglia stabilire la<br />
relazione tra red<strong>di</strong>to familiare e<br />
superficie dell'appartamento.<br />
300<br />
250<br />
200<br />
150<br />
100<br />
50<br />
X Variable 1 Line Fit P<br />
0<br />
0 50 100 150<br />
X Variable 1<br />
Y<br />
Pre<strong>di</strong>cted<br />
Linear (Y)<br />
Test sull'intercetta<br />
La verifica dell'intercetta è poco interessante dato che non ha incidenza sulla bontà<br />
<strong>di</strong> adattamento. In genere si sottopone a verifica l'ipotesi che sia uguale a zero<br />
Nel caso <strong>di</strong> temperature e consumo <strong>di</strong> energia si ha:<br />
tc<br />
=<br />
L’intercetta non risulta significativa: p-Value=DISTRIB.T(1.745;8;2)=11.9%<br />
se<br />
Statistica test<br />
ˆβ 0<br />
2<br />
⎛ n ⎞<br />
x<br />
⎜<br />
∑ i ⎟<br />
i=<br />
1<br />
⎜ ⎟<br />
Sxx<br />
⎜<br />
⎟<br />
⎝ ⎠<br />
−419.<br />
85<br />
t c =<br />
=−<br />
16 18 84103 1.<br />
745<br />
.<br />
380.<br />
5<br />
X Y<br />
1 17.27<br />
2 23.49<br />
3 1.72<br />
4 16.87<br />
5 14.58<br />
6 -2.76<br />
7 8.04<br />
8 17.65<br />
9 4.75<br />
10 14.39<br />
11 13.61<br />
12 17.22<br />
13 11.22<br />
14 17.39<br />
15 5.31<br />
16 18.39<br />
17 7.64<br />
18 -0.73<br />
19 10.86<br />
20 9.89<br />
2 7 100.00<br />
3 4 150.00<br />
4 1 190.00<br />
4 8 260.00<br />
In<strong>di</strong>pendente<br />
Dipendente<br />
25.00<br />
20.00<br />
15.00<br />
10.00<br />
5.00<br />
Effetto dei valori anomali<br />
Effetto dei valorianomali<br />
0.00<br />
0 5 10 15 20 25<br />
-5.00<br />
300.00<br />
250.00<br />
200.00<br />
150.00<br />
100.00<br />
50.00<br />
In<strong>di</strong>pendente<br />
Titolo del grafico<br />
L’impatto della “X” può essere fuorviato<br />
dalla presenza <strong>di</strong> alcuni valori remoti.<br />
R multiplo 0.2064<br />
R al quadrato 0.0426<br />
R al quadrato -0.0106<br />
Errore standa 7.0803<br />
Osservazioni 2 0<br />
Beta Stat t p-value<br />
Intercetta 13.9197 4.2322 0.0005<br />
Variabile X 1 -0.2457 -0.8950 0.3826<br />
Il metodo dei minimi quadrati trascura il<br />
blocco <strong>di</strong> 20 dati tra i quali non c’è<br />
relazione significativa (o è negativa).<br />
Invece, pone attenzione ai quattro punti<br />
tra i quali c’è una relazione positiva<br />
R multiplo 0.8795<br />
R al quadrato 0.7735<br />
R al quadrato 0.7632<br />
Errore standa 32.7075<br />
Osservazioni 2 4<br />
0.00<br />
0 10 20 30 40 50 60<br />
-50.00<br />
Dipendente<br />
beta Stat t p-value<br />
Intercetta -34.9737 -3.2383 0.0038<br />
Variabile X 1 4.9060 8.6687 0.0000