Regressione lineare semplice: inferenza - Economia
Regressione lineare semplice: inferenza - Economia
Regressione lineare semplice: inferenza - Economia
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong>: <strong>inferenza</strong><br />
Eduardo Rossi 2<br />
2 Università di Pavia (Italy)<br />
Marzo 2013<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 1 / 60
Outline<br />
1 Introduzione<br />
2 Verifica di ipotesi<br />
3 Intervalli di confidenza<br />
4 Variabili binarie<br />
5 Omoschedasticità<br />
6 Errori standard con omoschedasticità<br />
7 Teorema di Gauss-Markov<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 2 / 60
Sommario<br />
L’errore standard di ˆ β1<br />
Introduzione<br />
Verifiche di ipotesi concernenti β1<br />
Intervalli di confidenza per β1<br />
La regressione quando X è variabile binaria<br />
Eteroschedasticità e omoschedasticità<br />
Efficienza OLS e distribuzione t di Student<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 3 / 60
Sommario<br />
Introduzione<br />
Vogliamo conoscere la pendenza della retta di regressione. Disponiamo<br />
dei dati di un campione, perciò sussiste l’incertezza dovuta al<br />
campionamento. Per raggiungere l’obiettivo si procede in cinque<br />
passaggi:<br />
Definire la popolazione oggetto di interesse<br />
Fornire uno stimatore di questa popolazione<br />
Derivare la distribuzione campionaria dello stimatore (ciò richiede<br />
alcune assunzioni). In grandi campioni questa distribuzione<br />
campionaria sarà normale per il TLC.<br />
La radice quadrata della varianza stimata della distribuzione<br />
campionaria è l’errore standard (SE) dello stimatore<br />
Utilizzare SE per costruire statistiche- t (per le verifiche di ipotesi)<br />
e intervalli di confidenza.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 4 / 60
Introduzione<br />
L’oggetto di interesse: β1<br />
Yi = β0 + β1Xi + ui i = 1, 2, . . . , n<br />
β1 = ∆Y<br />
∆Y<br />
per una variazione autonoma in X (effetto casuale). Sotto le<br />
assunzioni degli OLS:<br />
1 E[ui|Xi] = 0 (prima assunzione)<br />
2 {Yi, Xi}, i = 1, 2, . . . , n sono i.i.d. (seconda assunzione).<br />
3 X, Y hanno momenti quarti finiti non nulli (terza assunzione)<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 5 / 60
Introduzione<br />
La distribuzione campionaria di ˆ β1<br />
Sotto le assunzioni dei minimi quadrati, per n grande, la distribuzione<br />
di ˆ β1 è approssimata da<br />
<br />
ˆβ1 ≈ N β1,<br />
σ2 v<br />
n(σ2 X )2<br />
<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 6 / 60
Verifica di ipotesi<br />
Verifica di ipotesi ed errore standard<br />
L’obiettivo è di verificare un’ipotesi, quale β1 = 0, utilizzando i dati -<br />
per determinare sperimentalmente se l’ipotesi (nulla) è corretta.<br />
Impostazione generale<br />
Ipotesi nulla e alternativa bilaterale:<br />
H0 : β1 = β1,0 vs. H1 : β1 = β1,0<br />
dove β1,0 è il valore ipotizzato sotto l’ipotesi nulla.<br />
Ipotesi nulla e alternativa unilaterale:<br />
H0 : β1 = β1,0 vs. H1 : β1 < β1,0<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 7 / 60
Verifica di ipotesi<br />
Soluzione generale: costruire la statistica-t<br />
In generale:<br />
t =<br />
stimatore − valore ipotizzato<br />
errore standard dello stimatore<br />
dove l’SE dello stimatore è la radice quadrata di uno stimatore<br />
della varianza dello stimatore.<br />
Per verificare la media di Y :<br />
Per verificare β1<br />
t = ¯ Y − µY,0<br />
sY / √ n<br />
t = ˆ β1 − β1,0<br />
SE( ˆ β1) ,<br />
dove SE( ˆ β1) è la radice quadrata di uno stimatore della varianza<br />
della distribuzione campionaria di ˆ β1.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 8 / 60
Verifica di ipotesi<br />
Formula per calcolare lo SE( ˆ β1)<br />
Si ricordi l’espressione per la varianza di (n grande):<br />
Var [ ˆ β1] = Var [(Xi − µX)ui]<br />
n(σ2 X )2<br />
,<br />
dove vi = (Xi − µX)ui. Lo stimatore della varianza di ˆ β1 sostituisce i<br />
valori di popolazione ignoti di σ2 v e σ2 X con gli stimatori ricavati dai<br />
dati:<br />
ˆσ 2 ˆ β1<br />
= 1<br />
n<br />
= 1<br />
n<br />
stimatore di σ2 v<br />
(stimatore di σ2 X )2<br />
1<br />
n<br />
1<br />
n−2<br />
<br />
i ˆv2 i<br />
<br />
i (Xi − ¯ X) 2<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 9 / 60
Verifica di ipotesi<br />
Formula per calcolare lo SE( ˆ β0)<br />
Dato<br />
lo stimatore<br />
dove<br />
Var[ ˆ β0] = Var[Hiui]<br />
n[E(H 2 i )]2<br />
<br />
µX<br />
Hi = 1 −<br />
E(X 2 i )<br />
<br />
ˆσ 2 ˆ β0<br />
= 1<br />
n<br />
ˆHi = 1 −<br />
<br />
Xi<br />
1<br />
n−2 i=1 ˆ H2 i û2i <br />
1 n n i=1 ˆ H2 2 i<br />
<br />
¯X<br />
1 <br />
n i=1 X2 i<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 10 / 60<br />
<br />
Xi
Verifica di ipotesi<br />
Formula per calcolare lo SE<br />
E’ leggermente complicato, tuttavia:<br />
lo è meno di quanto sembri. La varianza Var[v] è stimata dal<br />
numeratore, mentre Var[X] 2 è stimata dal denominatore.<br />
Perchè la correzione dei gradi di libertà n − 2? Perchè sono stati<br />
stimati due coefficienti β0 e β1.<br />
SE( ˆ β1) viene calcolato dal software di regressione<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 11 / 60
Riepilogo<br />
Per verificare:<br />
Costruire la statistica-t<br />
Verifica di ipotesi<br />
H0 : β1 = β1,0 vs H1 : β1 = β1,0<br />
t = ˆ β1 − β1,0<br />
SE( ˆ β1) = ˆ β1 − β1,0<br />
ˆσ 2 ˆβ1<br />
Si rifiuta al livello di significatività del 5% se |t| > 1, 96.<br />
Il valore p è p = P r[|t| > |t act |] = probabilità nell’area delle code<br />
della normale, cioè > |t act |;<br />
si rifiuta al livello di significatività del 5% se il valore p è < 5%.<br />
Questa procedura si affida all’approssimazione di n grande che ˆ β1<br />
sia distribuito normalmente; in generale n = 50 è grande<br />
abbastanza per un’approssimazione eccellente.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 12 / 60
Verifica di ipotesi<br />
Esempio: Punteggi nei test e STR dati della California<br />
<strong>Regressione</strong> <strong>lineare</strong> stimata:<br />
<br />
Test Score = 698, 9 − 2, 28 ST R<br />
Il software di regressione segnala gli errori standard:<br />
SE( ˆ β0) = 10, 4 SE( ˆ β1) = 0, 52<br />
Verifica dell’ipotesi nulla β1,0 = 0. Rapporto t<br />
t = ˆ β1 − β1,0<br />
SE( ˆ β1)<br />
= −2, 28 − 0<br />
0, 52<br />
= −4, 38<br />
Il livello di significatività bilaterale dell’1 % è 2,58, perciò<br />
rifiutiamo l’ipotesi nulla al livello di significatività dell’1%.<br />
In alternativa, possiamo calcolare il valore p...<br />
Il valore p basato sull’approssimazione normale standard con n<br />
grande alla statistica t è 0,00001 (10–5)<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 13 / 60
P-value<br />
Verifica di ipotesi<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 14 / 60
Intervalli di confidenza<br />
Intervalli di confidenza per β1<br />
Si ricordi che un intervallo di confidenza al 95% equivale a:<br />
la serie di punti che non può essere rifiutata al livello di<br />
significatività del 5%;<br />
una funzione polidroma (un intervallo funzione dei dati) che<br />
contiene il reale valore del parametro il 95% delle volte nei<br />
campioni ripetuti.<br />
Poichè la statistica t per β1 è N(0, 1) in grandi campioni, la<br />
costruzione di un intervallo di confidenza al 95% per β1 equivale al<br />
caso della media campionaria:<br />
intervallo di confidenza al 95% per β1<br />
{ ˆ β1 ± 1, 96 × SE( ˆ β1)}<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 15 / 60
Intervalli di confidenza<br />
Esempio di intervallo di confidenza<br />
Retta di regressione stimata<br />
<br />
Test Score = 698, 9 − 2, 28 ST R<br />
SE( ˆ β0) = 10, 4 SE( ˆ β1) = 0, 52<br />
Intervallo di confidenza al 95% per ˆ β1:<br />
{ ˆ β1 ± 1, 96SE( ˆ β1)} = {−2, 28 ± 1.96 × 0.52} = {−3, 30; −1, 26}<br />
Le due affermazioni seguenti sono equivalenti:<br />
L’intervallo di confidenza al 95% non include lo zero;<br />
L’ipotesi β1 = 0 è rifiutata al livello del 5%.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 16 / 60
Intervalli di confidenza<br />
Riepilogo di <strong>inferenza</strong> statistica<br />
Stima:<br />
Gli stimatori OLS hanno approssimativamente distribuzioni<br />
campionarie normali in grandi campioni<br />
Verifica:<br />
H0 : β1 = β1,0 vs β1 = β1,0 (β1,0 è il valore di β1 sotto H0)<br />
T ( ˆ β1 − β1,0)/SE( ˆ β1)<br />
valore-p = area sotto la normale standard al di fuori di |t act | (n<br />
grande)<br />
Intervalli di confidenza:<br />
l’intervallo di confidenza al 95% per β1 è { ˆ β1 ± 1, 96 × SE( ˆ β1)}<br />
Questo è l’insieme di β1 che non è rifiutato al livello del 5%<br />
L’IC al 95% contiene il β1 reale nel 95% di tutti i campioni.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 17 / 60
Variabili binarie<br />
La regressione quando X è una variabile binaria<br />
A volte un regressore è binario:<br />
<br />
1 se classe piccola<br />
X =<br />
0 altrimenti<br />
<br />
1<br />
X =<br />
0<br />
femmina<br />
maschio<br />
<br />
1<br />
X =<br />
0<br />
se trattato (farmaco sperimentale)<br />
altrimenti<br />
I regressori binari sono a volte chiamati variabili dummy.<br />
Fin qui β1 è stato chiamato ”pendenza” ma ciò non ha senso se la<br />
variabile X è binaria.<br />
Come interpretiamo la regressione con un regressore binario?<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 18 / 60
Variabili binarie<br />
Interpretazione delle regressioni con un regressore<br />
binario<br />
Quando Xi = 0:<br />
quando Xi = 1<br />
quindi<br />
è pari alla differenza tra medie.<br />
Yi = β0 + β1Xi + ui<br />
Yi = β0 + ui<br />
E[Yi|Xi = 0] = β0<br />
Yi = β0 + β1 + ui<br />
E[Yi|Xi = 1] = β0 + β1<br />
β1 = E[Yi|Xi = 1] − E[Yi|Xi = 0]<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 19 / 60
Esempio<br />
Sia<br />
<strong>Regressione</strong> OLS:<br />
Variabili binarie<br />
Di =<br />
1 se ST R ≤ 20<br />
0 se ST R > 20<br />
Test Score<br />
= 650 + 7, 4 × Di<br />
(1,3) (1,8)<br />
Dimensione classe Punteggio medio ¯ Y Dev.Stand. (sY ) N<br />
Piccola STR ≤ 20 657,4 19,4 238<br />
Grande STR > 20 650 17,9 182<br />
Differenza tra medie:<br />
Ypiccola − Ygrande = 657, 4 − 650 = 7, 4<br />
<br />
s<br />
SE =<br />
2 <br />
p<br />
19, 42 17, 92<br />
= + = 1, 8<br />
238 182<br />
np<br />
+ s2 g<br />
ng<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 20 / 60
Variabili binarie<br />
Riepilogo: regressione quando la variabile X è binaria<br />
β0 media di Yi quando X = 0<br />
β0 + β1 = media di Yi quando X = 1<br />
β1 = differenza tra medie, X =1 meno X = 0<br />
SE( ˆ β1) ha l’interpretazione consueta<br />
statistica-t, intervalli di confidenza costruiti come di consueto.<br />
Questo è un altro modo (facile) per eseguire l’analisi della<br />
differenza tra medie<br />
La formulazione della regressione è particolarmente utile quando<br />
abbiamo regressori supplementari.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 21 / 60
Omoschedasticità<br />
Eteroschedasticità e omoschedasticità<br />
Conseguenze dell’omoschedasticità<br />
Implicazioni per il calcolo degli errori standard<br />
Che cosa significano questi due termini?<br />
Se Var[u|X = x] è costante - ossia se la varianza della<br />
distribuzione di u condizionata a X non dipende da X –allora u è<br />
detto omoschedastico. In caso contrario, u è eteroschedastico.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 22 / 60
Omoschedasticità<br />
Esempio: etero/omoschedasticità nel caso di un<br />
regressore binario<br />
Errore standard quando le varianze sono ineguali:<br />
SE =<br />
<br />
s 2 p<br />
np<br />
+ s2 g<br />
ng<br />
Errore standard quando le varianze sono uguali:<br />
<br />
SE = sp<br />
1<br />
np<br />
+ 1<br />
ng<br />
Vedi SW, Paragrafo 3.6<br />
s 2 p = (ns − 1)s 2 s + (ng − 1)s 2 g<br />
np + ng − 2<br />
sp stimatore di σ 2 quando σ 2 p = σ 2 g.<br />
Varianze uguali = omoschedasticità<br />
Varianze ineguali = eteroschedasticità<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 23 / 60
Errori standard con omoschedasticità<br />
Omoschedasticità in un’immagine:<br />
E[u|X] = 0 (u soddisfa l’assunzione dei minimi quadrati n. 1)<br />
La varianza di u non dipende da x<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 24 / 60
Errori standard con omoschedasticità<br />
Un esempio con dati reali dall’economica del lavoro<br />
La retribuzione oraria media rispetto agli anni di istruzione (fonte dati:<br />
Current Population Survey):<br />
Eteroschedasticità o omoschedasticità?<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 25 / 60
Errori standard con omoschedasticità<br />
Quale assunzione sulla varianza degli errori?<br />
Le tre assunzioni dei minimi quadrati:<br />
E[u|X] = 0<br />
(Xi, Yi), i = 1, 2, . . . , n, sono i.i.d.<br />
Gli outlier sono rari<br />
Eteroschedasticità e omoschedasticità concernono Var[u|X]. Poichè<br />
non abbiamo assunto esplicitamente gli errori omoschedastici,<br />
abbiamo ammesso implicitamente l’eteroschedasticità.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 26 / 60
Errori standard con omoschedasticità<br />
Errori omoschedastici-Var[ ˆ β1]<br />
Si può dimostrare che l’OLS ha la varianza minore tra gli stimatori<br />
lineari in Y... un risultato chiamato teorema di Gauss-Markov.<br />
La formula per la varianza di ˆ β1 e per l’errore standard OLS si<br />
semplifica: se<br />
Var[ui|Xi = x] = σ 2<br />
dato<br />
Var[ ˆ β1] =<br />
V ar[¯v] 1<br />
=<br />
[V ar(Xi)] 2 n<br />
σ2 v<br />
(σ2 X )2 = σ2 u<br />
nσ2 X<br />
Var[(Xi − µX)ui] = E [vi − E(vi)] 2<br />
= E[v 2 i ]<br />
= E[(Xi − µX) 2 u 2 i ]<br />
= E[(Xi − µX) 2 E(u 2 i |Xi)]<br />
= σ 2 Xσ 2 u<br />
da cui Rossisegue <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 27 / 60
Errori standard con omoschedasticità<br />
Errori omoschedastici-Var[ ˆ β0]<br />
La formula per la varianza di ˆ β0 nel caso eteroschedastico<br />
dato che<br />
Var[ ˆ β0] = Var[Hiui]<br />
n[E(H 2 i )]2<br />
<br />
µX<br />
Hi = 1 −<br />
E(X 2 i )<br />
<br />
ˆσ 2 ˆ β0<br />
Xi<br />
E[Hiui] = E[HiE(ui|Xi)] = 0<br />
Var[Hiui] = E[H 2 i u 2 i ]<br />
= E[H 2 i E(u 2 i |Xi)]<br />
= σ 2 uE[H 2 i ]<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 28 / 60
Errori standard con omoschedasticità<br />
Errori omoschedastici–Var[ ˆ β0]<br />
Ora<br />
segue che<br />
H 2 <br />
µX<br />
i = 1 +<br />
= 1 −<br />
E(X 2 i )<br />
<br />
µX<br />
E(X 2 i )<br />
<br />
X 2 i<br />
= 1 − µ2 X<br />
E(X 2 i )<br />
= E(X2 i ) − µ2 X<br />
E(X 2 i )<br />
= σ2 X<br />
E(X 2 i )<br />
σ 2 ˆ β0<br />
= 1<br />
n<br />
<br />
X 2 <br />
µX<br />
i − 2<br />
E(X 2 i )<br />
σ2 σ<br />
X<br />
2 u<br />
E(X 2 i )<br />
<br />
X 2 i<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 29 / 60
Errori standard con omoschedasticità<br />
Due formule per gli errori standard<br />
Errori standard nel caso di omoschedasticità:<br />
ˆσ β1<br />
ˆ =<br />
<br />
1 <br />
n i X2 <br />
i s2 u<br />
<br />
i (Xi − ¯ X) 2<br />
<br />
ˆσ ˆ β1 =<br />
s 2 u<br />
<br />
i (Xi − ¯ X) 2<br />
Errori standard per l’omoschedasticità sono validi solo se gli errori<br />
sono omoschedastici.<br />
Gli errori standard consueti – per differenziare i due, è<br />
convenzione chiamarli errori standard robusti<br />
all’eteroschedasticità, poichè sono validi a prescindere<br />
dall’eteroschedasticità o meno degli errori.<br />
Il principale vantaggio degli errori standard per l’omoschedasticità<br />
pura è che la formula è più <strong>semplice</strong>. Lo svantaggio, però, è che la<br />
formula è corretta solo se gli errori sono omoschedastici.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 30 / 60
Errori standard con omoschedasticità<br />
Implicazioni pratiche...<br />
La formula dell’omoschedasticità pura per l’errore standard di e la<br />
formula “robusta all’eteroschedasticità” sono diverse - quindi, in<br />
generale, si ottengono errori standard diversi utilizzando formule<br />
differenti.<br />
Gli errori standard per l’omoschedasticità pura sono<br />
l’impostazione predefinita nei software di regressione - a volte<br />
l’unica impostazione (per esempio in Excel). Per ottenere gli errori<br />
standard ”robusti all’eteroschedasticità” generale occorre<br />
modificare l’impostazione di default.<br />
Se non si modifica l’impostazione di default e vi è<br />
eteroschedasticità, gli errori standard (e la statistica-t e<br />
gli intervalli di confidenza) saranno errati - generalmente,<br />
gli SE per l’omoschedasticità pura sono troppo piccoli.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 31 / 60
Errori standard con omoschedasticità<br />
Il punto essenziale<br />
Se gli errori sono omoschedastici o eteroschedastici e si utilizzano<br />
errori standard robusti all’eteroschedasticità, va bene<br />
Se gli errori sono eteroschedastici e si utilizza la formula<br />
dell’omoschedasticità pura per gli errori standard, gli errori<br />
standard saranno errati (lo stimatore dell’omoschedasticità pura<br />
della varianza di β1 è incoerente in presenza di eteroschedasticità).<br />
Le due formule coincidono (quando n è grande) nel caso speciale di<br />
omoschedasticità<br />
Quindi si dovrebbero sempre utilizzare errori standard robusti<br />
all’eteroschedasticità.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 32 / 60
Errori standard con omoschedasticità<br />
Fondamenti teorici dei minimi quadrati ordinari<br />
Abbiamo già appreso molto sugli stimatori dei minimi quadrati<br />
ordinari: lo stimatore OLS è non distorto e consistente; abbiamo<br />
una formula per gli errori standard robusti all’eteroschedasticità e<br />
possiamo costruire intervalli di confidenza e statistiche di test.<br />
Una buona ragione per utilizzare i minimi quadrati ordinari è<br />
anche l’impiego universale, perciò gli altri saranno in grado di<br />
capire ciò che fate. In effetti, l’OLS è il linguaggio dell’analisi di<br />
regressione, e se utilizzate uno stimatore diverso, parlerete un<br />
linguaggio differente.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 33 / 60
Teorema di Gauss-Markov<br />
Eppure potreste ancora chiedervi...<br />
Tutto quanto detto è davvero una buona ragione per utilizzare<br />
OLS? Non esistono altri stimatori che potrebbero essere migliori –<br />
in particolare che potrebbero avere una varianza inferiore?<br />
Inoltre, che ne è stato della distribuzione t di Student?<br />
Ora risponderemo a queste domande – ma per farlo abbiamo<br />
bisogno di assunzioni più forti delle tre relative ai minimi quadrati<br />
che abbiamo già visto.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 34 / 60
Teorema di Gauss-Markov<br />
Le assunzioni dei minimi quadrati estese<br />
Consistono nelle tre assunzioni dei minimi quadrati, più altre due:<br />
1 E[ui|Xi] = 0, i = 1, 2, . . . , n;<br />
2 (Xi, Yi), i = 1, 2, . . . , n, sono i.i.d.;<br />
] < ∞;<br />
3 Gli outlier sono rari E[Y 4<br />
i ] < ∞, E[X4 i<br />
4 ui è omoschedastico<br />
5 ui ha distribuzione N(0, σ2 )<br />
Le assunzioni 4 e 5 sono più restrittive – perciò si applicano a un<br />
numero inferiori di casi pratici. Tuttavia, facendo queste<br />
assunzioni, determinati calcoli matematici si semplificano e si<br />
possono dimostrare risultati più robusti –che valgono se tali<br />
assunzioni aggiuntive sono vere.<br />
Iniziamo con una discussione sull’efficienza dello stimatore OLS<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 35 / 60
Teorema di Gauss-Markov<br />
Efficienza dello stimatore OLS, parte I: il teorema di<br />
Gauss-Markov<br />
Nelle assunzioni dei minimi quadrati ordinari estese 1-4 (le tre di base,<br />
più l’omoschedasticità), ˆ β1 ha la varianza minima tra tutti gli stimatori<br />
lineari (stimatori che sono funzioni lineari di Y1, Y2, . . . , Yn. Questo è il<br />
teorema di Gauss-Markov.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 36 / 60
Teorema di Gauss-Markov<br />
Il teorema di Gauss-Markov<br />
Date le condizioni<br />
1 E[ui|X1, . . . , Xn] = 0, i = 1, 2, . . . , n<br />
2 Var[ui|X1, . . . , Xn] = σ 2 u < ∞<br />
3 E[uiuj|X1, . . . , Xn] = 0, i = j, i, j = 1, 2, . . . , n<br />
Le condizioni di G-M derivano dalle tre assunzioni degli OLS<br />
1 Poichè le osservazioni sono i.i.d. (A.2)<br />
E[ui|X1, . . . , Xn] = E[ui|Xi] = 0, i = 1, 2, . . . , n<br />
2 L’A.3 (monenti quarti finiti) assicura che σ 2 u < ∞<br />
3 Per l’A.1 E[uiuj|X1, . . . , Xn] = E[uiuj|Xi, Xj], ∀i = j,<br />
i, j = 1, 2, . . . , n. Per la stessa A.2<br />
E[uiuj|Xi, Xj] = E[ui|Xi]E[uj|Xj] = 0, ∀i = j<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 37 / 60
Teorema di Gauss-Markov<br />
Il teorema di Gauss-Markov<br />
ˆβ1 è uno stimatore <strong>lineare</strong>:<br />
ˆβ1 =<br />
n<br />
i=1 (Xi − ¯ X)Yi<br />
n i=1 (Xi − ¯ <br />
=<br />
X) 2<br />
i<br />
âiYy<br />
dove<br />
(Xi −<br />
âi =<br />
¯ X)<br />
n i=1 (Xi − ¯ X) 2<br />
i pesi âi, i = 1, 2, . . . , n dipendono da X1, . . . , Xn ma non da<br />
Y1, Y2, . . . , Yn, lo stimatore OLS hatβ1 è uno stimatore <strong>lineare</strong>.<br />
Sotto le condizioni di G-M lo stimatore OLS è<br />
condizionatamente non distorto<br />
la varianza della distribuzione di ˆ β1 condizionata a X1, X2, . . . , Xn<br />
Var[ ˆ β1|X1, . . . , Xn] =<br />
σ 2 u<br />
<br />
i=1 (Xi − ¯ X) 2<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 38 / 60
Teorema di Gauss-Markov<br />
Il teorema di Gauss-Markov-Prova<br />
Per ogni stimatore <strong>lineare</strong> del tipo<br />
˜β1 = β0<br />
Per la prima condizione<br />
E[<br />
n<br />
i=1<br />
ai<br />
˜β1 =<br />
<br />
+ β1<br />
n<br />
aiXi|X1, . . . , Xn] =<br />
i=1<br />
E[ ˜ β1|X1, . . . , Xn] = β0<br />
n<br />
i=1<br />
aiYi<br />
n<br />
i=1<br />
aiXi<br />
<br />
+<br />
n<br />
i=1<br />
aiui<br />
n<br />
aiE[ui|X1, . . . , Xn] = 0<br />
i=1<br />
n<br />
i=1<br />
ai<br />
<br />
+ β1<br />
n<br />
i=1<br />
aiXi<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 39 / 60
Teorema di Gauss-Markov<br />
Il teorema di Gauss-Markov-Prova<br />
Affinchè ˜ β1 sia condizionamente non distorto:<br />
E[ ˜ <br />
n<br />
<br />
n<br />
β1|X1, . . . , Xn] = β0 ai + β1<br />
deve valere che<br />
da cui<br />
n<br />
ai = 0<br />
i=1<br />
i=1<br />
˜β1 − β1 =<br />
n<br />
aiXi = 1<br />
i=1<br />
n<br />
i=1<br />
aiui<br />
i=1<br />
aiXi<br />
<br />
= β1<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 40 / 60
Teorema di Gauss-Markov<br />
Il teorema di Gauss-Markov-Prova<br />
Sotto le condizioni del Teorema, la varianza condizionale di ˜ β1<br />
<br />
<br />
n<br />
<br />
Var ˜β1|X1, . . . , Xn = Var aiui|X1, . . . , Xn<br />
i=1<br />
= <br />
aiaj Cov [ui, uj|X1, . . . , Xn]<br />
i<br />
Applicando la seconda e terza condizione di G-M, i termini incrociati<br />
nella doppia sommatoria si annullano<br />
inoltre<br />
j<br />
n<br />
Var[ ˜ β1|X1, . . . , Xn] = σ 2 u a<br />
i=1<br />
2 i<br />
n<br />
Var[ ˆ β1|X1, . . . , Xn] = σ 2 u â<br />
i=1<br />
2 i<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 41 / 60
Teorema di Gauss-Markov<br />
Il teorema di Gauss-Markov-Prova<br />
Sia<br />
quindi<br />
<br />
i<br />
a 2 i = <br />
<br />
âidi =<br />
i<br />
i<br />
ai = âi + di<br />
(âi + di) 2 = <br />
<br />
i (Xi − ¯ X)di<br />
<br />
i (Xi − ¯ X) 2<br />
i<br />
â 2 i + 2 <br />
i<br />
âidi + <br />
<br />
i =<br />
diXi − ¯ X <br />
i di<br />
<br />
i (Xi − ¯ X) 2<br />
<br />
( aiXi − âiXi) − ¯ X ( ai − âi) <br />
=<br />
= 0<br />
<br />
i (Xi − ¯ X) 2<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 42 / 60<br />
i<br />
d 2 i
Teorema di Gauss-Markov<br />
Il teorema di Gauss-Markov-Prova<br />
Pertanto,<br />
segue che<br />
σ 2 u<br />
<br />
i<br />
a 2 i = σ 2 u<br />
<br />
i<br />
â 2 i + σ 2 u<br />
<br />
i<br />
d 2 i<br />
= Var[ ˆ β1|X1, . . . , Xn] + σ 2 u<br />
n<br />
<br />
Var[ ˜ β1|X1, . . . , Xn] = σ 2 u a<br />
i=1<br />
2 i = Var[ ˆ β1|X1, . . . , Xn] + σ 2 u<br />
Var[ ˜ β1|X1, . . . , Xn] − Var[ ˆ β1|X1, . . . , Xn] = σ 2 u<br />
i<br />
d 2 i<br />
<br />
<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 43 / 60<br />
i<br />
d 2 i<br />
i<br />
d 2 i
Teorema di Gauss-Markov<br />
Il teorema di Gauss-Markov-Prova<br />
Lo stimatore ˜ β1 ha varianza condizionata maggiore di quella di ˆ β1 se di<br />
è diverso da zero per ogni i = 1, 2, . . . , n. Ma se di = 0, ∀i, allora<br />
ai = âi e ˜ β1 = ˆ β1<br />
Conclusione: OLS è BLUE (best linear unbised estimator)<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 44 / 60
Teorema di Gauss-Markov<br />
Efficienza dello stimatore OLS, parte II<br />
In tutte e cinque le assunzioni dei minimi quadrati estese -<br />
compresa la distribuzione normale degli errori - β1 ha la varianza<br />
più piccola di tutti gli estimatori consistenti (funzioni lineari o non<br />
lineari di Y1, Y2, . . . , Yn), per n → ∞.<br />
Questo è un risultato assai sorprendente - afferma che, se (in<br />
aggiunta alle assunzioni dei minimi quadrati 1-3) gli errori sono<br />
omoschedastici e normalmente distribuiti, OLS è la scelta migliore<br />
rispetto a qualsiasi altro stimatore consistente. E poichè uno<br />
stimatore che non sia consistente è una scelta scadente, ciò afferma<br />
che l’OLS è davvero la miglior scelta che si possa fare - se valgono<br />
tutte e cinque le assunzioni dei minimi quadrati estese. (La<br />
dimostrazione di questo risultato va oltre l’ambito di questo corso<br />
e non è fornita nel testo).<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 45 / 60
Teorema di Gauss-Markov<br />
Alcuni aspetti critici di OLS<br />
I risultati precedenti sono impressionanti, tuttavia tali risultati - e<br />
lo stimatore OLS - hanno limitazioni importanti.<br />
Il teorema di G-M non è poi così avvincente:<br />
La condizione di omoschedasticità spesso non regge<br />
(l’omoschedasticità è speciale)<br />
Il risultato vale solo per gli stimatori lineari - solo un piccolo<br />
sottoinsieme di stimatori (ulteriori informazioni a breve)<br />
Il risultato di ottimalità più robusto (”parte II” precedente)<br />
richiede errori normali omoschedastici – cosa non plausibile nelle<br />
applicazioni (si pensi ai dati delle retribuzioni orarie!)<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 46 / 60
Teorema di Gauss-Markov<br />
Inferenza con omoschedasticità e gaussianità<br />
1 E[ui|Xi] = 0, i = 1, 2, . . . , n;<br />
2 (Xi, Yi), i = 1, 2, . . . , n, sono i.i.d.;<br />
3 Gli outlier sono rari E[Y 4<br />
i ] < ∞, E[X4 i ] < ∞;<br />
4 ui è omoschedastico<br />
5 ui ha distribuzione N(0, σ 2 )<br />
Se tutte le cinque assunzioni valgono, allora:<br />
ˆβ0 e ˆ β1 sono normalmente distribuiti per tutti gli n<br />
la statistica-t ha una distribuzione t di Student con n − 2 gradi di<br />
libertà, questo vale esattamente per tutti gli n.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 47 / 60
Teorema di Gauss-Markov<br />
Distribuzione campionaria gaussiana di ˆ β1<br />
dove<br />
ˆβ1 − β1 =<br />
wi =<br />
1<br />
n<br />
= 1<br />
n<br />
<br />
i (Xi − ¯ X)ui<br />
<br />
i (Xi − ¯ X) 2<br />
<br />
i<br />
wiui<br />
(Xi − ¯ X)<br />
n<br />
i=1 (Xi − ¯ X) 2<br />
Qual è la distribuzione di una media ponderata di normali?<br />
E[ ˆ β1 − β1] = 1 <br />
wiE[ui] = 0<br />
n<br />
Var[ ˆ β1 − β1] = 1<br />
n<br />
i<br />
2 E<br />
⎡<br />
<br />
⎣<br />
i<br />
wiui<br />
2 ⎤<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 48 / 60<br />
⎦
Teorema di Gauss-Markov<br />
Distribuzione campionaria gaussiana di ˆ β1<br />
Var[ ˆ β1 − β1] = 1<br />
n 2<br />
<br />
i<br />
w 2 i E[u 2 i ] = 1<br />
n 2 σ2 u<br />
<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 49 / 60<br />
i<br />
w 2 i
Assunzioni<br />
Teorema di Gauss-Markov<br />
Assunzioni MRL <strong>semplice</strong>:<br />
Yi = β0 + β1Xi + ui i = 1, 2, . . . , n<br />
E[ui|Xi] = 0<br />
{Xi, Yi} i.i.d<br />
Xi, ui momenti quarti finiti non nulli e finiti.<br />
Var[ui|Xi] = σ 2 u, omoschedasticità<br />
Distribuzione di ui data Xi è normale (errori normali):<br />
ui ∼ i.i.d.N(0, σ 2 u).<br />
Stimatori OLS:<br />
ˆβ0 = ¯ Y − ˆ β1 ¯ X<br />
n ˆβ1<br />
i=1 =<br />
(Yi − ¯ Y )(Xi − ¯ X)<br />
n i=1 (Xi − ¯ X) 2<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 50 / 60
Teorema di Gauss-Markov<br />
Distribuzioni campionarie esatte<br />
Quando gli errori (ui) si distribuiscono normalmente e sono<br />
omoschedastici le distribuzioni campionarie degli stimatori OLS e delle<br />
statistiche test sono note:<br />
Lo stimatore OLS si distribuisce in modo normale.<br />
la statistica t si distribuisce come una t di Student.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 51 / 60
Distribuzione di ˆ β1<br />
dove<br />
Teorema di Gauss-Markov<br />
ˆβ1|X1, . . . , Xn ∼ N(β1, σ 2 ˆ β1|X )<br />
σ 2 ˆ β1|X =<br />
<br />
i=1 (Xi − ˆ X) 2<br />
Per dimostrare che la distribuzione condizionale è normale, si noti che<br />
ˆβ1 − β1 è una media ponderata di u1, . . . , un<br />
ˆβ1 = β1 +<br />
1<br />
n<br />
1<br />
n<br />
σ 2 u<br />
<br />
i=1 (Xi − ¯ X)ui<br />
<br />
i=1 (Xi − ¯ X) 2<br />
Medie ponderate di variabili casuali che si distribuiscono in modo<br />
normale si distribuiscono normalmente.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 52 / 60
Teorema di Gauss-Markov<br />
Non distorsione di ˆ β1<br />
Abbiamo visto che:<br />
E[ ˆ β1|X1, . . . , Xn] = β1 +<br />
= β1<br />
ˆβ1 è condizionatamente non distorto.<br />
n<br />
i=1 (Xi − ¯ X)E[ui|X1, . . . , Xn]<br />
n<br />
i=1 (Xi − ¯ X) 2<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 53 / 60
Teorema di Gauss-Markov<br />
Varianza condizionale di ˆ β1<br />
Per mostrare che<br />
σ 2 ˆ β1|X =<br />
σ 2 u<br />
<br />
i=1 (Xi − ˆ X) 2<br />
sfruttiamo l’ipotesi che ui ∼ i.i.d.N(0, σ2 u)<br />
Var[ ˆ n i=1 β1|X1, . . . , Xn] = Var<br />
(Xi − ¯ X)ui<br />
n i=1 (Xi − ¯ X) 2 |X1,<br />
<br />
. . . , Xn<br />
n i=1 =<br />
(Xi − ¯ X) 2 Var[ui|X1, . . . , Xn]<br />
n =<br />
=<br />
n i=1 (Xi − ¯ X) 2σ2 u<br />
n i=1 (Xi − ¯ X) 22 σ 2 u<br />
n<br />
i=1 (Xi − ¯ X) 2<br />
i=1 (Xi − ¯ X) 2 2<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 54 / 60
Teorema di Gauss-Markov<br />
Distribuzione della statistica t<br />
La statistica t per verificare l’ipotesi nulla β1 = β1,0 è<br />
t = ˆ β1 − β1,0<br />
SE( ˆ β1)<br />
Sostituendo la formula per SE( ˆ β1)<br />
<br />
SE( ˆ β1) ≡ ˆσ ˆ β1 =<br />
s 2 u<br />
n<br />
i=1 (Xi − ¯ X) 2<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 55 / 60
Teorema di Gauss-Markov<br />
Distribuzione della statistica t<br />
ˆβ1 − β1,0<br />
t = <br />
= <br />
s2 u<br />
n<br />
i=1 (Xi− ¯ X) 2<br />
ˆβ1 − β1,0<br />
s2 u<br />
n<br />
i=1 (Xi− ¯ X) 2<br />
σ2 u<br />
σ2 u<br />
ˆβ1 − β1,0<br />
= <br />
σ2 u<br />
n<br />
i=1 (Xi− ¯ X) 2<br />
/<br />
<br />
= <br />
s2 u<br />
σ2 u<br />
= ( ˆ β1 − β1,0)/σβ1|X ˆ<br />
, W =<br />
W/(n − 2)<br />
ˆβ1 − β1,0<br />
σ2 u<br />
n<br />
i=1 (Xi− ¯ X) 2<br />
<br />
s2 u<br />
σ2 u<br />
n<br />
û 2 i<br />
σ<br />
i=1<br />
2 u<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 56 / 60
Teorema di Gauss-Markov<br />
Distribuzione della statistica t<br />
Sotto l’ipotesi nulla<br />
quindi<br />
ˆβ1|X1, . . . , Xn ∼ N(β1, σ 2 ˆ β1|X )<br />
ˆβ1 − β1,0<br />
|X1, . . . , Xn ∼ N(0, 1)<br />
σ ˆ β1|X<br />
il numeratore della statistica t è N(0, 1).<br />
La variabile casuale W si distribuisce come una chi-quadrato con n − 2<br />
gradi di libertà. W è indipendente da ˆ β1−β1,0<br />
σ .<br />
β1 ˆ |X<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 57 / 60
Teorema di Gauss-Markov<br />
Distribuzione della statistica t<br />
Lo stimatore s 2 u ha una distribuzione proporzionale a una distribuzione<br />
chi-quadrato con n − 2 gradi di libertà:<br />
quindi<br />
s 2 u ∼ σ2 u<br />
n − 2 × χ2 n−2<br />
s2 u<br />
σ2 u<br />
∼ 1<br />
n − 2 × χ2 n−2<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 58 / 60
Teorema di Gauss-Markov<br />
Distribuzione della statistica t<br />
Se Z ha una distribuzione normale standard, se W ∼ χ 2 m e Z e W sono<br />
indipendentemente distribuite, allora la variabile casuale<br />
Nel caso della statistica t<br />
t =<br />
Z<br />
W/m ∼ tm<br />
N(0, 1)<br />
<br />
χ2 n−2 /(n − 2)<br />
∼ tn−2<br />
Per n < 30 i valori critici t possono essere un po’ più grandi dei<br />
valori critici N(0, 1)<br />
Per n > 50 o simile, la differenza nelle distribuzioni tn2 e N(0, 1) è<br />
trascurabile.<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 59 / 60
Teorema di Gauss-Markov<br />
Implicazioni pratiche<br />
Se n < 50 e credete davvero che, per la vostra applicazione, u sia<br />
omoschedastico e normalmente distribuito, utilizzate tn−2 invece<br />
dei valor critici N(0, 1) per le verifiche di ipotesi e gli intervalli di<br />
confidenza.<br />
Nella maggior parte delle applicazioni econometriche, non vi è<br />
alcun motivo di ritenere che u sia omoschedastico e normale -<br />
solitamente vi sono ottime ragioni per credere che né l’una né<br />
l’altra assunzione valga.<br />
Fortunatamente, nelle applicazioni moderne n > 50, così possiamo<br />
affidarci ai risultati per n grande presentati in precedenza, basati<br />
sul teorema limite centrale, per eseguire verifiche di ipotesi e<br />
costruire intervalli di confidenza usando l’approssimazione normale<br />
per n grande<br />
Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 60 / 60