17.06.2013 Views

Regressione lineare semplice: inferenza - Economia

Regressione lineare semplice: inferenza - Economia

Regressione lineare semplice: inferenza - Economia

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong>: <strong>inferenza</strong><br />

Eduardo Rossi 2<br />

2 Università di Pavia (Italy)<br />

Marzo 2013<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 1 / 60


Outline<br />

1 Introduzione<br />

2 Verifica di ipotesi<br />

3 Intervalli di confidenza<br />

4 Variabili binarie<br />

5 Omoschedasticità<br />

6 Errori standard con omoschedasticità<br />

7 Teorema di Gauss-Markov<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 2 / 60


Sommario<br />

L’errore standard di ˆ β1<br />

Introduzione<br />

Verifiche di ipotesi concernenti β1<br />

Intervalli di confidenza per β1<br />

La regressione quando X è variabile binaria<br />

Eteroschedasticità e omoschedasticità<br />

Efficienza OLS e distribuzione t di Student<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 3 / 60


Sommario<br />

Introduzione<br />

Vogliamo conoscere la pendenza della retta di regressione. Disponiamo<br />

dei dati di un campione, perciò sussiste l’incertezza dovuta al<br />

campionamento. Per raggiungere l’obiettivo si procede in cinque<br />

passaggi:<br />

Definire la popolazione oggetto di interesse<br />

Fornire uno stimatore di questa popolazione<br />

Derivare la distribuzione campionaria dello stimatore (ciò richiede<br />

alcune assunzioni). In grandi campioni questa distribuzione<br />

campionaria sarà normale per il TLC.<br />

La radice quadrata della varianza stimata della distribuzione<br />

campionaria è l’errore standard (SE) dello stimatore<br />

Utilizzare SE per costruire statistiche- t (per le verifiche di ipotesi)<br />

e intervalli di confidenza.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 4 / 60


Introduzione<br />

L’oggetto di interesse: β1<br />

Yi = β0 + β1Xi + ui i = 1, 2, . . . , n<br />

β1 = ∆Y<br />

∆Y<br />

per una variazione autonoma in X (effetto casuale). Sotto le<br />

assunzioni degli OLS:<br />

1 E[ui|Xi] = 0 (prima assunzione)<br />

2 {Yi, Xi}, i = 1, 2, . . . , n sono i.i.d. (seconda assunzione).<br />

3 X, Y hanno momenti quarti finiti non nulli (terza assunzione)<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 5 / 60


Introduzione<br />

La distribuzione campionaria di ˆ β1<br />

Sotto le assunzioni dei minimi quadrati, per n grande, la distribuzione<br />

di ˆ β1 è approssimata da<br />

<br />

ˆβ1 ≈ N β1,<br />

σ2 v<br />

n(σ2 X )2<br />

<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 6 / 60


Verifica di ipotesi<br />

Verifica di ipotesi ed errore standard<br />

L’obiettivo è di verificare un’ipotesi, quale β1 = 0, utilizzando i dati -<br />

per determinare sperimentalmente se l’ipotesi (nulla) è corretta.<br />

Impostazione generale<br />

Ipotesi nulla e alternativa bilaterale:<br />

H0 : β1 = β1,0 vs. H1 : β1 = β1,0<br />

dove β1,0 è il valore ipotizzato sotto l’ipotesi nulla.<br />

Ipotesi nulla e alternativa unilaterale:<br />

H0 : β1 = β1,0 vs. H1 : β1 < β1,0<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 7 / 60


Verifica di ipotesi<br />

Soluzione generale: costruire la statistica-t<br />

In generale:<br />

t =<br />

stimatore − valore ipotizzato<br />

errore standard dello stimatore<br />

dove l’SE dello stimatore è la radice quadrata di uno stimatore<br />

della varianza dello stimatore.<br />

Per verificare la media di Y :<br />

Per verificare β1<br />

t = ¯ Y − µY,0<br />

sY / √ n<br />

t = ˆ β1 − β1,0<br />

SE( ˆ β1) ,<br />

dove SE( ˆ β1) è la radice quadrata di uno stimatore della varianza<br />

della distribuzione campionaria di ˆ β1.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 8 / 60


Verifica di ipotesi<br />

Formula per calcolare lo SE( ˆ β1)<br />

Si ricordi l’espressione per la varianza di (n grande):<br />

Var [ ˆ β1] = Var [(Xi − µX)ui]<br />

n(σ2 X )2<br />

,<br />

dove vi = (Xi − µX)ui. Lo stimatore della varianza di ˆ β1 sostituisce i<br />

valori di popolazione ignoti di σ2 v e σ2 X con gli stimatori ricavati dai<br />

dati:<br />

ˆσ 2 ˆ β1<br />

= 1<br />

n<br />

= 1<br />

n<br />

stimatore di σ2 v<br />

(stimatore di σ2 X )2<br />

1<br />

n<br />

1<br />

n−2<br />

<br />

i ˆv2 i<br />

<br />

i (Xi − ¯ X) 2<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 9 / 60


Verifica di ipotesi<br />

Formula per calcolare lo SE( ˆ β0)<br />

Dato<br />

lo stimatore<br />

dove<br />

Var[ ˆ β0] = Var[Hiui]<br />

n[E(H 2 i )]2<br />

<br />

µX<br />

Hi = 1 −<br />

E(X 2 i )<br />

<br />

ˆσ 2 ˆ β0<br />

= 1<br />

n<br />

ˆHi = 1 −<br />

<br />

Xi<br />

1<br />

n−2 i=1 ˆ H2 i û2i <br />

1 n n i=1 ˆ H2 2 i<br />

<br />

¯X<br />

1 <br />

n i=1 X2 i<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 10 / 60<br />

<br />

Xi


Verifica di ipotesi<br />

Formula per calcolare lo SE<br />

E’ leggermente complicato, tuttavia:<br />

lo è meno di quanto sembri. La varianza Var[v] è stimata dal<br />

numeratore, mentre Var[X] 2 è stimata dal denominatore.<br />

Perchè la correzione dei gradi di libertà n − 2? Perchè sono stati<br />

stimati due coefficienti β0 e β1.<br />

SE( ˆ β1) viene calcolato dal software di regressione<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 11 / 60


Riepilogo<br />

Per verificare:<br />

Costruire la statistica-t<br />

Verifica di ipotesi<br />

H0 : β1 = β1,0 vs H1 : β1 = β1,0<br />

t = ˆ β1 − β1,0<br />

SE( ˆ β1) = ˆ β1 − β1,0<br />

ˆσ 2 ˆβ1<br />

Si rifiuta al livello di significatività del 5% se |t| > 1, 96.<br />

Il valore p è p = P r[|t| > |t act |] = probabilità nell’area delle code<br />

della normale, cioè > |t act |;<br />

si rifiuta al livello di significatività del 5% se il valore p è < 5%.<br />

Questa procedura si affida all’approssimazione di n grande che ˆ β1<br />

sia distribuito normalmente; in generale n = 50 è grande<br />

abbastanza per un’approssimazione eccellente.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 12 / 60


Verifica di ipotesi<br />

Esempio: Punteggi nei test e STR dati della California<br />

<strong>Regressione</strong> <strong>lineare</strong> stimata:<br />

<br />

Test Score = 698, 9 − 2, 28 ST R<br />

Il software di regressione segnala gli errori standard:<br />

SE( ˆ β0) = 10, 4 SE( ˆ β1) = 0, 52<br />

Verifica dell’ipotesi nulla β1,0 = 0. Rapporto t<br />

t = ˆ β1 − β1,0<br />

SE( ˆ β1)<br />

= −2, 28 − 0<br />

0, 52<br />

= −4, 38<br />

Il livello di significatività bilaterale dell’1 % è 2,58, perciò<br />

rifiutiamo l’ipotesi nulla al livello di significatività dell’1%.<br />

In alternativa, possiamo calcolare il valore p...<br />

Il valore p basato sull’approssimazione normale standard con n<br />

grande alla statistica t è 0,00001 (10–5)<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 13 / 60


P-value<br />

Verifica di ipotesi<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 14 / 60


Intervalli di confidenza<br />

Intervalli di confidenza per β1<br />

Si ricordi che un intervallo di confidenza al 95% equivale a:<br />

la serie di punti che non può essere rifiutata al livello di<br />

significatività del 5%;<br />

una funzione polidroma (un intervallo funzione dei dati) che<br />

contiene il reale valore del parametro il 95% delle volte nei<br />

campioni ripetuti.<br />

Poichè la statistica t per β1 è N(0, 1) in grandi campioni, la<br />

costruzione di un intervallo di confidenza al 95% per β1 equivale al<br />

caso della media campionaria:<br />

intervallo di confidenza al 95% per β1<br />

{ ˆ β1 ± 1, 96 × SE( ˆ β1)}<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 15 / 60


Intervalli di confidenza<br />

Esempio di intervallo di confidenza<br />

Retta di regressione stimata<br />

<br />

Test Score = 698, 9 − 2, 28 ST R<br />

SE( ˆ β0) = 10, 4 SE( ˆ β1) = 0, 52<br />

Intervallo di confidenza al 95% per ˆ β1:<br />

{ ˆ β1 ± 1, 96SE( ˆ β1)} = {−2, 28 ± 1.96 × 0.52} = {−3, 30; −1, 26}<br />

Le due affermazioni seguenti sono equivalenti:<br />

L’intervallo di confidenza al 95% non include lo zero;<br />

L’ipotesi β1 = 0 è rifiutata al livello del 5%.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 16 / 60


Intervalli di confidenza<br />

Riepilogo di <strong>inferenza</strong> statistica<br />

Stima:<br />

Gli stimatori OLS hanno approssimativamente distribuzioni<br />

campionarie normali in grandi campioni<br />

Verifica:<br />

H0 : β1 = β1,0 vs β1 = β1,0 (β1,0 è il valore di β1 sotto H0)<br />

T ( ˆ β1 − β1,0)/SE( ˆ β1)<br />

valore-p = area sotto la normale standard al di fuori di |t act | (n<br />

grande)<br />

Intervalli di confidenza:<br />

l’intervallo di confidenza al 95% per β1 è { ˆ β1 ± 1, 96 × SE( ˆ β1)}<br />

Questo è l’insieme di β1 che non è rifiutato al livello del 5%<br />

L’IC al 95% contiene il β1 reale nel 95% di tutti i campioni.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 17 / 60


Variabili binarie<br />

La regressione quando X è una variabile binaria<br />

A volte un regressore è binario:<br />

<br />

1 se classe piccola<br />

X =<br />

0 altrimenti<br />

<br />

1<br />

X =<br />

0<br />

femmina<br />

maschio<br />

<br />

1<br />

X =<br />

0<br />

se trattato (farmaco sperimentale)<br />

altrimenti<br />

I regressori binari sono a volte chiamati variabili dummy.<br />

Fin qui β1 è stato chiamato ”pendenza” ma ciò non ha senso se la<br />

variabile X è binaria.<br />

Come interpretiamo la regressione con un regressore binario?<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 18 / 60


Variabili binarie<br />

Interpretazione delle regressioni con un regressore<br />

binario<br />

Quando Xi = 0:<br />

quando Xi = 1<br />

quindi<br />

è pari alla differenza tra medie.<br />

Yi = β0 + β1Xi + ui<br />

Yi = β0 + ui<br />

E[Yi|Xi = 0] = β0<br />

Yi = β0 + β1 + ui<br />

E[Yi|Xi = 1] = β0 + β1<br />

β1 = E[Yi|Xi = 1] − E[Yi|Xi = 0]<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 19 / 60


Esempio<br />

Sia<br />

<strong>Regressione</strong> OLS:<br />

Variabili binarie<br />

Di =<br />

1 se ST R ≤ 20<br />

0 se ST R > 20<br />

Test Score<br />

= 650 + 7, 4 × Di<br />

(1,3) (1,8)<br />

Dimensione classe Punteggio medio ¯ Y Dev.Stand. (sY ) N<br />

Piccola STR ≤ 20 657,4 19,4 238<br />

Grande STR > 20 650 17,9 182<br />

Differenza tra medie:<br />

Ypiccola − Ygrande = 657, 4 − 650 = 7, 4<br />

<br />

s<br />

SE =<br />

2 <br />

p<br />

19, 42 17, 92<br />

= + = 1, 8<br />

238 182<br />

np<br />

+ s2 g<br />

ng<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 20 / 60


Variabili binarie<br />

Riepilogo: regressione quando la variabile X è binaria<br />

β0 media di Yi quando X = 0<br />

β0 + β1 = media di Yi quando X = 1<br />

β1 = differenza tra medie, X =1 meno X = 0<br />

SE( ˆ β1) ha l’interpretazione consueta<br />

statistica-t, intervalli di confidenza costruiti come di consueto.<br />

Questo è un altro modo (facile) per eseguire l’analisi della<br />

differenza tra medie<br />

La formulazione della regressione è particolarmente utile quando<br />

abbiamo regressori supplementari.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 21 / 60


Omoschedasticità<br />

Eteroschedasticità e omoschedasticità<br />

Conseguenze dell’omoschedasticità<br />

Implicazioni per il calcolo degli errori standard<br />

Che cosa significano questi due termini?<br />

Se Var[u|X = x] è costante - ossia se la varianza della<br />

distribuzione di u condizionata a X non dipende da X –allora u è<br />

detto omoschedastico. In caso contrario, u è eteroschedastico.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 22 / 60


Omoschedasticità<br />

Esempio: etero/omoschedasticità nel caso di un<br />

regressore binario<br />

Errore standard quando le varianze sono ineguali:<br />

SE =<br />

<br />

s 2 p<br />

np<br />

+ s2 g<br />

ng<br />

Errore standard quando le varianze sono uguali:<br />

<br />

SE = sp<br />

1<br />

np<br />

+ 1<br />

ng<br />

Vedi SW, Paragrafo 3.6<br />

s 2 p = (ns − 1)s 2 s + (ng − 1)s 2 g<br />

np + ng − 2<br />

sp stimatore di σ 2 quando σ 2 p = σ 2 g.<br />

Varianze uguali = omoschedasticità<br />

Varianze ineguali = eteroschedasticità<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 23 / 60


Errori standard con omoschedasticità<br />

Omoschedasticità in un’immagine:<br />

E[u|X] = 0 (u soddisfa l’assunzione dei minimi quadrati n. 1)<br />

La varianza di u non dipende da x<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 24 / 60


Errori standard con omoschedasticità<br />

Un esempio con dati reali dall’economica del lavoro<br />

La retribuzione oraria media rispetto agli anni di istruzione (fonte dati:<br />

Current Population Survey):<br />

Eteroschedasticità o omoschedasticità?<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 25 / 60


Errori standard con omoschedasticità<br />

Quale assunzione sulla varianza degli errori?<br />

Le tre assunzioni dei minimi quadrati:<br />

E[u|X] = 0<br />

(Xi, Yi), i = 1, 2, . . . , n, sono i.i.d.<br />

Gli outlier sono rari<br />

Eteroschedasticità e omoschedasticità concernono Var[u|X]. Poichè<br />

non abbiamo assunto esplicitamente gli errori omoschedastici,<br />

abbiamo ammesso implicitamente l’eteroschedasticità.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 26 / 60


Errori standard con omoschedasticità<br />

Errori omoschedastici-Var[ ˆ β1]<br />

Si può dimostrare che l’OLS ha la varianza minore tra gli stimatori<br />

lineari in Y... un risultato chiamato teorema di Gauss-Markov.<br />

La formula per la varianza di ˆ β1 e per l’errore standard OLS si<br />

semplifica: se<br />

Var[ui|Xi = x] = σ 2<br />

dato<br />

Var[ ˆ β1] =<br />

V ar[¯v] 1<br />

=<br />

[V ar(Xi)] 2 n<br />

σ2 v<br />

(σ2 X )2 = σ2 u<br />

nσ2 X<br />

Var[(Xi − µX)ui] = E [vi − E(vi)] 2<br />

= E[v 2 i ]<br />

= E[(Xi − µX) 2 u 2 i ]<br />

= E[(Xi − µX) 2 E(u 2 i |Xi)]<br />

= σ 2 Xσ 2 u<br />

da cui Rossisegue <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 27 / 60


Errori standard con omoschedasticità<br />

Errori omoschedastici-Var[ ˆ β0]<br />

La formula per la varianza di ˆ β0 nel caso eteroschedastico<br />

dato che<br />

Var[ ˆ β0] = Var[Hiui]<br />

n[E(H 2 i )]2<br />

<br />

µX<br />

Hi = 1 −<br />

E(X 2 i )<br />

<br />

ˆσ 2 ˆ β0<br />

Xi<br />

E[Hiui] = E[HiE(ui|Xi)] = 0<br />

Var[Hiui] = E[H 2 i u 2 i ]<br />

= E[H 2 i E(u 2 i |Xi)]<br />

= σ 2 uE[H 2 i ]<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 28 / 60


Errori standard con omoschedasticità<br />

Errori omoschedastici–Var[ ˆ β0]<br />

Ora<br />

segue che<br />

H 2 <br />

µX<br />

i = 1 +<br />

= 1 −<br />

E(X 2 i )<br />

<br />

µX<br />

E(X 2 i )<br />

<br />

X 2 i<br />

= 1 − µ2 X<br />

E(X 2 i )<br />

= E(X2 i ) − µ2 X<br />

E(X 2 i )<br />

= σ2 X<br />

E(X 2 i )<br />

σ 2 ˆ β0<br />

= 1<br />

n<br />

<br />

X 2 <br />

µX<br />

i − 2<br />

E(X 2 i )<br />

σ2 σ<br />

X<br />

2 u<br />

E(X 2 i )<br />

<br />

X 2 i<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 29 / 60


Errori standard con omoschedasticità<br />

Due formule per gli errori standard<br />

Errori standard nel caso di omoschedasticità:<br />

ˆσ β1<br />

ˆ =<br />

<br />

1 <br />

n i X2 <br />

i s2 u<br />

<br />

i (Xi − ¯ X) 2<br />

<br />

ˆσ ˆ β1 =<br />

s 2 u<br />

<br />

i (Xi − ¯ X) 2<br />

Errori standard per l’omoschedasticità sono validi solo se gli errori<br />

sono omoschedastici.<br />

Gli errori standard consueti – per differenziare i due, è<br />

convenzione chiamarli errori standard robusti<br />

all’eteroschedasticità, poichè sono validi a prescindere<br />

dall’eteroschedasticità o meno degli errori.<br />

Il principale vantaggio degli errori standard per l’omoschedasticità<br />

pura è che la formula è più <strong>semplice</strong>. Lo svantaggio, però, è che la<br />

formula è corretta solo se gli errori sono omoschedastici.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 30 / 60


Errori standard con omoschedasticità<br />

Implicazioni pratiche...<br />

La formula dell’omoschedasticità pura per l’errore standard di e la<br />

formula “robusta all’eteroschedasticità” sono diverse - quindi, in<br />

generale, si ottengono errori standard diversi utilizzando formule<br />

differenti.<br />

Gli errori standard per l’omoschedasticità pura sono<br />

l’impostazione predefinita nei software di regressione - a volte<br />

l’unica impostazione (per esempio in Excel). Per ottenere gli errori<br />

standard ”robusti all’eteroschedasticità” generale occorre<br />

modificare l’impostazione di default.<br />

Se non si modifica l’impostazione di default e vi è<br />

eteroschedasticità, gli errori standard (e la statistica-t e<br />

gli intervalli di confidenza) saranno errati - generalmente,<br />

gli SE per l’omoschedasticità pura sono troppo piccoli.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 31 / 60


Errori standard con omoschedasticità<br />

Il punto essenziale<br />

Se gli errori sono omoschedastici o eteroschedastici e si utilizzano<br />

errori standard robusti all’eteroschedasticità, va bene<br />

Se gli errori sono eteroschedastici e si utilizza la formula<br />

dell’omoschedasticità pura per gli errori standard, gli errori<br />

standard saranno errati (lo stimatore dell’omoschedasticità pura<br />

della varianza di β1 è incoerente in presenza di eteroschedasticità).<br />

Le due formule coincidono (quando n è grande) nel caso speciale di<br />

omoschedasticità<br />

Quindi si dovrebbero sempre utilizzare errori standard robusti<br />

all’eteroschedasticità.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 32 / 60


Errori standard con omoschedasticità<br />

Fondamenti teorici dei minimi quadrati ordinari<br />

Abbiamo già appreso molto sugli stimatori dei minimi quadrati<br />

ordinari: lo stimatore OLS è non distorto e consistente; abbiamo<br />

una formula per gli errori standard robusti all’eteroschedasticità e<br />

possiamo costruire intervalli di confidenza e statistiche di test.<br />

Una buona ragione per utilizzare i minimi quadrati ordinari è<br />

anche l’impiego universale, perciò gli altri saranno in grado di<br />

capire ciò che fate. In effetti, l’OLS è il linguaggio dell’analisi di<br />

regressione, e se utilizzate uno stimatore diverso, parlerete un<br />

linguaggio differente.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 33 / 60


Teorema di Gauss-Markov<br />

Eppure potreste ancora chiedervi...<br />

Tutto quanto detto è davvero una buona ragione per utilizzare<br />

OLS? Non esistono altri stimatori che potrebbero essere migliori –<br />

in particolare che potrebbero avere una varianza inferiore?<br />

Inoltre, che ne è stato della distribuzione t di Student?<br />

Ora risponderemo a queste domande – ma per farlo abbiamo<br />

bisogno di assunzioni più forti delle tre relative ai minimi quadrati<br />

che abbiamo già visto.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 34 / 60


Teorema di Gauss-Markov<br />

Le assunzioni dei minimi quadrati estese<br />

Consistono nelle tre assunzioni dei minimi quadrati, più altre due:<br />

1 E[ui|Xi] = 0, i = 1, 2, . . . , n;<br />

2 (Xi, Yi), i = 1, 2, . . . , n, sono i.i.d.;<br />

] < ∞;<br />

3 Gli outlier sono rari E[Y 4<br />

i ] < ∞, E[X4 i<br />

4 ui è omoschedastico<br />

5 ui ha distribuzione N(0, σ2 )<br />

Le assunzioni 4 e 5 sono più restrittive – perciò si applicano a un<br />

numero inferiori di casi pratici. Tuttavia, facendo queste<br />

assunzioni, determinati calcoli matematici si semplificano e si<br />

possono dimostrare risultati più robusti –che valgono se tali<br />

assunzioni aggiuntive sono vere.<br />

Iniziamo con una discussione sull’efficienza dello stimatore OLS<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 35 / 60


Teorema di Gauss-Markov<br />

Efficienza dello stimatore OLS, parte I: il teorema di<br />

Gauss-Markov<br />

Nelle assunzioni dei minimi quadrati ordinari estese 1-4 (le tre di base,<br />

più l’omoschedasticità), ˆ β1 ha la varianza minima tra tutti gli stimatori<br />

lineari (stimatori che sono funzioni lineari di Y1, Y2, . . . , Yn. Questo è il<br />

teorema di Gauss-Markov.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 36 / 60


Teorema di Gauss-Markov<br />

Il teorema di Gauss-Markov<br />

Date le condizioni<br />

1 E[ui|X1, . . . , Xn] = 0, i = 1, 2, . . . , n<br />

2 Var[ui|X1, . . . , Xn] = σ 2 u < ∞<br />

3 E[uiuj|X1, . . . , Xn] = 0, i = j, i, j = 1, 2, . . . , n<br />

Le condizioni di G-M derivano dalle tre assunzioni degli OLS<br />

1 Poichè le osservazioni sono i.i.d. (A.2)<br />

E[ui|X1, . . . , Xn] = E[ui|Xi] = 0, i = 1, 2, . . . , n<br />

2 L’A.3 (monenti quarti finiti) assicura che σ 2 u < ∞<br />

3 Per l’A.1 E[uiuj|X1, . . . , Xn] = E[uiuj|Xi, Xj], ∀i = j,<br />

i, j = 1, 2, . . . , n. Per la stessa A.2<br />

E[uiuj|Xi, Xj] = E[ui|Xi]E[uj|Xj] = 0, ∀i = j<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 37 / 60


Teorema di Gauss-Markov<br />

Il teorema di Gauss-Markov<br />

ˆβ1 è uno stimatore <strong>lineare</strong>:<br />

ˆβ1 =<br />

n<br />

i=1 (Xi − ¯ X)Yi<br />

n i=1 (Xi − ¯ <br />

=<br />

X) 2<br />

i<br />

âiYy<br />

dove<br />

(Xi −<br />

âi =<br />

¯ X)<br />

n i=1 (Xi − ¯ X) 2<br />

i pesi âi, i = 1, 2, . . . , n dipendono da X1, . . . , Xn ma non da<br />

Y1, Y2, . . . , Yn, lo stimatore OLS hatβ1 è uno stimatore <strong>lineare</strong>.<br />

Sotto le condizioni di G-M lo stimatore OLS è<br />

condizionatamente non distorto<br />

la varianza della distribuzione di ˆ β1 condizionata a X1, X2, . . . , Xn<br />

Var[ ˆ β1|X1, . . . , Xn] =<br />

σ 2 u<br />

<br />

i=1 (Xi − ¯ X) 2<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 38 / 60


Teorema di Gauss-Markov<br />

Il teorema di Gauss-Markov-Prova<br />

Per ogni stimatore <strong>lineare</strong> del tipo<br />

˜β1 = β0<br />

Per la prima condizione<br />

E[<br />

n<br />

i=1<br />

ai<br />

˜β1 =<br />

<br />

+ β1<br />

n<br />

aiXi|X1, . . . , Xn] =<br />

i=1<br />

E[ ˜ β1|X1, . . . , Xn] = β0<br />

n<br />

i=1<br />

aiYi<br />

n<br />

i=1<br />

aiXi<br />

<br />

+<br />

n<br />

i=1<br />

aiui<br />

n<br />

aiE[ui|X1, . . . , Xn] = 0<br />

i=1<br />

n<br />

i=1<br />

ai<br />

<br />

+ β1<br />

n<br />

i=1<br />

aiXi<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 39 / 60


Teorema di Gauss-Markov<br />

Il teorema di Gauss-Markov-Prova<br />

Affinchè ˜ β1 sia condizionamente non distorto:<br />

E[ ˜ <br />

n<br />

<br />

n<br />

β1|X1, . . . , Xn] = β0 ai + β1<br />

deve valere che<br />

da cui<br />

n<br />

ai = 0<br />

i=1<br />

i=1<br />

˜β1 − β1 =<br />

n<br />

aiXi = 1<br />

i=1<br />

n<br />

i=1<br />

aiui<br />

i=1<br />

aiXi<br />

<br />

= β1<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 40 / 60


Teorema di Gauss-Markov<br />

Il teorema di Gauss-Markov-Prova<br />

Sotto le condizioni del Teorema, la varianza condizionale di ˜ β1<br />

<br />

<br />

n<br />

<br />

Var ˜β1|X1, . . . , Xn = Var aiui|X1, . . . , Xn<br />

i=1<br />

= <br />

aiaj Cov [ui, uj|X1, . . . , Xn]<br />

i<br />

Applicando la seconda e terza condizione di G-M, i termini incrociati<br />

nella doppia sommatoria si annullano<br />

inoltre<br />

j<br />

n<br />

Var[ ˜ β1|X1, . . . , Xn] = σ 2 u a<br />

i=1<br />

2 i<br />

n<br />

Var[ ˆ β1|X1, . . . , Xn] = σ 2 u â<br />

i=1<br />

2 i<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 41 / 60


Teorema di Gauss-Markov<br />

Il teorema di Gauss-Markov-Prova<br />

Sia<br />

quindi<br />

<br />

i<br />

a 2 i = <br />

<br />

âidi =<br />

i<br />

i<br />

ai = âi + di<br />

(âi + di) 2 = <br />

<br />

i (Xi − ¯ X)di<br />

<br />

i (Xi − ¯ X) 2<br />

i<br />

â 2 i + 2 <br />

i<br />

âidi + <br />

<br />

i =<br />

diXi − ¯ X <br />

i di<br />

<br />

i (Xi − ¯ X) 2<br />

<br />

( aiXi − âiXi) − ¯ X ( ai − âi) <br />

=<br />

= 0<br />

<br />

i (Xi − ¯ X) 2<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 42 / 60<br />

i<br />

d 2 i


Teorema di Gauss-Markov<br />

Il teorema di Gauss-Markov-Prova<br />

Pertanto,<br />

segue che<br />

σ 2 u<br />

<br />

i<br />

a 2 i = σ 2 u<br />

<br />

i<br />

â 2 i + σ 2 u<br />

<br />

i<br />

d 2 i<br />

= Var[ ˆ β1|X1, . . . , Xn] + σ 2 u<br />

n<br />

<br />

Var[ ˜ β1|X1, . . . , Xn] = σ 2 u a<br />

i=1<br />

2 i = Var[ ˆ β1|X1, . . . , Xn] + σ 2 u<br />

Var[ ˜ β1|X1, . . . , Xn] − Var[ ˆ β1|X1, . . . , Xn] = σ 2 u<br />

i<br />

d 2 i<br />

<br />

<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 43 / 60<br />

i<br />

d 2 i<br />

i<br />

d 2 i


Teorema di Gauss-Markov<br />

Il teorema di Gauss-Markov-Prova<br />

Lo stimatore ˜ β1 ha varianza condizionata maggiore di quella di ˆ β1 se di<br />

è diverso da zero per ogni i = 1, 2, . . . , n. Ma se di = 0, ∀i, allora<br />

ai = âi e ˜ β1 = ˆ β1<br />

Conclusione: OLS è BLUE (best linear unbised estimator)<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 44 / 60


Teorema di Gauss-Markov<br />

Efficienza dello stimatore OLS, parte II<br />

In tutte e cinque le assunzioni dei minimi quadrati estese -<br />

compresa la distribuzione normale degli errori - β1 ha la varianza<br />

più piccola di tutti gli estimatori consistenti (funzioni lineari o non<br />

lineari di Y1, Y2, . . . , Yn), per n → ∞.<br />

Questo è un risultato assai sorprendente - afferma che, se (in<br />

aggiunta alle assunzioni dei minimi quadrati 1-3) gli errori sono<br />

omoschedastici e normalmente distribuiti, OLS è la scelta migliore<br />

rispetto a qualsiasi altro stimatore consistente. E poichè uno<br />

stimatore che non sia consistente è una scelta scadente, ciò afferma<br />

che l’OLS è davvero la miglior scelta che si possa fare - se valgono<br />

tutte e cinque le assunzioni dei minimi quadrati estese. (La<br />

dimostrazione di questo risultato va oltre l’ambito di questo corso<br />

e non è fornita nel testo).<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 45 / 60


Teorema di Gauss-Markov<br />

Alcuni aspetti critici di OLS<br />

I risultati precedenti sono impressionanti, tuttavia tali risultati - e<br />

lo stimatore OLS - hanno limitazioni importanti.<br />

Il teorema di G-M non è poi così avvincente:<br />

La condizione di omoschedasticità spesso non regge<br />

(l’omoschedasticità è speciale)<br />

Il risultato vale solo per gli stimatori lineari - solo un piccolo<br />

sottoinsieme di stimatori (ulteriori informazioni a breve)<br />

Il risultato di ottimalità più robusto (”parte II” precedente)<br />

richiede errori normali omoschedastici – cosa non plausibile nelle<br />

applicazioni (si pensi ai dati delle retribuzioni orarie!)<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 46 / 60


Teorema di Gauss-Markov<br />

Inferenza con omoschedasticità e gaussianità<br />

1 E[ui|Xi] = 0, i = 1, 2, . . . , n;<br />

2 (Xi, Yi), i = 1, 2, . . . , n, sono i.i.d.;<br />

3 Gli outlier sono rari E[Y 4<br />

i ] < ∞, E[X4 i ] < ∞;<br />

4 ui è omoschedastico<br />

5 ui ha distribuzione N(0, σ 2 )<br />

Se tutte le cinque assunzioni valgono, allora:<br />

ˆβ0 e ˆ β1 sono normalmente distribuiti per tutti gli n<br />

la statistica-t ha una distribuzione t di Student con n − 2 gradi di<br />

libertà, questo vale esattamente per tutti gli n.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 47 / 60


Teorema di Gauss-Markov<br />

Distribuzione campionaria gaussiana di ˆ β1<br />

dove<br />

ˆβ1 − β1 =<br />

wi =<br />

1<br />

n<br />

= 1<br />

n<br />

<br />

i (Xi − ¯ X)ui<br />

<br />

i (Xi − ¯ X) 2<br />

<br />

i<br />

wiui<br />

(Xi − ¯ X)<br />

n<br />

i=1 (Xi − ¯ X) 2<br />

Qual è la distribuzione di una media ponderata di normali?<br />

E[ ˆ β1 − β1] = 1 <br />

wiE[ui] = 0<br />

n<br />

Var[ ˆ β1 − β1] = 1<br />

n<br />

i<br />

2 E<br />

⎡<br />

<br />

⎣<br />

i<br />

wiui<br />

2 ⎤<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 48 / 60<br />


Teorema di Gauss-Markov<br />

Distribuzione campionaria gaussiana di ˆ β1<br />

Var[ ˆ β1 − β1] = 1<br />

n 2<br />

<br />

i<br />

w 2 i E[u 2 i ] = 1<br />

n 2 σ2 u<br />

<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 49 / 60<br />

i<br />

w 2 i


Assunzioni<br />

Teorema di Gauss-Markov<br />

Assunzioni MRL <strong>semplice</strong>:<br />

Yi = β0 + β1Xi + ui i = 1, 2, . . . , n<br />

E[ui|Xi] = 0<br />

{Xi, Yi} i.i.d<br />

Xi, ui momenti quarti finiti non nulli e finiti.<br />

Var[ui|Xi] = σ 2 u, omoschedasticità<br />

Distribuzione di ui data Xi è normale (errori normali):<br />

ui ∼ i.i.d.N(0, σ 2 u).<br />

Stimatori OLS:<br />

ˆβ0 = ¯ Y − ˆ β1 ¯ X<br />

n ˆβ1<br />

i=1 =<br />

(Yi − ¯ Y )(Xi − ¯ X)<br />

n i=1 (Xi − ¯ X) 2<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 50 / 60


Teorema di Gauss-Markov<br />

Distribuzioni campionarie esatte<br />

Quando gli errori (ui) si distribuiscono normalmente e sono<br />

omoschedastici le distribuzioni campionarie degli stimatori OLS e delle<br />

statistiche test sono note:<br />

Lo stimatore OLS si distribuisce in modo normale.<br />

la statistica t si distribuisce come una t di Student.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 51 / 60


Distribuzione di ˆ β1<br />

dove<br />

Teorema di Gauss-Markov<br />

ˆβ1|X1, . . . , Xn ∼ N(β1, σ 2 ˆ β1|X )<br />

σ 2 ˆ β1|X =<br />

<br />

i=1 (Xi − ˆ X) 2<br />

Per dimostrare che la distribuzione condizionale è normale, si noti che<br />

ˆβ1 − β1 è una media ponderata di u1, . . . , un<br />

ˆβ1 = β1 +<br />

1<br />

n<br />

1<br />

n<br />

σ 2 u<br />

<br />

i=1 (Xi − ¯ X)ui<br />

<br />

i=1 (Xi − ¯ X) 2<br />

Medie ponderate di variabili casuali che si distribuiscono in modo<br />

normale si distribuiscono normalmente.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 52 / 60


Teorema di Gauss-Markov<br />

Non distorsione di ˆ β1<br />

Abbiamo visto che:<br />

E[ ˆ β1|X1, . . . , Xn] = β1 +<br />

= β1<br />

ˆβ1 è condizionatamente non distorto.<br />

n<br />

i=1 (Xi − ¯ X)E[ui|X1, . . . , Xn]<br />

n<br />

i=1 (Xi − ¯ X) 2<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 53 / 60


Teorema di Gauss-Markov<br />

Varianza condizionale di ˆ β1<br />

Per mostrare che<br />

σ 2 ˆ β1|X =<br />

σ 2 u<br />

<br />

i=1 (Xi − ˆ X) 2<br />

sfruttiamo l’ipotesi che ui ∼ i.i.d.N(0, σ2 u)<br />

Var[ ˆ n i=1 β1|X1, . . . , Xn] = Var<br />

(Xi − ¯ X)ui<br />

n i=1 (Xi − ¯ X) 2 |X1,<br />

<br />

. . . , Xn<br />

n i=1 =<br />

(Xi − ¯ X) 2 Var[ui|X1, . . . , Xn]<br />

n =<br />

=<br />

n i=1 (Xi − ¯ X) 2σ2 u<br />

n i=1 (Xi − ¯ X) 22 σ 2 u<br />

n<br />

i=1 (Xi − ¯ X) 2<br />

i=1 (Xi − ¯ X) 2 2<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 54 / 60


Teorema di Gauss-Markov<br />

Distribuzione della statistica t<br />

La statistica t per verificare l’ipotesi nulla β1 = β1,0 è<br />

t = ˆ β1 − β1,0<br />

SE( ˆ β1)<br />

Sostituendo la formula per SE( ˆ β1)<br />

<br />

SE( ˆ β1) ≡ ˆσ ˆ β1 =<br />

s 2 u<br />

n<br />

i=1 (Xi − ¯ X) 2<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 55 / 60


Teorema di Gauss-Markov<br />

Distribuzione della statistica t<br />

ˆβ1 − β1,0<br />

t = <br />

= <br />

s2 u<br />

n<br />

i=1 (Xi− ¯ X) 2<br />

ˆβ1 − β1,0<br />

s2 u<br />

n<br />

i=1 (Xi− ¯ X) 2<br />

σ2 u<br />

σ2 u<br />

ˆβ1 − β1,0<br />

= <br />

σ2 u<br />

n<br />

i=1 (Xi− ¯ X) 2<br />

/<br />

<br />

= <br />

s2 u<br />

σ2 u<br />

= ( ˆ β1 − β1,0)/σβ1|X ˆ<br />

, W =<br />

W/(n − 2)<br />

ˆβ1 − β1,0<br />

σ2 u<br />

n<br />

i=1 (Xi− ¯ X) 2<br />

<br />

s2 u<br />

σ2 u<br />

n<br />

û 2 i<br />

σ<br />

i=1<br />

2 u<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 56 / 60


Teorema di Gauss-Markov<br />

Distribuzione della statistica t<br />

Sotto l’ipotesi nulla<br />

quindi<br />

ˆβ1|X1, . . . , Xn ∼ N(β1, σ 2 ˆ β1|X )<br />

ˆβ1 − β1,0<br />

|X1, . . . , Xn ∼ N(0, 1)<br />

σ ˆ β1|X<br />

il numeratore della statistica t è N(0, 1).<br />

La variabile casuale W si distribuisce come una chi-quadrato con n − 2<br />

gradi di libertà. W è indipendente da ˆ β1−β1,0<br />

σ .<br />

β1 ˆ |X<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 57 / 60


Teorema di Gauss-Markov<br />

Distribuzione della statistica t<br />

Lo stimatore s 2 u ha una distribuzione proporzionale a una distribuzione<br />

chi-quadrato con n − 2 gradi di libertà:<br />

quindi<br />

s 2 u ∼ σ2 u<br />

n − 2 × χ2 n−2<br />

s2 u<br />

σ2 u<br />

∼ 1<br />

n − 2 × χ2 n−2<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 58 / 60


Teorema di Gauss-Markov<br />

Distribuzione della statistica t<br />

Se Z ha una distribuzione normale standard, se W ∼ χ 2 m e Z e W sono<br />

indipendentemente distribuite, allora la variabile casuale<br />

Nel caso della statistica t<br />

t =<br />

Z<br />

W/m ∼ tm<br />

N(0, 1)<br />

<br />

χ2 n−2 /(n − 2)<br />

∼ tn−2<br />

Per n < 30 i valori critici t possono essere un po’ più grandi dei<br />

valori critici N(0, 1)<br />

Per n > 50 o simile, la differenza nelle distribuzioni tn2 e N(0, 1) è<br />

trascurabile.<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 59 / 60


Teorema di Gauss-Markov<br />

Implicazioni pratiche<br />

Se n < 50 e credete davvero che, per la vostra applicazione, u sia<br />

omoschedastico e normalmente distribuito, utilizzate tn−2 invece<br />

dei valor critici N(0, 1) per le verifiche di ipotesi e gli intervalli di<br />

confidenza.<br />

Nella maggior parte delle applicazioni econometriche, non vi è<br />

alcun motivo di ritenere che u sia omoschedastico e normale -<br />

solitamente vi sono ottime ragioni per credere che né l’una né<br />

l’altra assunzione valga.<br />

Fortunatamente, nelle applicazioni moderne n > 50, così possiamo<br />

affidarci ai risultati per n grande presentati in precedenza, basati<br />

sul teorema limite centrale, per eseguire verifiche di ipotesi e<br />

costruire intervalli di confidenza usando l’approssimazione normale<br />

per n grande<br />

Rossi <strong>Regressione</strong> <strong>lineare</strong> <strong>semplice</strong> Econometria - 2013 60 / 60

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!