Regressione lineare semplice: inferenza - Economia

Regressione lineare semplice: inferenza 

Eduardo Rossi 2 

2 Università di Pavia (Italy) 

Marzo 2013 

Rossi Regressione lineare semplice Econometria - 2013 1 / 60

Outline 

1 Introduzione 

2 Verifica di ipotesi 

3 Intervalli di confidenza 

4 Variabili binarie 

5 Omoschedasticità 

6 Errori standard con omoschedasticità 

7 Teorema di Gauss-Markov 


Sommario 

L’errore standard di ˆ β1 

Introduzione 

Verifiche di ipotesi concernenti β1 

Intervalli di confidenza per β1 

La regressione quando X è variabile binaria 

Eteroschedasticità e omoschedasticità 

Efficienza OLS e distribuzione t di Student 


Sommario 

Introduzione 

Vogliamo conoscere la pendenza della retta di regressione. Disponiamo 

dei dati di un campione, perciò sussiste l’incertezza dovuta al 

campionamento. Per raggiungere l’obiettivo si procede in cinque 

passaggi: 

Definire la popolazione oggetto di interesse 

Fornire uno stimatore di questa popolazione 

Derivare la distribuzione campionaria dello stimatore (ciò richiede 

alcune assunzioni). In grandi campioni questa distribuzione 

campionaria sarà normale per il TLC. 

La radice quadrata della varianza stimata della distribuzione 

campionaria è l’errore standard (SE) dello stimatore 

Utilizzare SE per costruire statistiche- t (per le verifiche di ipotesi) 

e intervalli di confidenza. 


Introduzione 

L’oggetto di interesse: β1 

Yi = β0 + β1Xi + ui i = 1, 2, . . . , n 

β1 = ∆Y 

∆Y 

per una variazione autonoma in X (effetto casuale). Sotto le 

assunzioni degli OLS: 

1 E[ui|Xi] = 0 (prima assunzione) 

2 {Yi, Xi}, i = 1, 2, . . . , n sono i.i.d. (seconda assunzione). 

3 X, Y hanno momenti quarti finiti non nulli (terza assunzione) 


Introduzione 

La distribuzione campionaria di ˆ β1 

Sotto le assunzioni dei minimi quadrati, per n grande, la distribuzione 

di ˆ β1 è approssimata da 

 

ˆβ1 ≈ N β1, 

σ2 v 

n(σ2 X )2 

 


Verifica di ipotesi 

Verifica di ipotesi ed errore standard 

L’obiettivo è di verificare un’ipotesi, quale β1 = 0, utilizzando i dati - 

per determinare sperimentalmente se l’ipotesi (nulla) è corretta. 

Impostazione generale 

Ipotesi nulla e alternativa bilaterale: 

H0 : β1 = β1,0 vs. H1 : β1 = β1,0 

dove β1,0 è il valore ipotizzato sotto l’ipotesi nulla. 

Ipotesi nulla e alternativa unilaterale: 

H0 : β1 = β1,0 vs. H1 : β1 < β1,0 



Soluzione generale: costruire la statistica-t 

In generale: 

t = 

stimatore − valore ipotizzato 

errore standard dello stimatore 

dove l’SE dello stimatore è la radice quadrata di uno stimatore 

della varianza dello stimatore. 

Per verificare la media di Y : 

Per verificare β1 

t = ¯ Y − µY,0 

sY / √ n 

t = ˆ β1 − β1,0 

SE( ˆ β1) , 

dove SE( ˆ β1) è la radice quadrata di uno stimatore della varianza 

della distribuzione campionaria di ˆ β1. 



Formula per calcolare lo SE( ˆ β1) 

Si ricordi l’espressione per la varianza di (n grande): 

Var [ ˆ β1] = Var [(Xi − µX)ui] 

n(σ2 X )2 

, 

dove vi = (Xi − µX)ui. Lo stimatore della varianza di ˆ β1 sostituisce i 

valori di popolazione ignoti di σ2 v e σ2 X con gli stimatori ricavati dai 

dati: 

ˆσ 2 ˆ β1 

= 1 

n 

= 1 

n 

stimatore di σ2 v 

(stimatore di σ2 X )2 

1 

n 

1 

n−2 

 

i ˆv2 i 

 

i (Xi − ¯ X) 2 



Formula per calcolare lo SE( ˆ β0) 

Dato 

lo stimatore 

dove 

Var[ ˆ β0] = Var[Hiui] 

n[E(H 2 i )]2 

 

µX 

Hi = 1 − 

E(X 2 i ) 

 

ˆσ 2 ˆ β0 

= 1 

n 

ˆHi = 1 − 

 

Xi 

1 

n−2 i=1 ˆ H2 i û2i 

1 n n i=1 ˆ H2 2 i 

 

¯X 

1 

n i=1 X2 i 

Rossi Regressione lineare semplice Econometria - 2013 10 / 60 

 

Xi


Formula per calcolare lo SE 

E’ leggermente complicato, tuttavia: 

lo è meno di quanto sembri. La varianza Var[v] è stimata dal 

numeratore, mentre Var[X] 2 è stimata dal denominatore. 

Perchè la correzione dei gradi di libertà n − 2? Perchè sono stati 

stimati due coefficienti β0 e β1. 

SE( ˆ β1) viene calcolato dal software di regressione 


Riepilogo 

Per verificare: 

Costruire la statistica-t 


H0 : β1 = β1,0 vs H1 : β1 = β1,0 

t = ˆ β1 − β1,0 

SE( ˆ β1) = ˆ β1 − β1,0 

ˆσ 2 ˆβ1 

Si rifiuta al livello di significatività del 5% se |t| > 1, 96. 

Il valore p è p = P r[|t| > |t act |] = probabilità nell’area delle code 

della normale, cioè > |t act |; 

si rifiuta al livello di significatività del 5% se il valore p è < 5%. 

Questa procedura si affida all’approssimazione di n grande che ˆ β1 

sia distribuito normalmente; in generale n = 50 è grande 

abbastanza per un’approssimazione eccellente. 



Esempio: Punteggi nei test e STR dati della California 

Regressione lineare stimata: 

 

Test Score = 698, 9 − 2, 28 ST R 

Il software di regressione segnala gli errori standard: 

SE( ˆ β0) = 10, 4 SE( ˆ β1) = 0, 52 

Verifica dell’ipotesi nulla β1,0 = 0. Rapporto t 

t = ˆ β1 − β1,0 

SE( ˆ β1) 

= −2, 28 − 0 

0, 52 

= −4, 38 

Il livello di significatività bilaterale dell’1 % è 2,58, perciò 

rifiutiamo l’ipotesi nulla al livello di significatività dell’1%. 

In alternativa, possiamo calcolare il valore p... 

Il valore p basato sull’approssimazione normale standard con n 

grande alla statistica t è 0,00001 (10–5) 


P-value 



Intervalli di confidenza 

Intervalli di confidenza per β1 

Si ricordi che un intervallo di confidenza al 95% equivale a: 

la serie di punti che non può essere rifiutata al livello di 

significatività del 5%; 

una funzione polidroma (un intervallo funzione dei dati) che 

contiene il reale valore del parametro il 95% delle volte nei 

campioni ripetuti. 

Poichè la statistica t per β1 è N(0, 1) in grandi campioni, la 

costruzione di un intervallo di confidenza al 95% per β1 equivale al 

caso della media campionaria: 

intervallo di confidenza al 95% per β1 

{ ˆ β1 ± 1, 96 × SE( ˆ β1)} 



Esempio di intervallo di confidenza 

Retta di regressione stimata 

 

Test Score = 698, 9 − 2, 28 ST R 

SE( ˆ β0) = 10, 4 SE( ˆ β1) = 0, 52 

Intervallo di confidenza al 95% per ˆ β1: 

{ ˆ β1 ± 1, 96SE( ˆ β1)} = {−2, 28 ± 1.96 × 0.52} = {−3, 30; −1, 26} 

Le due affermazioni seguenti sono equivalenti: 

L’intervallo di confidenza al 95% non include lo zero; 

L’ipotesi β1 = 0 è rifiutata al livello del 5%. 



Riepilogo di inferenza statistica 

Stima: 

Gli stimatori OLS hanno approssimativamente distribuzioni 

campionarie normali in grandi campioni 

Verifica: 

H0 : β1 = β1,0 vs β1 = β1,0 (β1,0 è il valore di β1 sotto H0) 

T ( ˆ β1 − β1,0)/SE( ˆ β1) 

valore-p = area sotto la normale standard al di fuori di |t act | (n 

grande) 

Intervalli di confidenza: 

l’intervallo di confidenza al 95% per β1 è { ˆ β1 ± 1, 96 × SE( ˆ β1)} 

Questo è l’insieme di β1 che non è rifiutato al livello del 5% 

L’IC al 95% contiene il β1 reale nel 95% di tutti i campioni. 


Variabili binarie 

La regressione quando X è una variabile binaria 

A volte un regressore è binario: 

 

1 se classe piccola 

X = 

0 altrimenti 

 

1 

X = 

0 

femmina 

maschio 

 

1 

X = 

0 

se trattato (farmaco sperimentale) 

altrimenti 

I regressori binari sono a volte chiamati variabili dummy. 

Fin qui β1 è stato chiamato ”pendenza” ma ciò non ha senso se la 

variabile X è binaria. 

Come interpretiamo la regressione con un regressore binario? 



Interpretazione delle regressioni con un regressore 

binario 

Quando Xi = 0: 

quando Xi = 1 

quindi 

è pari alla differenza tra medie. 

Yi = β0 + β1Xi + ui 

Yi = β0 + ui 

E[Yi|Xi = 0] = β0 

Yi = β0 + β1 + ui 

E[Yi|Xi = 1] = β0 + β1 

β1 = E[Yi|Xi = 1] − E[Yi|Xi = 0] 


Esempio 

Sia 

Regressione OLS: 


Di = 

1 se ST R ≤ 20 

0 se ST R > 20 

Test Score 

= 650 + 7, 4 × Di 

(1,3) (1,8) 

Dimensione classe Punteggio medio ¯ Y Dev.Stand. (sY ) N 

Piccola STR ≤ 20 657,4 19,4 238 

Grande STR > 20 650 17,9 182 

Differenza tra medie: 

Ypiccola − Ygrande = 657, 4 − 650 = 7, 4 

 

s 

SE = 

2 

p 

19, 42 17, 92 

= + = 1, 8 

238 182 

np 

+ s2 g 

ng 



Riepilogo: regressione quando la variabile X è binaria 

β0 media di Yi quando X = 0 

β0 + β1 = media di Yi quando X = 1 

β1 = differenza tra medie, X =1 meno X = 0 

SE( ˆ β1) ha l’interpretazione consueta 

statistica-t, intervalli di confidenza costruiti come di consueto. 

Questo è un altro modo (facile) per eseguire l’analisi della 

differenza tra medie 

La formulazione della regressione è particolarmente utile quando 

abbiamo regressori supplementari. 


Omoschedasticità 

Eteroschedasticità e omoschedasticità 

Conseguenze dell’omoschedasticità 

Implicazioni per il calcolo degli errori standard 

Che cosa significano questi due termini? 

Se Var[u|X = x] è costante - ossia se la varianza della 

distribuzione di u condizionata a X non dipende da X –allora u è 

detto omoschedastico. In caso contrario, u è eteroschedastico. 


Omoschedasticità 

Esempio: etero/omoschedasticità nel caso di un 

regressore binario 

Errore standard quando le varianze sono ineguali: 

SE = 

 

s 2 p 

np 

+ s2 g 

ng 

Errore standard quando le varianze sono uguali: 

 

SE = sp 

1 

np 

+ 1 

ng 

Vedi SW, Paragrafo 3.6 

s 2 p = (ns − 1)s 2 s + (ng − 1)s 2 g 

np + ng − 2 

sp stimatore di σ 2 quando σ 2 p = σ 2 g. 

Varianze uguali = omoschedasticità 

Varianze ineguali = eteroschedasticità 


Errori standard con omoschedasticità 

Omoschedasticità in un’immagine: 

E[u|X] = 0 (u soddisfa l’assunzione dei minimi quadrati n. 1) 

La varianza di u non dipende da x 



Un esempio con dati reali dall’economica del lavoro 

La retribuzione oraria media rispetto agli anni di istruzione (fonte dati: 

Current Population Survey): 

Eteroschedasticità o omoschedasticità? 



Quale assunzione sulla varianza degli errori? 

Le tre assunzioni dei minimi quadrati: 

E[u|X] = 0 

(Xi, Yi), i = 1, 2, . . . , n, sono i.i.d. 

Gli outlier sono rari 

Eteroschedasticità e omoschedasticità concernono Var[u|X]. Poichè 

non abbiamo assunto esplicitamente gli errori omoschedastici, 

abbiamo ammesso implicitamente l’eteroschedasticità. 



Errori omoschedastici-Var[ ˆ β1] 

Si può dimostrare che l’OLS ha la varianza minore tra gli stimatori 

lineari in Y... un risultato chiamato teorema di Gauss-Markov. 

La formula per la varianza di ˆ β1 e per l’errore standard OLS si 

semplifica: se 

Var[ui|Xi = x] = σ 2 

dato 

Var[ ˆ β1] = 

V ar[¯v] 1 

= 

[V ar(Xi)] 2 n 

σ2 v 

(σ2 X )2 = σ2 u 

nσ2 X 

Var[(Xi − µX)ui] = E [vi − E(vi)] 2 

= E[v 2 i ] 

= E[(Xi − µX) 2 u 2 i ] 

= E[(Xi − µX) 2 E(u 2 i |Xi)] 

= σ 2 Xσ 2 u 

da cui Rossisegue Regressione lineare semplice Econometria - 2013 27 / 60


Errori omoschedastici-Var[ ˆ β0] 

La formula per la varianza di ˆ β0 nel caso eteroschedastico 

dato che 

Var[ ˆ β0] = Var[Hiui] 

n[E(H 2 i )]2 

 

µX 

Hi = 1 − 

E(X 2 i ) 

 

ˆσ 2 ˆ β0 

Xi 

E[Hiui] = E[HiE(ui|Xi)] = 0 

Var[Hiui] = E[H 2 i u 2 i ] 

= E[H 2 i E(u 2 i |Xi)] 

= σ 2 uE[H 2 i ] 



Errori omoschedastici–Var[ ˆ β0] 

Ora 

segue che 

H 2 

µX 

i = 1 + 

= 1 − 

E(X 2 i ) 

 

µX 

E(X 2 i ) 

 

X 2 i 

= 1 − µ2 X 

E(X 2 i ) 

= E(X2 i ) − µ2 X 

E(X 2 i ) 

= σ2 X 

E(X 2 i ) 

σ 2 ˆ β0 

= 1 

n 

 

X 2 

µX 

i − 2 

E(X 2 i ) 

σ2 σ 

X 

2 u 

E(X 2 i ) 

 

X 2 i 



Due formule per gli errori standard 

Errori standard nel caso di omoschedasticità: 

ˆσ β1 

ˆ = 

 

1 

n i X2 

i s2 u 

 

i (Xi − ¯ X) 2 

 

ˆσ ˆ β1 = 

s 2 u 

 

i (Xi − ¯ X) 2 

Errori standard per l’omoschedasticità sono validi solo se gli errori 

sono omoschedastici. 

Gli errori standard consueti – per differenziare i due, è 

convenzione chiamarli errori standard robusti 

all’eteroschedasticità, poichè sono validi a prescindere 

dall’eteroschedasticità o meno degli errori. 

Il principale vantaggio degli errori standard per l’omoschedasticità 

pura è che la formula è più semplice. Lo svantaggio, però, è che la 

formula è corretta solo se gli errori sono omoschedastici. 



Implicazioni pratiche... 

La formula dell’omoschedasticità pura per l’errore standard di e la 

formula “robusta all’eteroschedasticità” sono diverse - quindi, in 

generale, si ottengono errori standard diversi utilizzando formule 

differenti. 

Gli errori standard per l’omoschedasticità pura sono 

l’impostazione predefinita nei software di regressione - a volte 

l’unica impostazione (per esempio in Excel). Per ottenere gli errori 

standard ”robusti all’eteroschedasticità” generale occorre 

modificare l’impostazione di default. 

Se non si modifica l’impostazione di default e vi è 

eteroschedasticità, gli errori standard (e la statistica-t e 

gli intervalli di confidenza) saranno errati - generalmente, 

gli SE per l’omoschedasticità pura sono troppo piccoli. 



Il punto essenziale 

Se gli errori sono omoschedastici o eteroschedastici e si utilizzano 

errori standard robusti all’eteroschedasticità, va bene 

Se gli errori sono eteroschedastici e si utilizza la formula 

dell’omoschedasticità pura per gli errori standard, gli errori 

standard saranno errati (lo stimatore dell’omoschedasticità pura 

della varianza di β1 è incoerente in presenza di eteroschedasticità). 

Le due formule coincidono (quando n è grande) nel caso speciale di 

omoschedasticità 

Quindi si dovrebbero sempre utilizzare errori standard robusti 

all’eteroschedasticità. 



Fondamenti teorici dei minimi quadrati ordinari 

Abbiamo già appreso molto sugli stimatori dei minimi quadrati 

ordinari: lo stimatore OLS è non distorto e consistente; abbiamo 

una formula per gli errori standard robusti all’eteroschedasticità e 

possiamo costruire intervalli di confidenza e statistiche di test. 

Una buona ragione per utilizzare i minimi quadrati ordinari è 

anche l’impiego universale, perciò gli altri saranno in grado di 

capire ciò che fate. In effetti, l’OLS è il linguaggio dell’analisi di 

regressione, e se utilizzate uno stimatore diverso, parlerete un 

linguaggio differente. 


Teorema di Gauss-Markov 

Eppure potreste ancora chiedervi... 

Tutto quanto detto è davvero una buona ragione per utilizzare 

OLS? Non esistono altri stimatori che potrebbero essere migliori – 

in particolare che potrebbero avere una varianza inferiore? 

Inoltre, che ne è stato della distribuzione t di Student? 

Ora risponderemo a queste domande – ma per farlo abbiamo 

bisogno di assunzioni più forti delle tre relative ai minimi quadrati 

che abbiamo già visto. 



Le assunzioni dei minimi quadrati estese 

Consistono nelle tre assunzioni dei minimi quadrati, più altre due: 

1 E[ui|Xi] = 0, i = 1, 2, . . . , n; 

2 (Xi, Yi), i = 1, 2, . . . , n, sono i.i.d.; 

] < ∞; 

3 Gli outlier sono rari E[Y 4 

i ] < ∞, E[X4 i 

4 ui è omoschedastico 

5 ui ha distribuzione N(0, σ2 ) 

Le assunzioni 4 e 5 sono più restrittive – perciò si applicano a un 

numero inferiori di casi pratici. Tuttavia, facendo queste 

assunzioni, determinati calcoli matematici si semplificano e si 

possono dimostrare risultati più robusti –che valgono se tali 

assunzioni aggiuntive sono vere. 

Iniziamo con una discussione sull’efficienza dello stimatore OLS 



Efficienza dello stimatore OLS, parte I: il teorema di 

Gauss-Markov 

Nelle assunzioni dei minimi quadrati ordinari estese 1-4 (le tre di base, 

più l’omoschedasticità), ˆ β1 ha la varianza minima tra tutti gli stimatori 

lineari (stimatori che sono funzioni lineari di Y1, Y2, . . . , Yn. Questo è il 

teorema di Gauss-Markov. 



Il teorema di Gauss-Markov 

Date le condizioni 

1 E[ui|X1, . . . , Xn] = 0, i = 1, 2, . . . , n 

2 Var[ui|X1, . . . , Xn] = σ 2 u < ∞ 

3 E[uiuj|X1, . . . , Xn] = 0, i = j, i, j = 1, 2, . . . , n 

Le condizioni di G-M derivano dalle tre assunzioni degli OLS 

1 Poichè le osservazioni sono i.i.d. (A.2) 

E[ui|X1, . . . , Xn] = E[ui|Xi] = 0, i = 1, 2, . . . , n 

2 L’A.3 (monenti quarti finiti) assicura che σ 2 u < ∞ 

3 Per l’A.1 E[uiuj|X1, . . . , Xn] = E[uiuj|Xi, Xj], ∀i = j, 

i, j = 1, 2, . . . , n. Per la stessa A.2 

E[uiuj|Xi, Xj] = E[ui|Xi]E[uj|Xj] = 0, ∀i = j 



Il teorema di Gauss-Markov 

ˆβ1 è uno stimatore lineare: 

ˆβ1 = 

n 

i=1 (Xi − ¯ X)Yi 

n i=1 (Xi − ¯ 

= 

X) 2 

i 

âiYy 

dove 

(Xi − 

âi = 

¯ X) 

n i=1 (Xi − ¯ X) 2 

i pesi âi, i = 1, 2, . . . , n dipendono da X1, . . . , Xn ma non da 

Y1, Y2, . . . , Yn, lo stimatore OLS hatβ1 è uno stimatore lineare. 

Sotto le condizioni di G-M lo stimatore OLS è 

condizionatamente non distorto 

la varianza della distribuzione di ˆ β1 condizionata a X1, X2, . . . , Xn 

Var[ ˆ β1|X1, . . . , Xn] = 

σ 2 u 

 

i=1 (Xi − ¯ X) 2 



Il teorema di Gauss-Markov-Prova 

Per ogni stimatore lineare del tipo 

˜β1 = β0 

Per la prima condizione 

E[ 

n 

i=1 

ai 

˜β1 = 

 

+ β1 

n 

aiXi|X1, . . . , Xn] = 

i=1 

E[ ˜ β1|X1, . . . , Xn] = β0 

n 

i=1 

aiYi 

n 

i=1 

aiXi 

 

+ 

n 

i=1 

aiui 

n 

aiE[ui|X1, . . . , Xn] = 0 

i=1 

n 

i=1 

ai 

 

+ β1 

n 

i=1 

aiXi 




Affinchè ˜ β1 sia condizionamente non distorto: 

E[ ˜ 

n 

 

n 

β1|X1, . . . , Xn] = β0 ai + β1 

deve valere che 

da cui 

n 

ai = 0 

i=1 

i=1 

˜β1 − β1 = 

n 

aiXi = 1 

i=1 

n 

i=1 

aiui 

i=1 

aiXi 

 

= β1 




Sotto le condizioni del Teorema, la varianza condizionale di ˜ β1 

 

 

n 

 

Var ˜β1|X1, . . . , Xn = Var aiui|X1, . . . , Xn 

i=1 

= 

aiaj Cov [ui, uj|X1, . . . , Xn] 

i 

Applicando la seconda e terza condizione di G-M, i termini incrociati 

nella doppia sommatoria si annullano 

inoltre 

j 

n 

Var[ ˜ β1|X1, . . . , Xn] = σ 2 u a 

i=1 

2 i 

n 

Var[ ˆ β1|X1, . . . , Xn] = σ 2 u â 

i=1 

2 i 




Sia 

quindi 

 

i 

a 2 i = 

 

âidi = 

i 

i 

ai = âi + di 

(âi + di) 2 = 

 

i (Xi − ¯ X)di 

 

i (Xi − ¯ X) 2 

i 

â 2 i + 2 

i 

âidi + 

 

i = 

diXi − ¯ X 

i di 

 

i (Xi − ¯ X) 2 

 

( aiXi − âiXi) − ¯ X ( ai − âi) 

= 

= 0 

 

i (Xi − ¯ X) 2 


i 

d 2 i



Pertanto, 

segue che 

σ 2 u 

 

i 

a 2 i = σ 2 u 

 

i 

â 2 i + σ 2 u 

 

i 

d 2 i 

= Var[ ˆ β1|X1, . . . , Xn] + σ 2 u 

n 

 

Var[ ˜ β1|X1, . . . , Xn] = σ 2 u a 

i=1 

2 i = Var[ ˆ β1|X1, . . . , Xn] + σ 2 u 

Var[ ˜ β1|X1, . . . , Xn] − Var[ ˆ β1|X1, . . . , Xn] = σ 2 u 

i 

d 2 i 

 

 


i 

d 2 i 

i 

d 2 i



Lo stimatore ˜ β1 ha varianza condizionata maggiore di quella di ˆ β1 se di 

è diverso da zero per ogni i = 1, 2, . . . , n. Ma se di = 0, ∀i, allora 

ai = âi e ˜ β1 = ˆ β1 

Conclusione: OLS è BLUE (best linear unbised estimator) 



Efficienza dello stimatore OLS, parte II 

In tutte e cinque le assunzioni dei minimi quadrati estese - 

compresa la distribuzione normale degli errori - β1 ha la varianza 

più piccola di tutti gli estimatori consistenti (funzioni lineari o non 

lineari di Y1, Y2, . . . , Yn), per n → ∞. 

Questo è un risultato assai sorprendente - afferma che, se (in 

aggiunta alle assunzioni dei minimi quadrati 1-3) gli errori sono 

omoschedastici e normalmente distribuiti, OLS è la scelta migliore 

rispetto a qualsiasi altro stimatore consistente. E poichè uno 

stimatore che non sia consistente è una scelta scadente, ciò afferma 

che l’OLS è davvero la miglior scelta che si possa fare - se valgono 

tutte e cinque le assunzioni dei minimi quadrati estese. (La 

dimostrazione di questo risultato va oltre l’ambito di questo corso 

e non è fornita nel testo). 



Alcuni aspetti critici di OLS 

I risultati precedenti sono impressionanti, tuttavia tali risultati - e 

lo stimatore OLS - hanno limitazioni importanti. 

Il teorema di G-M non è poi così avvincente: 

La condizione di omoschedasticità spesso non regge 

(l’omoschedasticità è speciale) 

Il risultato vale solo per gli stimatori lineari - solo un piccolo 

sottoinsieme di stimatori (ulteriori informazioni a breve) 

Il risultato di ottimalità più robusto (”parte II” precedente) 

richiede errori normali omoschedastici – cosa non plausibile nelle 

applicazioni (si pensi ai dati delle retribuzioni orarie!) 



Inferenza con omoschedasticità e gaussianità 

1 E[ui|Xi] = 0, i = 1, 2, . . . , n; 

2 (Xi, Yi), i = 1, 2, . . . , n, sono i.i.d.; 

3 Gli outlier sono rari E[Y 4 

i ] < ∞, E[X4 i ] < ∞; 

4 ui è omoschedastico 

5 ui ha distribuzione N(0, σ 2 ) 

Se tutte le cinque assunzioni valgono, allora: 

ˆβ0 e ˆ β1 sono normalmente distribuiti per tutti gli n 

la statistica-t ha una distribuzione t di Student con n − 2 gradi di 

libertà, questo vale esattamente per tutti gli n. 



Distribuzione campionaria gaussiana di ˆ β1 

dove 

ˆβ1 − β1 = 

wi = 

1 

n 

= 1 

n 

 

i (Xi − ¯ X)ui 

 

i (Xi − ¯ X) 2 

 

i 

wiui 

(Xi − ¯ X) 

n 

i=1 (Xi − ¯ X) 2 

Qual è la distribuzione di una media ponderata di normali? 

E[ ˆ β1 − β1] = 1 

wiE[ui] = 0 

n 

Var[ ˆ β1 − β1] = 1 

n 

i 

2 E 

⎡ 

 

⎣ 

i 

wiui 

2 ⎤ 


⎦


Distribuzione campionaria gaussiana di ˆ β1 

Var[ ˆ β1 − β1] = 1 

n 2 

 

i 

w 2 i E[u 2 i ] = 1 

n 2 σ2 u 

 


i 

w 2 i

Assunzioni 


Assunzioni MRL semplice: 

Yi = β0 + β1Xi + ui i = 1, 2, . . . , n 

E[ui|Xi] = 0 

{Xi, Yi} i.i.d 

Xi, ui momenti quarti finiti non nulli e finiti. 

Var[ui|Xi] = σ 2 u, omoschedasticità 

Distribuzione di ui data Xi è normale (errori normali): 

ui ∼ i.i.d.N(0, σ 2 u). 

Stimatori OLS: 

ˆβ0 = ¯ Y − ˆ β1 ¯ X 

n ˆβ1 

i=1 = 

(Yi − ¯ Y )(Xi − ¯ X) 

n i=1 (Xi − ¯ X) 2 



Distribuzioni campionarie esatte 

Quando gli errori (ui) si distribuiscono normalmente e sono 

omoschedastici le distribuzioni campionarie degli stimatori OLS e delle 

statistiche test sono note: 

Lo stimatore OLS si distribuisce in modo normale. 

la statistica t si distribuisce come una t di Student. 


Distribuzione di ˆ β1 

dove 


ˆβ1|X1, . . . , Xn ∼ N(β1, σ 2 ˆ β1|X ) 

σ 2 ˆ β1|X = 

 

i=1 (Xi − ˆ X) 2 

Per dimostrare che la distribuzione condizionale è normale, si noti che 

ˆβ1 − β1 è una media ponderata di u1, . . . , un 

ˆβ1 = β1 + 

1 

n 

1 

n 

σ 2 u 

 

i=1 (Xi − ¯ X)ui 

 

i=1 (Xi − ¯ X) 2 

Medie ponderate di variabili casuali che si distribuiscono in modo 

normale si distribuiscono normalmente. 



Non distorsione di ˆ β1 

Abbiamo visto che: 

E[ ˆ β1|X1, . . . , Xn] = β1 + 

= β1 

ˆβ1 è condizionatamente non distorto. 

n 

i=1 (Xi − ¯ X)E[ui|X1, . . . , Xn] 

n 

i=1 (Xi − ¯ X) 2 



Varianza condizionale di ˆ β1 

Per mostrare che 

σ 2 ˆ β1|X = 

σ 2 u 

 

i=1 (Xi − ˆ X) 2 

sfruttiamo l’ipotesi che ui ∼ i.i.d.N(0, σ2 u) 

Var[ ˆ n i=1 β1|X1, . . . , Xn] = Var 

(Xi − ¯ X)ui 

n i=1 (Xi − ¯ X) 2 |X1, 

 

. . . , Xn 

n i=1 = 

(Xi − ¯ X) 2 Var[ui|X1, . . . , Xn] 

n = 

= 

n i=1 (Xi − ¯ X) 2σ2 u 

n i=1 (Xi − ¯ X) 22 σ 2 u 

n 

i=1 (Xi − ¯ X) 2 

i=1 (Xi − ¯ X) 2 2 



Distribuzione della statistica t 

La statistica t per verificare l’ipotesi nulla β1 = β1,0 è 

t = ˆ β1 − β1,0 

SE( ˆ β1) 

Sostituendo la formula per SE( ˆ β1) 

 

SE( ˆ β1) ≡ ˆσ ˆ β1 = 

s 2 u 

n 

i=1 (Xi − ¯ X) 2 




ˆβ1 − β1,0 

t = 

= 

s2 u 

n 

i=1 (Xi− ¯ X) 2 

ˆβ1 − β1,0 

s2 u 

n 

i=1 (Xi− ¯ X) 2 

σ2 u 

σ2 u 

ˆβ1 − β1,0 

= 

σ2 u 

n 

i=1 (Xi− ¯ X) 2 

/ 

 

= 

s2 u 

σ2 u 

= ( ˆ β1 − β1,0)/σβ1|X ˆ 

, W = 

W/(n − 2) 

ˆβ1 − β1,0 

σ2 u 

n 

i=1 (Xi− ¯ X) 2 

 

s2 u 

σ2 u 

n 

û 2 i 

σ 

i=1 

2 u 




Sotto l’ipotesi nulla 

quindi 

ˆβ1|X1, . . . , Xn ∼ N(β1, σ 2 ˆ β1|X ) 

ˆβ1 − β1,0 

|X1, . . . , Xn ∼ N(0, 1) 

σ ˆ β1|X 

il numeratore della statistica t è N(0, 1). 

La variabile casuale W si distribuisce come una chi-quadrato con n − 2 

gradi di libertà. W è indipendente da ˆ β1−β1,0 

σ . 

β1 ˆ |X 




Lo stimatore s 2 u ha una distribuzione proporzionale a una distribuzione 

chi-quadrato con n − 2 gradi di libertà: 

quindi 

s 2 u ∼ σ2 u 

n − 2 × χ2 n−2 

s2 u 

σ2 u 

∼ 1 

n − 2 × χ2 n−2 




Se Z ha una distribuzione normale standard, se W ∼ χ 2 m e Z e W sono 

indipendentemente distribuite, allora la variabile casuale 

Nel caso della statistica t 

t = 

Z 

W/m ∼ tm 

N(0, 1) 

 

χ2 n−2 /(n − 2) 

∼ tn−2 

Per n < 30 i valori critici t possono essere un po’ più grandi dei 

valori critici N(0, 1) 

Per n > 50 o simile, la differenza nelle distribuzioni tn2 e N(0, 1) è 

trascurabile. 



Implicazioni pratiche 

Se n < 50 e credete davvero che, per la vostra applicazione, u sia 

omoschedastico e normalmente distribuito, utilizzate tn−2 invece 

dei valor critici N(0, 1) per le verifiche di ipotesi e gli intervalli di 

confidenza. 

Nella maggior parte delle applicazioni econometriche, non vi è 

alcun motivo di ritenere che u sia omoschedastico e normale - 

solitamente vi sono ottime ragioni per credere che né l’una né 

l’altra assunzione valga. 

Fortunatamente, nelle applicazioni moderne n > 50, così possiamo 

affidarci ai risultati per n grande presentati in precedenza, basati 

sul teorema limite centrale, per eseguire verifiche di ipotesi e 

costruire intervalli di confidenza usando l’approssimazione normale 

per n grande

Regressione lineare semplice: inferenza - Economia

Create successful ePaper yourself

Delete template?

Save as template?