21.06.2013 Views

Schema della lezione

Schema della lezione

Schema della lezione

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Schema</strong> <strong>della</strong> <strong>lezione</strong><br />

1. Non correttezza (“bias”) dovuta a variabili<br />

omesse<br />

2. Causalità e analsi di regressione<br />

3. Regressione multipla e OLS<br />

4. Misure di bontà <strong>della</strong> regressione<br />

5. Distribuzione campionaria di OLS<br />

1


Bias dovuta a variabili omesse<br />

(SW Section 6.1)<br />

L’errore u nasce a causa di fattori che influezano Y e che non<br />

sono inclusi nella regressione; per questo motivo ci aspettiamo<br />

che esistano sempre delle variabili omesse.<br />

A volte, l’omissione di queste variabili porta a stimatori OLS<br />

“bias” o non corretti<br />

2


Nel caso di non correttezza dovuta a variabili omesse, il fattore<br />

omesso “Z” deve essere:<br />

1. Un fattore determinante di Y (i.e. Z è parte dt u);<br />

2. Correlato con i regressori X (i.e. corr(Z,X) ≠ 0)<br />

Entrambe queste condizioni devono essere verificate affinchè<br />

l’omissione di Z dia origine a un bias<br />

3


Nell’esempio dei voti:<br />

1. La bravura in inglese (se l’inglese non è lingua madre)<br />

plausibilmente influenza i voti: Z determina Y.<br />

2. Le comunità di immigranti sono di solito meno benestanti<br />

e godono di un minore budget di spesa scolastica – e di<br />

conseguenza un alto STR: Z è correlato con X.<br />

Di conseguenza, 1<br />

ˆ β è non corretto, ma è più grande o più piccolo<br />

del suo valore corretto?<br />

• Cosa suggerisce il senso comune?<br />

• Se non ci sono indizi, si ricorre alla formula…<br />

4


Consideriamo nuovamente la formula<br />

n<br />

∑<br />

ˆ<br />

i=<br />

1<br />

β 1 – β1 = n<br />

∑<br />

i=<br />

1<br />

( X − X) u<br />

i i<br />

( X − X)<br />

i<br />

2<br />

dove vi = (Xi – X )ui ≈ (Xi – µX)ui. Per le Assunzioni già fatte<br />

Assunzione 1,<br />

E[(Xi – µX)ui] = cov(Xi,ui) = 0.<br />

Ma se E[(Xi – µX)ui] = cov(Xi,ui) = σXu ≠ 0?<br />

=<br />

5


In generale (cioè, anche se l’Assunzione #1 non è vera),<br />

1<br />

ˆ<br />

n<br />

1<br />

∑(<br />

X i − X) ui<br />

n i=<br />

1<br />

β – β1 = n<br />

1<br />

∑<br />

2<br />

( X i − X )<br />

n i=<br />

1<br />

p σ Xu → 2<br />

σ X<br />

=moltip. e div. per σu<br />

⎛σ ⎞ ⎛ u σ ⎞ ⎛ Xu σ ⎞ u<br />

= ⎜ ×<br />

σ<br />

⎟ ⎜<br />

X σ Xσ ⎟ = ⎜ ρ Xu<br />

⎝ ⎠ ⎝ u ⎠ σ<br />

⎟ ,<br />

⎝ X ⎠<br />

dove ρXu = corr(X,u). Se l’Assunzione #1 è vera, allora ρXu = 0,<br />

altrimenti….<br />

6


Formula <strong>della</strong> non correttezza<br />

dovuta a variabili omesse<br />

ˆ β 1<br />

p<br />

→ β1 +<br />

⎛σ⎞ ρ<br />

u<br />

⎜<br />

σ<br />

⎟<br />

⎝ X ⎠<br />

Se un fattore omesso Z è sia:<br />

(1) un determinante di Y (cioè, è contenuto in u); sia<br />

(2) correlato con X,<br />

Allora ρXu ≠ 0 e lo stimatore OLS 1<br />

ˆ β non è corretto (e non è<br />

consistente).<br />

Se ignoriamo il fatto che i bambini possono avere una lingua<br />

madre diversa dall’inglese allora abbiamo una stima<br />

dell’effetto classe “gonfiata”<br />

È effettivamente questo quello che succede con i nostri dati?<br />

Xu<br />

7


• I distretti con meno bimbi con lingua madre diversa dall’inglese hanno voti più alti<br />

• I distretti con meno bimbi con lingua madre diversa dall’inglese sono classi più piccole<br />

• Fra i distretti con una percentuale comparabile di bambini con lingua madre diversa<br />

dall’inglese, l’effetto <strong>della</strong> grandezza <strong>della</strong> classe è minore<br />

(la differenza totale fra i test = 7.4)<br />

8


Digressione su causalità e analisi di<br />

regressione<br />

Cosa vogliamo stimare?<br />

• Cos’è con precisione un effetto causale?<br />

• In questo corso, definiamo un effetto causale quello<br />

misurabile da un esperimento casuale ideale e controllato.<br />

9


Esperimento ideale casuale<br />

controllato<br />

• Ideale: tutti i soggetti seguono lo stesso protocollo – tutti<br />

lo eseguono perfettamente, non ci sono errori nel riportare<br />

i dati, etc.<br />

• Casuale: le entità <strong>della</strong> popolazione di interesse sono<br />

casualmente assegnate a un trattamento o a un gruppo di<br />

controllo (non ci sono fattori che confondono)<br />

• Controllato: avere un gruppo di controllo permette di<br />

misurare gli effetti differenziali del trattamento<br />

• Esperimento: il trattamento è assegnato come se fosse<br />

un’esperimento : le entità non hanno scelta, non c’è<br />

causalità inversa.<br />

10


Nel nostro esempio<br />

• Il trattmento non è assegnato casualmente<br />

• Considerando la percentuale di bimbi per cui l’inglese non è<br />

lingua madre. È possibile che Z = PctEL è:<br />

1. un determinante di Y; e<br />

2. correlato con X.<br />

• Il gruppo di controllo e di trattamento sono<br />

sistematicamente diversi – corr(STR,PctEL) ≠ 0<br />

11


• Esperimenti casuali controllati:<br />

• Casuali + controllati significa che ogni differenza fra il<br />

gruppo di controllo e quello di trattamento è casuale – i<br />

gruppi non sono sistematicamente correlati<br />

• Possiamo eliminare la differenza in PctEL fra gruppi grandi<br />

(di controllo) e piccoli (di treatmento) esaminando l’effetto<br />

<strong>della</strong> grandezza <strong>della</strong> classe fra i distretti con lo stesso<br />

PctEL.<br />

• Se l’unica differenza sistematica fra grandi e piccolo gruppi<br />

è in PctEL, allora possiamo riconoscere le caratteristiche di<br />

un esperimento casuale controllato– per ogni gruppo PctEL.<br />

• Questo è un modo di “controllare” per l’effetto di PctEL<br />

quando stimiamo STR.<br />

12


2 modi per rimediare al problema delle variabili omesse<br />

1. Fare esperimento controllato e casuale in cui STR è assegnato<br />

casualmente: PctEL è ancora una determinante dei Voti ma<br />

PctEL è non correlato con STR. (difficile da realizzare in<br />

pratica.<br />

2. Aggiungere PctEL come regressore<br />

13


Il modello di regressione multipla<br />

<strong>della</strong> popolazione<br />

Consideriamo il caso di 2 regressori:<br />

Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n<br />

• Y variabile dependente<br />

• X1, X2 2 variabili independenti (regressori)<br />

• (Yi, X1i, X2i) denotano l’i th osservazione di Y, X1, e X2.<br />

• β0 = intercetta <strong>della</strong> popolazione sconosciuta<br />

• β1 = effetto di una variazione di X1 su Y, tenendo X2 constante<br />

• β2 = effetto di una variazione di X2 su Y, tenendo X1 constante<br />

• ui = errore di regressione (factori omessi)<br />

14


Interpretazione dei coefficienti nella<br />

regressione multipla<br />

Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n<br />

Consideriamo di far variare X1 di ∆X1 tenendo X2 costante:<br />

Retta di regressione <strong>della</strong> popolazione prima <strong>della</strong> variazione:<br />

E dopo:<br />

Y = β0 + β1X1 + β2X2<br />

Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2<br />

15


Prima: Y = β0 + β1(X1 + ∆X1) + β2X2<br />

Dopo: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2<br />

Differenza: ∆Y = β1∆X1<br />

Perciò:<br />

β1 =<br />

β2 =<br />

∆Y<br />

∆ X<br />

, tenendo X2 constante<br />

1<br />

∆Y<br />

∆X<br />

2<br />

, tenendo X1 constante<br />

β0 = valore previsto di Y quando X1 = X2 = 0.<br />

16


Con 2 regressori, lo stimatore OLS risolve il seguente problema:<br />

n<br />

∑<br />

min [ Y − ( b + b X + b X )]<br />

b0, b1, b2 i 0 1 1i 2 2i<br />

i=<br />

1<br />

• Lo stimatore OLS minimizza la differenza fra i valori attuali e<br />

quelli previsti dalla regressione<br />

• Il problema di minimizzazione si risolve utilizzando il calcolo<br />

• Otteniamo così β0 e β1.<br />

2<br />

17


Es:<br />

Voti ˆ = 698.9 – 2.28×STR<br />

Includiamo la nuova variabile (PctEL):<br />

Voti ˆ<br />

= 686.0 – 1.10×STR – 0.65PctEL<br />

• Che succede al coefficiente di STR?<br />

• Perchè? (Nota: corr(STR, PctEL) = 0.19)<br />

18


Multiple regression in STATA<br />

reg testscr str pctel, robust;<br />

Regression with robust standard errors Number of obs = 420<br />

F( 2, 417) = 223.82<br />

Prob > F = 0.0000<br />

R-squared = 0.4264<br />

Root MSE = 14.464<br />

------------------------------------------------------------------------------<br />

| Robust<br />

testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

-------------+----------------------------------------------------------------<br />

str | -1.101296 .4328472 -2.54 0.011 -1.95213 -.2504616<br />

pctel | -.6497768 .0310318 -20.94 0.000 -.710775 -.5887786<br />

_cons | 686.0322 8.728224 78.60 0.000 668.8754 703.189<br />

------------------------------------------------------------------------------<br />

Voti ˆ = 686.0 – 1.10×STR – 0.65PctEL<br />

19


Misure di bontà <strong>della</strong> regressione<br />

Attuale = predetto + residuo: Yi = Y ˆ<br />

i + u ˆi SER = deviation standard di u ˆi (con correzione per g.l.)<br />

RMSE = deviation standard di u ˆi (senza correzione per g.l.)<br />

R 2 = frazione <strong>della</strong> varianza di Y spiegata da X<br />

2<br />

R = “aggiustato R 2 ” = R 2 con correzione per g.l;<br />

2<br />

R < R 2<br />

20


R 2 e 2<br />

R<br />

L’R 2 ha la stessa definizione vista per il caso di un singolo<br />

regressore<br />

R 2 = ESS SSR<br />

= 1− ,<br />

TSS TSS<br />

dove ESS =<br />

n<br />

∑<br />

i=<br />

1<br />

( Yˆ −Yˆ)<br />

i<br />

2<br />

, SSR =<br />

n<br />

∑<br />

2<br />

uˆ<br />

i , TSS =<br />

i=<br />

1<br />

n<br />

i=<br />

1<br />

( Y −Y)<br />

• Ma cresce sempre quando aggiungiamo un regressore<br />

∑<br />

i<br />

2<br />

.<br />

21


L’<br />

2<br />

R corregge questo problema<br />

Aggiustato R 2 :<br />

Nota che<br />

R<br />

2<br />

2<br />

R =<br />

⎛ n −1<br />

⎞SSR<br />

1−<br />

⎜ ⎟<br />

⎝n−k −1⎠TSS<br />

2<br />

R < R 2 , se n è grande diventano molto simili<br />

22


(1)<br />

(2)<br />

Voti ˆ<br />

Voti ˆ<br />

= 698.9 – 2.28×STR,<br />

R 2 = .05, SER = 18.6<br />

= 686.0 – 1.10×STR – 0.65PctEL,<br />

R 2 = .426,<br />

2<br />

R = .424, SER = 14.5<br />

23


Assunzione per la Regressione<br />

Multipla<br />

Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n<br />

1. E(u|X1 = x1,…, Xk = xk) = 0.<br />

2. (X1i,…,Xki,Yi), i =1,…,n, are i.i.d.<br />

4<br />

3. grandi outliers sono rari: X1,…, Xk; E( X 1i)<br />

< ∞,…, E(<br />

∞, E( Y ) < ∞.<br />

4<br />

i<br />

4. non c’è perfetta multicollinearità.<br />

4<br />

X ki)<br />

<<br />

24


Assunzione #1<br />

E(u|X1 = x1,…, Xk = xk) = 0<br />

• Stessa interpretazione del caso di un singolo regressore.<br />

• Se c’è una variabile omessa in (1) allora questa condizione<br />

non è più valida<br />

• Il fallimento di questa condizione conduce al problema <strong>della</strong><br />

bias dovuta a variabili omesse<br />

• La soluzione – se è possibile – è di includerre le variabili<br />

omesse nella regressione.<br />

25


Assunzione #2: (X1i,…,Xki,Yi), i =1,…,n, sono i.i.d.<br />

Soddisfatta se i dati sono raccolti in campionamento casuale<br />

semplice.<br />

Assunzione #3: grandi outliers sono rari<br />

Stessa assunzione vista per il caso di un singolo regressore<br />

26


Assunzione #4: Non c’è multicollinearità perfetta<br />

Multicollinearità perfetta si ha quando un regressore è il<br />

risultato di una funzione lineare esatta di altri regressori<br />

Es: se includiamo STR due volte:<br />

regress testscr str str, robust<br />

Regression with robust standard errors Number of obs = 420<br />

F( 1, 418) = 19.26<br />

Prob > F = 0.0000<br />

R-squared = 0.0512<br />

Root MSE = 18.581<br />

-------------------------------------------------------------------------<br />

| Robust<br />

testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

--------+----------------------------------------------------------------<br />

str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671<br />

str | (dropped)<br />

_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057<br />

-------------------------------------------------------------------------<br />

27


Distribuzione Campionaria dello<br />

stimatore OLS<br />

Sotto le 4 Assunzioni OLS,<br />

• La distribuzione esatta di 1<br />

ˆ β in campioni finiti ha media β1, la<br />

var( 1<br />

ˆ β ) è inversamente proporzionale a n; così come per 2<br />

ˆ β .<br />

• Oltre alla media e varianza l’esatta distribuzione di 1<br />

ˆ β è complicata<br />

a parte che per n grande…<br />

• 1<br />

ˆ β è consistente: 1<br />

ˆ<br />

p<br />

β → β1 (Legge dei grandi numeri)<br />

ˆ β1−E( ˆ β1)<br />

•<br />

si distribuisce approssimativamente come N(0,1)<br />

var( ˆ )<br />

β<br />

1<br />

(CLT)<br />

• Ciò vale per tutti 2<br />

ˆ β ,…, ˆ β k<br />

Niente di nuovo!<br />

28


Multicollinearità Perfetta e<br />

Imperfetta<br />

Ulteriori esempi di multicollinearità perfetta:<br />

Regressione dei Voti su:<br />

• una costante = 1 per tutti i valori,<br />

• D, Di = 1 se STR ≤ 20, e = 0 altrimenti,<br />

• B, Bi = 1 se STR >20, e = 0 altrimenti,<br />

di conseguenza Bi = 1 – Di, multicollinearità perfetta<br />

Dovremmo eliminare l’intercetta o una delle due dummy<br />

29


La trappola “dummy”<br />

Supponiamo di avere un insieme di molte variabili binarie<br />

che sono mutualmente esclusive ed esaustive ( ci sono categorie<br />

multiple e ogni osservazione ricade in una e una sola categoria<br />

(tipicamente quando si inserisce la categoria“altri”). Se<br />

includiamo tutte queste “dummy” e una costante avremmo un<br />

caso di multicollinearità perfetta.<br />

• Soluzione :<br />

1. Omettere uno dei gruppi, oppure<br />

2. Omettere l’intercetta<br />

• Attenzione: cambia l’interpretazione dei coefficienti!!!<br />

30


• multicollinearità perfetta di solito è dovuta a errori nelle<br />

definizioni dei regressori o da stranezze nei dati<br />

• se c’è multicollinearità perfetta, il software automaticamente<br />

elimina uno dei regressori a caso.<br />

• La soluzione è di eliminare uno dei regressori<br />

31


multicollinearità imperfetta: due o più regressori sono altamente<br />

correlati.<br />

Il diagramma a nuvola fra due variabili altamente correlate si<br />

approssima a una linea retta.<br />

32


multicollinearità imperfetta implica che la stima di uno o più<br />

coefficienti di regressione non sarà precisa<br />

• Intuitivamente: il coefficiente di X1 misura l’effetto di X1<br />

tenendo costante X2; ma se X1 e X2 sono correlate, c’è poca<br />

variazione di X1 una volta che teniamo costante X2 – i dati<br />

sono poco informativi su quello che succede quando X1 varia<br />

e X2 è costante, la varianza dello stimatore OLS del<br />

coefficiente di X1 sarà grande.<br />

• multicollinearità imperfetta implica grandi standard error per<br />

uno o più coefficienti OLS<br />

33


Test d’Ipotesi nelle regressioni multiple<br />

ˆ β − E(<br />

ˆ β )<br />

var( ˆ β )<br />

• 1 1<br />

1<br />

~N(0,1) (CLT).<br />

• Le ipotesi su β1 possono essere testate usando la usuale tstatistica,<br />

e gli intervalli di confidenza { ˆ β 1 ± 1.96×SE( ˆ β 1)}.<br />

• Così come per β2,…, βk.<br />

ˆ ˆ β sono generalmente non independentemente e<br />

• β 1 e 2<br />

identicamente distribuite – così come le statistiche-t.<br />

34


Es:<br />

(1)<br />

Voti ˆ<br />

= 698.9 – 2.28×STR<br />

(10.4) (0.52)<br />

(2) Voti ˆ = 686.0 – 1.10×STR – 0.650PctEL<br />

(8.7) (0.43) (0.031)<br />

• Il coefficiente di STR nella (2) è l’effetto che una variazione di<br />

una unità di STR ha su Voti, tenendo costante PctEL nei<br />

distretti.<br />

• Il coefficiente di STR diminuisce<br />

• L’intervallo di confidenza diventa {–1.10 ± 1.96×0.43} = (–<br />

1.95, –0.26)<br />

• la statistica t di βSTR = 0 è t = –1.10/0.43 = –2.54<br />

35


Standard errors in multiple<br />

regression in STATA<br />

reg testscr str pctel, robust;<br />

Regression with robust standard errors Number of obs = 420<br />

F( 2, 417) = 223.82<br />

Prob > F = 0.0000<br />

R-squared = 0.4264<br />

Root MSE = 14.464<br />

------------------------------------------------------------------------------<br />

| Robust<br />

testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

-------------+----------------------------------------------------------------<br />

str | -1.101296 .4328472 -2.54 0.011 -1.95213 -.2504616<br />

pctel | -.6497768 .0310318 -20.94 0.000 -.710775 -.5887786<br />

_cons | 686.0322 8.728224 78.60 0.000 668.8754 703.189<br />

------------------------------------------------------------------------------<br />

Voti ˆ<br />

= 686.0 – 1.10×STR – 0.650PctEL<br />

(8.7) (0.43) (0.031)<br />

Nota che gli standard error sono robusti!!!<br />

36


Test d’ Ipotesi Congiunta<br />

Definiamo Expn = la spesa per alunno:<br />

TestScorei = β0 + β1STRi + β2Expni + β3PctELi + ui<br />

L’ipotesi che le risorse scolastiche non contano corrisponde a<br />

testare che sia STR che Expn non sono significative:<br />

H0: β1 = 0 e β2 = 0<br />

vs. H1: sia β1 ≠ 0 che β2 ≠ 0 o entrambi<br />

Votii = β0 + β1STRi + β2Expni + β3PctELi + ui<br />

37


H0: β1 = 0 e β2 = 0<br />

vs. H1: sia β1 ≠ 0 che β2 ≠ 0 o entrambi<br />

• Un’ipotesi congiunta specifica un valore per più di un<br />

coefficiente, impone un vincolo.<br />

• In generale, una ipotesi congiunta dà origine a q<br />

restrizioni. Nell’esempio, q = 2, e le 2 restrizioni sono β1<br />

= 0 e β2 = 0.<br />

• Utilizziamo la statistica F per accettare o rifiutare l’ipotesi<br />

nulla<br />

38


In grandi campioni, F si distribuisce come una<br />

2<br />

χ q /q.<br />

2<br />

Valori critici di χ q /q nelle apposite tavole statistiche<br />

q valori critici al 5%<br />

1 3.84<br />

2 3.00 (il caso di prima)<br />

3 2.60<br />

4 2.37<br />

5 2.21<br />

p-valore = probabilità nella coda <strong>della</strong> distribuzione <strong>della</strong><br />

oltre la statistica-F attualmente calcolata.<br />

2<br />

χ q /q<br />

39


eg testscr str expn_stu pctel, r;<br />

Regression with robust standard errors Number of obs = 420<br />

F( 3, 416) = 147.20<br />

Prob > F = 0.0000<br />

R-squared = 0.4366<br />

Root MSE = 14.353<br />

------------------------------------------------------------------------------<br />

| Robust<br />

testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]<br />

-------------+----------------------------------------------------------------<br />

str | -.2863992 .4820728 -0.59 0.553 -1.234001 .661203<br />

expn_stu | .0038679 .0015807 2.45 0.015 .0007607 .0069751<br />

pctel | -.6560227 .0317844 -20.64 0.000 -.7185008 -.5935446<br />

_cons | 649.5779 15.45834 42.02 0.000 619.1917 679.9641<br />

------------------------------------------------------------------------------<br />

NOTE<br />

test str expn_stu; The test command follows the regression<br />

( 1) str = 0.0 There are q=2 restrictions being tested<br />

( 2) expn_stu = 0.0<br />

F( 2, 416) = 5.43 The 5% critical value for q=2 is 3.00<br />

Prob > F = 0.0047 Stata computes the p-value for you<br />

40


Le regressioni Vincolate (V) e Non<br />

Vincolate (NV)<br />

Test nel caso di errori omoschedastici:<br />

Es: I coefficienti di STR e Expn sono uguali a zero?<br />

Modello non vincolato (sotto H1):<br />

Votii = β0 + β1STRi + β2Expni + β3PctELi + ui<br />

Modello vincolato (sotto H0):<br />

Votii = β0 + β3PctELi + ui<br />

• Il numero di vincoli sotto H0 è q = 2<br />

• R 2 sarà alto nel caso non vincolato<br />

41


statistica-F nel caso di errori<br />

omoschedastici:<br />

dove:<br />

Fq,n-k–1 =<br />

( 2 2<br />

R )<br />

NV − RV<br />

/ q<br />

( 2<br />

1−<br />

R ) / ( n −k<br />

−1)<br />

NV<br />

NV<br />

2<br />

R V = R 2 del modello vincolato<br />

2<br />

R NV = R 2 del modello non vincolato<br />

q = numero di vincoli sotto ipotesi nulla<br />

k NV = numero di regressori nel modello non ristretto<br />

42


Modello ristretto:<br />

Voti ˆ = 644.7 –0.671PctEL,<br />

(1.0) (0.032)<br />

Modello non ristretto:<br />

2<br />

R V = 0.4149<br />

Voti ˆ = 649.6 – 0.29STR + 3.87Expn – 0.656PctEL<br />

(15.5) (0.48) (1.59) (0.032)<br />

2<br />

R NV=<br />

0.4366, k NV=<br />

3, q = 2<br />

dunque F =<br />

=<br />

( 2 2<br />

R )<br />

NV − RV<br />

/ q<br />

( 2<br />

1−<br />

R ) / ( n − k −1)<br />

NV<br />

NV<br />

(.4366 − .4149) / 2<br />

(1 − .4366) /(420 −3− 1)<br />

Note: F robusta alla eteroschedast = 5.43…<br />

= 8.01<br />

43


2<br />

La distribuzione F “sta ad” una q/q<br />

come la<br />

distribuzione tn–1 “sta alla” distribuzione N(0,1)<br />

2<br />

La Fq,∞ e la χ /q sono approssimativamente uguali<br />

q<br />

Di regola si deve sempre utilizzare la F-statistica<br />

2<br />

robusta (Fq,∞) ed i valori critici riferiti a χq<br />

/q<br />

χ<br />

44


Test di più di un coefficiente con<br />

una singola restrizione<br />

Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n<br />

Consideriamo il seguente test di ipotesi,<br />

H0: β1 = β2 vs. H1: β1 ≠ β2<br />

La ipotesi nulla impone una singola restrizione (q = 1) su più di<br />

un coefficiente – non è un’ipotesi congiunta con restrizioni<br />

multiple (come nel caso di β1 = 0 e β2 = 0).<br />

45


Ci sono due metodi per testare restizioni single su coefficienti<br />

multipli:<br />

1. Trasformare la regressione<br />

in modo che la restrizione diventa una restrizione su un<br />

singolo coefficiente in una restrizione equivalente,<br />

opp,<br />

2. Fare direttamente il test<br />

46


Metodo #1: Trasformiamo la<br />

regressione<br />

Yi = β0 + β1X1i + β2X2i + ui<br />

H0: β1 = β2 vs. H1: β1 ≠ β2<br />

Aggiungendo e sottraendo β2X1i:<br />

opp<br />

dove<br />

Yi = β0 + β1X1i (– β2 X1i ) (+ β2X1i ) +β2 X2i + ui<br />

Yi = β0 + (β1 – β2) X1i + β2(X1i + X2i) + ui<br />

Yi = β0 + γ1 X1i + β2Wi + ui<br />

γ1 = β1 – β2<br />

Wi = X1i + X2i<br />

47


(a) Sistema originale:<br />

Yi = β0 + β1X1i + β2X2i + ui<br />

H0: β1 = β2 vs. H1: β1 ≠ β2<br />

(b)Transformato sistema:<br />

Yi = β0 + γ1 X1i + β2Wi + ui<br />

dove γ1 = β1 – β2 e Wi = X1i + X2i<br />

H0: γ1 = 0 vs. H1: γ1 ≠ 0<br />

Il nostro test diventa γ1 = 0 nella specificatione (b).<br />

48


Metodo #2: Fare il test direttamente<br />

Es:<br />

Yi = β0 + β1X1i + β2X2i + ui<br />

H0: β1 = β2 vs. H1: β1 ≠ β2<br />

Votii = β0 + β1STRi + β2Expni + β3PctELi + ui<br />

Test β1 = β2 vs. β1 ≠ β2 (2-code):<br />

Per i dettagli in Laboratorio, quasi ogni software ha il suo modo<br />

49


Un approccio generale per selezionare<br />

le variabili e specificare un modello<br />

• Specificare un modello di riferimento o “benchmark”<br />

• Specificare a insieme di possibili variabili “candidate” come<br />

alternative plausibili<br />

• la scelta di una “candidata” rispetto ad un’altra cambia il<br />

valore di (β1)?<br />

• la variabile candidata è statisticamente significativa?<br />

• possiamo semplicemente mirare a massimizzare R 2 ?<br />

50


Digressione sulle misure di bontà<br />

cercando solo il massimo di R 2 2<br />

and R potremmo ottenere uno<br />

stimatore non corretto e perdere contatto con il nostro reale<br />

obiettivo.<br />

• Un R 2 2<br />

(o R ) alto significa che i regressori scelti spiegano<br />

bene le variazioni di Y.<br />

• Un R 2 2<br />

(o R ) non significa che abbiamo eliminato il problema<br />

delle variabili omesse.<br />

• Un R 2 2<br />

(o R ) non significa che abbiamo ottenuto uno<br />

stimatore corretto dell’effetto causale (β1).<br />

• Un R 2 2<br />

(o R ) non significa che le variabili incluse sono<br />

statisticamente significative.<br />

51


Es:<br />

• Variabili a disposizione nel data set:<br />

• student-teacher ratio (STR)<br />

• percentuale di bimbi che non hanno inglese come lingua<br />

madre (PctEL)<br />

• spesa scolastica per alunno (Expen)<br />

• nome del distretto<br />

• percentuale di bambini che potrebbero ricevere sussidi o il<br />

pranzo gratis<br />

• reddito medio per distretto<br />

• Quali di queste variabili includere?<br />

52


Torniamo a guardare i dati…<br />

53


Digressione sulla presentazione dei<br />

risultati di una regressione<br />

Una tabella di risultati di una regressione dovrebbe includere:<br />

• I coefficienti stimati<br />

• standard errors<br />

• misure di “bontà”<br />

• numero di osservazioni<br />

• statistica-F<br />

• ogni altra informazione che riteniamo opportuna.<br />

Per esempio:<br />

54


• la regressione multipla ci permette di stimare l’effetto di<br />

una variazione di X1 su Y, tenendo constante X2.<br />

• Se possiamo misurare una variabile, possiamo evitare di<br />

fornire stime non corrette semplicemente includendola.<br />

• Non c’è una regola unica.<br />

• L’approccio più comune è quello di specificare un<br />

modello di base, basato su un ragionamento a-priori e poi<br />

esplorare altre ragionevoli alternative<br />

56

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!