Noter og Formler.pdf - sociologisk-notesblok

W.2 – Simpel lineær regression: 

Forudsagte værdier og residualer: 

Et residual: 

For residualerne (baseret på en OLS estimation med konstantled) gælder følgende sammenhænge meka- 

nisk: 

Egenskaber ved OLS: 

Den samlede variation i kan skrives som 

SST (Total sum of squares): 

Explained sum of squares (SSE): 

SSR (Residual sum of squares): 

Goodness of fit: 

1

Egenskaber ved R 2: 

- 

- 

ligger mellem 0 og 1 

falder aldrig hvis man tilføjer en ekstra variabel. 

- kan ikke bruges til at sammenligne modeller med forskellige afhængige variable 

Standardfejl for OLS estimatorerne 

Standardfejl: 

Den estimerede varians på fejlleddet, , kan substitueres i udtrykkene for variansen på OLS estimaterne. 

Kvadratroden heraf kaldes standardfejlen. 

Den estimerede standardafvigelse på OLS estimatet for hældningen fås som: 

Standardfejlen er et mål for variabiliteten af estimatoren set over forskellige realisationer af data. 

Estimatet kan skrives som: 

Lidt regneregler til når man regner med sumtegn: 

2

W.3 – Multipel lineær regression: 

Den multiple regressionsmodel på matrixform 

For et datasæt med n observationer: 

og er n x 1 (vektor) 

er n x (k+1) matrix 

Parameteren er (k+1) x 1 matrix (vektor) 

Regressionsmodellen skrevet som matrix: 

Regressionsmodellen kan også skrives kompakt som: 

OLS estimatoren kan udregnes ved brug af moment metoden som i den simple regressionsmodel 

Hvis X’X er invertibel (X har fuld rang) kan OLS estimatoren udregnes: 

Ækvivalent til at udlede OLS estimatoren ved at minimere residualkvadratsummen: 

OLS Residualer: 

y1 

 

y 2 

y , 

 

X 

1 x1 1 

 

1 x 2 1 

 

 

x1 k 

 

x 2 k , 

 

u 1 

 

u 2 

u 

 

0 

 

1 

 

 

y 

1 x x 

u 

 

 

 

n n1 n k n k 

y1 1 x1 1 x1 2 x1 k 0 u 1 

 

y 2 

 

 

1 

 

 

x 2 1 x 2 2 

 

x u 

2 k 1 2 

 

 

 

y 

 

1 x x x 

 

 

 

u 

 

N n1 n 2 

n k k n 

For OLS residualer fra den multiple regressionsmodel (med et konstantled) gælder følgende: 

- Gennemsnittet af residualerne er lig 0: 

- Kovariansen mellem residualer og de forklarende variable er lig 0: 

- Punktet er altid på OLS regressionslinien 

3

Regressionsmodel uden konstantled estimeret med OLS: 

I denne model gælder: 

- OLS residualerne har ikke gennemsnit lig 0 

- er re-defineret og kan blive negativ 

- Hvis populationsmodellen indeholder et konstantled, vil OLS estimaterne af være biased 

(ikke middelrette). 

- I praksis: Medtager altid et konstantled. 

Bias i ved udeladelse af (Omitted Variable Bias (OVB)): 

At udelade én variabel gør alle estimater biased. 

1. Når er biased, og er unbiased og 

2. Når er både og unbiased og 

Variansen af OLS estimatoren: 

+ - 

- + 

Til at fortolke variansen kan det være lettere at benytte følgende opskrivning af variansen 

hvor 

De tre komponenter i variansen 

Variansen af fejlleddet: 

- Jo større varians på fejlleddet jo større varians på alle estimatorerne 

Variationen i 

- Jo større variation i jo mindre varians på estimatoren for 

Variation 

- Jo tættere er på 0 jo mindre er variansen på estimatoren for 

- Mindst varians opnås ved hvilket svarer til at er ukorreleret med de øvrige forklarende 

variable 

- Jo tættere er på 1 jo større er variansen på estimatoren for βj 

- Hvis antagelsen MLR.3 er opfyldt er altid forskellig fra 1 

4

Multikollinearitet 

Multikollinearitet optræder, når er tæt på 

Følgerne af multikollinearitet: 

- Variansen på estimatoren βj vil være stor (se figur 3.1) 

Hvornår optræder multikollinearitet: 

- Når nogle af de forklarende variable er højt korrelerede 

- Når der er få observationer 

Variansen i misspecificerede modeller 

Antag følgende model opfylder Gauss-Markov antagelserne: 

Vi har to estimatorer af β1: 

- OLS estimatoren fra MLR: 

- OLS estimatoren fra SLR: 

Den betingede varians af er altid mindre end (eller lig med) variansen af 

Hvis og er ukorrelerede er variansen den samme og begge estimatorer middelrette 

Hvis er begge estimatorer middelrette og har mindst varians. Altså foretrækkes 

Hvis er middelret mens er generelt biased. Variansen af er mindst. Her foretrækkes . 

Estimatet på variansen af fejlleddet 

Ud fra OLS estimaterne kan residualerne beregnes: 

Estimatet beregnes til: 

5

MLR.1-6: 

MLR.1 (lineær i parametrene): 

- Den afhængige variabel y kan beskrives ved følgende model: 

MATRIXNOTATION: 

MLR.2 (tilfældig stikprøve): 

- Vi har en tilfældig stikprøve (yi,xi1, xi2,.., xik) i=1,..,n fra populationen (se definition i Appendix C.1) 


MLR.3 (ingen perfekt multikollinaritet) 

- I stikprøven (og i populationen) kan ingen af de forklarende variable skrives som en lineær funktion 

af de øvrige. 

- De forklarende variable må godt være korreleret f.eks.: 

- Både x og x 2 kan være forklarende variable 

- Uddannelseslængde, køn og erfaring kan indgå i lønligning 

MATRIXNOTATION: -matricen har ranken 

MLR.4 (betinget middelværdi af fejlled): 

- Grunde til at MLR.4 måske ikke er opfyldt: 

- Forkert funktionel form (mere i kap. 9) 

- Udeladte variable (som er korreleret med en forklarende variabel) 

- Målefejl i de forklarende variable (mere i kap. 9) 

- Omvendt kausalitet (effekten går fra y til x) (kap. 15) 


MLR.5 – Homoskedasticity: 


Under antagelse af MLR.1-4 er OLS estimaterne middelrette (unbiased) og konsistente (W. 5.1, s.169). 

Overholdes MLR.4 ikke er estimaterne også inkonsistente. 

Under antagelse af MLR.1-5 er OLS estimaterne BLUE 

MLR.6: u er uafhængig af og normalfordelt med middelværdi 0 og varians . 

MLR.1-6 kaldes samlet Classical Linear Model (CLM). 

MLR.6 er dog ikke relevant ved store n. 

6

W.4 – Inferens 

Under CLM antagelserne (MLR.1-6) gælder følgende: 

, hvor 

Estimatet ( ) er normalfordelt med gennemsnit og varians . 

kan standardiseres: 

indeholder den ukendte parameter og er derfor ikke umiddelbart operationel. 

Erstattes af kan man vise at der gælder følgende resultat: 

Teorem 4.2: Under CLM antagelserne gælder at 

Hypotesetest: Restriktion på en enkelt koefficient: 

t-test for : 

t-test for : 

To-sidet test benyttes som standard, hvis ikke andet er angivet. 

Klassisk teststrategi: 

- Vælg signifikansniveau: Sandsynlighed for at afvise nulhypotesen, givet at den er sand. Typisk væl- 

ges 5 %. 

- Vælg alternativhypotese: Bestemmer den kritiske region, givet signifikansniveauet. 

- Beregn teststatistik. 

- Afvis nulhypotesen hvis testet er i den kritiske region. 

- Afvis ellers ikke. 

- Alternativ: Beregn p-værdi: Marginale signifikansniveau som ville betyde at nulhypotesen netop 

P-værdi: 

ville blive afvist: 

7

Konfidensintervaller: 

Hypotesetest: Flere lineære restriktioner: 

Et fælles test af flere lineære restriktioner: F-testet: 

- Tæller altid større end eller lig nul: Restrikteret model kan ikke tilpasse data bedre end urestrikteret 

model. 

- Antal frihedsgrader i tæller: Antal restriktioner, q 

- Antal frihedsgrader i nævner: n- antal regressorer i urestrikteret model. 

- Helt generelt format for F-testet. 

F-testet kan også skrives med : 

F = t 2 : 

For en restriktion og to-sidet alternativ: Ækvivalent med t-test: 

Men F-test af fælles hypotese på flere koefficienter kan godt give andet resultat end individuelle t-test. 

Samlet signifikans af regressionen: 

: 

hvilket giver den restrikterede model: 

Relationen mellem R 2 og F-testet for denne specielle hypotese: 

Lagrange Multiplikator testet: 

Generelt format: 

- Estimation af modellen under H0 

- Residualer fra restrikteret model, 

- Hjælperegression (“auxiliary regression”) af 

- På hvad: afhænger af den specifikke hypotese. 

Kræver ikke estimation af den generelle (dvs.urestrikterede model): Oftest den i praksis sværeste. 

LM testet kan anvendes når Gauss-Markov antagelserne (MLR.1-MLR.5) er opfyldt. 

8

LM-test (Lagrange multiplier statistic) 

LM-teststørrelsen vil almindeligvis (og uanset om der antages normalfordelte fejlled eller ej) være asympto- 

tisk fordelt som , hvor er antallet af restriktioner. 

Inferens i den multiple regressionsmodel: Opsamling: 

Resultater om OLS med endeligt antal observationer: Normalitetsantagelse eksakte t- og F-test. 

Asymptotiske resultater for OLS: 

- Konsistens under MLR.1-4. 

- Asymptotisk normalfordelt under MLR.1-5: 

- t- og F-test begrundes approximativt i endeligt datasæt uden at antage normalfordelte fejlled. 

- Andre typer af test: Lagrange multiplikator testet 

- Asymptotisk efficiens af OLS under MLR.1-5. 

9

W.5 – Asymptotisk 

Konsistens: 

Konsistens af OLS i store datasæt under MLR.1-4: Minimumskrav opfyldt. 

Inferens: Vi behøver mere end det. Antager nu: 

- MLR.5: Homoskedasticitet: 

- Men ikke MLR.6: Normalitet af ui 

Konsistens af en estimator defineres som: 

er estimator for baseret på 

er konsistent for hvis for ethvert gælder at, 

Estimatoren konvergerer i sandsynlighed mod den sande værdi: 

Egenskab for estimatoren når antallet af observationer øges mod uendeligt. 

Minimalkrav til en ”fornuftig” estimator. 

Middelret estimator er ikke nødvendigvis konsistent: Præcisionen bliver ikke nødvendigvis bedre når 

Men: Hvis variansen af en middelret estimator går mod nul i sandsynlighed når , så gælder at 

Under MLR.1-4 er OLS-estimatoren konsistent for . 

Hvis fejlleddet er korreleret med en eller flere regressorer vil OLS være inkonsistent: 

for 

eller , 

Inkonsistensen (den ”asymptotiske bias”) i den simple lineære regressionsmodel er givet ved 

OLS standardfejlen: Asymptotisk: 

Efficiens: 

Efficiens drejer sig om at sammenligne variansen af forskellige middelrette estimatorer (definition (se ap- 

pendix C.2)). 

10

Oversigt over OLS estimatorens egenskaber: 

Antagelser Eksakt Asymptotisk 

MLR1-MLR4 Middelret (Teorem 3.1) Konsistent (Teorem 5.1) 

MLR1-MLR5 BLUE (Teorem 3.4) 

MLR1-MLR6 Normalfordelt (Teorem 4.1) 

Asymptotisk Normalfordelt (Teorem 5.2) 

Asymptotisk efficient (Teorem 5.3) 

11

W.6 – Flere emner 

Skalering: 

Skaleringen af variablerne er ofte arbitrær: Ex. Afstand målt meter vs. kilometer (1000 m) vs. amerikanske 

miles (1609 m) vs. svenske mil (10000 m). 

RHS-variabler: 

I princippet: Frit valg af skala for de enkelte 

Koef.estimat og std. fejl reskaleres. Alt andet uændret (inkl. t-værdierne). 

Ex: 

: afkast af en måneds ekstra uddannelse 

: afkast af et års ekstra erfaring 

Ønsker begge dele i pro anno termer: Definerer uddannelse i år: indsæt i model: 

Definer og indsæt: 

Hvis multipliceres med en konstant bliver ’s koefficient divideret med denne konstant, . 

LHS-variabler: 

Definer , 

Koef.estimat og std. fejl reskaleres ligesom SSR, SST, SSE og 

og t-værdierne uændrede. 

Funktionel form: 

MLR forudsætter, at modellen er lineær i parametrene, men ikke i variablerne. 

Funktionel form: Fortolkningsmæssige konsekvenser! 

Tre vigtige tilfælde: 

- Log-transformation 

- Kvadratiske led 

- Interaktionsled 

12

Log-transformation: 

Fordele ved log. 

- Variansen på en størrelse kan afhænge af niveauet: Relativ varians er mere stabil ex. løn. 

- Strengt positive variable: ex. Løn. 

- Mindre betydning af ekstreme observationer (log nedvægter store værdier mere end små værdier) 

NB. Log kan ikke bruges, når en variabel tager værdien 0 

Model Afhængig Forklarende Elasticitet y mht. x 

Level-level y X 

Log-level log(y) X 

Level-log y log(x) 

Log-log log(y) Log(x) 

Kvadratiske led: 

Aftagende eller stigende marginaludbytte/-effekt 

Maksimum eller minmum af : 

Interaktionsled: 

Marginal effekt af at ændre værdien af en forklarende variabel, , afhænger af værdien af fx : 

Fx: Afkastet af uddannelse kan variere med erfaring. 

13

W.7 – Dummy variable 

Fortolkning af parameteren til dummyvariablen: 

- Koefficienten til dummyvariablen måler den forventede forskel mellem de to kategorier, alt andet 

lige 

- Inkludering af en dummyvariabel kan grafisk fortolkes som et skift i konstantleddet 

- ..men koefficienterne til de øvrige forklarende variabler er restrikteret til at være ens for de to 

grupper 

Vil man have den eksakte procentuelle forskel skal følgende formel anvendes 

Begge dummy-variable kan ikke inkluderes samtidigt (hvis der også er et konstantled i modellen) -> Perfekt 

multikollinearitet (”dummyvariabelfælden”). 

Hvis den kvalitative egenskab har m kategorier (m>2) skal man lave m-1 dummy variable. 

Den kategori hvortil der ikke hører en dummy variabel kaldes reference kategorien. 

Hvis man inkluderer m dummy variabler og et konstantled vil der være perfekt multikollinearitet 

Parametrene til dummy variablerne angiver forskellen mellem den pågældende kategori og referencekate- 

gorien. 

Interaktionsled mellem dummyvariabler og kvantitative variabler kan fortolkes som forskellig marginal ef- 

fekt af den kvantitative variabel 

Chow-test: 

Test for om der er forskel mellem to grupper. 

Modellen kan formuleres ved brug af dummy (d2=0 for gruppe 1, d2=1 for gruppe 2): 

kan formuleres som: 

For antal grupper : 

For antal grupper : 

, hvor er antallet af grupper. Testet er F-fordelt og 

forudsætter MLR.5 og derfor samme varians i hver gruppe 

Robust udgave af testet kræver at vi opstiller den samlede model med fuldt sæt af interaktionsled. 

14

Lineær sandsynlighedsmodel (Linear probability model (LPM)): 

For en kvalitativ egenskab med to kategorier laver man en dummyvariabel y med to mulige udfald: y=0 eller 

y=1 

Regressionsmodellen er uændret: 

Modellen kaldes den lineære sandsynlighedsmodel (linear probability model, LPM) 

Hvis antagelsen MLR.4 er opfyldt: 

er den betingede middelværdi af y: 

For binære variabler gælder generelt at: 

Altså har vi en model for responssandsynligheden 

Fortolkningen af parametrene i LPM: 

- y er en diskret variabel 

- Parameteren kan ikke fortolkes som den marginale ændring i givet en enheds ændring i 

Parameteren angiver ændringen i sandsynligheden for som følge af, at den forklarende variabel æn- 

dres med en enhed: 

LPM kan estimeres med OLS: 

Hvor skal fortolkes som den predikterede sandsynlighed for . 

Ulemper ved LPM: 

- Prediktionerne er ikke 0 eller 1, som er de tilladte værdier af den afhængige variabel 

- Predikterede sandsynligheder kan være negative eller overstige 1 

- Normalt ligger den predikterede sandsynlighed mellem 0 og 1, når man ser på værdier af de forkla- 

rende variable der ligger omkring gennemsnittet. 

- Gauss-Markov antagelserne: 

- MLR.1-4 kan godt være opfyldt for LPM 

- LPM opfylder ikke antagelsen MLR.5 (Homoskedasticitet) 

For en given værdi af x har u to mulige udfald (binær variabel): 

Variansen er derfor givet ved: 

hvis 

Som generelt vil afhænge af : er heteroskedastisk. 

Undtagelsen er tilfældet 

Egenskaber ved OLS estimatoren i LPM 

- OLS estimaterne er middelrette (givet MLR.1-4) 

hvis 

15

- Standardfejlene af estimaterne er ikke middelrette 

- F og t test ikke pålidelige 

Problemet med heteroskedasticitet kan løses ved at korrigere standardfejlene og beregne robuste stan- 

dardfejl: Sjældent noget alvorligt problem. 

16

W.8 – Heteroskedasticitet 

MLR.5 er antagelsen om homoskedasticitet: 

Alternativ: Modellen lider af heteroskedasticitet af ukendt form: 

Vi tillader altså, at fejlleddet til hver enhed (individ, firma, land) har sin egen varians (meget generel form) 

Homoskedasticitet kan ses som det specialtilfælde, hvor for alle . 

Antagelserne MLR.1- MLR.4 sikrer at OLS middelret og konsistent, men vedrører ikke variansen på fejlled- 

det. 

Under MLR.1-5 er OLS efficient og dens varians er givet ved de simple udtryk fra kapitel 2. 

OLS estimatorens egenskaber ved heteroskedasticitet: 

+ OLS stadig middelret og konsistent (givet MLR.1-4) 

- Variansen af OLS estimaterne estimeres ikke middelret eller konsistent af de sædvanlige OLS-udtryk 

- Konfidensintervallet er ikke rigtigt konstrueret 

- t og F-test er ikke nødvendigvis t og F-fordelt, LM test er ikke nødvendigvis -fordelt (og derfor er 

disse test ikke pålidelige) 

- OLS er ikke længere den bedste lineære middelrette estimator (BLUE): Der findes andre lineære mid- 

delrette estimatorer med mindre varians 

- OLS er ikke længere asymptotisk efficient 

OLS-baserede test under heteroskedasticitet: 

- Heteroskedasticitet i fejlleddet betyder, at test der er baseret på OLS estimation kun er gyldige, hvis 

man korrigerer standardfejlene for heteroskedasticitet ved at bruge robuste standardfejl. 

Test i modeller med heteroskedasticitet: 

Enkelt restriktion: 

Heteroskedasticitets-robust t-test af hypotesen: : 

t-teststørrelse: 

hvor er heterosk. robust standardfejl på 

t-teststørrelsen er asymptotisk standard normalfordelt. 

17

Flere restriktioner (Wald test): 

Hypotese: : 

hvor er en (k+1)x1 vektor af parametre, er en q x(k+1) matrix og er en q x1 vektor 

Heterosk. robust F-test kan beregnes ud fra robust kovariansmatrix 

Heterosk. robust Wald test: Wald-teststørrelsen 

Wald testet er altså -fordelt. 

NB’er: 

- Antagelserne MLR.1- MLR.4, som sikrer at OLS middelret og konsistent, vedrører ikke variansen på 

fejlleddet. 

- Heteroskedasticitet betyder systematik i variansen på fejlleddet, ikke i middelværdien (givet at 

MLR.4 holder). 

Inferens uden MLR.5: 

Whites standardfejl som er robuste overfor heteroskedasticitet. Robust Wald-test. 

Weighted Least Squares (WLS): 

Estimatoren som korrigerer for heteroskedasticitet kaldes for Weigted Least squares (WLS). 

Navnet hentyder til at estimaterne opnås ved at minimere de vægtede kvadrerede residualer. 

Heteroskedasticitet af en kendt form (op til en multiplikativ faktor) 

antages at være en kendt funktion af de forklarende variable. 

for alle mulige værdier af x’erne (varianser er altid positive). 

er en ukendt parameter. 

Ved at bruge informationen om formen for heterosk. kan modellen transformeres til en ”ny” model, som 

ikke indeholder heteroskedasticitet: OLS på den vægtede regression er efficient: Weighted Least Squares 

(WLS) 

Generelt: Antag følgende multiple regressionsmodel (som opfylder antagelserne MLR.1- MLR.4) 

Givet at h er en kendt funktion kan dens værdi beregnes for hver enkelt observation: 

Hvis man transformerer modellen så fejlleddet bliver vil den betingede middelværdi stadig være 

nul (MLR.4 holder) og den betingede varians vil være konstant (MLR.5 opfyldt). 

OLS estimatoren i den transformerede model vil være BLUE 

F- og t-test er gyldige for den transformerede model 

er sjældent meningsfuld (ny venstresidesvariabel!) 

18

Lineær sandsynlighedsmodel (Linear probability model (LPM)): 

I den lineære sandsynlighedsmodel er der heteroskedasticitet: 

Det følger så hvordan h skal konstrueres nemlig som 

FGLS: Ukendt form af heteroskedasticitet (som skal estimeres): 

- I mange tilfælde er den eksakte form for heterosk. ukendt (dvs. h er ukendt), men h kan modelleres 

og efterfølgende estimeres 

- Ved at benytte I stedet for kan man igen transformere den oprindelige model. 

- I den transformerede model benyttes så OLS. 

- Denne procedure kaldes Feasible (”ladsiggørlig”) GLS (FGLS) 

- Den optimale vægt til hver observation kan estimeres ud fra data: FGLS. 

Hypotesetest med FGLS estimater: 

- FGLS er konsistent og asymptotisk mere efficient end OLS 

- F- og t-test er asymptotisk hhv. F- og t-fordelte. 

- Når man laver F-test med FGLS (og med WLS) er det vigtigt at den restrikterede og den urestrikte- 

rede model er estimeret med de samme vægte 

WLS/FGLS og OLS: 

- Sammenligning af WLS/FGLS og OLS 

- OLS og WLS estimater kan være (meget) forskellige 

- Hvis OLS og WLS er statistisk signifikant forskellige, bør man være varsom med at fortolke resulta- 

terne. Dette kan være tegn på misspecifikation af modellen (specielt at antagelse MLR.4 ikke er op- 

fyldt). 

19

W.9 – Data Specifikation 

Hvad nu, hvis man benytter en forkert funktionel form? 

- Generelt vil OLS estimaterne ikke være middelrette eller konsistente 

- Forkert funktionel form kan opfattes som udeladte variable 

W. 9.2 – Proxy variable 

Proxyvariabler erstatter udeladte variabler. Proxyens ”effekt” på y har sjældent selvstændig interesse. 

Man må argumentere for proxyvariablens gyldighed i hvert enkelt tilfælde. 

Det ønskes at estimere 

, hvor 

, hvor er et fejlled, der beskriver den del af som ikke beskriver. og højst sandsynligt , 

da vi jo som regel forventer en positiv korrelation mellem og . 

Følgende antagelser skal gøre sig gældende: 

1: og skal være korrelerede. 

2: skal være U-korreleret med og og også . 

3: skal være U-korreleret med og . 

Forsøg på at forklare antagelserne i ord: 

1) Proxyen/proxyerne skal forklare en del af variationen i den (uobserverede) variabel, som de(n) er pro- 

xy(er) for. 

2) Variationen, der ikke forklares i , altså , må ikke være korreleret med de andre variable i . 

W. 9.4 – Målefejl 

Begrebsmæssig forskel til proxy-variable 

- Målefejl: Uobserveret variabel har en præcis kvantitativ betydning: indkomst vs. rapporteret ind- 

komst. 

- Proxy: Uobserveret variabel har ikke en klar kvantitativ mening: Evner vs. IQ-test score 

To hovedtilfælde: 

- Målefejl i afhængig variabel 

- Målefejl i en eller flere forklarende variabler 

Målefejl i den afhængige variabel: 

Antag følgende model 

Modellen opfylder MLR.1-MLR.4 

Desværre observerer man ikke . I stedet observeres : 

hvor kan opfattes som en målefejl 

20

For at kunne estimere modellen skal erstattes med : 

Under antagelserne 

- Middelværdien af målefejlene er 0 

- Målefejlene er uafhængige af de forklarende variable 

vil den ”nye” model med y opfylde MLR.1-MLR.4, og derfor er OLS middelret og konsistent. 

Variansen i det nye fejlled: 

- Normalt antager man, at variansen af målefejlen er konstant. Så er antagelsen MLR.5 også opfyldt 

for den ”nye” model. 

- Variansen er større med målefejl -> større varians af parameterestimaterne. 

Målefejl i de forklarende variabler: 

Antag følgende model: 

er uobserverbar. I stedet observeres som er givet ved: 

Antagelse om fejlleddet: , 

Antagelserne om målefejlen: 

I dette tilfælde kan opfattes som en proxy for . 

OLS er der stadig middelret og konsistent. 

Dette (At målefejlen er ukorreleret med det observerede x) er ofte en urealistisk antagelse. 

Klassiske målefejl (CEV): Målefejlen er ukorreleret med den sande værdi af variablen. 

Antagelser: 

Disse antagelser er ofte mere naturlige. 

OLS er ikke længere middelret eller konsistent under CEV. 

Under CEV er der ligeledes attenuation bias: 

vil altid være tættere på end . 

Estimatet for vil være asymptotisk biased mod . 

Det kan ligeledes vises at 

21

Data problemer 

Indtil videre har vi antaget, at MLR.2 altid er opfyldt 

Vi har antaget, at data stammer fra en tilfældig stikprøve 

Der er mange grunde til, at denne antagelse ikke er opfyldt i praksis: 

- Manglende observationer: Tilfældigt eller ej? 

- Ikke-tilfældig dataudvælgelse: Exogent eller endogent. 

Manglende observationer: 

- Manglende observationer vil reducere antallet af brugbare observationer i analysen 

- Det afgørende for, om manglende observationer giver alvorlige problemer, er hvorfor observatio- 

nerne mangler 

- Hvis observationerne mangler ”tilfældigt”, er det et mindre problem -> mindre præcise estimater 

Ikke-tilfældig dataudvælgelse: 

Der er forskellige måder hvorpå stikprøven kan være ikke-tilfældig (dvs. antagelse MLR.2 ikke er opfyldt): 

- Eksogen dataudvælgelse 

- Endogen dataudvælgelse 

- Stratificeret dataudvælgelse 

Dataudvælgelse der er baseret på information, der er relateret til den afhængige variabel, giver ofte anled- 

ning til bias. 

Eksogen dataudvælgelse: 

- Dataudvælgelse baseret på værdien af en af de forklarende variabler 

- Denne type af dataudvælgelse vil (under forudsætninger af nok variation i de forklarende variabler) 

stadig give middelrette og konsistente OLS etimater 

- Generelt: Dataudvælgelse baseret på variabler, som er uafhængige af fejlleddet giver stadig, at OLS 

estimaterne er middelrette og konsistente 

Endogen dataudvælgelse: 

- Dataudvælgelse baseret på den afhængige variabel (eller variabler, der er korrelerede dermed). 

- OLS estimator er ikke middelret og ikke konsistent. 

Stratificeret dataudvælgelse: 

- Populationen er delt i grupper (disjunkte grupper som udgør hele populationen) 

- Nogle grupper er udvalgt mere hyppigt end andre, sammenlignet med deres andel af populationen 

- OLS er middelret og konsistent, hvis gruppeopdelingen er baseret på eksogene variabler 

22

W.15 – IV 

Instrument variablen skal opfylde to betingelser: 

1. 

Instrumentvariablen skal være ukorreleret med de uobserverbare faktorer , hvilket i sidste ende altid 

afhænger af en teoretisk baseret antagelse. 

2. 

Instrumentvariablen skal være korreleret med den endogene forklarende variabel. Testbar antagelse på 

grundlag af data på og : Signifikant regressionskoefficient i regression af på . 

Givet identificeres parameteren som 

IV estimatoren er konsistent og asymptotisk normalfordelt. 

IV estimatoren: Har gode asymptotiske egenskaber, dvs. vi ved at den virker i store datasæt. Men: 

- IV generelt ikke middelret 

- IV vil ofte have en relativt stor varians. 

Eksakt identifikation: Vi har netop instrumenter til rådighed, samme antal som der er endogene regresso- 

rer: 

exogene variabler: (”instrumenter for sig selv”). 

Z rummer alle exogene variabler i modellen: 

- variabler, der er inkluderet i den strukturelle ligning 

- variabler, der er ekskluderet fra strukturel ligning 

IV-estimatet i det eksakt identificeret tilfælde: 

Den simple IV formel kan beregnes for det eksakt identificerede tilfælde (antal endogene regressorer = 

antal instrumenter) 

Z 

[ X X ... X Z Z ... Z ] 

1 2 k l 1 2 l 

k l ex o g en e l in stru m en ter 

IV estimation kan gennemføres som OLS i to trin: 2SLS. 

Overidentifikation: Flere instrumenter end nødvendigt. 

Det er er fordel. Vi kan få mere præcise estimater, forudsat at instrumenterne er gyldige! 

IV-estimatet i det overidentificerede tilfælde(Flere instrumenter end endogene regressorer) (2SLS): 

Test af overidentificerende restriktioner: 

Teststatistik: , hvor l er antallet af endogene variable og g er antallet af instrumenter. 

Eksakt identifikation: (ingenting at teste!). 

23

W.13 – Gentagne tværsnit & Paneldata 

Gentagne tværsnit 

Tillade at koefficienterne til nogle af variablerne ændres over tid: Et specialtilfælde af strukturelle skift. 

Brug dummy variabler: Tidsdummier (fx årsdummier) 

To perioder: Dummyvariabel (sædvanligvis for periode 2) indeholder information om tidspunkt for 

observationen: 

, hvis individ i er i periode-2 samplet. 

, hvis individ i ikke er i periode-2 samplet. 

Ofte: Tillad at konstantleddet ændres 

Tillade at også andre koefficienter ændres mellem perioder: Interaktionsled mellem variabler og 

tidsdummyer. 

Eks.: 

Ækvivalent regressionstilgang (tavlegennemgang): 

: Fælles ændring over tid (uanset placering) 

: ”Præ-indgreb”-forskellen i huspriser 

: Forskel i huspriser på grund af forbrændingsanlægget 

Illustration af Diff-in-diff estimatoren: 

Kontrol 

Behandling 

Behandling – kontrol 

Før Efter Efter – før 

”Pooling” af data for forskellige tidsperioder: Større eller mindre grad af fleksibilitet ved brug af 

interaktionsled mellem forklarende variabler og tidsdummyer. 

Politikanalyse med gentagne tværsnit: Diff-in-diff metoden gør det muligt under visse forudsætninger at 

evaluere effekten af et politikindgreb. 

Ækvivalent regressionsmodel giver mulighed for at korrigere for andre kontrolvariabler. 

To-periode panel data (Kaldes også longitudinale data): 

Følger de samme individer over to perioder 

”Unobserved effects model”: Fejlleddet opdeles i en tids-invariant og en ”idiosynkratisk” effekt 

Udeladt variabel bias (heterogenitetsbias) 

Første-differens estimation 

Politikanalyse med to-periode paneldata 

24

Sammensat fejlled : 

Uobserveret ”fixed effect” (uobserveret heterogenitet): 

- Tids-invariant 

- Specifik for hvert individ 

Idiosynkratisk fejl : 

- Varierer tilfældigt både over individer og tid: Det ”sædvanlige” fejlled 

Antagelser på modellen for T = 2: 

Tilfældig stikprøve (ingen korrelation mellem individ i og j). 

Sammensat fejlled : 

Betinget middelværdi, givet regressorerne og individ-specifik effekt: 

Implicerer at det ”idiosynkratiske” fejlled er ukorreleret 

- med de observerede regressorer 

- og med den uobserverede individ-specifikke effekt 

NB: Vi gør ingen antagelser om : ”Fixed effects” tilgang. 

Korreleret uobserveret heterogenitet 

Uobserveret individ-specifik effekt kan meget vel være korreleret med de observerede variabler: 

”Pooling” af observationer og estimation med OLS vil være en inkonsistent estimator når . 

Hvis data kun består af et enkelt tværsnit af og kan problemet ikke løses uden yderligere antagelser. 

Gentagne observationer af samme individer giver mulige løsninger. 

”Fixed effect” paneldata løsning: Estimér en model hvor: 

- Parameteren af interesse, , er identificeret og… 

- …”fixed effekten”, , ikke indgår. 

En metode der opfylder disse betingelser er første-differens (FD) estimation. 

Første-differens estimation 

Model: 

Periode 1: 

Periode 2: 

Første differenser: 

Den uobserverede, men tids-invariate ”fixed effect” bliver ”diff-renset” væk. 

For og imod brug af første -differens estimation 

For: Leddet indgår i som en del af fejlleddet. Hvis er korreleret med den forklarende variabel, 

, vil (idet og og er indbyrdes ukorrelerede). OLS på det sammensatte tværsnit 

vil i så fald ikke være konsistent. En første-differens OLS estimation baseret på model (1) vil 

derimod automatisk korrigere for enhver tidsinvariant faktor (observeret eller uobserveret), jf. 

opskrivningen. Her kræves ingen antagelse om for konsistens. 

25

Imod: er ikke identificeret i første-differens modellen. Hvis der ikke er variation i over tid (for 

mindst et amt), kan OLS estimatoren ikke beregnes på første-differenserne. Hvis for alle 

er der faktisk ingen amtspecifik effekt og (givet at SLR.1-5 holder for niveaumodellen) OLS på det 

sammensatte tværsnit vil være efficient. Hvis der er klassiske målefejl i bliver begge estimatorer 

inkonsistente. Målefejlsbiasen forstærkes af første-differens transformationen, så den asymptotiske 

bias er størst for første-differens OLS estimatoren. 

Opsamlende 

Paneldata gør det muligt at korrigere for uobserverede individ-specifikke effekter, som er konstante over 

tid: ”Fixed effects” 

”Fixed effects” metoder, fx førstedifferens estimation, kan give konsistente parameterestimater uden anta- 

gelser omkring korrelationen mellem den uobserverede individ-specifikke effekt og de observerede forkla- 

rende variabler i modellen. 

”Fixed effects” metoder identificerer kun koefficienter til variabler, som faktisk varierer over tid (for nogle 

af individerne). 

26

Overview over econometric methods in QM2 (does not cover everything in the syllabus) 

Econometric method 

Characteristics of 

Model 

Hypothesis test 

Specification test 

OLS 

Lin.reg.model 

(chap. 2,3,4,5) 

t-test 

F-test 

LM-test 

RESET 

test 

OLS 

Robust std. err. 

Heteroskedasticity 

(chap. 8) 

Robust t, Wald, 

LM test 

Breusch-Pagan 

White 

Graphical test 

WLS FGLS 

t test 

F test 

t test 

F test 

IV 

(2SLS) 

Endogeneity 

(chap. 15) 

t test 

F test 

Test of exogeneity 

Test of overident. 

Restrictions 

Paneldata 

methods 

More observations for 

the same individ. (chap. 

13) 

t test 

F test 

After transformation: 

Do OLS/FGLS 

27

Noter og Formler.pdf - sociologisk-notesblok

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?