Hagrannsóknir II fyrirlestraglósur hluti I

Hagrannsóknir II 

fyrirlestraglósur 

hluti I 

Björn Arnar Hauksson 

bah@hi.is 

Vor 2003 

Útdráttur 

Efni þessa glósurits er ritað í fyrirlestrum í Hagrannsóknum II, vorið 2003. Kennt af Helga Tómassyni. 

Engin ábyrgð er tekin á öllum þeim villum sem kunna að leynast í ritinu. Vinsamlegast 

hafið samband við ritara (Björn) um leiðréttingu á villum. 

Glósur þessar eru að mestu skrifaðar með þarfir ritara í huga. Því kann sumum atriðum að 

vera sleppt sem aðrir kynnu að hafa áhuga á. Frjálst er að dreifa þessu skjali án endurgjalds en 

geta skal uppruna ef því er breytt. 

Í þessum glósum er orðalag Helga notað nánast óbreytt og sjaldan tilraun gerð til að íslenska 

orðalag hans þegar það er ekki allt á íslensku. Yfirleitt er í þessum glósum ekki gerð tilraun til að 

merkja fylki sérstaklega þegar að fyrirlesari gerir það ekki, sjá verður af samhenginu hverju sinni 

hvort á við. 

1

1 FYRIRLESTUR 15. JANÚAR 2 

1 Fyrirlestur 15. janúar 

1.1 Kynning og lýsing 

Maximum likelihood orðin vinsælasta aðferina vegna framfara í reiknigetu. Maximum likelihood yfirleitt 

best ef hægt að koma henni við. Helgi var með kennslubók eftir Kmenta á sínum tíma. SUR = 

seamingly unrelated regression, að eftirfarandi kerfi geta virðst tengd 

y1 = α + βx1 og y2 = γ + δx2 

Ekki víst að Helgi nái að fara yfir Monte Carlo og bootstrap, þetta eru reikniaðferðir við mat á 

líkönum, það þarf að forrita svolítið til að nota þessar aðferðir. Panel-data heitir líka repeated mesarues 

eða analysis of longditudional data. Þetta á við mörg köst guðs, endurteknar tilraunir, t.d. þegar rottur 

eru rannsakaðar. 

Margar breytur í okkar umhverfi eru ekki samfelldar, t.d. 0 1 breytur, flokkunarbreytur og fleira. 

Misjafnt með flokkabreytur hvort þær hafa eðlilega innbyrðis röðun. Hér getum við líka hugsað okkur 

mælinga á biðtíma, t.d. hve lengi aðili er atvinnulaus. 

1.2 Námsefni o.fl. 

• Kennslubókin Econometric Methods plús dreifir kannski efni um samþáttun og forritun. Hagfræðingur 

úr Sbí verður með dæmatíma á móti Helga. Dæmi í kennslubókinni og Poirier verða í 

dæmatímum og fólk þarf að redda sér sjálft í tölvudæmunum. 

• Verkefni verða fullt af gögnum, reikna e-ð og setja e-n texta með. 

• Hugbúnaður sem Helgi mælir með er t.d. Gretl, EasyReg, R, Octave, Yacas. Töflureiknar 

GNUMERIC og OpenOffice. OpenOffice er aðeins hægari en GNUMERIC og hefur færri 

„fídusa”. 

1.3 Kennsluáætlun 

Kaflar 1-6 eru svolítið mikið upprifjun frá Poirier, gagnlegt að glugga í Poirier til að dýpka skilning. 

Exogeneity verður skilgreint nákvæmlega. 2STOLS og 3STOLS er kannski meira kennslubókarefni 

heldur en e-ð sem notað er á vinnumarkaði. 

1.4 Inngangur kennslubókarinnar 

1. Asymptotic teoría. Þau lögmál sem gilda þegar mikið af mælingum fyrir hendi. Verður æ 

mikilvægari vegna tölva. 

2. Tímaraðaaðferðarfræði. 

3. Diagnostics, líkanagreining. Menn eru mun einbeittari í dag í að spá í hvað gæti verið að 

líkaninu. 

4. GMM, Helgi vill setja þetta atriði innan sviga, þykir þetta ekki merkileg aðferðarfræði, svolítið 

ad hoc. 

5. Reiknifrekar aðferðir, Monte Carlo og bootstraping, svona simulerings aðferðir. Þessar aðferðir 

byggja algjörlega á tölvunum. 

(1.1)


6. Microeconometria. PanelData, ... . Líka afleiðing af tölvutækninni, til mikið af gögnum um 

einstaklinga og fyrirtæki. Samanber heilsutölfræði og biometrics. 

1.5 Regression 

Regression er einskonar skilyrt ályktun, álykta um eina breytu gefin önnur. Til dæmis E(Y|X). Köllum 

þetta línulega regression ef hún er á borð við 

Og á logralínulegu sniði (log-linear form) 

Dæmi 1.1 Ef 

þá fáum við með því að logra 

höfum að 

Fáum því 

⇒ 

Dæmi 1.2 

Og 

E(Y|X) = α + βx (1.2) 

logE(Y |X) = α + βlog(X) (1.3) 

X ∗ = 1.01 ∗ X (1.4) 

logX ∗ = log(1.01) + logX (1.5) 

log(1.01) ≈ 0.01. (1.6) 

log(E(Y |X ∗ )) − log(E(Y|X)) ≈ β ∗ 0.01, (1.7) 

log 

E(Y|X ∗ ) 

E(Y|X) 

 

≈ β ∗ 0.01 (1.8) 

E(Y|X ∗ ) ≈ e β∗0.01 ∗ E(Y|X) ≈ (1 + β ∗ 0.01)E(Y |X). (1.9) 

 

E(Y|X) 

log 

= α + βX, 

1 − E(Y|X) 

(1.10) 

E(Y|X) = P(Y = 1|X), 1 − E(Y|X) = P(Y = 0|X). (1.11) 

log( P 

eα+βx 

) = α + βx => P = 

1 − P 1 + eα+βx (1.12) 

Síðustu tvö skrefin er það sem kallast logit vörpun, logistic model. β er það sem kallast odds ratio per 

einingu af X. Setjum P1 og P2 sem líkur á því að fyrirtækjahópar 1 og 2 verði gjaldþrota, finnum svo 

Odds ratio fyrir hópana 

OR = 

P1 

1−P1 . (1.13) 

P2 

1−P2 

Hlutfallið hér fyrir ofan er margfeldið af því hversu líklegra er að hópur 1 verði gjaldþrota miðað við 

hóp 2. Það er erfitt að skilja OR en þægilegt að reikna það. 

Dæmi 1.3 Segjum að X sé kyn, gefið og að Y sé þyngd/laun, spyrjum hvort kynið hefur meiri breytileika 

í þyngd, V(Y|X). Þegar talað er um misrétti í launum þá er fólk bara að skoða fyrsta momentið, 

E(Y|X).


Kafli 1 í bókinni er bara upprifjun, lesa hann bara létt, kafli 2 er líka upprifjun. Kafli 2 er um 

almennt línulegt líkan. Höfum venjulega fylkjaform á líkaninu, E(Y|X) = Xβ, V(Y|X) = σ 2 . Þá er ˆ βols 

= (X ′ X) −1 X ′ Y. 

Athuga vel að lesa kafla 2.4 um convergence hugtök, Poirier hefur dýpri skýringu á þessu efni. Hér 

höfum við plim (convergence in probability) og convergince in distribution. Helga finnst auðveldast að 

skilja convergence in mean square, svo á maður að skilja distribution og svo probability. Þetta verður 

flóknara þegar random breyta er í spilinu. Svamlað nokkuð hratt í gegnum þetta efni í kennslubókinni. 

1.5.1 Kafli 2.5.1 

Unit root og stationary hugtökin. Athuga hér að skilja hvað er átt við með stationarity. Svona álíka 

og að uppgvöta að til sé talan 0, þá dettur manni í hug að kannski séu til aðrar tölur. Unit root ferlar 

er bara ein fjölskylda af nonstationary ferlum. Maður notar unit root ferla því þeir eru þægilegir til að 

lýsa óstationary fyrirbærum og auðvelt að skilja það. 

1.5.2 Sístæðni 

Grundvallarhugtak. Erum með runu af mælingum X1, X2, .... {X} er strongly stationary ef 

F(Xt,...,Xtk ) = F(Xt1+h ,...,Xtk+h ) ∀t1,...,tk og ∀h. (1.14) 

Þetta er ekki erfitt hugtak en oftar er notað weak stationarity (covariance stationary) 

auto-correlation = sjálffylgni. 

Höfum AR(1) 

og ef 

E(Xt) = µ, (1.15) 

autocovariance = Cov(Xt,Xt−k) = γ(k), (1.16) 

corr(Xt,Xt−k) = ρ(k), (1.17) 

Xt = φXt−1 + εt 

(1.18) 

E(εt) = 0, (1.19) 

E(εt,εs) = 0 þegar t = s (1.20) 

E(ε 2 t 

) = σ2 

(1.21) 

þá er εt hvítt suð. Ef εt ∼ N(0, σ 2 ) þá er εt Gaussian hvítt suð og Xt verður líka normaldreift. Höfum 

því 

Dæmi 1.4 Höfum mælingarnar X1, X2 og 

Xt ∼ N(0, σ2 

),|φ| < 1, (1.22) 

1 − φ2 Xt|Xt−1 ∼ N(φXt−1,σ 2 ). (1.23) 

L(φ,σ,x1,x2) = f (X1,X2) = f (X2|X1) ∗ f (X1). (1.24)

2 FYRIRLESTUR 22. JAN 5 

Finnum svo ML mat á φ og σ 2 

log(L(φ,σ)) = − 1 1 

log(2π) + 

2 2 log(1 − φ2 ) − logσ − 1 − φ2 )X 2 1 

2σ2 1.5.3 2.6.2 

Eiginleikar ML 

δlog(L(φ,σ)) 

δφ 

δlog(L(φ,σ)) 

δσ 

= 0 

= 0 

ˆφML d → N(θ, I −1 ), ˆθML, asymptotic, consistent, efficient. 

1.5.4 Dæmi fyrir dæmatíma 

2.4, 2.6, 2.10, 2.11, 3.3, 3.12, 3.16, 3.18. 

2 Fyrirlestur 22. jan 

2.1 Kafli 3 

 

f (X1) = 1 

 

1 − φ2 √ 

2π σ 

f (X2|X1) = 1 1 

√ 

2π 

e −(1−φ2 )X2 1 /2σ2 

(1.25) 

σ e−(X2−φ1X1) 2 /2σ 2 

(1.26) 

1 

− 

2 log(2π) − log(σ) − X2 − φX1) 2 

2σ2 (1.27) 

og leysa fyrir φ og σ 

Maður hefur líkan og pælingar. Líkanið er þekkt en nokkra stika þarf að meta. Við höfum þekktar 

aðferðir. Til dæmis rúmfræðileg nálgun, hafa matið sem næst raunverulegu gildi. Hér þarf ekki að 

negla niður líkindadreifingu. Svo höfum við aðferðir eins og ML og MM en þá þarf að negla niður 

líkindadreifinguna. 

Meðmæli með aðferð minnstu kvaðrata að ekki þarf að negla niður líkindadreifinguna og einnig 

er hún þægileg í reikningum. 

Höfum svo venjulegu forsendurnar 

E(Y|X) = Xβ,Y = Xβ + ε 

⎡ 

⎤ 

1 X11 ... X1k 

⎢ 

X = ⎣ 

. 

. . .. 

⎥ 

. ⎦ 

(2.1) 

(2.2) 

1 Xn1 ... Xnk 

Y = [Y1 ...Yn] ′ 

(2.3) 

β = [β0 ...βk] ′ 

(2.4) 

E(ε1) = 0 (2.5) 

V(εi) = σ 2 

(2.6) 

E(εiε j) = 0 ef i = j (2.7)


Svo gerum við 

Þetta má svo leysa með fylkjadeildun. 

leysa svo fyrir β 

min(Y − Xβ) ′ (Y − Xβ) = min 

β (e ′ e) (2.8) 

δ 

δβ (Y − Xβ)′ (Y − Xβ) = 0 

e = Y − Xβ (2.9) 

ˆβ = (X ′ X) −1 X ′ 

 

AC 

Y (2.10) 

ˆY = X ˆ β = X(X ′ X) −1 X ′ Y = (I − µ)Y (2.11) 

e = Y − ˆY = Y − X(X ′ X) −1 X ′ Y = (I − X(X ′ X) −1 X ′ )Y = µY (2.12) 

Y = ˆY + e (2.13) 

ˆY er spá og e er frávik. Samanber Hilbert rúm, breyta hornrétt á aðra þá eru þær óháðar, fylgni núll. 

Því 

Svo er 

ˆY ′ · e = 0 (2.14) 

((I − µ)Y ) ′ µy (2.15) 

= Y ′ (I − µ) ′ µY (2.16) 

= Y ′ (I − µ)µY = Y ′ (µ − µ 2 )Y (2.17) 

(I − µ) ′ = (X(X ′ X) −1 X ′ ) ′ 

= X(X ′ X) −1 X ′ = µ. 

µ 2 = (I − X(X ′ X) −1 X ′ ) 2 

= I − 2X(X ′ X) −1 X ′ + X(X ′ X) −1 X ′ X(X ′ X) −1 

 

I 

X ′ 

= I − 2X(X ′ X) −1 X ′ + X(X ′ X) −1 X ′ 

= I − X(X ′ X) −1 X ′ = µ 

µ og I - µ eru idempotent, µ = µ 2 . Einnig kallað projection matrix. Við höfum hér einskonar hornrétta 

sundurliðun. Í Poirier kafla 5 er fullt af líkindalegum niðurstöðum og normaldreifða vigra. 

Því 

Y ′ (µ − µ 2 )Y = Y ′ (µ − µ)Y = 0 (2.18) 

ˆβ = (X ′ X)X Y = AY (2.19) 

 

A 

(2.20)


Og 

Sjáum að 

E( ˆ β) = AE(Y) 

= (X ′ X) −1 X ′ E(Y) 

 

Xβ 

= β 

V ( ˆ β) = AV (Y )A ′ 

= (X ′ X) −1 X ′ σ 2 IX(X ′ X) −1 

= (X ′ X) −1 σ 2 

(2.21) 

(2.22) 

(2.23) 

σ 2 = e ′ e/(n − k). (2.24) 

Gert er ráð fyrir að við kunnum Gauss Markow setninguna. ˆ β BLUE ef ákveðin skilyrði uppfyllt. 

Gott að glugga í Poirier hvað þessi setning þýðir. Til miserfiðar sannanir á þessari setningu. 

Augljós sönnun ef maður kann fylkjaalgebru. 

Smá útúrdúr. Bls. 74 í bók. Data mining er þannig að maður byrjar með einfalt líkan og pælir svo 

í því hvort maður á að bæta við breytum. R 2 er skýrimáttur líkansins í kæruleysislegu tali. R 2 hækkar 

alltaf þegar breytum er bætt við. Menn vildu svo koma með stærð þar sem refsað er fyrir of margar 

breytur, þá var fundið upp R 2 adjusted. Þessi leiðrétta stærð er þó ekki með öllu gallalaus, höfum líka 

Akaike information criterion, AIC. AIC er bara annað form á því að hafa refsingu fyrir flókið líkan. 

Einnig til FPE (final prediction error) og það er líkt AIC. Svo er til eitt sem heitir Bayesean IC (BIC) 

= Schwarz (SC/SIC) og það er enn annað form. BIC og SIC er allavega það sama í einni vídd. Svo er 

eitt sem heitir Hannan Quinn (HQ). Þessi þrjú fyrstu munu allar ofmeta fjölda breyta í líkaninu. Við 

data mining munu þessar fyrst þrjár því valda því að líkanið stækkar upp úr öllu valdi. BIC og HQ eru 

hins vegar samkvæm (consistent) og breytu fjöldi mun stefna á rétt gildi. Hins vegar er ekkert víst að 

BIC og HQ standi sig vel í litlum úrtökum. 

Ef við höfum kenningaprófanir 

H0 : Rβ = r 

H1 : Rβ = r 

Y = Xβ + ε 

metum líkan fyrst undir H1 og svo undir H0. Það er auðveldast að gera þetta í þessari röð. Notum svo 

LR = likelihood ratio 

= likelihood f allH0 

. 

likelihood f allH1 

Maður lítur á likelihood sem fall af parameter en lítur á þéttifall sem fall af mælibreyta. Annars lítur 

formúlan fyrir likelihood fallið og þéttifallið eins út. 

Almennt gildir að 

−2logLR ca ∼ χ 2 . 

Fjöldi frígráða er munurinn á fjölda metinna parametra á milli H0 og H1. Ef við setjum skilyrðin β0 

óbundið β1 = 0... βk = 0 þá er q = fjöldi frígráða = k. Frígráðurnar eru rankið á R. 

(SSEH0 − SSEH1 )/q 

F = 

SSEH1 /(n − k − 1)


Nýr X vigur, táknum hann C’ = [1 X2 f ...Xk f ]. „Besta” spá er þá C’β. Hér er gengið út frá því 

að β sé þekkt. Hér þýðir besta sú spá sem hefur minnsta væntanlega kvaðratvillu. Þá eigum við að 

spá með væntanlega gildinu. En ef við ætluðum að hafa spá sem lágmarkar væntanlega tölugildið af 

spávillum, þá notum við miðgildið. 

Spáum með b = ˆ β, metnum parametrum. Hér er tvenns konar túlkun möguleg. 

1. Væntanlegt gildi þeirra með eiginleika C. C er e-r eiginleiki og maður pælir í því hvernig þessi 

eiginleiki tengist Y. 

2. Spá fyrir einstakt Y gildi eintaklings valinn af handahófi sem hefur eiginleika C. 

Kíkjum aðeins á tvö varíans hugtök. 

V(c ′ b) = c ′ V(b)c 

c ′ b − c ′ β 

V (c ′ b) ∼ N(0,1) ef σ þekkt 

c ′ b − c ′ β 

s c ′ (x ′ x) −1 c 

∼ tn−k 

Getum fundið öryggismörk fyrir E(Y|X=c). Í bók er þetta jafna 3.47 (case a eða 1 hér að ofan). Svo er 

það hin jafnan, 3.48 og ekki má rugla þessum tveim saman (case b eða 2 hér að ofan). Spurningin er 

V(Y|X=c) = ?. V(Y|X=c) = σ 2 . 100 +/- 1.96σ. Kannski svoldið ónákvæmt því að sigma getur verið 

háð x gildinu, t.d. ef X er þyngd og Y hæð. Meta þarf σ. Spámörkin eru 

Y −Yspá 

s 1 + c ′ (X ′ X) −1 ∼ tn−k 

(3.48) 

c 

Passa verður að rugla ekki saman 3.47 og 3.48. Kíkja á appendix 3.4 um útleiðslu á metli og vera viss 

um að skilja þetta. Til hliðsjónar má hafa appendix aftast í bók. Kíkja líka á jöfnu 3.38 í bók. 

2.1.1 Dæmi úr bókinni 

3.3, 3.12, 3.16, 3.18. 

2.2 Kafli 4 

Þekkjum flest af þessu úr hagrannsóknum I. Ýmis vandamál koma upp í regression. Eiginleikarnir 

um að sjálffylgni ekki til staðar er stundum kallað white noise, dreifni fasti og ekki fylgni á milli einstakra 

tímapunkta. Gaussiona white noise þýðir svo að það sé normaldreift. White noise er venjulega 

skilgreindur í tíma en í raun ekkert sem bannar okkur annað samhengi. 

2.2.1 Ýmis vandamál 

1. Heteroskedcity (misdreifni). 

2. Skýristærðir of margar. 

3. Skýristærðir of fáar. 

4. Form á breytum.


5. X ekki full rank. 

6. Tengsl X við ε (afgangslið). 

7. Ósístæðar breytur. 

Þetta eru allt fyrirbæri sem geta valdið vandræðum í regression. Afleiðing fyrir OLS: 

• Villandi t gildi. t gildi sem fylgja OLS verða ekki réttu t gildin. Þetta þýðir að ályktunarfræðin 

brenglast. Maður sóar tölfræðilegum krafti, getur fengið of hátt R. 

• Ef skýristærðir vantar í líkan þá er það nánast bókað bjögun og nonconsistency. Hinar skýristærðirnar 

fara að e-u leyti að leika hlutverk þeirra sem vantar. Jafnvel þó að við stækkum úrtakið þá hverfur 

bjögunin ekki. Frægt dæmi er um tengsl fæðingartíðni og innflutnings á bárujárni. 

• Form á breytum, t.d. ef við höfum X en ættum að hafa X 2 , þá erum við bersýnilega að mistúlka 

áhrifin af X. Þetta myndi ekki lagast þó að við myndum fjölga punktunum. 

• X er ekki full rank. Þá er ekki hægt að umhverfa X. Hér eru þó til lækningar. 

• Tengsl X við ε. Nonconsistency. Þetta getur til dæmis gerst þegar X er mælt með mæliskekkju. 

Til dæmis 

Sannleikur : Y = Xβ + ε 

Met : Y = X ∗ β + u 

X ∗ = X +V 

Hér gæti X ∗ verið vísitala sem mæld er með skekkju og taka þyrfti tillit til skekkjunar ef nota á 

vísitölun. 

• Ósístæðar breytur. Hér er hætta á falskri fylgni. Hér þá hætta á villandi ályktunum. 

Lesa kaflan um gagnagröft sjálf. Sömuleiðis um Chow próf. Chow próf eru bara venjuleg F próf. 

Maður skiptir mælingamenginu í tvennt og kannar svo hvort sama regression gildir um báða hlutana. 

Við megum sleppa Hanson prófinu í bókinni, skoða það allavega lauslega. 

Við tökum fyrir CuSum og CuSumSq. Þetta eru grafísk próf. Þykja ekki mjög vísindaleg próf. 

Hugmyndin er sú að CuSum skoða 

∑ ˆεt og ∑ ˆε2 t 

Við munum fara nokkuð dýpra í recursive regression heldur en gert er í bókinni. Helgi styðst við 

Harvey bókina í þessari umfjöllun. Hugsum okkur að gefið sé bt (mat á β) og tilsvarandi 

þar sem Y ∗ 

t 

At = (Xt ′ Xt) −1 

bt = (X ′ X) −1 XY ∗ 

er vigur af k mælingum og X = X fylki fyrir k mælingar.Þetta eru e-r byrjunarskilyrði en 

ekki þarf að pæla mikið í þeim. 

bt+1 = bt + AtXt+1(Yt+1 − X ′ 

t+1bt)/ ft+1 

At+1 = At − AtXt+1X ′ 

t+1At/ ft+1 

ft+1 = 1 + X ′ 

t+1AtXt+1 (2.25) 

(2.26) 

(2.27)


Leiða má þetta út með almennri skynsemi. Þetta er endurtekning notkun á reglu Bayes við mat á 

hallatölunni. Velja má byrjunargildin b = 0 og A = 10 10 I. 

vt+1 = Yt+1 − X ′ 

t+1bt 

(4.27) 

þar sem vt er kallað recursive residuals. Þetta er hentug aðferð því þetta hentar mjög vel í tölvuvinnslu. 

Við getum einnig reiknað þetta þó að X sé singular (ekki full rank). X getur verið singular fyrir t.d. ef 

mælingarnar voru fyrir tilviljun ekki nógu margar. Ef við setjum variance sem hér er A, stórt þá þýðir 

það að við vitum lítið um viðfangsefnið. 

Ath! vt óháðir (n-k) eins og stendur í jöfnu 4.29 (OLS afgangsliðir (n) et ekki óháður). Við fáum 

jafnmarga v óháða afgangsliði eins og við höfum e afgangsliði. 

Maður kíkir á stærðina 

Wt = 

e ′ e ∼ χ 2 n−k 

t 

∑ v j/ ˆσ (2.28) 

j=k+1 

St = ∑t j=k+1 v2 j 

(n − k) ˆσ 2 

(2.29) 

við erum að leggja saman recursive residuals og sjá hvernig þeir þróast. Getum svo skoðað þetta 

Wt 

S 

t 

á mynd. Ef mikill breytileiki er á einum stað á myndinni þá er það merki um misdreifni (þegar S 

skoðað). Þegar löng runa af póstitífum residuals (þegar Wt skoðað) þá er það gruggugt. 

2.2.2 Dæmi 

4.4, 4.8, 5.4, 5.2.


3 Fyrirlestur 29. janúar 

3.1 Kaflar 5 og 6 

3.1.1 Maximum likelihood 

L = sennileikafallið, f = þéttifall, θ er parameterinn og y er gagnavektor. L: parametersrúm → 

information. 

L(θ|Y ) = f (Y |θ) 

ℓ(θ) = log(L(θ|Y )) 

δℓ(θ) 

= score 

δθ 

ˆθML er lausn á 

δℓ 

= 0. 

 

δθ 

δ2ℓ(θ|Y ) 

I = −E 

δθδθ ′ 

 

ˆθML d → N(θ,I −1 (θ)) 

plim(ˆθ) = θ 

p 

Xn → X 

p(|Xn − X| < ε) → 

n → ∞ 1. 

ˆθML er asymptotiskt efficient. Nýtir upplýsingarnar best. Cramer Rao mörkum náð. Þessi ójafna 

setur mörk á hversu nákvæmur upplýsingar hægt er að kreista út úr úrtakinu. Að θML ˆ þýðir það 

að í stórum úrtökum er þetta sú upplýsingaaðferð sem kreistir mestar upplýsingar út úr úrtakinu. Á 

síðustu 30 árum hefur likelihood menningin orðin mjög öflugur í allri ályktunarfræði. Við munum 

eftir sufficiency úr tölfræði II. ð ˆθML er fall af sufficient statistic ef hún er til. 

Invariance princippið, ef við breytum með einfaldri vörpun líkaninu þá er ˆθML alveg óbreyttur, t.d. 

ef breytt úr króunum í dolllara. Alls ekki sjálfgefið að þetta gildi. Þetta má skrifa ˆθML, ML mat á θ ↔ 

g(ˆθML) er ML mat á g(θ). 

Fyrir línuleg líkön 

Tölfræðilega líkanið fyrir gögnin lítur út svona 

Y = Xβ + ε 

E(ε) = 0, 

V(ε) = σ 2 I 

ˆβML = ˆ βOLS 

Y ∼ N(Xβ,σ 2 I) 

f (Y |β,σ 2 

n 

1 1 

) = √2π 

 

σ 

θ 

2 

n/2 e −(Y−Xβ)′ (Y−Xβ)/2σ2 ℓ(β,σ 2 ) = − n 

2 log(2π) − nlogσ − (Y − Xβ)′ (Y − Xβ)/(2σ 2 ). 

. I er


Beitum svo smá fylkjareikning. 

= −2X ′ (Y − Xβ) = 0 

→ ˆ β = (X ′ X) −1 X ′ Y 

e = Y − ˆY = (I − X(X ′ X) −1 X ′ ) 

 

µy 

Y 

 

δℓ 

= 0, 

δσ 

σ 2 ML = 1 

n e′ e. biased metill 

Varðandi tölfræðileg próf. Við höfum núllkenningu, valkost. Svo getum við hafnað H0 og maður 

ákveður fyrirfram hve oft maður má hafna. Kenningar eru non-nested hypothesis ef þær eru ekki 

sértilfelli af H0. 

3.1.2 LR likelihood ratio 

Grundvallarhugmyndin er sú (sbr. kafla 7.3 í Poirier) að maður reiknar 

Λ = LH0 

LH1 

þar sem LH0 eru líkur á H0 (líkur á mældri útkomu, Bayesenar reikna hinsvegar samskonar stærð, hjá 

þeim er θ hendingin) og LH1 eru líkur á H1. 

λ = logΛ,−2λ ∼ χ 2 (q) 

q = #H1,−#H0. 

þar sem # er fjöldi parametra. Þetta gildir ef regularity skilyrði gilda. Höfum 

. . 

. . 

Y = X β +ε 

 

k−vidur 

H0 : Rβ = r 

Rank(R) = k − q 

Y = β0 + β1X1 + β2X2 + ε 

 

β1 − β2 = 0 

[01 − 1][β0β1β2] ′ = 0 

R [ ] ′ 

 

β 

= [ ] ′ 

 

r 

Gott að hafa góðan skilning á línulegu líkönin og þá er yfirleitt þægilegt að stíga út fyrir línulegu 

líkönin. Það að reikna LH0 krefst þess að við framkvæmum skilyrta hámörkun. 

3.1.3 Wald prófið 

Jafngild LR prófinu í stórum úrtökum. Gott að nota þegar erfitt að framkvæma skilyrtu hámörkunina 

í LR prófinu. 

Wald = frávik I −1 

frávik 

H1


3.1.4 LM prófið 

Þetta próf er næstum því eins. Það þarf að stinga inn. Það er til rosa auðvelt trix til að reikna LM 

prófið. Þessu trixi er kannski líkt í heimad. 3 tölfr. II. LM er heppilegt ef líkanið er bara viðráðanlegt 

undir H0. 

Útvíkkum nú aðeins línulega líkanið. Við höfum haft 

Hvað ef 

? Það er, V(ε) = Ω · σ 2 . 

Y = Xβ + ε 

E(ε) = 0, 

V (ε) = σ 2 I 

ˆβOLS = (X ′ X) −1 X ′ Y 

V(ε) = σ 2 I 

E( ˆ β) = (X ′ X) −1 X ′ E(Y) = (X ′ X) −1 X ′ Xβ = β. unbiased 

Estimatorinn verður enn unbiased. Variansinn verður 

V( ˆ β) = (X ′ X) −1 X ′ V (Y )X(X ′ X) −1 = (X ′ X) −1 X ′ ΩX(X ′ X) −1 · σ 2 

ef við látum eins og raunveruleikinn sé 

þegar hann er 

ˆβ ∼ N(β,σ 2 (X ′ X) −1 ) 

ˆβ ∼ N(β,σ 2 (X ′ X) −1 X ′ ΩX(X ′ X) −1 ) 

þá verða ályktanir um ˆ β villandi. t-gildi stikanna verða röng. 

Ω gæti haft misdreifni eða sjálffylgni. 

Ef við notum ranga dreifingu í ML (munurinn á ML og OLS er að negla þarf dreifingu í ML en 

OLS er rúmfræðileg) þá þarf að leiðrétta. 

Getum hugsað okkur það ef Ω = PP’ (choleski sundurliðun) og prófum 

P −1 Y = P −1 Xβ + P −1 ε (Y ∗ = zβ + u,E(u) = 0,V (u) = σ 2 I) 

 

= X ′ P −1′ 

P −1 −1 X X ′ (P −1′ 

E(P −1 Y) = P −1 Xβ 

V (P −1 Y) = P −1 V (Y)(P −1 ) ′ 

= σ 2 P −1 Ω(P −1 ) = σ 2 P −1 PP ′ (P −1 ) ′ = σ 2 I 

ˆβOLS = (Z ′ Z) −1 Z ′ Y ∗ 

P −1 )Y ∗ = X ′ Ω −1 X −1 ′ −1 

X (P ′ 

P −1 ) 

 

Ω−1 Y 

= (X ′ Ω −1 X) −1 X ′ Ω −1 Y = ˆ βGLS.


Skoðum 

Y = αX + u 

∑Y X 

ˆα = 

∑X 2 

˜α = 1 

n ∑Y/X 

¯α = ∑y 

∑X 

Gerum þetta nú þannig að maður skilgreinir dreifinguna 

ℓ = − n 

2 

Ω stendur fyrir varíans fylki í Y. 

3.1.5 Kafli 6 

Y ∼ N(Xβ,σ 2 Ω) 

1 1 

log(2π) − log|Ω| − 

2 2 (Y − Xβ)′ Ω −1 (Y − Xβ) 

δℓ 

= 0 

δβ 

2 

2 X ′ Ω −1 (X − Xβ) = 0 

δℓ 

= 0 

δσ2 σˆ 2 ML = 1 

n (Y − Xβ)′ Ω −1 (Y − Xβ) 

Í kafla sex er heilmikið um allskonar próf fyrir misdreifni og sjálffylgni. Mörg þessara tekin fyrir í 

hagrannsóknum I. Athugið að Breusch-Pagan er LM próf sbr. viðauka 6.1. Ágætt að kíkja á það. 

Cockrane Orcutt er aðferð til þess að leiðrétta fyrir sjálffylgni. Er að mati Helga alveg úrelt. 

Tillaga, parameterasa Ω = Ω(θ) og meta θ með ML númerískum aðferðum. Helga finnst þetta slá 

þessum kennslubókaraðferðum út. 

Áhrif mæliskekkja skipta máli. Hvað þýðir það að mæliskekkja í X breytum? Ef sanna líkanið er 

Y = Xβ + ε og svo mælum við Y = X ∗ β + u og ef 

X ∗ = X + v 

E(u) = 0 

V(u) = σ 2 u 

= Xβ + (X ∗ − X)β + u 

 

ε 

u = ε − (X ∗ − X) β 

 

villa 

Hér er Helgi að tala um innbyggða mæliskekkju sem er alltaf til staðar. Til dæmis ef maður mælir hæð 

með tommustokk, hve mikil er mæliskekkjan? Mæliskekkjan leiðir til að ˆ βOLS er biased (hlutdrægur) 

og ekki consistent. Ekki cconsistent þýðir t.d. að bias stefnir ekki á 0, í öðrum tilfellum gæti það þýtt

4 FYRIRLESTUR 5. FEB 15 

að dreifnin stefni ekki á 0. Þó að við stækkum úrtakið þá stefnum við ekki á sannleikann. Þetta má 

sjá með því að líta á e-a svona jöfnu 

ˆβ = β + (X ′ X) −1 X ′ ε 

tek plim í gegn (þægilegt með plim að má gera þetta) 

plim ˆ β = β + plim( 1 

n X ′ X) −1 

 

ε −1 XX 

· plim 1 

n X ′ ε 

 

∑xε 

−1 

= β + ∑+∑ xx xε 

Þá er það spurningin hvað er til ráða. Hér blasir við að við myndum kerfismeta vitlaust samband x og 

y, við nálgumst ekki sannleikann. Trixið er að taka u jöfnuna og margfalda í gegn með e-u, þá eyðir 

maður villunni í burtu. Notum instrumental breytu, köllum hana bara z. z á að vera ócorreleruð við 

v=villa og eins mikið correleruð við x og hægt er. Þá fær maður 

zY = zX ∗ β + zu 

ˆβN = (X ∗′ 

PzX ∗ ) −1 X ∗ P −1 

z Y Pz er ofanvarp X ∗ á Z 

Þetta er stundum kallað two stage least squares, fyrsta skrefið er þá að regressa 

ˆX = Z(Z ′ Z) −1 Z ′ X ∗ 

og skref 2 er að meta líkan með ˆX í stað X ∗ . Vandinn er að finna instrument, maður vill hafa mörg 

instrument og slá út villuna. Helga finnst í rannsóknum svolítið ad hoc aðferðum beitt við að finna 

instrument. 

Þegar við lesum um misdreifnipróf og önnur próf þá er gagnlegt að bera saman Newbold kafla 14, 

Thomas kafla 10 og kennslubókina. 

Eitt case í viðbót sem leiðir til ekki consistency í OLS, tafin háð breyta + sjálffylgni leiðir til OLS 

ekki consistent. Nú til dags þá lagfærir maður bara fyrir þessu ef mann grunar að sjálffylgni fyrir 

hendi. 

Ef maður sleppir mikilvægri breytu í líkani, þá þýðir það bias. 

3.1.6 Dæmi 

5.1 - 5.4, 6.7. 

Kennslubókin ber þess svolítið merki að hún hefur verið margendurskrifuð, hlutirnir eru tvist og 

bast í bókinni. Í kafla 6.9 er hlutur sem kallast ARCH, það er visst form á misleitni. Þetta á eiginlega 

heima í kafla 7. 

4 Fyrirlestur 5. feb 

Síðast: Misdreifni, sjálffylgni og mæliskekkjur. 

ˆβGLS = (X ′ Ω −1 X) −1 X ′ Ω −1 Y 

þar sem vesen er að finna Ω en nota má ML í það. GLS instrumental - two stage LS. 

Geymum GARCH í kafla 6.9.


4.1 Kafli 7. univariable tímaraðir 

X1,X2,...,Xn 

Xt = f (Xt−1,Xt−2,... , ut 

innovation 

) 

 

f ortid 

svo má útvíkka þetta þ.a. X-ið verði margvítt (jafna 7.12). 

Box Jenkins kokkabókin skrifuð 1970 með kokteil af líkindafræði og tölfræði. Jenkins hafði áður 

skrifað bók um spectral greiningu. Box tengdasonur Fischers sem kom með ANOVA og fleira. Þetta 

er í stórum dráttum það að fást við vandamálið að við höfum tímaraðir og þurfum að álykta e-ð. 

Höfum AR(1) = Auto Regressive 


εt whitenoise 

E(εt) = 0, V(εt) = σ 2 

E(εtεs) = 0 e f t = s. 

AR(P) 

Xt = φ1Xt−1 + ... + φtXt−p + εt 

Svo höfum við Moving average MA(q). Svoldið villandi nafn, skiljanlegra væri að kalla þetta moving 

sum. 

Xt = εt − θ1εt−1 − ... − θqεt−q 

blöndum þessu svo saman 

ARMA(P,Q) 

Xt = φ1Xt−1 + ... + φpXt−p + εt 

innovation 

−θ1εt−1 − ... − θqεt−q 

Til að gagnasöfnun með tímaröðum sé nothæf þá þarf ergodic skilyrðið að vera uppfyllt. Eiginleiki 

sem við verðum að hafa. Þýðir að mælingar langt frá hvor annari næstum óháðar. Viljum að ¯X 

stackrel p→ µ. 

Svo verðum við líka að hafa sístæðni. Þýðir gróflega séð að eiginleikar raðarinnar séu óháðir 

tímahliðrun. Höfum weak 

E(Xt) = µ 

E(Xt − µ)(Xt−k − µ) = γ(k) 

 

autocovariance f unction 

stundum líka kallað white sense stationary. Svo höfum við strict stationary 

F(Xt1,...,Xtk) = F(Xt1+n,... ,Xtk+n) 

. Óháðar Cauchy hendingar eru t.d. strictly stationary. En meðaltal og covariance er ekki til fyrir 

Cauchy þ.a. það er ekki weakly stationary.


Getum metið líkan útfrá ósístæðum ferlum ef við höfum t.d. monte carlo með 1000 köstum. Erfitt 

að prófa hvort röð er ergodic. Hjá sístæðum tímaröðum er mean function bara constant (autocovariance 

function). 

γ(k) 

ρ(k) = γ(k) 

= autocorrelation f unction(ac f ) 

γ(0) 

⎛ 

⎞ 

γ(0) γ(1) ... 

⎜ 

Ω = ⎝ 

. 

. .. 

⎟ 

. ⎠ 

γ(0) 

Xt = φXt−1 + εt, E(Xt) = 0. 

E( Xt−1Xt 

 

γ(1)=φγ(0)+0→ρ(1)= γ(1) 

γ(0) =φ 

= φX 2 

t−1 + εtXt−1) 

þetta verður svo strax erfiðara fyrir AR(2) 

Xt−1Xt = φ1X 2 

t−1 + φ2Xt−1Xt−2 + Xt−1 + εt 

Xt−2Xt = φ1Xt−1Xt−2 + φ2X 2 

t−2 + Xt−2εt 

γ1 = φ1γ(0) + φ2γ(1) + 0 

γ2 = φ1γ(1) + φ2γ(0) 

og þessar síðustu tvær kallast Yule walker jöfnur. Þetta eru tvær óþekktar (φ1 φ2) og má leysa fyrir φ1 

og φ2. εt-ið lætur stochastic koma í dæmið. 

Getum vel gert úrtaks covariance. Með úrtaksstærðum má ná mati á gömmunum. 

ˆγ(k) = 1 

n 

n 

∑ 

t=k+1 

Hvað kallast þessi vinnubrögð? Least squares er 

(Xt − ¯X)(Xt−k − ¯X) 

min 

φ1φ2 ∑(Xt − ˆXt) 2 

. En vinnubrögðin hér fyrir ofan er Method of moments. gamma 1 og 2 eru fræðileg úrtök. Yule var 

uppi um 1920. 

Höldum nú aðeins áfram að skoða AR(2). 

LXt = Xt−1 

BXt = Xt−1 

FXt = Xt+1 

Δ = 1 − L 

ΔXt = Xt − Xtt − 1 

og þá getum við skrifað 

Xt = φ1LXt + φ2L 2 Xt + εt 

Xt(1 − φ1L − φ2L 2 ) = φ(L)Xt


Mismunajöfnur eru ofboðslega líkar diffurjöfnum. Diffurjafna á borð við y” + ay’ + by = 0 lýsir 

dýnamískum eiginleikum y í tíma. Mismunajöfnur eru diffurjöfnur í strjálum tíma. Skoðnum nú 

φ(z) = 1 − φ1Z − φ2Z 2 

= (1λ1Z)(1 − λ2Z) 

rætur eru utan einingarhrings ef Xt stationary. Í fjármálatölfræði dX = deterministic + stochastic, liða 

þetta í spáanlegan hluta og í óspáanlegan hluta. AR(2) veiðir bara út eina sveiflu því cos samsvarar 

bara einni tíðni. Til að hafa margar sveiflur þá þurfum við að vera með flóknari dýnamískan strúktur. 

4.1.1 Partial Autocorrelation function, PACF 

Mjög svipað og partial correlation. pacf φkk = fylgni Xt og Xt−k gefið Xt−1, ..., Xt−k+1, þetta er skilyrt 

fylgni. Sjá töflu 7.1 sem tengir autocorrelation, partial autocorrelation eiginlega og hvort þetta er 

AR eða MA eða ARMA líkan. Sjá útleiðslur 213 og 214, skilja þessar útleiðslur. Næsta skref er að 

pæla í því hvernig hagmælingar passa í þetta kerfi. Gefum okkur stationary forsendur. Könnum hvort 

mismunur ΔXt er stationary. Ef Δ d Xt er ARMA(p,q) þá Xt er ARIMA(p,d,q) þar sem I stendur fyrir 

integrated. Ef Δ d Xt er stationary þá er sagt að Xt er I(d). Oft tekinn logrinn fyrst með svona hagraðir. 

Það er gert því breytingar í hagröðum eru relativar (prósentubreytingar) en aðferðarfræðin gengur út 

á að skoða level breytingar (absolut breytingar). Með logrun breytir maður relativum breytingum í 

absolut. 

Kaflar 14 og 15 í Thomas eru mjög gagnlegir. Þar er um stationarity og próf fyrir stationarity. Við 

getum séð 


= φLXt + εt 

(1 − φL)Xt 

= εt 

 

φ(L) 

og við getum deilt 1 - φ Z upp í 1 + φ Z + φ 2 Z 2 + .... 

Xt = εt 

1 − φL = (1 + φL + φ2 L 2 + ...) + εt 

= 

∞ 

∑ φ 

j=0 

j εt− j 

Höfum Wold decomposition theorem, stationary process = deterministiskur process + MA(∞). Wold 

sannaði þetta um 1930. Wold sagði að hagfræði sé ekki simultan vísindagrein og því henta tímaraðir 

betur en simultan jöfnur. 

Kíkjum núna aðeins á óstationary líkön. Hagraðir virðast almennt ekki vera stationary. Til að átta 

sig á því hvernig óstationary raðir hegða sér þá hafa Jack og John hermt slíka ferla. Sjá bls. 216. Það 

að fyrsti mismunur sé constant þýðir e-rs konar trend. 

Y1(1 − αL)Yt = ... + εt, α = 0,95 

Y2 − − − − − − − −|| − − − − − − − − − − − − − − − − − − − − − − − − − −−, α = 1 

Y3 − − − − − − − −|| − − − − − − − − − − − − − − − − − − − − − − − − − −−, α = 1,05 

Y4(1 − αL)(Yt − δ0 − δ1t) = εt, α = 0,9 

Y5 − − − − − − − −|| − − − − − − − − − − − − − − − − − − − − − − − − − −−, α = 1.0


þegar rótin er = 1 á einingarhringnum þá glatast sístæðnin. Í α = 1,05 þá er þetta explosivt. Gott að 

skilja mismunin á milli þessara tilvika. Svo skoðar hann correlogram. Við skoðum ˆρ sem eru metnir 

sjálffylgnistuðlar. Rétta ρ er 0,95 en hann fær fyrst 0,882. Myndin í heild sinni myndi hafa svipaðan 

caracter ef við myndum sjálfir gera þessa tilraun. 

ΔYt = δ0(1 − α) + γYt−1 + εt γ = α − 1 

ΔYt = β0 + γYt−1 + εt 

ef H0 rétt þá höfum við kvaðratískt trend 

H0 : α = 1 ↔ γ = 0 

H1 : α < 1 ↔ γ < 0 

Sagt er frá Dickey Fuller prófum. Tafla í bók. Ath. að bók gefur sér að ε t sé white noise, þá 

augmented dickey fuller. 


Kíkja á töflu bls. 216. Prófa að gera óháðar svona raðir líka og reikna fylgni á milli þeirra. Nú í dag 

förum við í kafla 7.4. Stundum eru heil námskeið bara um kafla 7.4. 

5.1 7.4 Sístæðar tímaraðir 

Aðferðarfræði til að búa til spár fyrir eina röð. Spectral fræðin er tíðni nálgun á tímaraðir. Í einni 

setningu: Ef við lítum á 100 ára tímabil og lítum á hagsveiflu þá getum við kannski sagt að 5 ár 

séu á milli toppa eða 20 toppar á 100 árum. Munurinn hér er bara að sveiflurnar eru skoðaðar með 

mismunandi gleraugum. Tíðniskoðunin segir okkur ekkert nýtt, bara nýtt sjónarhorn. 

Box Jenkins 

1. Identification. Í hefbundnum hagrannsóknum þýddi þetta áður að hægt var að leysa parametra 

út úr strúktúreðum líkönum. Verkfræðingar slá stundum identification og estimation saman og 

kalla bæði skrefin identification. 

2. Estimation 

3. Diagnostics 

4. Forecasting 

Hugmyndin hér er að nálga stationary ferli með ARMA líkani. Arma líkan hefur myndina 

Xt = φXt−p + εt − θ1εt−1 − ... − θqεt−q 

φ(L)Xt = θ(L)εt 

Rætur φ(Z) utan einingahrings → Xt stationary. 

Rætur θ(Z) utan einingahrings (invertable framsetning s, θi einhlítt ákvarðaðar). 

invertable skilyrðið er bara til að hægt sé að skoða theturnar. Athugið að eftirfarandi eru jafngild 

Xt = εt − 2εt−1 

Xt = et − 1 

2 et−1


Arma líkön eru þó ekkert sérstaklega áhugaverð þar sem þau eru sístæð. Því var búið til ARIMA 

líkön. 

Ath. að 

Yt er I(d) efΔ d Yt = (1 − L) d 1/t er stationary ef 

Xt = Δ d Yt er ARMA(p,q) Yt ∼ ARIMA(p,d,q) 

∞ 

∑θ j 

j Xt− j = εt ↔ Xt = θXt−1 + θ 2 Xt−2 + ... + εt 

5.2 Identification skrefið, ákveða p,d,q 

Leyst með því að skoða úrtaksstærðir 

Sjá töfluna í bók með acf, pacf, ar, ma, arma. 

ρ1.1, ˆ ρ.2,... ˆ 

φ11, ˆ φ22,... ˆ 

ˆρi = úrtakssjálffylgni acf 

ˆ 

φii = úrtaks partial acf 

min 

p,d,q= log ˆσ 2 + P + q logn 

n 

BIC(Schwarz 

Hér þarf að velja fullt af líkönum. Þurfum að meta aragrúa af líkönum með fullt af gildum á p,d,q. 

Þetta var ekki boðlegt þegar lítið var um tölvur og því höfðu Box og Jenkins sérstakt estimation skref 

þar sem þessir óþekktu parametrar metnir. 

Þegar við vinnum gögn þá er það alltaf þessi gangur. Velja líkan, mat á óþekktum parametrum 

út frá mælingum. Svo diagnostics - pæla í því hvernig líkanið stendur sig. Og svo notkun, í hagrannsóknum 

er það oft spágerð. 

5.2.1 Estimation 

Nokkur prinsipp á bakvið estimationið 

5.3 a) Method of moments. 

Elsta aðferðin. Nota reiknireglur fyrir væntanlegt gildi og varíans. Skrifa líkanið. Reikna fræðilegt 

gildi af momentum. Getur verið fall af óþekktum parametrum. Leysa svo fyrir óþekkta parametra. 

Yule-Walker 

Xt = φ1Xt−1 + ... + φpXt−p + εt 

Xt−1 = φXt−2 + ... + φpXt−p−1 + εt−1 

margfalda svo í gegn og taka væntanlegt gildi 

Xt−kXt = Xt−kφ1Xt−1 + ... + φpXt−pXt−k + εtXt−k 

p óþekktir parametrar og nota p jöfnur ˆ 

γ(0) = ..., ˆ 

γ(1) = ...,..., ˆγ(p−) 

E(Xt−kXt == φ1E(Xt−1Xt−k) + ... + φpE(Xt−pXt−k) + E(εtXt−k) 

 

cova f laggik


Gætum leyst þetta ef við vissum gömmurnar (p óþekktu). Stingum inn útaksstærðum fyrir þær og 

köllum lausn. Þetta er consistent lausn en ekki efficient. Þó er hún asymptotiskt efficient. Leysi jöfnur 

og kalla lausn 

Fyrir MA(1) 

ˆφMM = (ˆφ1,..., ˆφp) 

Xt = εt − θεt−1 

γ(1) = E(X2Xt−1) = −θσ 2 

V (Xt) = (1 + θ 2 )σ 2 

Tíska í hagrannsóknum að bæta G fyrir framan MM og kalla generalized method of moments. 

GMM velur það φ sem leysir jöfnurnar sem best. Þessar jöfnur geta verið milu fleiri en p. 

Athugið að dreifingin á ε kemur ekki við sögu hér. Eina sem skiptir máli er að momentin séu til. 

Yule Walker er sem sagt method of moments aðferð. 

5.4 b) Least Squares. 

Viljum leysa lágmörkunar vandamálið 

min 

φ,θ 

n 

∑ 

t=? 

(Xt − ˆXt) 2 

ˆXt = φXt−1 ... − θˆεt−1 ... 

Hvernig á að giska á gömlu ε? Hvað er ˆεt? Ein sniðug aðferð er að nota recursive least residuals. ˆεt 

er metin spáskekkja. Ath að OLS residuals ekki óháðir, þeir summast í 0. Hvernig á að byrja? Hvað 

er ˆX1? Getum byrjað í Xmax(p,q) + 1. → conditional least squares , auðvelt að forrita þessa aðferð. 

Önnur lausn er að spá aftur í tímann, backcasting. Snúa röðinni við og spá aftur í tímann 

5.5 c) Maximum likelihood. 

n 

∑ 

−∞ 

(Xt − ˆXt) 2 

 

unconditionalleastsquares 

Langerfiðasta aðferðin. Þarf alltaf að skrifa niður dreifingu hér. Það þarf ekki að gera í least squares. 

Festi dreifingu á εt. Ágætt að muna eftir margvíðu normaldr. Aðallega áhugavert ef ε ∼N því summa 

normaldreifðra afgangsliða er normaldreifð. 

X = [X1,... ,Xn] ′ ∼ N(0,σ 2 Ω) 

þar sem Ω er covariance fylki. Mjög flókið fall. Erfitt að skrifa niður nema kannski fyrir einföld líkön 

eins og AR(1) og MA(1). Í einvíðu er Ω = 1. Þáttum Ω til að geta tekið aðra rót. Ansley fattaði þetta 

og þá varð auðvelt að reikna þetta fyrir normaldreifingu. 

f (X|φ,θσ) = 1 1 

√ 

2π σ 

1 

|Ω| 2 e−X′ Ω −1 X ′ 2σ 2 

logL = log f (Xφ,θ,σ) = −logσ − 1 1 

log|Ω| − 

2 2σ2 X ′ Ω −1 X


Fyrir AR(1) er Ω 

⎡ 

σ 2 ⎢ 

Ω = ⎣ 

σ 2 x φσ 2 x φ 2 σ 2 x ... 

. .. 

σ 2 x 

⎤ 

⎥ 

⎦ 

E(X 2 

t ) = σ 2 X = γ(0), E(XtXt−1) = γ(1) 

Til aðferðir (t.d. Durbin Levinsson) til að reikna Ω. Önnur leið oft sniðug leið til að skrifa likelihood 

fallið. Skrifa má f(X1, X2) = f(X2|X1) * f(X1). Fyrir AR(P) 

f (Xp+1|X1 ...Xp) = f (Xp+1|X1 ...Xp) · f (X1 ...Xp) 

 

predictivadrei f ingin 

(Xp+1|X1 ...Xp) ∼ N(φ1Xp + φ2Xp−1 + ... + XpX1 σ 2 ε) 

 

autoregressionas jal ftsig 

Þannig að ef við getum reiknað Ω fyrir f(X1 ... XP) þá þurfum við ekki meira. 

Þessi aðferð gengur ekki fyrir MA því þá ekki hægt að þátta fortíðina á þennann hátt. Fyrir MA(1) 

Ω = σ 2 

⎡ 

1 + θ 

⎢ 

⎣ 

2 −θ 0 ... 0 

−θ 1 + θ2 ⎤ 

−θ 0 ... ⎥ 

⎦ 

. .. . .. . .. 

Þetta er svona bandfylki. Band í ferningum í hornalínu sem = 0 en allt hitt núll. Efe Xt er ARMA, 

búa til nýja breytu 

 

Xt 

, ef t í max (p,q) H 

Zt = 

. 

1 − φ1X1 − φ1Xt−p , annars. 

E(ZZ ′ ⎡ 

⎤ 

. .. 

⎢ 

0 ⎥ 

⎢ 

) = ⎢ 

. .. . .. 

⎥ = ll′ 

⎣ 

⎦ 

. 

0 .. . .. 

og V(e) var diagoanl fylki. Og að umhverfa hornalínufylki er ekkert mál. Flest ný forrit nota þetta 

ML-trix. 

Við eigum að kunna prinsippin fyrir ML og MM. Geta leitt þetta út fyrir einföld líkön. Kunna 

trixið með margvítt þéttifall f(X1, X2) = f(X2|X1) * f(X1) en þetta með að varða Ω skiptir ekki höfuð 

máli. 

Oft í gagnavinnslu skiptir öllu að láta sér detta í hug teknísk trix. ML eiginleikar: besta nýting 

á upplýsingum. Verðum að hafa rétta forritið til að fá samkvæm möt. Dreifing má vera vitlaus. Til 

dæmis nota normal ef ekki ∼ N en þá minnkar nýtni. Consistent möt á parametrum en t gildi vitlaus. 

Má leiðrétta með samlokuaðferðum.


5.6 d) bayesískar aðferðir 

Tjá okkur um upplýsingar með líkindadreifingu. Apriori dreifing á (φ, θ, σ) táknað π(φ, θ, σ). Ef 

parameter rúm endanlegt þá getur apriori verið constant. Þurfum að setja vogir á rauntalnaásinn ef 

óendanlegt param. rúm svo að heildist í 1. 

likelihood fall fyrir ARMA ferli er 

π(X|φ,θ,σ) 

Xt = φXt−1 + εt − θεt−1, ε ∼ N(0,σ 2 ) 

Nota svo reglu Bayes til að reikna aposteriori dreifingu 

π(φ,θ,σ) = 

π(X|φ,θ,σ) · π(φ,θ,σ) 

∑π(X|φ,θ,σ) · π(φ,θ,σ)dφdθdσ 

Að reikna þetta er þó mjög erfitt. Margir hafa reynt að sneiða fram hjá þessu með hermunum (kafli 

11). Markow chain, Monte Carlo. Gott að nota Bayes aðferðir í hagfræði því setja fram skoðanir um 

líkan í apriori dreifingu. Ekki auðvelt að steja fram prior fyrir ARMA líkön. Þó hægt að reyna t.d. að 

setja skoðun um lengd hagsveiflna inn, það er þó smá bögg. Við stöndum alltaf frammi fyrir að ákveða 

hvernig velja á stika. Stór hluti ástæðu fyrir velgengni Box-Jenkins var áhersla þeirra á diagnostics. 

Þá skoðum við ˆεt. Ef vel tókst til þá á ˆεt að líkjast hvítu suði. Með líkanasmíðinni erum við að sigta 

út spáanlega hlutann. Skipta líkaninu í spáanlegan og óspáanlegan hluta. 

Ef ˆεt ekki líkt hvítu suði þá hefur sigtunin ekki tekist vel. Skoðum t.d. ACF, PACF, gröf: plotta 

ˆεt á y-ás og tíma á x-ás. Skoðum líka CUSUM, CUSUMSQ sem eru einföld grafísk próf. Ef mikil 

sjálffylgni er í ˆεt → ættum að geta spáð því → e-r spáanlegur hluti eftir í leifarliðum og því sigun á 

spáanlega hlutanum ekki tekist nægjanlega vel. 

5.6.1 CUSUM 

Skoðum 

E( 

t 

∑ 

j=n 

ˆε j) = 0, V ( 

t 

∑ 

j=n 

Wt = 

t 

∑ ˆε j 

j=n 

höfum 

ˆε j) = (t · k)σ 2


Því eðlilegt að cusum sveiflist innan ákveðinna marka. Ef fer út fyrir mörkin þá vísbending um að 

þetta of sveiflukennt og trent þátt vantar kannski í líkanið. Sumir normalisera með því að deila með ˆσ 

5.6.2 CUSUMSQ 

Wt = 

t ˆε j 

∑ 

j=n ˆσ 

st = 1 t 

n ∑ ˆε 

j=n 

2 j 

Ef öll ˆε 2 u.þ.b. jafnstór → vísbending um ekki misdreifni. Viljum að þetta fylgi u.þ.b. 45 gráðu línu 

og setjum e-r mörk á þetta. Sjá töflu fyrir línur töflu D8 í bók. 

Prófin CUSUM og CUSUMSQ eru ágæt en hafa ekki mikið power. 

5.6.3 Durbin Watson 

Durbin Watson er aðferð til að kanna sjálffylgni. DW u.þ.b. 2(1 - ˆρ). Viljum að 

∑(ˆρε(k)) 2 

sé lítil. Spurning hvað maður tekur marga liði í þessari summu. Það er breytilegt milli forrita. Box 

Pierce Ljung byggir á því að vega (*) og bera svo saman við χ 2 töflur. 

Að skoða ACF, PACF teikningar getur gefið vísbendingar um hvort bæta við MA eða AR liðum. 

Gera svo alltaf diagnostics og pæla í því hvar við erum að misstíga okkur. Í næsta tíma verður fjallað 

um forecasting (sbr. 3.4.6 í Poirier). 


Yt,ARIMA(p,d,q) 

(1 − L) d φ(L)Xt = θ(L)εt 

LXt = Xt−1,φ(Z) = 1 − φ1Z − ... − φpZ p 

= (1 − λ1L)(1 − λ2L)...(1 − λpL) 

BXt == Xt−1,θ(Z) = 1 − θ1Z − ... − θqZ q 

(*)


Rætur φ, θ utan einingarhrings. 

φ(Z) = 0,θ(Z) = 0 ef |Z| ≤ 1. 

φ, θ ekki sameiginlegar rætur (ekki common factor). 

(1 − φL)Xt = (1 − θL)εt 

hvað ef φ = θ, þá Xt = εthvað ef φ = θ, þá Xt = εt 

X = ˜X + µ + γt + ... 

Oft höfum við árstíðir í tímaröðum (season). Nálgast má þetta með tvennum hætti. Deterministiskt 

eða stókastískt. Svo verður að reyna að gera þetta rétt en í praktískri tölfræði veit maður aldrei hvað er 

rétt. Reynir bara að komast sem næst sannleikanum. Ef við segjum að margir hafi keypt skíði í fyrra 

þá er líklegt að færri kaupi í ár. Getum þá sett stókastískt seasonal AR þátt í líkan. Gætum líka sett 

MA þátt í líkanið. Þá verður líkanið e-n veginn 

AR : Xt = µ + φXt−12 + µt 

MA : Xt = µ + θUt−12 + µt 

Ef við veljum φ < 1 þá X stationary. Ef (1 - φZ 12 ) þá höfum við tólf rætur á einingarhringnum og þá 

erum við komin með seasonal unit root og þá er X-ið ekki lengur stationary. Helgi hefur lagt ákveðinn 

skilning í þetta og borið undir gáfumenni í fræðunum. Ekki viss hvort þeir kunna þetta ekki eða hvort 

Helgi misskilur þetta. 

Túlkun Helga: Getum þá tekið seasonal mismun (1−L 12 ) D það er skoða Xt −Xt−12. Þá þýðir það 

að við vitum ekki hvenær á árinu seasonið er. Það getur færst yfir árið. Getur einnig orðið misstórt. 

Hér getur annað hvort verið shock á X sem hverfur svo eða e-ð sem lifir alltaf eftir það. Dæmi: 

síldarsala Íslendinga. Salan var alltaf mest á þriðja ársfjórðung. Svo breyttist e-ð, síldin fór og loðnan 

kom í staðinn og hún veiddist á öðrum ársfjórðungi. Útflutningurinn hefur heldur ekki neitt eðlilegt 

meðaltal. 

Margar hagraðir hafa grip á borð við (1 - φZ 12 ). Sumir nota stórt D oft yfir hvað þeir taka oft 

seasonal difference. 

Determiniski hluti seasonal er t.d. að setja dummy breytur inn. Til dæmis meta e-n parameter fyrir 

febrúar. Skíðasölu meðaltal fyrir febrúar. Ef maður gerir þetta þá er maður að negla niður ákveðinn 

strúktúr. Einnig mætti skella inn cos, sin liðum. Ef vottar fyrir determiniskum sveiflum í hagröðum 

þá eru þær árstíðarsveiflur. 

Hitastigið er alveg determiniskt. Vitum að meðalthitinn í jan er 10 gráðum lægri en í júní. Getum 

sett inn dummy þar. 

6.1 Tölvuæfing úr kafla 7 

Notum Gretl forritið. Æfingin í kafla 7 um unit root prófunina. Við eigum að gera dæmi 7.6 í kaflanum. 

Við endurtökum nú það sem er á bls. 227 augmented dickey fuller. Framkvæmum regression 

ΔYt = µ + γt + φYt−1 + µt 

reiknum svo t gildi. Nokkur reiknimál: RATS, SHAZAM, TSP, SORITEC, STATA, PK-GIVE, 

EVIEWS. Búum til tafðar breytur fyrir allar breyturnar og fyrsta mismun. Upphaflegu breyturnar


eru Y1, ..., Y5. Hægt að fara í Variables augmented dickey fuller. Helgi ætlar að reikna jöfnu 7.54 

og fá út töflu 7.10. 200 mælingar. Veljum mælingar, Set range 101.200. Við fáum e-ð smá annað í 

constant og hallatölu en í bók því tími byrjar í 101 en ekki í 0 eða 1 eins og í bók. Setjum svo dY 1 sem 

háðu breytuna og const, Y 11 og time sem skýribreytur í OLS og eigum að fá næstum því það sama og 

í bók a.m.k. Skoðum svo línu 8), -0,118 er phi stuðullinn, t-gildi -2,45 sem er eins og í bók. Berum 

t-gildið við töflu 7.9. Ályktum að núll kenning um non stationary er ekki hafnað. Sanna phi var 0,95. 

Það er mjög nálægt því að vera stationary. Prófum nú að sleppa trendinu (time) og þá kemur það sama 

og í Bókinni. 

Skoðum nú housing start bls. 238. Verið að spá í hvað er byrjað á mörgum húsum. Þetta stundum 

notað sem hagsveiflu indicator. Spurningin hvernig á að spá því. Við förum í Sample->Interpred 

as time series... og ekki árlegt. Svo Sample->Set frequency og veljum þar 12 1959.01 og Apply. 

Hugmyndin er að ath. seasonality. Forum svo í Data->Add variables->periodic dummies og þá bætast 

við 12 dummy breytur. Tökum housing start sem háða breytur og dummy sem skýribreytur. Summa 

seasonal dummy breytanna er alltaf einn og því við því búið að OLS klikki ef ákveðið form á dummy 

breytunum. Sleppum const vegna þessa. Forum í OLS og veljum HS sem háða, const, dummy1, .. , 

dummy12 sem háðar breytur. Des er lægstur og feb. Hér gerum við ráð fyrir að árstíðarsveiflan sé fast 

lögmál yfir allt tímabilið. 

Förum nú í R. skrifum >library(ts). Notum fallið ARIMA í ts. ESS er e-r emacs statistics. Skrifum 

svo >arima(HS, order=c(1,0,0),seasonal=list(order=c(1,0,0),period=12). fyrra order er (p,d,q) og 

seinna er (P,D,Q). Ekki víst að þurfi að gera period. Berum þetta svo saman við bls. 240 í bókinni og 

fáum næstum því það saman. Reiknum svo sjálffylgninga > ac ac$acf[1:10] og þetta á að 

vera það sama og bls. 239.

Hagrannsóknir II fyrirlestraglósur hluti I

Create successful ePaper yourself

Delete template?

Save as template?