29.08.2013 Views

Hagrannsóknir II fyrirlestraglósur hluti I

Hagrannsóknir II fyrirlestraglósur hluti I

Hagrannsóknir II fyrirlestraglósur hluti I

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Hagrannsóknir</strong> <strong>II</strong><br />

<strong>fyrirlestraglósur</strong><br />

<strong>hluti</strong> I<br />

Björn Arnar Hauksson<br />

bah@hi.is<br />

Vor 2003<br />

Útdráttur<br />

Efni þessa glósurits er ritað í fyrirlestrum í Hagrannsóknum <strong>II</strong>, vorið 2003. Kennt af Helga Tómassyni.<br />

Engin ábyrgð er tekin á öllum þeim villum sem kunna að leynast í ritinu. Vinsamlegast<br />

hafið samband við ritara (Björn) um leiðréttingu á villum.<br />

Glósur þessar eru að mestu skrifaðar með þarfir ritara í huga. Því kann sumum atriðum að<br />

vera sleppt sem aðrir kynnu að hafa áhuga á. Frjálst er að dreifa þessu skjali án endurgjalds en<br />

geta skal uppruna ef því er breytt.<br />

Í þessum glósum er orðalag Helga notað nánast óbreytt og sjaldan tilraun gerð til að íslenska<br />

orðalag hans þegar það er ekki allt á íslensku. Yfirleitt er í þessum glósum ekki gerð tilraun til að<br />

merkja fylki sérstaklega þegar að fyrirlesari gerir það ekki, sjá verður af samhenginu hverju sinni<br />

hvort á við.<br />

1


1 FYRIRLESTUR 15. JANÚAR 2<br />

1 Fyrirlestur 15. janúar<br />

1.1 Kynning og lýsing<br />

Maximum likelihood orðin vinsælasta aðferina vegna framfara í reiknigetu. Maximum likelihood yfirleitt<br />

best ef hægt að koma henni við. Helgi var með kennslubók eftir Kmenta á sínum tíma. SUR =<br />

seamingly unrelated regression, að eftirfarandi kerfi geta virðst tengd<br />

y1 = α + βx1 og y2 = γ + δx2<br />

Ekki víst að Helgi nái að fara yfir Monte Carlo og bootstrap, þetta eru reikniaðferðir við mat á<br />

líkönum, það þarf að forrita svolítið til að nota þessar aðferðir. Panel-data heitir líka repeated mesarues<br />

eða analysis of longditudional data. Þetta á við mörg köst guðs, endurteknar tilraunir, t.d. þegar rottur<br />

eru rannsakaðar.<br />

Margar breytur í okkar umhverfi eru ekki samfelldar, t.d. 0 1 breytur, flokkunarbreytur og fleira.<br />

Misjafnt með flokkabreytur hvort þær hafa eðlilega innbyrðis röðun. Hér getum við líka hugsað okkur<br />

mælinga á biðtíma, t.d. hve lengi aðili er atvinnulaus.<br />

1.2 Námsefni o.fl.<br />

• Kennslubókin Econometric Methods plús dreifir kannski efni um samþáttun og forritun. Hagfræðingur<br />

úr Sbí verður með dæmatíma á móti Helga. Dæmi í kennslubókinni og Poirier verða í<br />

dæmatímum og fólk þarf að redda sér sjálft í tölvudæmunum.<br />

• Verkefni verða fullt af gögnum, reikna e-ð og setja e-n texta með.<br />

• Hugbúnaður sem Helgi mælir með er t.d. Gretl, EasyReg, R, Octave, Yacas. Töflureiknar<br />

GNUMERIC og OpenOffice. OpenOffice er aðeins hægari en GNUMERIC og hefur færri<br />

„fídusa”.<br />

1.3 Kennsluáætlun<br />

Kaflar 1-6 eru svolítið mikið upprifjun frá Poirier, gagnlegt að glugga í Poirier til að dýpka skilning.<br />

Exogeneity verður skilgreint nákvæmlega. 2STOLS og 3STOLS er kannski meira kennslubókarefni<br />

heldur en e-ð sem notað er á vinnumarkaði.<br />

1.4 Inngangur kennslubókarinnar<br />

1. Asymptotic teoría. Þau lögmál sem gilda þegar mikið af mælingum fyrir hendi. Verður æ<br />

mikilvægari vegna tölva.<br />

2. Tímaraðaaðferðarfræði.<br />

3. Diagnostics, líkanagreining. Menn eru mun einbeittari í dag í að spá í hvað gæti verið að<br />

líkaninu.<br />

4. GMM, Helgi vill setja þetta atriði innan sviga, þykir þetta ekki merkileg aðferðarfræði, svolítið<br />

ad hoc.<br />

5. Reiknifrekar aðferðir, Monte Carlo og bootstraping, svona simulerings aðferðir. Þessar aðferðir<br />

byggja algjörlega á tölvunum.<br />

(1.1)


1 FYRIRLESTUR 15. JANÚAR 3<br />

6. Microeconometria. PanelData, ... . Líka afleiðing af tölvutækninni, til mikið af gögnum um<br />

einstaklinga og fyrirtæki. Samanber heilsutölfræði og biometrics.<br />

1.5 Regression<br />

Regression er einskonar skilyrt ályktun, álykta um eina breytu gefin önnur. Til dæmis E(Y|X). Köllum<br />

þetta línulega regression ef hún er á borð við<br />

Og á logralínulegu sniði (log-linear form)<br />

Dæmi 1.1 Ef<br />

þá fáum við með því að logra<br />

höfum að<br />

Fáum því<br />

⇒<br />

Dæmi 1.2<br />

Og<br />

E(Y|X) = α + βx (1.2)<br />

logE(Y |X) = α + βlog(X) (1.3)<br />

X ∗ = 1.01 ∗ X (1.4)<br />

logX ∗ = log(1.01) + logX (1.5)<br />

log(1.01) ≈ 0.01. (1.6)<br />

log(E(Y |X ∗ )) − log(E(Y|X)) ≈ β ∗ 0.01, (1.7)<br />

log<br />

E(Y|X ∗ )<br />

E(Y|X)<br />

<br />

≈ β ∗ 0.01 (1.8)<br />

E(Y|X ∗ ) ≈ e β∗0.01 ∗ E(Y|X) ≈ (1 + β ∗ 0.01)E(Y |X). (1.9)<br />

<br />

E(Y|X)<br />

log<br />

= α + βX,<br />

1 − E(Y|X)<br />

(1.10)<br />

E(Y|X) = P(Y = 1|X), 1 − E(Y|X) = P(Y = 0|X). (1.11)<br />

log( P<br />

eα+βx<br />

) = α + βx => P =<br />

1 − P 1 + eα+βx (1.12)<br />

Síðustu tvö skrefin er það sem kallast logit vörpun, logistic model. β er það sem kallast odds ratio per<br />

einingu af X. Setjum P1 og P2 sem líkur á því að fyrirtækjahópar 1 og 2 verði gjaldþrota, finnum svo<br />

Odds ratio fyrir hópana<br />

OR =<br />

P1<br />

1−P1 . (1.13)<br />

P2<br />

1−P2<br />

Hlutfallið hér fyrir ofan er margfeldið af því hversu líklegra er að hópur 1 verði gjaldþrota miðað við<br />

hóp 2. Það er erfitt að skilja OR en þægilegt að reikna það.<br />

Dæmi 1.3 Segjum að X sé kyn, gefið og að Y sé þyngd/laun, spyrjum hvort kynið hefur meiri breytileika<br />

í þyngd, V(Y|X). Þegar talað er um misrétti í launum þá er fólk bara að skoða fyrsta momentið,<br />

E(Y|X).


1 FYRIRLESTUR 15. JANÚAR 4<br />

Kafli 1 í bókinni er bara upprifjun, lesa hann bara létt, kafli 2 er líka upprifjun. Kafli 2 er um<br />

almennt línulegt líkan. Höfum venjulega fylkjaform á líkaninu, E(Y|X) = Xβ, V(Y|X) = σ 2 . Þá er ˆ βols<br />

= (X ′ X) −1 X ′ Y.<br />

Athuga vel að lesa kafla 2.4 um convergence hugtök, Poirier hefur dýpri skýringu á þessu efni. Hér<br />

höfum við plim (convergence in probability) og convergince in distribution. Helga finnst auðveldast að<br />

skilja convergence in mean square, svo á maður að skilja distribution og svo probability. Þetta verður<br />

flóknara þegar random breyta er í spilinu. Svamlað nokkuð hratt í gegnum þetta efni í kennslubókinni.<br />

1.5.1 Kafli 2.5.1<br />

Unit root og stationary hugtökin. Athuga hér að skilja hvað er átt við með stationarity. Svona álíka<br />

og að uppgvöta að til sé talan 0, þá dettur manni í hug að kannski séu til aðrar tölur. Unit root ferlar<br />

er bara ein fjölskylda af nonstationary ferlum. Maður notar unit root ferla því þeir eru þægilegir til að<br />

lýsa óstationary fyrirbærum og auðvelt að skilja það.<br />

1.5.2 Sístæðni<br />

Grundvallarhugtak. Erum með runu af mælingum X1, X2, .... {X} er strongly stationary ef<br />

F(Xt,...,Xtk ) = F(Xt1+h ,...,Xtk+h ) ∀t1,...,tk og ∀h. (1.14)<br />

Þetta er ekki erfitt hugtak en oftar er notað weak stationarity (covariance stationary)<br />

auto-correlation = sjálffylgni.<br />

Höfum AR(1)<br />

og ef<br />

E(Xt) = µ, (1.15)<br />

autocovariance = Cov(Xt,Xt−k) = γ(k), (1.16)<br />

corr(Xt,Xt−k) = ρ(k), (1.17)<br />

Xt = φXt−1 + εt<br />

(1.18)<br />

E(εt) = 0, (1.19)<br />

E(εt,εs) = 0 þegar t = s (1.20)<br />

E(ε 2 t<br />

) = σ2<br />

(1.21)<br />

þá er εt hvítt suð. Ef εt ∼ N(0, σ 2 ) þá er εt Gaussian hvítt suð og Xt verður líka normaldreift. Höfum<br />

því<br />

Dæmi 1.4 Höfum mælingarnar X1, X2 og<br />

Xt ∼ N(0, σ2<br />

),|φ| < 1, (1.22)<br />

1 − φ2 Xt|Xt−1 ∼ N(φXt−1,σ 2 ). (1.23)<br />

L(φ,σ,x1,x2) = f (X1,X2) = f (X2|X1) ∗ f (X1). (1.24)


2 FYRIRLESTUR 22. JAN 5<br />

Finnum svo ML mat á φ og σ 2<br />

log(L(φ,σ)) = − 1 1<br />

log(2π) +<br />

2 2 log(1 − φ2 ) − logσ − 1 − φ2 )X 2 1<br />

2σ2 1.5.3 2.6.2<br />

Eiginleikar ML<br />

δlog(L(φ,σ))<br />

δφ<br />

δlog(L(φ,σ))<br />

δσ<br />

= 0<br />

= 0<br />

ˆφML d → N(θ, I −1 ), ˆθML, asymptotic, consistent, efficient.<br />

1.5.4 Dæmi fyrir dæmatíma<br />

2.4, 2.6, 2.10, 2.11, 3.3, 3.12, 3.16, 3.18.<br />

2 Fyrirlestur 22. jan<br />

2.1 Kafli 3<br />

<br />

f (X1) = 1<br />

<br />

1 − φ2 √<br />

2π σ<br />

f (X2|X1) = 1 1<br />

√<br />

2π<br />

e −(1−φ2 )X2 1 /2σ2<br />

(1.25)<br />

σ e−(X2−φ1X1) 2 /2σ 2<br />

(1.26)<br />

1<br />

−<br />

2 log(2π) − log(σ) − X2 − φX1) 2<br />

2σ2 (1.27)<br />

og leysa fyrir φ og σ<br />

Maður hefur líkan og pælingar. Líkanið er þekkt en nokkra stika þarf að meta. Við höfum þekktar<br />

aðferðir. Til dæmis rúmfræðileg nálgun, hafa matið sem næst raunverulegu gildi. Hér þarf ekki að<br />

negla niður líkindadreifingu. Svo höfum við aðferðir eins og ML og MM en þá þarf að negla niður<br />

líkindadreifinguna.<br />

Meðmæli með aðferð minnstu kvaðrata að ekki þarf að negla niður líkindadreifinguna og einnig<br />

er hún þægileg í reikningum.<br />

Höfum svo venjulegu forsendurnar<br />

E(Y|X) = Xβ,Y = Xβ + ε<br />

⎡<br />

⎤<br />

1 X11 ... X1k<br />

⎢<br />

X = ⎣<br />

.<br />

. . ..<br />

⎥<br />

. ⎦<br />

(2.1)<br />

(2.2)<br />

1 Xn1 ... Xnk<br />

Y = [Y1 ...Yn] ′<br />

(2.3)<br />

β = [β0 ...βk] ′<br />

(2.4)<br />

E(ε1) = 0 (2.5)<br />

V(εi) = σ 2<br />

(2.6)<br />

E(εiε j) = 0 ef i = j (2.7)


2 FYRIRLESTUR 22. JAN 6<br />

Svo gerum við<br />

Þetta má svo leysa með fylkjadeildun.<br />

leysa svo fyrir β<br />

min(Y − Xβ) ′ (Y − Xβ) = min<br />

β (e ′ e) (2.8)<br />

δ<br />

δβ (Y − Xβ)′ (Y − Xβ) = 0<br />

e = Y − Xβ (2.9)<br />

ˆβ = (X ′ X) −1 X ′<br />

<br />

AC<br />

Y (2.10)<br />

ˆY = X ˆ β = X(X ′ X) −1 X ′ Y = (I − µ)Y (2.11)<br />

e = Y − ˆY = Y − X(X ′ X) −1 X ′ Y = (I − X(X ′ X) −1 X ′ )Y = µY (2.12)<br />

Y = ˆY + e (2.13)<br />

ˆY er spá og e er frávik. Samanber Hilbert rúm, breyta hornrétt á aðra þá eru þær óháðar, fylgni núll.<br />

Því<br />

Svo er<br />

ˆY ′ · e = 0 (2.14)<br />

((I − µ)Y ) ′ µy (2.15)<br />

= Y ′ (I − µ) ′ µY (2.16)<br />

= Y ′ (I − µ)µY = Y ′ (µ − µ 2 )Y (2.17)<br />

(I − µ) ′ = (X(X ′ X) −1 X ′ ) ′<br />

= X(X ′ X) −1 X ′ = µ.<br />

µ 2 = (I − X(X ′ X) −1 X ′ ) 2<br />

= I − 2X(X ′ X) −1 X ′ + X(X ′ X) −1 X ′ X(X ′ X) −1<br />

<br />

I<br />

X ′<br />

= I − 2X(X ′ X) −1 X ′ + X(X ′ X) −1 X ′<br />

= I − X(X ′ X) −1 X ′ = µ<br />

µ og I - µ eru idempotent, µ = µ 2 . Einnig kallað projection matrix. Við höfum hér einskonar hornrétta<br />

sundurliðun. Í Poirier kafla 5 er fullt af líkindalegum niðurstöðum og normaldreifða vigra.<br />

Því<br />

Y ′ (µ − µ 2 )Y = Y ′ (µ − µ)Y = 0 (2.18)<br />

ˆβ = (X ′ X)X Y = AY (2.19)<br />

<br />

A<br />

(2.20)


2 FYRIRLESTUR 22. JAN 7<br />

Og<br />

Sjáum að<br />

E( ˆ β) = AE(Y)<br />

= (X ′ X) −1 X ′ E(Y)<br />

<br />

Xβ<br />

= β<br />

V ( ˆ β) = AV (Y )A ′<br />

= (X ′ X) −1 X ′ σ 2 IX(X ′ X) −1<br />

= (X ′ X) −1 σ 2<br />

(2.21)<br />

(2.22)<br />

(2.23)<br />

σ 2 = e ′ e/(n − k). (2.24)<br />

Gert er ráð fyrir að við kunnum Gauss Markow setninguna. ˆ β BLUE ef ákveðin skilyrði uppfyllt.<br />

Gott að glugga í Poirier hvað þessi setning þýðir. Til miserfiðar sannanir á þessari setningu.<br />

Augljós sönnun ef maður kann fylkjaalgebru.<br />

Smá útúrdúr. Bls. 74 í bók. Data mining er þannig að maður byrjar með einfalt líkan og pælir svo<br />

í því hvort maður á að bæta við breytum. R 2 er skýrimáttur líkansins í kæruleysislegu tali. R 2 hækkar<br />

alltaf þegar breytum er bætt við. Menn vildu svo koma með stærð þar sem refsað er fyrir of margar<br />

breytur, þá var fundið upp R 2 adjusted. Þessi leiðrétta stærð er þó ekki með öllu gallalaus, höfum líka<br />

Akaike information criterion, AIC. AIC er bara annað form á því að hafa refsingu fyrir flókið líkan.<br />

Einnig til FPE (final prediction error) og það er líkt AIC. Svo er til eitt sem heitir Bayesean IC (BIC)<br />

= Schwarz (SC/SIC) og það er enn annað form. BIC og SIC er allavega það sama í einni vídd. Svo er<br />

eitt sem heitir Hannan Quinn (HQ). Þessi þrjú fyrstu munu allar ofmeta fjölda breyta í líkaninu. Við<br />

data mining munu þessar fyrst þrjár því valda því að líkanið stækkar upp úr öllu valdi. BIC og HQ eru<br />

hins vegar samkvæm (consistent) og breytu fjöldi mun stefna á rétt gildi. Hins vegar er ekkert víst að<br />

BIC og HQ standi sig vel í litlum úrtökum.<br />

Ef við höfum kenningaprófanir<br />

H0 : Rβ = r<br />

H1 : Rβ = r<br />

Y = Xβ + ε<br />

metum líkan fyrst undir H1 og svo undir H0. Það er auðveldast að gera þetta í þessari röð. Notum svo<br />

LR = likelihood ratio<br />

= likelihood f allH0<br />

.<br />

likelihood f allH1<br />

Maður lítur á likelihood sem fall af parameter en lítur á þéttifall sem fall af mælibreyta. Annars lítur<br />

formúlan fyrir likelihood fallið og þéttifallið eins út.<br />

Almennt gildir að<br />

−2logLR ca ∼ χ 2 .<br />

Fjöldi frígráða er munurinn á fjölda metinna parametra á milli H0 og H1. Ef við setjum skilyrðin β0<br />

óbundið β1 = 0... βk = 0 þá er q = fjöldi frígráða = k. Frígráðurnar eru rankið á R.<br />

(SSEH0 − SSEH1 )/q<br />

F =<br />

SSEH1 /(n − k − 1)


2 FYRIRLESTUR 22. JAN 8<br />

Nýr X vigur, táknum hann C’ = [1 X2 f ...Xk f ]. „Besta” spá er þá C’β. Hér er gengið út frá því<br />

að β sé þekkt. Hér þýðir besta sú spá sem hefur minnsta væntanlega kvaðratvillu. Þá eigum við að<br />

spá með væntanlega gildinu. En ef við ætluðum að hafa spá sem lágmarkar væntanlega tölugildið af<br />

spávillum, þá notum við miðgildið.<br />

Spáum með b = ˆ β, metnum parametrum. Hér er tvenns konar túlkun möguleg.<br />

1. Væntanlegt gildi þeirra með eiginleika C. C er e-r eiginleiki og maður pælir í því hvernig þessi<br />

eiginleiki tengist Y.<br />

2. Spá fyrir einstakt Y gildi eintaklings valinn af handahófi sem hefur eiginleika C.<br />

Kíkjum aðeins á tvö varíans hugtök.<br />

V(c ′ b) = c ′ V(b)c<br />

c ′ b − c ′ β<br />

V (c ′ b) ∼ N(0,1) ef σ þekkt<br />

c ′ b − c ′ β<br />

s c ′ (x ′ x) −1 c<br />

∼ tn−k<br />

Getum fundið öryggismörk fyrir E(Y|X=c). Í bók er þetta jafna 3.47 (case a eða 1 hér að ofan). Svo er<br />

það hin jafnan, 3.48 og ekki má rugla þessum tveim saman (case b eða 2 hér að ofan). Spurningin er<br />

V(Y|X=c) = ?. V(Y|X=c) = σ 2 . 100 +/- 1.96σ. Kannski svoldið ónákvæmt því að sigma getur verið<br />

háð x gildinu, t.d. ef X er þyngd og Y hæð. Meta þarf σ. Spámörkin eru<br />

Y −Yspá<br />

s 1 + c ′ (X ′ X) −1 ∼ tn−k<br />

(3.48)<br />

c<br />

Passa verður að rugla ekki saman 3.47 og 3.48. Kíkja á appendix 3.4 um útleiðslu á metli og vera viss<br />

um að skilja þetta. Til hliðsjónar má hafa appendix aftast í bók. Kíkja líka á jöfnu 3.38 í bók.<br />

2.1.1 Dæmi úr bókinni<br />

3.3, 3.12, 3.16, 3.18.<br />

2.2 Kafli 4<br />

Þekkjum flest af þessu úr hagrannsóknum I. Ýmis vandamál koma upp í regression. Eiginleikarnir<br />

um að sjálffylgni ekki til staðar er stundum kallað white noise, dreifni fasti og ekki fylgni á milli einstakra<br />

tímapunkta. Gaussiona white noise þýðir svo að það sé normaldreift. White noise er venjulega<br />

skilgreindur í tíma en í raun ekkert sem bannar okkur annað samhengi.<br />

2.2.1 Ýmis vandamál<br />

1. Heteroskedcity (misdreifni).<br />

2. Skýristærðir of margar.<br />

3. Skýristærðir of fáar.<br />

4. Form á breytum.


2 FYRIRLESTUR 22. JAN 9<br />

5. X ekki full rank.<br />

6. Tengsl X við ε (afgangslið).<br />

7. Ósístæðar breytur.<br />

Þetta eru allt fyrirbæri sem geta valdið vandræðum í regression. Afleiðing fyrir OLS:<br />

• Villandi t gildi. t gildi sem fylgja OLS verða ekki réttu t gildin. Þetta þýðir að ályktunarfræðin<br />

brenglast. Maður sóar tölfræðilegum krafti, getur fengið of hátt R.<br />

• Ef skýristærðir vantar í líkan þá er það nánast bókað bjögun og nonconsistency. Hinar skýristærðirnar<br />

fara að e-u leyti að leika hlutverk þeirra sem vantar. Jafnvel þó að við stækkum úrtakið þá hverfur<br />

bjögunin ekki. Frægt dæmi er um tengsl fæðingartíðni og innflutnings á bárujárni.<br />

• Form á breytum, t.d. ef við höfum X en ættum að hafa X 2 , þá erum við bersýnilega að mistúlka<br />

áhrifin af X. Þetta myndi ekki lagast þó að við myndum fjölga punktunum.<br />

• X er ekki full rank. Þá er ekki hægt að umhverfa X. Hér eru þó til lækningar.<br />

• Tengsl X við ε. Nonconsistency. Þetta getur til dæmis gerst þegar X er mælt með mæliskekkju.<br />

Til dæmis<br />

Sannleikur : Y = Xβ + ε<br />

Met : Y = X ∗ β + u<br />

X ∗ = X +V<br />

Hér gæti X ∗ verið vísitala sem mæld er með skekkju og taka þyrfti tillit til skekkjunar ef nota á<br />

vísitölun.<br />

• Ósístæðar breytur. Hér er hætta á falskri fylgni. Hér þá hætta á villandi ályktunum.<br />

Lesa kaflan um gagnagröft sjálf. Sömuleiðis um Chow próf. Chow próf eru bara venjuleg F próf.<br />

Maður skiptir mælingamenginu í tvennt og kannar svo hvort sama regression gildir um báða hlutana.<br />

Við megum sleppa Hanson prófinu í bókinni, skoða það allavega lauslega.<br />

Við tökum fyrir CuSum og CuSumSq. Þetta eru grafísk próf. Þykja ekki mjög vísindaleg próf.<br />

Hugmyndin er sú að CuSum skoða<br />

∑ ˆεt og ∑ ˆε2 t<br />

Við munum fara nokkuð dýpra í recursive regression heldur en gert er í bókinni. Helgi styðst við<br />

Harvey bókina í þessari umfjöllun. Hugsum okkur að gefið sé bt (mat á β) og tilsvarandi<br />

þar sem Y ∗<br />

t<br />

At = (Xt ′ Xt) −1<br />

bt = (X ′ X) −1 XY ∗<br />

er vigur af k mælingum og X = X fylki fyrir k mælingar.Þetta eru e-r byrjunarskilyrði en<br />

ekki þarf að pæla mikið í þeim.<br />

bt+1 = bt + AtXt+1(Yt+1 − X ′<br />

t+1bt)/ ft+1<br />

At+1 = At − AtXt+1X ′<br />

t+1At/ ft+1<br />

ft+1 = 1 + X ′<br />

t+1AtXt+1 (2.25)<br />

(2.26)<br />

(2.27)


2 FYRIRLESTUR 22. JAN 10<br />

Leiða má þetta út með almennri skynsemi. Þetta er endurtekning notkun á reglu Bayes við mat á<br />

hallatölunni. Velja má byrjunargildin b = 0 og A = 10 10 I.<br />

vt+1 = Yt+1 − X ′<br />

t+1bt<br />

(4.27)<br />

þar sem vt er kallað recursive residuals. Þetta er hentug aðferð því þetta hentar mjög vel í tölvuvinnslu.<br />

Við getum einnig reiknað þetta þó að X sé singular (ekki full rank). X getur verið singular fyrir t.d. ef<br />

mælingarnar voru fyrir tilviljun ekki nógu margar. Ef við setjum variance sem hér er A, stórt þá þýðir<br />

það að við vitum lítið um viðfangsefnið.<br />

Ath! vt óháðir (n-k) eins og stendur í jöfnu 4.29 (OLS afgangsliðir (n) et ekki óháður). Við fáum<br />

jafnmarga v óháða afgangsliði eins og við höfum e afgangsliði.<br />

Maður kíkir á stærðina<br />

Wt =<br />

e ′ e ∼ χ 2 n−k<br />

t<br />

∑ v j/ ˆσ (2.28)<br />

j=k+1<br />

St = ∑t j=k+1 v2 j<br />

(n − k) ˆσ 2<br />

(2.29)<br />

við erum að leggja saman recursive residuals og sjá hvernig þeir þróast. Getum svo skoðað þetta<br />

Wt<br />

S<br />

t<br />

á mynd. Ef mikill breytileiki er á einum stað á myndinni þá er það merki um misdreifni (þegar S<br />

skoðað). Þegar löng runa af póstitífum residuals (þegar Wt skoðað) þá er það gruggugt.<br />

2.2.2 Dæmi<br />

4.4, 4.8, 5.4, 5.2.


3 FYRIRLESTUR 29. JANÚAR 11<br />

3 Fyrirlestur 29. janúar<br />

3.1 Kaflar 5 og 6<br />

3.1.1 Maximum likelihood<br />

L = sennileikafallið, f = þéttifall, θ er parameterinn og y er gagnavektor. L: parametersrúm →<br />

information.<br />

L(θ|Y ) = f (Y |θ)<br />

ℓ(θ) = log(L(θ|Y ))<br />

δℓ(θ)<br />

= score<br />

δθ<br />

ˆθML er lausn á<br />

δℓ<br />

= 0.<br />

<br />

δθ<br />

δ2ℓ(θ|Y )<br />

I = −E<br />

δθδθ ′<br />

<br />

ˆθML d → N(θ,I −1 (θ))<br />

plim(ˆθ) = θ<br />

p<br />

Xn → X<br />

p(|Xn − X| < ε) →<br />

n → ∞ 1.<br />

ˆθML er asymptotiskt efficient. Nýtir upplýsingarnar best. Cramer Rao mörkum náð. Þessi ójafna<br />

setur mörk á hversu nákvæmur upplýsingar hægt er að kreista út úr úrtakinu. Að θML ˆ þýðir það<br />

að í stórum úrtökum er þetta sú upplýsingaaðferð sem kreistir mestar upplýsingar út úr úrtakinu. Á<br />

síðustu 30 árum hefur likelihood menningin orðin mjög öflugur í allri ályktunarfræði. Við munum<br />

eftir sufficiency úr tölfræði <strong>II</strong>. ð ˆθML er fall af sufficient statistic ef hún er til.<br />

Invariance princippið, ef við breytum með einfaldri vörpun líkaninu þá er ˆθML alveg óbreyttur, t.d.<br />

ef breytt úr króunum í dolllara. Alls ekki sjálfgefið að þetta gildi. Þetta má skrifa ˆθML, ML mat á θ ↔<br />

g(ˆθML) er ML mat á g(θ).<br />

Fyrir línuleg líkön<br />

Tölfræðilega líkanið fyrir gögnin lítur út svona<br />

Y = Xβ + ε<br />

E(ε) = 0,<br />

V(ε) = σ 2 I<br />

ˆβML = ˆ βOLS<br />

Y ∼ N(Xβ,σ 2 I)<br />

f (Y |β,σ 2<br />

n <br />

1 1<br />

) = √2π<br />

<br />

σ<br />

θ<br />

2<br />

n/2 e −(Y−Xβ)′ (Y−Xβ)/2σ2 ℓ(β,σ 2 ) = − n<br />

2 log(2π) − nlogσ − (Y − Xβ)′ (Y − Xβ)/(2σ 2 ).<br />

. I er


3 FYRIRLESTUR 29. JANÚAR 12<br />

Beitum svo smá fylkjareikning.<br />

= −2X ′ (Y − Xβ) = 0<br />

→ ˆ β = (X ′ X) −1 X ′ Y<br />

e = Y − ˆY = (I − X(X ′ X) −1 X ′ )<br />

<br />

µy<br />

Y<br />

<br />

δℓ<br />

= 0,<br />

δσ<br />

σ 2 ML = 1<br />

n e′ e. biased metill<br />

Varðandi tölfræðileg próf. Við höfum núllkenningu, valkost. Svo getum við hafnað H0 og maður<br />

ákveður fyrirfram hve oft maður má hafna. Kenningar eru non-nested hypothesis ef þær eru ekki<br />

sértilfelli af H0.<br />

3.1.2 LR likelihood ratio<br />

Grundvallarhugmyndin er sú (sbr. kafla 7.3 í Poirier) að maður reiknar<br />

Λ = LH0<br />

LH1<br />

þar sem LH0 eru líkur á H0 (líkur á mældri útkomu, Bayesenar reikna hinsvegar samskonar stærð, hjá<br />

þeim er θ hendingin) og LH1 eru líkur á H1.<br />

λ = logΛ,−2λ ∼ χ 2 (q)<br />

q = #H1,−#H0.<br />

þar sem # er fjöldi parametra. Þetta gildir ef regularity skilyrði gilda. Höfum<br />

. .<br />

. .<br />

Y = X β +ε<br />

<br />

k−vidur<br />

H0 : Rβ = r<br />

Rank(R) = k − q<br />

Y = β0 + β1X1 + β2X2 + ε<br />

<br />

β1 − β2 = 0<br />

[01 − 1][β0β1β2] ′ = 0<br />

R [ ] ′<br />

<br />

β<br />

= [ ] ′<br />

<br />

r<br />

Gott að hafa góðan skilning á línulegu líkönin og þá er yfirleitt þægilegt að stíga út fyrir línulegu<br />

líkönin. Það að reikna LH0 krefst þess að við framkvæmum skilyrta hámörkun.<br />

3.1.3 Wald prófið<br />

Jafngild LR prófinu í stórum úrtökum. Gott að nota þegar erfitt að framkvæma skilyrtu hámörkunina<br />

í LR prófinu.<br />

Wald = frávik I −1<br />

frávik<br />

H1


3 FYRIRLESTUR 29. JANÚAR 13<br />

3.1.4 LM prófið<br />

Þetta próf er næstum því eins. Það þarf að stinga inn. Það er til rosa auðvelt trix til að reikna LM<br />

prófið. Þessu trixi er kannski líkt í heimad. 3 tölfr. <strong>II</strong>. LM er heppilegt ef líkanið er bara viðráðanlegt<br />

undir H0.<br />

Útvíkkum nú aðeins línulega líkanið. Við höfum haft<br />

Hvað ef<br />

? Það er, V(ε) = Ω · σ 2 .<br />

Y = Xβ + ε<br />

E(ε) = 0,<br />

V (ε) = σ 2 I<br />

ˆβOLS = (X ′ X) −1 X ′ Y<br />

V(ε) = σ 2 I<br />

E( ˆ β) = (X ′ X) −1 X ′ E(Y) = (X ′ X) −1 X ′ Xβ = β. unbiased<br />

Estimatorinn verður enn unbiased. Variansinn verður<br />

V( ˆ β) = (X ′ X) −1 X ′ V (Y )X(X ′ X) −1 = (X ′ X) −1 X ′ ΩX(X ′ X) −1 · σ 2<br />

ef við látum eins og raunveruleikinn sé<br />

þegar hann er<br />

ˆβ ∼ N(β,σ 2 (X ′ X) −1 )<br />

ˆβ ∼ N(β,σ 2 (X ′ X) −1 X ′ ΩX(X ′ X) −1 )<br />

þá verða ályktanir um ˆ β villandi. t-gildi stikanna verða röng.<br />

Ω gæti haft misdreifni eða sjálffylgni.<br />

Ef við notum ranga dreifingu í ML (munurinn á ML og OLS er að negla þarf dreifingu í ML en<br />

OLS er rúmfræðileg) þá þarf að leiðrétta.<br />

Getum hugsað okkur það ef Ω = PP’ (choleski sundurliðun) og prófum<br />

P −1 Y = P −1 Xβ + P −1 ε (Y ∗ = zβ + u,E(u) = 0,V (u) = σ 2 I)<br />

<br />

= X ′ P −1′<br />

P −1 −1 X X ′ (P −1′<br />

E(P −1 Y) = P −1 Xβ<br />

V (P −1 Y) = P −1 V (Y)(P −1 ) ′<br />

= σ 2 P −1 Ω(P −1 ) = σ 2 P −1 PP ′ (P −1 ) ′ = σ 2 I<br />

ˆβOLS = (Z ′ Z) −1 Z ′ Y ∗<br />

P −1 )Y ∗ = X ′ Ω −1 X −1 ′ −1<br />

X (P ′<br />

P −1 )<br />

<br />

Ω−1 Y<br />

= (X ′ Ω −1 X) −1 X ′ Ω −1 Y = ˆ βGLS.


3 FYRIRLESTUR 29. JANÚAR 14<br />

Skoðum<br />

Y = αX + u<br />

∑Y X<br />

ˆα =<br />

∑X 2<br />

˜α = 1<br />

n ∑Y/X<br />

¯α = ∑y<br />

∑X<br />

Gerum þetta nú þannig að maður skilgreinir dreifinguna<br />

ℓ = − n<br />

2<br />

Ω stendur fyrir varíans fylki í Y.<br />

3.1.5 Kafli 6<br />

Y ∼ N(Xβ,σ 2 Ω)<br />

1 1<br />

log(2π) − log|Ω| −<br />

2 2 (Y − Xβ)′ Ω −1 (Y − Xβ)<br />

δℓ<br />

= 0<br />

δβ<br />

2<br />

2 X ′ Ω −1 (X − Xβ) = 0<br />

δℓ<br />

= 0<br />

δσ2 σˆ 2 ML = 1<br />

n (Y − Xβ)′ Ω −1 (Y − Xβ)<br />

Í kafla sex er heilmikið um allskonar próf fyrir misdreifni og sjálffylgni. Mörg þessara tekin fyrir í<br />

hagrannsóknum I. Athugið að Breusch-Pagan er LM próf sbr. viðauka 6.1. Ágætt að kíkja á það.<br />

Cockrane Orcutt er aðferð til þess að leiðrétta fyrir sjálffylgni. Er að mati Helga alveg úrelt.<br />

Tillaga, parameterasa Ω = Ω(θ) og meta θ með ML númerískum aðferðum. Helga finnst þetta slá<br />

þessum kennslubókaraðferðum út.<br />

Áhrif mæliskekkja skipta máli. Hvað þýðir það að mæliskekkja í X breytum? Ef sanna líkanið er<br />

Y = Xβ + ε og svo mælum við Y = X ∗ β + u og ef<br />

X ∗ = X + v<br />

E(u) = 0<br />

V(u) = σ 2 u<br />

= Xβ + (X ∗ − X)β + u<br />

<br />

ε<br />

u = ε − (X ∗ − X) β<br />

<br />

villa<br />

Hér er Helgi að tala um innbyggða mæliskekkju sem er alltaf til staðar. Til dæmis ef maður mælir hæð<br />

með tommustokk, hve mikil er mæliskekkjan? Mæliskekkjan leiðir til að ˆ βOLS er biased (hlutdrægur)<br />

og ekki consistent. Ekki cconsistent þýðir t.d. að bias stefnir ekki á 0, í öðrum tilfellum gæti það þýtt


4 FYRIRLESTUR 5. FEB 15<br />

að dreifnin stefni ekki á 0. Þó að við stækkum úrtakið þá stefnum við ekki á sannleikann. Þetta má<br />

sjá með því að líta á e-a svona jöfnu<br />

ˆβ = β + (X ′ X) −1 X ′ ε<br />

tek plim í gegn (þægilegt með plim að má gera þetta)<br />

plim ˆ β = β + plim( 1<br />

n X ′ X) −1<br />

<br />

ε −1 XX<br />

· plim 1<br />

n X ′ ε<br />

<br />

∑xε<br />

−1<br />

= β + ∑+∑ xx xε<br />

Þá er það spurningin hvað er til ráða. Hér blasir við að við myndum kerfismeta vitlaust samband x og<br />

y, við nálgumst ekki sannleikann. Trixið er að taka u jöfnuna og margfalda í gegn með e-u, þá eyðir<br />

maður villunni í burtu. Notum instrumental breytu, köllum hana bara z. z á að vera ócorreleruð við<br />

v=villa og eins mikið correleruð við x og hægt er. Þá fær maður<br />

zY = zX ∗ β + zu<br />

ˆβN = (X ∗′<br />

PzX ∗ ) −1 X ∗ P −1<br />

z Y Pz er ofanvarp X ∗ á Z<br />

Þetta er stundum kallað two stage least squares, fyrsta skrefið er þá að regressa<br />

ˆX = Z(Z ′ Z) −1 Z ′ X ∗<br />

og skref 2 er að meta líkan með ˆX í stað X ∗ . Vandinn er að finna instrument, maður vill hafa mörg<br />

instrument og slá út villuna. Helga finnst í rannsóknum svolítið ad hoc aðferðum beitt við að finna<br />

instrument.<br />

Þegar við lesum um misdreifnipróf og önnur próf þá er gagnlegt að bera saman Newbold kafla 14,<br />

Thomas kafla 10 og kennslubókina.<br />

Eitt case í viðbót sem leiðir til ekki consistency í OLS, tafin háð breyta + sjálffylgni leiðir til OLS<br />

ekki consistent. Nú til dags þá lagfærir maður bara fyrir þessu ef mann grunar að sjálffylgni fyrir<br />

hendi.<br />

Ef maður sleppir mikilvægri breytu í líkani, þá þýðir það bias.<br />

3.1.6 Dæmi<br />

5.1 - 5.4, 6.7.<br />

Kennslubókin ber þess svolítið merki að hún hefur verið margendurskrifuð, <strong>hluti</strong>rnir eru tvist og<br />

bast í bókinni. Í kafla 6.9 er hlutur sem kallast ARCH, það er visst form á misleitni. Þetta á eiginlega<br />

heima í kafla 7.<br />

4 Fyrirlestur 5. feb<br />

Síðast: Misdreifni, sjálffylgni og mæliskekkjur.<br />

ˆβGLS = (X ′ Ω −1 X) −1 X ′ Ω −1 Y<br />

þar sem vesen er að finna Ω en nota má ML í það. GLS instrumental - two stage LS.<br />

Geymum GARCH í kafla 6.9.


4 FYRIRLESTUR 5. FEB 16<br />

4.1 Kafli 7. univariable tímaraðir<br />

X1,X2,...,Xn<br />

Xt = f (Xt−1,Xt−2,... , ut <br />

innovation<br />

)<br />

<br />

f ortid<br />

svo má útvíkka þetta þ.a. X-ið verði margvítt (jafna 7.12).<br />

Box Jenkins kokkabókin skrifuð 1970 með kokteil af líkindafræði og tölfræði. Jenkins hafði áður<br />

skrifað bók um spectral greiningu. Box tengdasonur Fischers sem kom með ANOVA og fleira. Þetta<br />

er í stórum dráttum það að fást við vandamálið að við höfum tímaraðir og þurfum að álykta e-ð.<br />

Höfum AR(1) = Auto Regressive<br />

Xt = φXt−1 + εt<br />

εt whitenoise<br />

E(εt) = 0, V(εt) = σ 2<br />

E(εtεs) = 0 e f t = s.<br />

AR(P)<br />

Xt = φ1Xt−1 + ... + φtXt−p + εt<br />

Svo höfum við Moving average MA(q). Svoldið villandi nafn, skiljanlegra væri að kalla þetta moving<br />

sum.<br />

Xt = εt − θ1εt−1 − ... − θqεt−q<br />

blöndum þessu svo saman<br />

ARMA(P,Q)<br />

Xt = φ1Xt−1 + ... + φpXt−p + εt <br />

innovation<br />

−θ1εt−1 − ... − θqεt−q<br />

Til að gagnasöfnun með tímaröðum sé nothæf þá þarf ergodic skilyrðið að vera uppfyllt. Eiginleiki<br />

sem við verðum að hafa. Þýðir að mælingar langt frá hvor annari næstum óháðar. Viljum að ¯X<br />

stackrel p→ µ.<br />

Svo verðum við líka að hafa sístæðni. Þýðir gróflega séð að eiginleikar raðarinnar séu óháðir<br />

tímahliðrun. Höfum weak<br />

E(Xt) = µ<br />

E(Xt − µ)(Xt−k − µ) = γ(k)<br />

<br />

autocovariance f unction<br />

stundum líka kallað white sense stationary. Svo höfum við strict stationary<br />

F(Xt1,...,Xtk) = F(Xt1+n,... ,Xtk+n)<br />

. Óháðar Cauchy hendingar eru t.d. strictly stationary. En meðaltal og covariance er ekki til fyrir<br />

Cauchy þ.a. það er ekki weakly stationary.


4 FYRIRLESTUR 5. FEB 17<br />

Getum metið líkan útfrá ósístæðum ferlum ef við höfum t.d. monte carlo með 1000 köstum. Erfitt<br />

að prófa hvort röð er ergodic. Hjá sístæðum tímaröðum er mean function bara constant (autocovariance<br />

function).<br />

γ(k)<br />

ρ(k) = γ(k)<br />

= autocorrelation f unction(ac f )<br />

γ(0)<br />

⎛<br />

⎞<br />

γ(0) γ(1) ...<br />

⎜<br />

Ω = ⎝<br />

.<br />

. ..<br />

⎟<br />

. ⎠<br />

γ(0)<br />

Xt = φXt−1 + εt, E(Xt) = 0.<br />

E( Xt−1Xt<br />

<br />

γ(1)=φγ(0)+0→ρ(1)= γ(1)<br />

γ(0) =φ<br />

= φX 2<br />

t−1 + εtXt−1)<br />

þetta verður svo strax erfiðara fyrir AR(2)<br />

Xt−1Xt = φ1X 2<br />

t−1 + φ2Xt−1Xt−2 + Xt−1 + εt<br />

Xt−2Xt = φ1Xt−1Xt−2 + φ2X 2<br />

t−2 + Xt−2εt<br />

γ1 = φ1γ(0) + φ2γ(1) + 0<br />

γ2 = φ1γ(1) + φ2γ(0)<br />

og þessar síðustu tvær kallast Yule walker jöfnur. Þetta eru tvær óþekktar (φ1 φ2) og má leysa fyrir φ1<br />

og φ2. εt-ið lætur stochastic koma í dæmið.<br />

Getum vel gert úrtaks covariance. Með úrtaksstærðum má ná mati á gömmunum.<br />

ˆγ(k) = 1<br />

n<br />

n<br />

∑<br />

t=k+1<br />

Hvað kallast þessi vinnubrögð? Least squares er<br />

(Xt − ¯X)(Xt−k − ¯X)<br />

min<br />

φ1φ2 ∑(Xt − ˆXt) 2<br />

. En vinnubrögðin hér fyrir ofan er Method of moments. gamma 1 og 2 eru fræðileg úrtök. Yule var<br />

uppi um 1920.<br />

Höldum nú aðeins áfram að skoða AR(2).<br />

LXt = Xt−1<br />

BXt = Xt−1<br />

FXt = Xt+1<br />

Δ = 1 − L<br />

ΔXt = Xt − Xtt − 1<br />

og þá getum við skrifað<br />

Xt = φ1LXt + φ2L 2 Xt + εt<br />

Xt(1 − φ1L − φ2L 2 ) = φ(L)Xt


4 FYRIRLESTUR 5. FEB 18<br />

Mismunajöfnur eru ofboðslega líkar diffurjöfnum. Diffurjafna á borð við y” + ay’ + by = 0 lýsir<br />

dýnamískum eiginleikum y í tíma. Mismunajöfnur eru diffurjöfnur í strjálum tíma. Skoðnum nú<br />

φ(z) = 1 − φ1Z − φ2Z 2<br />

= (1λ1Z)(1 − λ2Z)<br />

rætur eru utan einingarhrings ef Xt stationary. Í fjármálatölfræði dX = deterministic + stochastic, liða<br />

þetta í spáanlegan hluta og í óspáanlegan hluta. AR(2) veiðir bara út eina sveiflu því cos samsvarar<br />

bara einni tíðni. Til að hafa margar sveiflur þá þurfum við að vera með flóknari dýnamískan strúktur.<br />

4.1.1 Partial Autocorrelation function, PACF<br />

Mjög svipað og partial correlation. pacf φkk = fylgni Xt og Xt−k gefið Xt−1, ..., Xt−k+1, þetta er skilyrt<br />

fylgni. Sjá töflu 7.1 sem tengir autocorrelation, partial autocorrelation eiginlega og hvort þetta er<br />

AR eða MA eða ARMA líkan. Sjá útleiðslur 213 og 214, skilja þessar útleiðslur. Næsta skref er að<br />

pæla í því hvernig hagmælingar passa í þetta kerfi. Gefum okkur stationary forsendur. Könnum hvort<br />

mismunur ΔXt er stationary. Ef Δ d Xt er ARMA(p,q) þá Xt er ARIMA(p,d,q) þar sem I stendur fyrir<br />

integrated. Ef Δ d Xt er stationary þá er sagt að Xt er I(d). Oft tekinn logrinn fyrst með svona hagraðir.<br />

Það er gert því breytingar í hagröðum eru relativar (prósentubreytingar) en aðferðarfræðin gengur út<br />

á að skoða level breytingar (absolut breytingar). Með logrun breytir maður relativum breytingum í<br />

absolut.<br />

Kaflar 14 og 15 í Thomas eru mjög gagnlegir. Þar er um stationarity og próf fyrir stationarity. Við<br />

getum séð<br />

Xt = φXt−1 + εt<br />

= φLXt + εt<br />

(1 − φL)Xt<br />

= εt<br />

<br />

φ(L)<br />

og við getum deilt 1 - φ Z upp í 1 + φ Z + φ 2 Z 2 + ....<br />

Xt = εt<br />

1 − φL = (1 + φL + φ2 L 2 + ...) + εt<br />

=<br />

∞<br />

∑ φ<br />

j=0<br />

j εt− j<br />

Höfum Wold decomposition theorem, stationary process = deterministiskur process + MA(∞). Wold<br />

sannaði þetta um 1930. Wold sagði að hagfræði sé ekki simultan vísindagrein og því henta tímaraðir<br />

betur en simultan jöfnur.<br />

Kíkjum núna aðeins á óstationary líkön. Hagraðir virðast almennt ekki vera stationary. Til að átta<br />

sig á því hvernig óstationary raðir hegða sér þá hafa Jack og John hermt slíka ferla. Sjá bls. 216. Það<br />

að fyrsti mismunur sé constant þýðir e-rs konar trend.<br />

Y1(1 − αL)Yt = ... + εt, α = 0,95<br />

Y2 − − − − − − − −|| − − − − − − − − − − − − − − − − − − − − − − − − − −−, α = 1<br />

Y3 − − − − − − − −|| − − − − − − − − − − − − − − − − − − − − − − − − − −−, α = 1,05<br />

Y4(1 − αL)(Yt − δ0 − δ1t) = εt, α = 0,9<br />

Y5 − − − − − − − −|| − − − − − − − − − − − − − − − − − − − − − − − − − −−, α = 1.0


5 FYRIRLESTUR 12. FEB 19<br />

þegar rótin er = 1 á einingarhringnum þá glatast sístæðnin. Í α = 1,05 þá er þetta explosivt. Gott að<br />

skilja mismunin á milli þessara tilvika. Svo skoðar hann correlogram. Við skoðum ˆρ sem eru metnir<br />

sjálffylgnistuðlar. Rétta ρ er 0,95 en hann fær fyrst 0,882. Myndin í heild sinni myndi hafa svipaðan<br />

caracter ef við myndum sjálfir gera þessa tilraun.<br />

ΔYt = δ0(1 − α) + γYt−1 + εt γ = α − 1<br />

ΔYt = β0 + γYt−1 + εt<br />

ef H0 rétt þá höfum við kvaðratískt trend<br />

H0 : α = 1 ↔ γ = 0<br />

H1 : α < 1 ↔ γ < 0<br />

Sagt er frá Dickey Fuller prófum. Tafla í bók. Ath. að bók gefur sér að ε t sé white noise, þá<br />

augmented dickey fuller.<br />

5 Fyrirlestur 12. feb<br />

Kíkja á töflu bls. 216. Prófa að gera óháðar svona raðir líka og reikna fylgni á milli þeirra. Nú í dag<br />

förum við í kafla 7.4. Stundum eru heil námskeið bara um kafla 7.4.<br />

5.1 7.4 Sístæðar tímaraðir<br />

Aðferðarfræði til að búa til spár fyrir eina röð. Spectral fræðin er tíðni nálgun á tímaraðir. Í einni<br />

setningu: Ef við lítum á 100 ára tímabil og lítum á hagsveiflu þá getum við kannski sagt að 5 ár<br />

séu á milli toppa eða 20 toppar á 100 árum. Munurinn hér er bara að sveiflurnar eru skoðaðar með<br />

mismunandi gleraugum. Tíðniskoðunin segir okkur ekkert nýtt, bara nýtt sjónarhorn.<br />

Box Jenkins<br />

1. Identification. Í hefbundnum hagrannsóknum þýddi þetta áður að hægt var að leysa parametra<br />

út úr strúktúreðum líkönum. Verkfræðingar slá stundum identification og estimation saman og<br />

kalla bæði skrefin identification.<br />

2. Estimation<br />

3. Diagnostics<br />

4. Forecasting<br />

Hugmyndin hér er að nálga stationary ferli með ARMA líkani. Arma líkan hefur myndina<br />

Xt = φXt−p + εt − θ1εt−1 − ... − θqεt−q<br />

φ(L)Xt = θ(L)εt<br />

Rætur φ(Z) utan einingahrings → Xt stationary.<br />

Rætur θ(Z) utan einingahrings (invertable framsetning s, θi einhlítt ákvarðaðar).<br />

invertable skilyrðið er bara til að hægt sé að skoða theturnar. Athugið að eftirfarandi eru jafngild<br />

Xt = εt − 2εt−1<br />

Xt = et − 1<br />

2 et−1


5 FYRIRLESTUR 12. FEB 20<br />

Arma líkön eru þó ekkert sérstaklega áhugaverð þar sem þau eru sístæð. Því var búið til ARIMA<br />

líkön.<br />

Ath. að<br />

Yt er I(d) efΔ d Yt = (1 − L) d 1/t er stationary ef<br />

Xt = Δ d Yt er ARMA(p,q) Yt ∼ ARIMA(p,d,q)<br />

∞<br />

∑θ j<br />

j Xt− j = εt ↔ Xt = θXt−1 + θ 2 Xt−2 + ... + εt<br />

5.2 Identification skrefið, ákveða p,d,q<br />

Leyst með því að skoða úrtaksstærðir<br />

Sjá töfluna í bók með acf, pacf, ar, ma, arma.<br />

ρ1.1, ˆ ρ.2,... ˆ<br />

φ11, ˆ φ22,... ˆ<br />

ˆρi = úrtakssjálffylgni acf<br />

ˆ<br />

φii = úrtaks partial acf<br />

min<br />

p,d,q= log ˆσ 2 + P + q logn<br />

n<br />

BIC(Schwarz<br />

Hér þarf að velja fullt af líkönum. Þurfum að meta aragrúa af líkönum með fullt af gildum á p,d,q.<br />

Þetta var ekki boðlegt þegar lítið var um tölvur og því höfðu Box og Jenkins sérstakt estimation skref<br />

þar sem þessir óþekktu parametrar metnir.<br />

Þegar við vinnum gögn þá er það alltaf þessi gangur. Velja líkan, mat á óþekktum parametrum<br />

út frá mælingum. Svo diagnostics - pæla í því hvernig líkanið stendur sig. Og svo notkun, í hagrannsóknum<br />

er það oft spágerð.<br />

5.2.1 Estimation<br />

Nokkur prinsipp á bakvið estimationið<br />

5.3 a) Method of moments.<br />

Elsta aðferðin. Nota reiknireglur fyrir væntanlegt gildi og varíans. Skrifa líkanið. Reikna fræðilegt<br />

gildi af momentum. Getur verið fall af óþekktum parametrum. Leysa svo fyrir óþekkta parametra.<br />

Yule-Walker<br />

Xt = φ1Xt−1 + ... + φpXt−p + εt<br />

Xt−1 = φXt−2 + ... + φpXt−p−1 + εt−1<br />

margfalda svo í gegn og taka væntanlegt gildi<br />

Xt−kXt = Xt−kφ1Xt−1 + ... + φpXt−pXt−k + εtXt−k<br />

p óþekktir parametrar og nota p jöfnur ˆ<br />

γ(0) = ..., ˆ<br />

γ(1) = ...,..., ˆγ(p−)<br />

E(Xt−kXt == φ1E(Xt−1Xt−k) + ... + φpE(Xt−pXt−k) + E(εtXt−k)<br />

<br />

cova f laggik


5 FYRIRLESTUR 12. FEB 21<br />

Gætum leyst þetta ef við vissum gömmurnar (p óþekktu). Stingum inn útaksstærðum fyrir þær og<br />

köllum lausn. Þetta er consistent lausn en ekki efficient. Þó er hún asymptotiskt efficient. Leysi jöfnur<br />

og kalla lausn<br />

Fyrir MA(1)<br />

ˆφMM = (ˆφ1,..., ˆφp)<br />

Xt = εt − θεt−1<br />

γ(1) = E(X2Xt−1) = −θσ 2<br />

V (Xt) = (1 + θ 2 )σ 2<br />

Tíska í hagrannsóknum að bæta G fyrir framan MM og kalla generalized method of moments.<br />

GMM velur það φ sem leysir jöfnurnar sem best. Þessar jöfnur geta verið milu fleiri en p.<br />

Athugið að dreifingin á ε kemur ekki við sögu hér. Eina sem skiptir máli er að momentin séu til.<br />

Yule Walker er sem sagt method of moments aðferð.<br />

5.4 b) Least Squares.<br />

Viljum leysa lágmörkunar vandamálið<br />

min<br />

φ,θ<br />

n<br />

∑<br />

t=?<br />

(Xt − ˆXt) 2<br />

ˆXt = φXt−1 ... − θˆεt−1 ...<br />

Hvernig á að giska á gömlu ε? Hvað er ˆεt? Ein sniðug aðferð er að nota recursive least residuals. ˆεt<br />

er metin spáskekkja. Ath að OLS residuals ekki óháðir, þeir summast í 0. Hvernig á að byrja? Hvað<br />

er ˆX1? Getum byrjað í Xmax(p,q) + 1. → conditional least squares , auðvelt að forrita þessa aðferð.<br />

Önnur lausn er að spá aftur í tímann, backcasting. Snúa röðinni við og spá aftur í tímann<br />

5.5 c) Maximum likelihood.<br />

n<br />

∑<br />

−∞<br />

(Xt − ˆXt) 2<br />

<br />

unconditionalleastsquares<br />

Langerfiðasta aðferðin. Þarf alltaf að skrifa niður dreifingu hér. Það þarf ekki að gera í least squares.<br />

Festi dreifingu á εt. Ágætt að muna eftir margvíðu normaldr. Aðallega áhugavert ef ε ∼N því summa<br />

normaldreifðra afgangsliða er normaldreifð.<br />

X = [X1,... ,Xn] ′ ∼ N(0,σ 2 Ω)<br />

þar sem Ω er covariance fylki. Mjög flókið fall. Erfitt að skrifa niður nema kannski fyrir einföld líkön<br />

eins og AR(1) og MA(1). Í einvíðu er Ω = 1. Þáttum Ω til að geta tekið aðra rót. Ansley fattaði þetta<br />

og þá varð auðvelt að reikna þetta fyrir normaldreifingu.<br />

f (X|φ,θσ) = 1 1<br />

√<br />

2π σ<br />

1<br />

|Ω| 2 e−X′ Ω −1 X ′ 2σ 2<br />

logL = log f (Xφ,θ,σ) = −logσ − 1 1<br />

log|Ω| −<br />

2 2σ2 X ′ Ω −1 X


5 FYRIRLESTUR 12. FEB 22<br />

Fyrir AR(1) er Ω<br />

⎡<br />

σ 2 ⎢<br />

Ω = ⎣<br />

σ 2 x φσ 2 x φ 2 σ 2 x ...<br />

. ..<br />

σ 2 x<br />

⎤<br />

⎥<br />

⎦<br />

E(X 2<br />

t ) = σ 2 X = γ(0), E(XtXt−1) = γ(1)<br />

Til aðferðir (t.d. Durbin Levinsson) til að reikna Ω. Önnur leið oft sniðug leið til að skrifa likelihood<br />

fallið. Skrifa má f(X1, X2) = f(X2|X1) * f(X1). Fyrir AR(P)<br />

f (Xp+1|X1 ...Xp) = f (Xp+1|X1 ...Xp) · f (X1 ...Xp)<br />

<br />

predictivadrei f ingin<br />

(Xp+1|X1 ...Xp) ∼ N(φ1Xp + φ2Xp−1 + ... + XpX1 σ 2 ε)<br />

<br />

autoregressionas jal ftsig<br />

Þannig að ef við getum reiknað Ω fyrir f(X1 ... XP) þá þurfum við ekki meira.<br />

Þessi aðferð gengur ekki fyrir MA því þá ekki hægt að þátta fortíðina á þennann hátt. Fyrir MA(1)<br />

Ω = σ 2<br />

⎡<br />

1 + θ<br />

⎢<br />

⎣<br />

2 −θ 0 ... 0<br />

−θ 1 + θ2 ⎤<br />

−θ 0 ... ⎥<br />

⎦<br />

. .. . .. . ..<br />

Þetta er svona bandfylki. Band í ferningum í hornalínu sem = 0 en allt hitt núll. Efe Xt er ARMA,<br />

búa til nýja breytu<br />

<br />

Xt<br />

, ef t í max (p,q) H<br />

Zt =<br />

.<br />

1 − φ1X1 − φ1Xt−p , annars.<br />

E(ZZ ′ ⎡<br />

⎤<br />

. ..<br />

⎢<br />

0 ⎥<br />

⎢<br />

) = ⎢<br />

. .. . ..<br />

⎥ = ll′<br />

⎣<br />

⎦<br />

.<br />

0 .. . ..<br />

og V(e) var diagoanl fylki. Og að umhverfa hornalínufylki er ekkert mál. Flest ný forrit nota þetta<br />

ML-trix.<br />

Við eigum að kunna prinsippin fyrir ML og MM. Geta leitt þetta út fyrir einföld líkön. Kunna<br />

trixið með margvítt þéttifall f(X1, X2) = f(X2|X1) * f(X1) en þetta með að varða Ω skiptir ekki höfuð<br />

máli.<br />

Oft í gagnavinnslu skiptir öllu að láta sér detta í hug teknísk trix. ML eiginleikar: besta nýting<br />

á upplýsingum. Verðum að hafa rétta forritið til að fá samkvæm möt. Dreifing má vera vitlaus. Til<br />

dæmis nota normal ef ekki ∼ N en þá minnkar nýtni. Consistent möt á parametrum en t gildi vitlaus.<br />

Má leiðrétta með samlokuaðferðum.


5 FYRIRLESTUR 12. FEB 23<br />

5.6 d) bayesískar aðferðir<br />

Tjá okkur um upplýsingar með líkindadreifingu. Apriori dreifing á (φ, θ, σ) táknað π(φ, θ, σ). Ef<br />

parameter rúm endanlegt þá getur apriori verið constant. Þurfum að setja vogir á rauntalnaásinn ef<br />

óendanlegt param. rúm svo að heildist í 1.<br />

likelihood fall fyrir ARMA ferli er<br />

π(X|φ,θ,σ)<br />

Xt = φXt−1 + εt − θεt−1, ε ∼ N(0,σ 2 )<br />

Nota svo reglu Bayes til að reikna aposteriori dreifingu<br />

π(φ,θ,σ) =<br />

π(X|φ,θ,σ) · π(φ,θ,σ)<br />

∑π(X|φ,θ,σ) · π(φ,θ,σ)dφdθdσ<br />

Að reikna þetta er þó mjög erfitt. Margir hafa reynt að sneiða fram hjá þessu með hermunum (kafli<br />

11). Markow chain, Monte Carlo. Gott að nota Bayes aðferðir í hagfræði því setja fram skoðanir um<br />

líkan í apriori dreifingu. Ekki auðvelt að steja fram prior fyrir ARMA líkön. Þó hægt að reyna t.d. að<br />

setja skoðun um lengd hagsveiflna inn, það er þó smá bögg. Við stöndum alltaf frammi fyrir að ákveða<br />

hvernig velja á stika. Stór <strong>hluti</strong> ástæðu fyrir velgengni Box-Jenkins var áhersla þeirra á diagnostics.<br />

Þá skoðum við ˆεt. Ef vel tókst til þá á ˆεt að líkjast hvítu suði. Með líkanasmíðinni erum við að sigta<br />

út spáanlega hlutann. Skipta líkaninu í spáanlegan og óspáanlegan hluta.<br />

Ef ˆεt ekki líkt hvítu suði þá hefur sigtunin ekki tekist vel. Skoðum t.d. ACF, PACF, gröf: plotta<br />

ˆεt á y-ás og tíma á x-ás. Skoðum líka CUSUM, CUSUMSQ sem eru einföld grafísk próf. Ef mikil<br />

sjálffylgni er í ˆεt → ættum að geta spáð því → e-r spáanlegur <strong>hluti</strong> eftir í leifarliðum og því sigun á<br />

spáanlega hlutanum ekki tekist nægjanlega vel.<br />

5.6.1 CUSUM<br />

Skoðum<br />

E(<br />

t<br />

∑<br />

j=n<br />

ˆε j) = 0, V (<br />

t<br />

∑<br />

j=n<br />

Wt =<br />

t<br />

∑ ˆε j<br />

j=n<br />

höfum<br />

ˆε j) = (t · k)σ 2


6 FYRIRLESTUR 19. FEB 24<br />

Því eðlilegt að cusum sveiflist innan ákveðinna marka. Ef fer út fyrir mörkin þá vísbending um að<br />

þetta of sveiflukennt og trent þátt vantar kannski í líkanið. Sumir normalisera með því að deila með ˆσ<br />

5.6.2 CUSUMSQ<br />

Wt =<br />

t ˆε j<br />

∑<br />

j=n ˆσ<br />

st = 1 t<br />

n ∑ ˆε<br />

j=n<br />

2 j<br />

Ef öll ˆε 2 u.þ.b. jafnstór → vísbending um ekki misdreifni. Viljum að þetta fylgi u.þ.b. 45 gráðu línu<br />

og setjum e-r mörk á þetta. Sjá töflu fyrir línur töflu D8 í bók.<br />

Prófin CUSUM og CUSUMSQ eru ágæt en hafa ekki mikið power.<br />

5.6.3 Durbin Watson<br />

Durbin Watson er aðferð til að kanna sjálffylgni. DW u.þ.b. 2(1 - ˆρ). Viljum að<br />

∑(ˆρε(k)) 2<br />

sé lítil. Spurning hvað maður tekur marga liði í þessari summu. Það er breytilegt milli forrita. Box<br />

Pierce Ljung byggir á því að vega (*) og bera svo saman við χ 2 töflur.<br />

Að skoða ACF, PACF teikningar getur gefið vísbendingar um hvort bæta við MA eða AR liðum.<br />

Gera svo alltaf diagnostics og pæla í því hvar við erum að misstíga okkur. Í næsta tíma verður fjallað<br />

um forecasting (sbr. 3.4.6 í Poirier).<br />

6 Fyrirlestur 19. feb<br />

Yt,ARIMA(p,d,q)<br />

(1 − L) d φ(L)Xt = θ(L)εt<br />

LXt = Xt−1,φ(Z) = 1 − φ1Z − ... − φpZ p<br />

= (1 − λ1L)(1 − λ2L)...(1 − λpL)<br />

BXt == Xt−1,θ(Z) = 1 − θ1Z − ... − θqZ q<br />

(*)


6 FYRIRLESTUR 19. FEB 25<br />

Rætur φ, θ utan einingarhrings.<br />

φ(Z) = 0,θ(Z) = 0 ef |Z| ≤ 1.<br />

φ, θ ekki sameiginlegar rætur (ekki common factor).<br />

(1 − φL)Xt = (1 − θL)εt<br />

hvað ef φ = θ, þá Xt = εthvað ef φ = θ, þá Xt = εt<br />

X = ˜X + µ + γt + ...<br />

Oft höfum við árstíðir í tímaröðum (season). Nálgast má þetta með tvennum hætti. Deterministiskt<br />

eða stókastískt. Svo verður að reyna að gera þetta rétt en í praktískri tölfræði veit maður aldrei hvað er<br />

rétt. Reynir bara að komast sem næst sannleikanum. Ef við segjum að margir hafi keypt skíði í fyrra<br />

þá er líklegt að færri kaupi í ár. Getum þá sett stókastískt seasonal AR þátt í líkan. Gætum líka sett<br />

MA þátt í líkanið. Þá verður líkanið e-n veginn<br />

AR : Xt = µ + φXt−12 + µt<br />

MA : Xt = µ + θUt−12 + µt<br />

Ef við veljum φ < 1 þá X stationary. Ef (1 - φZ 12 ) þá höfum við tólf rætur á einingarhringnum og þá<br />

erum við komin með seasonal unit root og þá er X-ið ekki lengur stationary. Helgi hefur lagt ákveðinn<br />

skilning í þetta og borið undir gáfumenni í fræðunum. Ekki viss hvort þeir kunna þetta ekki eða hvort<br />

Helgi misskilur þetta.<br />

Túlkun Helga: Getum þá tekið seasonal mismun (1−L 12 ) D það er skoða Xt −Xt−12. Þá þýðir það<br />

að við vitum ekki hvenær á árinu seasonið er. Það getur færst yfir árið. Getur einnig orðið misstórt.<br />

Hér getur annað hvort verið shock á X sem hverfur svo eða e-ð sem lifir alltaf eftir það. Dæmi:<br />

síldarsala Íslendinga. Salan var alltaf mest á þriðja ársfjórðung. Svo breyttist e-ð, síldin fór og loðnan<br />

kom í staðinn og hún veiddist á öðrum ársfjórðungi. Útflutningurinn hefur heldur ekki neitt eðlilegt<br />

meðaltal.<br />

Margar hagraðir hafa grip á borð við (1 - φZ 12 ). Sumir nota stórt D oft yfir hvað þeir taka oft<br />

seasonal difference.<br />

Determiniski <strong>hluti</strong> seasonal er t.d. að setja dummy breytur inn. Til dæmis meta e-n parameter fyrir<br />

febrúar. Skíðasölu meðaltal fyrir febrúar. Ef maður gerir þetta þá er maður að negla niður ákveðinn<br />

strúktúr. Einnig mætti skella inn cos, sin liðum. Ef vottar fyrir determiniskum sveiflum í hagröðum<br />

þá eru þær árstíðarsveiflur.<br />

Hitastigið er alveg determiniskt. Vitum að meðalthitinn í jan er 10 gráðum lægri en í júní. Getum<br />

sett inn dummy þar.<br />

6.1 Tölvuæfing úr kafla 7<br />

Notum Gretl forritið. Æfingin í kafla 7 um unit root prófunina. Við eigum að gera dæmi 7.6 í kaflanum.<br />

Við endurtökum nú það sem er á bls. 227 augmented dickey fuller. Framkvæmum regression<br />

ΔYt = µ + γt + φYt−1 + µt<br />

reiknum svo t gildi. Nokkur reiknimál: RATS, SHAZAM, TSP, SORITEC, STATA, PK-GIVE,<br />

EVIEWS. Búum til tafðar breytur fyrir allar breyturnar og fyrsta mismun. Upphaflegu breyturnar


6 FYRIRLESTUR 19. FEB 26<br />

eru Y1, ..., Y5. Hægt að fara í Variables augmented dickey fuller. Helgi ætlar að reikna jöfnu 7.54<br />

og fá út töflu 7.10. 200 mælingar. Veljum mælingar, Set range 101.200. Við fáum e-ð smá annað í<br />

constant og hallatölu en í bók því tími byrjar í 101 en ekki í 0 eða 1 eins og í bók. Setjum svo dY 1 sem<br />

háðu breytuna og const, Y 11 og time sem skýribreytur í OLS og eigum að fá næstum því það sama og<br />

í bók a.m.k. Skoðum svo línu 8), -0,118 er phi stuðullinn, t-gildi -2,45 sem er eins og í bók. Berum<br />

t-gildið við töflu 7.9. Ályktum að núll kenning um non stationary er ekki hafnað. Sanna phi var 0,95.<br />

Það er mjög nálægt því að vera stationary. Prófum nú að sleppa trendinu (time) og þá kemur það sama<br />

og í Bókinni.<br />

Skoðum nú housing start bls. 238. Verið að spá í hvað er byrjað á mörgum húsum. Þetta stundum<br />

notað sem hagsveiflu indicator. Spurningin hvernig á að spá því. Við förum í Sample->Interpred<br />

as time series... og ekki árlegt. Svo Sample->Set frequency og veljum þar 12 1959.01 og Apply.<br />

Hugmyndin er að ath. seasonality. Forum svo í Data->Add variables->periodic dummies og þá bætast<br />

við 12 dummy breytur. Tökum housing start sem háða breytur og dummy sem skýribreytur. Summa<br />

seasonal dummy breytanna er alltaf einn og því við því búið að OLS klikki ef ákveðið form á dummy<br />

breytunum. Sleppum const vegna þessa. Forum í OLS og veljum HS sem háða, const, dummy1, .. ,<br />

dummy12 sem háðar breytur. Des er lægstur og feb. Hér gerum við ráð fyrir að árstíðarsveiflan sé fast<br />

lögmál yfir allt tímabilið.<br />

Förum nú í R. skrifum >library(ts). Notum fallið ARIMA í ts. ESS er e-r emacs statistics. Skrifum<br />

svo >arima(HS, order=c(1,0,0),seasonal=list(order=c(1,0,0),period=12). fyrra order er (p,d,q) og<br />

seinna er (P,D,Q). Ekki víst að þurfi að gera period. Berum þetta svo saman við bls. 240 í bókinni og<br />

fáum næstum því það saman. Reiknum svo sjálffylgninga > ac ac$acf[1:10] og þetta á að<br />

vera það sama og bls. 239.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!