Hagrannsóknir II fyrirlestraglósur hluti I
Hagrannsóknir II fyrirlestraglósur hluti I
Hagrannsóknir II fyrirlestraglósur hluti I
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Hagrannsóknir</strong> <strong>II</strong><br />
<strong>fyrirlestraglósur</strong><br />
<strong>hluti</strong> I<br />
Björn Arnar Hauksson<br />
bah@hi.is<br />
Vor 2003<br />
Útdráttur<br />
Efni þessa glósurits er ritað í fyrirlestrum í Hagrannsóknum <strong>II</strong>, vorið 2003. Kennt af Helga Tómassyni.<br />
Engin ábyrgð er tekin á öllum þeim villum sem kunna að leynast í ritinu. Vinsamlegast<br />
hafið samband við ritara (Björn) um leiðréttingu á villum.<br />
Glósur þessar eru að mestu skrifaðar með þarfir ritara í huga. Því kann sumum atriðum að<br />
vera sleppt sem aðrir kynnu að hafa áhuga á. Frjálst er að dreifa þessu skjali án endurgjalds en<br />
geta skal uppruna ef því er breytt.<br />
Í þessum glósum er orðalag Helga notað nánast óbreytt og sjaldan tilraun gerð til að íslenska<br />
orðalag hans þegar það er ekki allt á íslensku. Yfirleitt er í þessum glósum ekki gerð tilraun til að<br />
merkja fylki sérstaklega þegar að fyrirlesari gerir það ekki, sjá verður af samhenginu hverju sinni<br />
hvort á við.<br />
1
1 FYRIRLESTUR 15. JANÚAR 2<br />
1 Fyrirlestur 15. janúar<br />
1.1 Kynning og lýsing<br />
Maximum likelihood orðin vinsælasta aðferina vegna framfara í reiknigetu. Maximum likelihood yfirleitt<br />
best ef hægt að koma henni við. Helgi var með kennslubók eftir Kmenta á sínum tíma. SUR =<br />
seamingly unrelated regression, að eftirfarandi kerfi geta virðst tengd<br />
y1 = α + βx1 og y2 = γ + δx2<br />
Ekki víst að Helgi nái að fara yfir Monte Carlo og bootstrap, þetta eru reikniaðferðir við mat á<br />
líkönum, það þarf að forrita svolítið til að nota þessar aðferðir. Panel-data heitir líka repeated mesarues<br />
eða analysis of longditudional data. Þetta á við mörg köst guðs, endurteknar tilraunir, t.d. þegar rottur<br />
eru rannsakaðar.<br />
Margar breytur í okkar umhverfi eru ekki samfelldar, t.d. 0 1 breytur, flokkunarbreytur og fleira.<br />
Misjafnt með flokkabreytur hvort þær hafa eðlilega innbyrðis röðun. Hér getum við líka hugsað okkur<br />
mælinga á biðtíma, t.d. hve lengi aðili er atvinnulaus.<br />
1.2 Námsefni o.fl.<br />
• Kennslubókin Econometric Methods plús dreifir kannski efni um samþáttun og forritun. Hagfræðingur<br />
úr Sbí verður með dæmatíma á móti Helga. Dæmi í kennslubókinni og Poirier verða í<br />
dæmatímum og fólk þarf að redda sér sjálft í tölvudæmunum.<br />
• Verkefni verða fullt af gögnum, reikna e-ð og setja e-n texta með.<br />
• Hugbúnaður sem Helgi mælir með er t.d. Gretl, EasyReg, R, Octave, Yacas. Töflureiknar<br />
GNUMERIC og OpenOffice. OpenOffice er aðeins hægari en GNUMERIC og hefur færri<br />
„fídusa”.<br />
1.3 Kennsluáætlun<br />
Kaflar 1-6 eru svolítið mikið upprifjun frá Poirier, gagnlegt að glugga í Poirier til að dýpka skilning.<br />
Exogeneity verður skilgreint nákvæmlega. 2STOLS og 3STOLS er kannski meira kennslubókarefni<br />
heldur en e-ð sem notað er á vinnumarkaði.<br />
1.4 Inngangur kennslubókarinnar<br />
1. Asymptotic teoría. Þau lögmál sem gilda þegar mikið af mælingum fyrir hendi. Verður æ<br />
mikilvægari vegna tölva.<br />
2. Tímaraðaaðferðarfræði.<br />
3. Diagnostics, líkanagreining. Menn eru mun einbeittari í dag í að spá í hvað gæti verið að<br />
líkaninu.<br />
4. GMM, Helgi vill setja þetta atriði innan sviga, þykir þetta ekki merkileg aðferðarfræði, svolítið<br />
ad hoc.<br />
5. Reiknifrekar aðferðir, Monte Carlo og bootstraping, svona simulerings aðferðir. Þessar aðferðir<br />
byggja algjörlega á tölvunum.<br />
(1.1)
1 FYRIRLESTUR 15. JANÚAR 3<br />
6. Microeconometria. PanelData, ... . Líka afleiðing af tölvutækninni, til mikið af gögnum um<br />
einstaklinga og fyrirtæki. Samanber heilsutölfræði og biometrics.<br />
1.5 Regression<br />
Regression er einskonar skilyrt ályktun, álykta um eina breytu gefin önnur. Til dæmis E(Y|X). Köllum<br />
þetta línulega regression ef hún er á borð við<br />
Og á logralínulegu sniði (log-linear form)<br />
Dæmi 1.1 Ef<br />
þá fáum við með því að logra<br />
höfum að<br />
Fáum því<br />
⇒<br />
Dæmi 1.2<br />
Og<br />
E(Y|X) = α + βx (1.2)<br />
logE(Y |X) = α + βlog(X) (1.3)<br />
X ∗ = 1.01 ∗ X (1.4)<br />
logX ∗ = log(1.01) + logX (1.5)<br />
log(1.01) ≈ 0.01. (1.6)<br />
log(E(Y |X ∗ )) − log(E(Y|X)) ≈ β ∗ 0.01, (1.7)<br />
log<br />
E(Y|X ∗ )<br />
E(Y|X)<br />
<br />
≈ β ∗ 0.01 (1.8)<br />
E(Y|X ∗ ) ≈ e β∗0.01 ∗ E(Y|X) ≈ (1 + β ∗ 0.01)E(Y |X). (1.9)<br />
<br />
E(Y|X)<br />
log<br />
= α + βX,<br />
1 − E(Y|X)<br />
(1.10)<br />
E(Y|X) = P(Y = 1|X), 1 − E(Y|X) = P(Y = 0|X). (1.11)<br />
log( P<br />
eα+βx<br />
) = α + βx => P =<br />
1 − P 1 + eα+βx (1.12)<br />
Síðustu tvö skrefin er það sem kallast logit vörpun, logistic model. β er það sem kallast odds ratio per<br />
einingu af X. Setjum P1 og P2 sem líkur á því að fyrirtækjahópar 1 og 2 verði gjaldþrota, finnum svo<br />
Odds ratio fyrir hópana<br />
OR =<br />
P1<br />
1−P1 . (1.13)<br />
P2<br />
1−P2<br />
Hlutfallið hér fyrir ofan er margfeldið af því hversu líklegra er að hópur 1 verði gjaldþrota miðað við<br />
hóp 2. Það er erfitt að skilja OR en þægilegt að reikna það.<br />
Dæmi 1.3 Segjum að X sé kyn, gefið og að Y sé þyngd/laun, spyrjum hvort kynið hefur meiri breytileika<br />
í þyngd, V(Y|X). Þegar talað er um misrétti í launum þá er fólk bara að skoða fyrsta momentið,<br />
E(Y|X).
1 FYRIRLESTUR 15. JANÚAR 4<br />
Kafli 1 í bókinni er bara upprifjun, lesa hann bara létt, kafli 2 er líka upprifjun. Kafli 2 er um<br />
almennt línulegt líkan. Höfum venjulega fylkjaform á líkaninu, E(Y|X) = Xβ, V(Y|X) = σ 2 . Þá er ˆ βols<br />
= (X ′ X) −1 X ′ Y.<br />
Athuga vel að lesa kafla 2.4 um convergence hugtök, Poirier hefur dýpri skýringu á þessu efni. Hér<br />
höfum við plim (convergence in probability) og convergince in distribution. Helga finnst auðveldast að<br />
skilja convergence in mean square, svo á maður að skilja distribution og svo probability. Þetta verður<br />
flóknara þegar random breyta er í spilinu. Svamlað nokkuð hratt í gegnum þetta efni í kennslubókinni.<br />
1.5.1 Kafli 2.5.1<br />
Unit root og stationary hugtökin. Athuga hér að skilja hvað er átt við með stationarity. Svona álíka<br />
og að uppgvöta að til sé talan 0, þá dettur manni í hug að kannski séu til aðrar tölur. Unit root ferlar<br />
er bara ein fjölskylda af nonstationary ferlum. Maður notar unit root ferla því þeir eru þægilegir til að<br />
lýsa óstationary fyrirbærum og auðvelt að skilja það.<br />
1.5.2 Sístæðni<br />
Grundvallarhugtak. Erum með runu af mælingum X1, X2, .... {X} er strongly stationary ef<br />
F(Xt,...,Xtk ) = F(Xt1+h ,...,Xtk+h ) ∀t1,...,tk og ∀h. (1.14)<br />
Þetta er ekki erfitt hugtak en oftar er notað weak stationarity (covariance stationary)<br />
auto-correlation = sjálffylgni.<br />
Höfum AR(1)<br />
og ef<br />
E(Xt) = µ, (1.15)<br />
autocovariance = Cov(Xt,Xt−k) = γ(k), (1.16)<br />
corr(Xt,Xt−k) = ρ(k), (1.17)<br />
Xt = φXt−1 + εt<br />
(1.18)<br />
E(εt) = 0, (1.19)<br />
E(εt,εs) = 0 þegar t = s (1.20)<br />
E(ε 2 t<br />
) = σ2<br />
(1.21)<br />
þá er εt hvítt suð. Ef εt ∼ N(0, σ 2 ) þá er εt Gaussian hvítt suð og Xt verður líka normaldreift. Höfum<br />
því<br />
Dæmi 1.4 Höfum mælingarnar X1, X2 og<br />
Xt ∼ N(0, σ2<br />
),|φ| < 1, (1.22)<br />
1 − φ2 Xt|Xt−1 ∼ N(φXt−1,σ 2 ). (1.23)<br />
L(φ,σ,x1,x2) = f (X1,X2) = f (X2|X1) ∗ f (X1). (1.24)
2 FYRIRLESTUR 22. JAN 5<br />
Finnum svo ML mat á φ og σ 2<br />
log(L(φ,σ)) = − 1 1<br />
log(2π) +<br />
2 2 log(1 − φ2 ) − logσ − 1 − φ2 )X 2 1<br />
2σ2 1.5.3 2.6.2<br />
Eiginleikar ML<br />
δlog(L(φ,σ))<br />
δφ<br />
δlog(L(φ,σ))<br />
δσ<br />
= 0<br />
= 0<br />
ˆφML d → N(θ, I −1 ), ˆθML, asymptotic, consistent, efficient.<br />
1.5.4 Dæmi fyrir dæmatíma<br />
2.4, 2.6, 2.10, 2.11, 3.3, 3.12, 3.16, 3.18.<br />
2 Fyrirlestur 22. jan<br />
2.1 Kafli 3<br />
<br />
f (X1) = 1<br />
<br />
1 − φ2 √<br />
2π σ<br />
f (X2|X1) = 1 1<br />
√<br />
2π<br />
e −(1−φ2 )X2 1 /2σ2<br />
(1.25)<br />
σ e−(X2−φ1X1) 2 /2σ 2<br />
(1.26)<br />
1<br />
−<br />
2 log(2π) − log(σ) − X2 − φX1) 2<br />
2σ2 (1.27)<br />
og leysa fyrir φ og σ<br />
Maður hefur líkan og pælingar. Líkanið er þekkt en nokkra stika þarf að meta. Við höfum þekktar<br />
aðferðir. Til dæmis rúmfræðileg nálgun, hafa matið sem næst raunverulegu gildi. Hér þarf ekki að<br />
negla niður líkindadreifingu. Svo höfum við aðferðir eins og ML og MM en þá þarf að negla niður<br />
líkindadreifinguna.<br />
Meðmæli með aðferð minnstu kvaðrata að ekki þarf að negla niður líkindadreifinguna og einnig<br />
er hún þægileg í reikningum.<br />
Höfum svo venjulegu forsendurnar<br />
E(Y|X) = Xβ,Y = Xβ + ε<br />
⎡<br />
⎤<br />
1 X11 ... X1k<br />
⎢<br />
X = ⎣<br />
.<br />
. . ..<br />
⎥<br />
. ⎦<br />
(2.1)<br />
(2.2)<br />
1 Xn1 ... Xnk<br />
Y = [Y1 ...Yn] ′<br />
(2.3)<br />
β = [β0 ...βk] ′<br />
(2.4)<br />
E(ε1) = 0 (2.5)<br />
V(εi) = σ 2<br />
(2.6)<br />
E(εiε j) = 0 ef i = j (2.7)
2 FYRIRLESTUR 22. JAN 6<br />
Svo gerum við<br />
Þetta má svo leysa með fylkjadeildun.<br />
leysa svo fyrir β<br />
min(Y − Xβ) ′ (Y − Xβ) = min<br />
β (e ′ e) (2.8)<br />
δ<br />
δβ (Y − Xβ)′ (Y − Xβ) = 0<br />
e = Y − Xβ (2.9)<br />
ˆβ = (X ′ X) −1 X ′<br />
<br />
AC<br />
Y (2.10)<br />
ˆY = X ˆ β = X(X ′ X) −1 X ′ Y = (I − µ)Y (2.11)<br />
e = Y − ˆY = Y − X(X ′ X) −1 X ′ Y = (I − X(X ′ X) −1 X ′ )Y = µY (2.12)<br />
Y = ˆY + e (2.13)<br />
ˆY er spá og e er frávik. Samanber Hilbert rúm, breyta hornrétt á aðra þá eru þær óháðar, fylgni núll.<br />
Því<br />
Svo er<br />
ˆY ′ · e = 0 (2.14)<br />
((I − µ)Y ) ′ µy (2.15)<br />
= Y ′ (I − µ) ′ µY (2.16)<br />
= Y ′ (I − µ)µY = Y ′ (µ − µ 2 )Y (2.17)<br />
(I − µ) ′ = (X(X ′ X) −1 X ′ ) ′<br />
= X(X ′ X) −1 X ′ = µ.<br />
µ 2 = (I − X(X ′ X) −1 X ′ ) 2<br />
= I − 2X(X ′ X) −1 X ′ + X(X ′ X) −1 X ′ X(X ′ X) −1<br />
<br />
I<br />
X ′<br />
= I − 2X(X ′ X) −1 X ′ + X(X ′ X) −1 X ′<br />
= I − X(X ′ X) −1 X ′ = µ<br />
µ og I - µ eru idempotent, µ = µ 2 . Einnig kallað projection matrix. Við höfum hér einskonar hornrétta<br />
sundurliðun. Í Poirier kafla 5 er fullt af líkindalegum niðurstöðum og normaldreifða vigra.<br />
Því<br />
Y ′ (µ − µ 2 )Y = Y ′ (µ − µ)Y = 0 (2.18)<br />
ˆβ = (X ′ X)X Y = AY (2.19)<br />
<br />
A<br />
(2.20)
2 FYRIRLESTUR 22. JAN 7<br />
Og<br />
Sjáum að<br />
E( ˆ β) = AE(Y)<br />
= (X ′ X) −1 X ′ E(Y)<br />
<br />
Xβ<br />
= β<br />
V ( ˆ β) = AV (Y )A ′<br />
= (X ′ X) −1 X ′ σ 2 IX(X ′ X) −1<br />
= (X ′ X) −1 σ 2<br />
(2.21)<br />
(2.22)<br />
(2.23)<br />
σ 2 = e ′ e/(n − k). (2.24)<br />
Gert er ráð fyrir að við kunnum Gauss Markow setninguna. ˆ β BLUE ef ákveðin skilyrði uppfyllt.<br />
Gott að glugga í Poirier hvað þessi setning þýðir. Til miserfiðar sannanir á þessari setningu.<br />
Augljós sönnun ef maður kann fylkjaalgebru.<br />
Smá útúrdúr. Bls. 74 í bók. Data mining er þannig að maður byrjar með einfalt líkan og pælir svo<br />
í því hvort maður á að bæta við breytum. R 2 er skýrimáttur líkansins í kæruleysislegu tali. R 2 hækkar<br />
alltaf þegar breytum er bætt við. Menn vildu svo koma með stærð þar sem refsað er fyrir of margar<br />
breytur, þá var fundið upp R 2 adjusted. Þessi leiðrétta stærð er þó ekki með öllu gallalaus, höfum líka<br />
Akaike information criterion, AIC. AIC er bara annað form á því að hafa refsingu fyrir flókið líkan.<br />
Einnig til FPE (final prediction error) og það er líkt AIC. Svo er til eitt sem heitir Bayesean IC (BIC)<br />
= Schwarz (SC/SIC) og það er enn annað form. BIC og SIC er allavega það sama í einni vídd. Svo er<br />
eitt sem heitir Hannan Quinn (HQ). Þessi þrjú fyrstu munu allar ofmeta fjölda breyta í líkaninu. Við<br />
data mining munu þessar fyrst þrjár því valda því að líkanið stækkar upp úr öllu valdi. BIC og HQ eru<br />
hins vegar samkvæm (consistent) og breytu fjöldi mun stefna á rétt gildi. Hins vegar er ekkert víst að<br />
BIC og HQ standi sig vel í litlum úrtökum.<br />
Ef við höfum kenningaprófanir<br />
H0 : Rβ = r<br />
H1 : Rβ = r<br />
Y = Xβ + ε<br />
metum líkan fyrst undir H1 og svo undir H0. Það er auðveldast að gera þetta í þessari röð. Notum svo<br />
LR = likelihood ratio<br />
= likelihood f allH0<br />
.<br />
likelihood f allH1<br />
Maður lítur á likelihood sem fall af parameter en lítur á þéttifall sem fall af mælibreyta. Annars lítur<br />
formúlan fyrir likelihood fallið og þéttifallið eins út.<br />
Almennt gildir að<br />
−2logLR ca ∼ χ 2 .<br />
Fjöldi frígráða er munurinn á fjölda metinna parametra á milli H0 og H1. Ef við setjum skilyrðin β0<br />
óbundið β1 = 0... βk = 0 þá er q = fjöldi frígráða = k. Frígráðurnar eru rankið á R.<br />
(SSEH0 − SSEH1 )/q<br />
F =<br />
SSEH1 /(n − k − 1)
2 FYRIRLESTUR 22. JAN 8<br />
Nýr X vigur, táknum hann C’ = [1 X2 f ...Xk f ]. „Besta” spá er þá C’β. Hér er gengið út frá því<br />
að β sé þekkt. Hér þýðir besta sú spá sem hefur minnsta væntanlega kvaðratvillu. Þá eigum við að<br />
spá með væntanlega gildinu. En ef við ætluðum að hafa spá sem lágmarkar væntanlega tölugildið af<br />
spávillum, þá notum við miðgildið.<br />
Spáum með b = ˆ β, metnum parametrum. Hér er tvenns konar túlkun möguleg.<br />
1. Væntanlegt gildi þeirra með eiginleika C. C er e-r eiginleiki og maður pælir í því hvernig þessi<br />
eiginleiki tengist Y.<br />
2. Spá fyrir einstakt Y gildi eintaklings valinn af handahófi sem hefur eiginleika C.<br />
Kíkjum aðeins á tvö varíans hugtök.<br />
V(c ′ b) = c ′ V(b)c<br />
c ′ b − c ′ β<br />
V (c ′ b) ∼ N(0,1) ef σ þekkt<br />
c ′ b − c ′ β<br />
s c ′ (x ′ x) −1 c<br />
∼ tn−k<br />
Getum fundið öryggismörk fyrir E(Y|X=c). Í bók er þetta jafna 3.47 (case a eða 1 hér að ofan). Svo er<br />
það hin jafnan, 3.48 og ekki má rugla þessum tveim saman (case b eða 2 hér að ofan). Spurningin er<br />
V(Y|X=c) = ?. V(Y|X=c) = σ 2 . 100 +/- 1.96σ. Kannski svoldið ónákvæmt því að sigma getur verið<br />
háð x gildinu, t.d. ef X er þyngd og Y hæð. Meta þarf σ. Spámörkin eru<br />
Y −Yspá<br />
s 1 + c ′ (X ′ X) −1 ∼ tn−k<br />
(3.48)<br />
c<br />
Passa verður að rugla ekki saman 3.47 og 3.48. Kíkja á appendix 3.4 um útleiðslu á metli og vera viss<br />
um að skilja þetta. Til hliðsjónar má hafa appendix aftast í bók. Kíkja líka á jöfnu 3.38 í bók.<br />
2.1.1 Dæmi úr bókinni<br />
3.3, 3.12, 3.16, 3.18.<br />
2.2 Kafli 4<br />
Þekkjum flest af þessu úr hagrannsóknum I. Ýmis vandamál koma upp í regression. Eiginleikarnir<br />
um að sjálffylgni ekki til staðar er stundum kallað white noise, dreifni fasti og ekki fylgni á milli einstakra<br />
tímapunkta. Gaussiona white noise þýðir svo að það sé normaldreift. White noise er venjulega<br />
skilgreindur í tíma en í raun ekkert sem bannar okkur annað samhengi.<br />
2.2.1 Ýmis vandamál<br />
1. Heteroskedcity (misdreifni).<br />
2. Skýristærðir of margar.<br />
3. Skýristærðir of fáar.<br />
4. Form á breytum.
2 FYRIRLESTUR 22. JAN 9<br />
5. X ekki full rank.<br />
6. Tengsl X við ε (afgangslið).<br />
7. Ósístæðar breytur.<br />
Þetta eru allt fyrirbæri sem geta valdið vandræðum í regression. Afleiðing fyrir OLS:<br />
• Villandi t gildi. t gildi sem fylgja OLS verða ekki réttu t gildin. Þetta þýðir að ályktunarfræðin<br />
brenglast. Maður sóar tölfræðilegum krafti, getur fengið of hátt R.<br />
• Ef skýristærðir vantar í líkan þá er það nánast bókað bjögun og nonconsistency. Hinar skýristærðirnar<br />
fara að e-u leyti að leika hlutverk þeirra sem vantar. Jafnvel þó að við stækkum úrtakið þá hverfur<br />
bjögunin ekki. Frægt dæmi er um tengsl fæðingartíðni og innflutnings á bárujárni.<br />
• Form á breytum, t.d. ef við höfum X en ættum að hafa X 2 , þá erum við bersýnilega að mistúlka<br />
áhrifin af X. Þetta myndi ekki lagast þó að við myndum fjölga punktunum.<br />
• X er ekki full rank. Þá er ekki hægt að umhverfa X. Hér eru þó til lækningar.<br />
• Tengsl X við ε. Nonconsistency. Þetta getur til dæmis gerst þegar X er mælt með mæliskekkju.<br />
Til dæmis<br />
Sannleikur : Y = Xβ + ε<br />
Met : Y = X ∗ β + u<br />
X ∗ = X +V<br />
Hér gæti X ∗ verið vísitala sem mæld er með skekkju og taka þyrfti tillit til skekkjunar ef nota á<br />
vísitölun.<br />
• Ósístæðar breytur. Hér er hætta á falskri fylgni. Hér þá hætta á villandi ályktunum.<br />
Lesa kaflan um gagnagröft sjálf. Sömuleiðis um Chow próf. Chow próf eru bara venjuleg F próf.<br />
Maður skiptir mælingamenginu í tvennt og kannar svo hvort sama regression gildir um báða hlutana.<br />
Við megum sleppa Hanson prófinu í bókinni, skoða það allavega lauslega.<br />
Við tökum fyrir CuSum og CuSumSq. Þetta eru grafísk próf. Þykja ekki mjög vísindaleg próf.<br />
Hugmyndin er sú að CuSum skoða<br />
∑ ˆεt og ∑ ˆε2 t<br />
Við munum fara nokkuð dýpra í recursive regression heldur en gert er í bókinni. Helgi styðst við<br />
Harvey bókina í þessari umfjöllun. Hugsum okkur að gefið sé bt (mat á β) og tilsvarandi<br />
þar sem Y ∗<br />
t<br />
At = (Xt ′ Xt) −1<br />
bt = (X ′ X) −1 XY ∗<br />
er vigur af k mælingum og X = X fylki fyrir k mælingar.Þetta eru e-r byrjunarskilyrði en<br />
ekki þarf að pæla mikið í þeim.<br />
bt+1 = bt + AtXt+1(Yt+1 − X ′<br />
t+1bt)/ ft+1<br />
At+1 = At − AtXt+1X ′<br />
t+1At/ ft+1<br />
ft+1 = 1 + X ′<br />
t+1AtXt+1 (2.25)<br />
(2.26)<br />
(2.27)
2 FYRIRLESTUR 22. JAN 10<br />
Leiða má þetta út með almennri skynsemi. Þetta er endurtekning notkun á reglu Bayes við mat á<br />
hallatölunni. Velja má byrjunargildin b = 0 og A = 10 10 I.<br />
vt+1 = Yt+1 − X ′<br />
t+1bt<br />
(4.27)<br />
þar sem vt er kallað recursive residuals. Þetta er hentug aðferð því þetta hentar mjög vel í tölvuvinnslu.<br />
Við getum einnig reiknað þetta þó að X sé singular (ekki full rank). X getur verið singular fyrir t.d. ef<br />
mælingarnar voru fyrir tilviljun ekki nógu margar. Ef við setjum variance sem hér er A, stórt þá þýðir<br />
það að við vitum lítið um viðfangsefnið.<br />
Ath! vt óháðir (n-k) eins og stendur í jöfnu 4.29 (OLS afgangsliðir (n) et ekki óháður). Við fáum<br />
jafnmarga v óháða afgangsliði eins og við höfum e afgangsliði.<br />
Maður kíkir á stærðina<br />
Wt =<br />
e ′ e ∼ χ 2 n−k<br />
t<br />
∑ v j/ ˆσ (2.28)<br />
j=k+1<br />
St = ∑t j=k+1 v2 j<br />
(n − k) ˆσ 2<br />
(2.29)<br />
við erum að leggja saman recursive residuals og sjá hvernig þeir þróast. Getum svo skoðað þetta<br />
Wt<br />
S<br />
t<br />
á mynd. Ef mikill breytileiki er á einum stað á myndinni þá er það merki um misdreifni (þegar S<br />
skoðað). Þegar löng runa af póstitífum residuals (þegar Wt skoðað) þá er það gruggugt.<br />
2.2.2 Dæmi<br />
4.4, 4.8, 5.4, 5.2.
3 FYRIRLESTUR 29. JANÚAR 11<br />
3 Fyrirlestur 29. janúar<br />
3.1 Kaflar 5 og 6<br />
3.1.1 Maximum likelihood<br />
L = sennileikafallið, f = þéttifall, θ er parameterinn og y er gagnavektor. L: parametersrúm →<br />
information.<br />
L(θ|Y ) = f (Y |θ)<br />
ℓ(θ) = log(L(θ|Y ))<br />
δℓ(θ)<br />
= score<br />
δθ<br />
ˆθML er lausn á<br />
δℓ<br />
= 0.<br />
<br />
δθ<br />
δ2ℓ(θ|Y )<br />
I = −E<br />
δθδθ ′<br />
<br />
ˆθML d → N(θ,I −1 (θ))<br />
plim(ˆθ) = θ<br />
p<br />
Xn → X<br />
p(|Xn − X| < ε) →<br />
n → ∞ 1.<br />
ˆθML er asymptotiskt efficient. Nýtir upplýsingarnar best. Cramer Rao mörkum náð. Þessi ójafna<br />
setur mörk á hversu nákvæmur upplýsingar hægt er að kreista út úr úrtakinu. Að θML ˆ þýðir það<br />
að í stórum úrtökum er þetta sú upplýsingaaðferð sem kreistir mestar upplýsingar út úr úrtakinu. Á<br />
síðustu 30 árum hefur likelihood menningin orðin mjög öflugur í allri ályktunarfræði. Við munum<br />
eftir sufficiency úr tölfræði <strong>II</strong>. ð ˆθML er fall af sufficient statistic ef hún er til.<br />
Invariance princippið, ef við breytum með einfaldri vörpun líkaninu þá er ˆθML alveg óbreyttur, t.d.<br />
ef breytt úr króunum í dolllara. Alls ekki sjálfgefið að þetta gildi. Þetta má skrifa ˆθML, ML mat á θ ↔<br />
g(ˆθML) er ML mat á g(θ).<br />
Fyrir línuleg líkön<br />
Tölfræðilega líkanið fyrir gögnin lítur út svona<br />
Y = Xβ + ε<br />
E(ε) = 0,<br />
V(ε) = σ 2 I<br />
ˆβML = ˆ βOLS<br />
Y ∼ N(Xβ,σ 2 I)<br />
f (Y |β,σ 2<br />
n <br />
1 1<br />
) = √2π<br />
<br />
σ<br />
θ<br />
2<br />
n/2 e −(Y−Xβ)′ (Y−Xβ)/2σ2 ℓ(β,σ 2 ) = − n<br />
2 log(2π) − nlogσ − (Y − Xβ)′ (Y − Xβ)/(2σ 2 ).<br />
. I er
3 FYRIRLESTUR 29. JANÚAR 12<br />
Beitum svo smá fylkjareikning.<br />
= −2X ′ (Y − Xβ) = 0<br />
→ ˆ β = (X ′ X) −1 X ′ Y<br />
e = Y − ˆY = (I − X(X ′ X) −1 X ′ )<br />
<br />
µy<br />
Y<br />
<br />
δℓ<br />
= 0,<br />
δσ<br />
σ 2 ML = 1<br />
n e′ e. biased metill<br />
Varðandi tölfræðileg próf. Við höfum núllkenningu, valkost. Svo getum við hafnað H0 og maður<br />
ákveður fyrirfram hve oft maður má hafna. Kenningar eru non-nested hypothesis ef þær eru ekki<br />
sértilfelli af H0.<br />
3.1.2 LR likelihood ratio<br />
Grundvallarhugmyndin er sú (sbr. kafla 7.3 í Poirier) að maður reiknar<br />
Λ = LH0<br />
LH1<br />
þar sem LH0 eru líkur á H0 (líkur á mældri útkomu, Bayesenar reikna hinsvegar samskonar stærð, hjá<br />
þeim er θ hendingin) og LH1 eru líkur á H1.<br />
λ = logΛ,−2λ ∼ χ 2 (q)<br />
q = #H1,−#H0.<br />
þar sem # er fjöldi parametra. Þetta gildir ef regularity skilyrði gilda. Höfum<br />
. .<br />
. .<br />
Y = X β +ε<br />
<br />
k−vidur<br />
H0 : Rβ = r<br />
Rank(R) = k − q<br />
Y = β0 + β1X1 + β2X2 + ε<br />
<br />
β1 − β2 = 0<br />
[01 − 1][β0β1β2] ′ = 0<br />
R [ ] ′<br />
<br />
β<br />
= [ ] ′<br />
<br />
r<br />
Gott að hafa góðan skilning á línulegu líkönin og þá er yfirleitt þægilegt að stíga út fyrir línulegu<br />
líkönin. Það að reikna LH0 krefst þess að við framkvæmum skilyrta hámörkun.<br />
3.1.3 Wald prófið<br />
Jafngild LR prófinu í stórum úrtökum. Gott að nota þegar erfitt að framkvæma skilyrtu hámörkunina<br />
í LR prófinu.<br />
Wald = frávik I −1<br />
frávik<br />
H1
3 FYRIRLESTUR 29. JANÚAR 13<br />
3.1.4 LM prófið<br />
Þetta próf er næstum því eins. Það þarf að stinga inn. Það er til rosa auðvelt trix til að reikna LM<br />
prófið. Þessu trixi er kannski líkt í heimad. 3 tölfr. <strong>II</strong>. LM er heppilegt ef líkanið er bara viðráðanlegt<br />
undir H0.<br />
Útvíkkum nú aðeins línulega líkanið. Við höfum haft<br />
Hvað ef<br />
? Það er, V(ε) = Ω · σ 2 .<br />
Y = Xβ + ε<br />
E(ε) = 0,<br />
V (ε) = σ 2 I<br />
ˆβOLS = (X ′ X) −1 X ′ Y<br />
V(ε) = σ 2 I<br />
E( ˆ β) = (X ′ X) −1 X ′ E(Y) = (X ′ X) −1 X ′ Xβ = β. unbiased<br />
Estimatorinn verður enn unbiased. Variansinn verður<br />
V( ˆ β) = (X ′ X) −1 X ′ V (Y )X(X ′ X) −1 = (X ′ X) −1 X ′ ΩX(X ′ X) −1 · σ 2<br />
ef við látum eins og raunveruleikinn sé<br />
þegar hann er<br />
ˆβ ∼ N(β,σ 2 (X ′ X) −1 )<br />
ˆβ ∼ N(β,σ 2 (X ′ X) −1 X ′ ΩX(X ′ X) −1 )<br />
þá verða ályktanir um ˆ β villandi. t-gildi stikanna verða röng.<br />
Ω gæti haft misdreifni eða sjálffylgni.<br />
Ef við notum ranga dreifingu í ML (munurinn á ML og OLS er að negla þarf dreifingu í ML en<br />
OLS er rúmfræðileg) þá þarf að leiðrétta.<br />
Getum hugsað okkur það ef Ω = PP’ (choleski sundurliðun) og prófum<br />
P −1 Y = P −1 Xβ + P −1 ε (Y ∗ = zβ + u,E(u) = 0,V (u) = σ 2 I)<br />
<br />
= X ′ P −1′<br />
P −1 −1 X X ′ (P −1′<br />
E(P −1 Y) = P −1 Xβ<br />
V (P −1 Y) = P −1 V (Y)(P −1 ) ′<br />
= σ 2 P −1 Ω(P −1 ) = σ 2 P −1 PP ′ (P −1 ) ′ = σ 2 I<br />
ˆβOLS = (Z ′ Z) −1 Z ′ Y ∗<br />
P −1 )Y ∗ = X ′ Ω −1 X −1 ′ −1<br />
X (P ′<br />
P −1 )<br />
<br />
Ω−1 Y<br />
= (X ′ Ω −1 X) −1 X ′ Ω −1 Y = ˆ βGLS.
3 FYRIRLESTUR 29. JANÚAR 14<br />
Skoðum<br />
Y = αX + u<br />
∑Y X<br />
ˆα =<br />
∑X 2<br />
˜α = 1<br />
n ∑Y/X<br />
¯α = ∑y<br />
∑X<br />
Gerum þetta nú þannig að maður skilgreinir dreifinguna<br />
ℓ = − n<br />
2<br />
Ω stendur fyrir varíans fylki í Y.<br />
3.1.5 Kafli 6<br />
Y ∼ N(Xβ,σ 2 Ω)<br />
1 1<br />
log(2π) − log|Ω| −<br />
2 2 (Y − Xβ)′ Ω −1 (Y − Xβ)<br />
δℓ<br />
= 0<br />
δβ<br />
2<br />
2 X ′ Ω −1 (X − Xβ) = 0<br />
δℓ<br />
= 0<br />
δσ2 σˆ 2 ML = 1<br />
n (Y − Xβ)′ Ω −1 (Y − Xβ)<br />
Í kafla sex er heilmikið um allskonar próf fyrir misdreifni og sjálffylgni. Mörg þessara tekin fyrir í<br />
hagrannsóknum I. Athugið að Breusch-Pagan er LM próf sbr. viðauka 6.1. Ágætt að kíkja á það.<br />
Cockrane Orcutt er aðferð til þess að leiðrétta fyrir sjálffylgni. Er að mati Helga alveg úrelt.<br />
Tillaga, parameterasa Ω = Ω(θ) og meta θ með ML númerískum aðferðum. Helga finnst þetta slá<br />
þessum kennslubókaraðferðum út.<br />
Áhrif mæliskekkja skipta máli. Hvað þýðir það að mæliskekkja í X breytum? Ef sanna líkanið er<br />
Y = Xβ + ε og svo mælum við Y = X ∗ β + u og ef<br />
X ∗ = X + v<br />
E(u) = 0<br />
V(u) = σ 2 u<br />
= Xβ + (X ∗ − X)β + u<br />
<br />
ε<br />
u = ε − (X ∗ − X) β<br />
<br />
villa<br />
Hér er Helgi að tala um innbyggða mæliskekkju sem er alltaf til staðar. Til dæmis ef maður mælir hæð<br />
með tommustokk, hve mikil er mæliskekkjan? Mæliskekkjan leiðir til að ˆ βOLS er biased (hlutdrægur)<br />
og ekki consistent. Ekki cconsistent þýðir t.d. að bias stefnir ekki á 0, í öðrum tilfellum gæti það þýtt
4 FYRIRLESTUR 5. FEB 15<br />
að dreifnin stefni ekki á 0. Þó að við stækkum úrtakið þá stefnum við ekki á sannleikann. Þetta má<br />
sjá með því að líta á e-a svona jöfnu<br />
ˆβ = β + (X ′ X) −1 X ′ ε<br />
tek plim í gegn (þægilegt með plim að má gera þetta)<br />
plim ˆ β = β + plim( 1<br />
n X ′ X) −1<br />
<br />
ε −1 XX<br />
· plim 1<br />
n X ′ ε<br />
<br />
∑xε<br />
−1<br />
= β + ∑+∑ xx xε<br />
Þá er það spurningin hvað er til ráða. Hér blasir við að við myndum kerfismeta vitlaust samband x og<br />
y, við nálgumst ekki sannleikann. Trixið er að taka u jöfnuna og margfalda í gegn með e-u, þá eyðir<br />
maður villunni í burtu. Notum instrumental breytu, köllum hana bara z. z á að vera ócorreleruð við<br />
v=villa og eins mikið correleruð við x og hægt er. Þá fær maður<br />
zY = zX ∗ β + zu<br />
ˆβN = (X ∗′<br />
PzX ∗ ) −1 X ∗ P −1<br />
z Y Pz er ofanvarp X ∗ á Z<br />
Þetta er stundum kallað two stage least squares, fyrsta skrefið er þá að regressa<br />
ˆX = Z(Z ′ Z) −1 Z ′ X ∗<br />
og skref 2 er að meta líkan með ˆX í stað X ∗ . Vandinn er að finna instrument, maður vill hafa mörg<br />
instrument og slá út villuna. Helga finnst í rannsóknum svolítið ad hoc aðferðum beitt við að finna<br />
instrument.<br />
Þegar við lesum um misdreifnipróf og önnur próf þá er gagnlegt að bera saman Newbold kafla 14,<br />
Thomas kafla 10 og kennslubókina.<br />
Eitt case í viðbót sem leiðir til ekki consistency í OLS, tafin háð breyta + sjálffylgni leiðir til OLS<br />
ekki consistent. Nú til dags þá lagfærir maður bara fyrir þessu ef mann grunar að sjálffylgni fyrir<br />
hendi.<br />
Ef maður sleppir mikilvægri breytu í líkani, þá þýðir það bias.<br />
3.1.6 Dæmi<br />
5.1 - 5.4, 6.7.<br />
Kennslubókin ber þess svolítið merki að hún hefur verið margendurskrifuð, <strong>hluti</strong>rnir eru tvist og<br />
bast í bókinni. Í kafla 6.9 er hlutur sem kallast ARCH, það er visst form á misleitni. Þetta á eiginlega<br />
heima í kafla 7.<br />
4 Fyrirlestur 5. feb<br />
Síðast: Misdreifni, sjálffylgni og mæliskekkjur.<br />
ˆβGLS = (X ′ Ω −1 X) −1 X ′ Ω −1 Y<br />
þar sem vesen er að finna Ω en nota má ML í það. GLS instrumental - two stage LS.<br />
Geymum GARCH í kafla 6.9.
4 FYRIRLESTUR 5. FEB 16<br />
4.1 Kafli 7. univariable tímaraðir<br />
X1,X2,...,Xn<br />
Xt = f (Xt−1,Xt−2,... , ut <br />
innovation<br />
)<br />
<br />
f ortid<br />
svo má útvíkka þetta þ.a. X-ið verði margvítt (jafna 7.12).<br />
Box Jenkins kokkabókin skrifuð 1970 með kokteil af líkindafræði og tölfræði. Jenkins hafði áður<br />
skrifað bók um spectral greiningu. Box tengdasonur Fischers sem kom með ANOVA og fleira. Þetta<br />
er í stórum dráttum það að fást við vandamálið að við höfum tímaraðir og þurfum að álykta e-ð.<br />
Höfum AR(1) = Auto Regressive<br />
Xt = φXt−1 + εt<br />
εt whitenoise<br />
E(εt) = 0, V(εt) = σ 2<br />
E(εtεs) = 0 e f t = s.<br />
AR(P)<br />
Xt = φ1Xt−1 + ... + φtXt−p + εt<br />
Svo höfum við Moving average MA(q). Svoldið villandi nafn, skiljanlegra væri að kalla þetta moving<br />
sum.<br />
Xt = εt − θ1εt−1 − ... − θqεt−q<br />
blöndum þessu svo saman<br />
ARMA(P,Q)<br />
Xt = φ1Xt−1 + ... + φpXt−p + εt <br />
innovation<br />
−θ1εt−1 − ... − θqεt−q<br />
Til að gagnasöfnun með tímaröðum sé nothæf þá þarf ergodic skilyrðið að vera uppfyllt. Eiginleiki<br />
sem við verðum að hafa. Þýðir að mælingar langt frá hvor annari næstum óháðar. Viljum að ¯X<br />
stackrel p→ µ.<br />
Svo verðum við líka að hafa sístæðni. Þýðir gróflega séð að eiginleikar raðarinnar séu óháðir<br />
tímahliðrun. Höfum weak<br />
E(Xt) = µ<br />
E(Xt − µ)(Xt−k − µ) = γ(k)<br />
<br />
autocovariance f unction<br />
stundum líka kallað white sense stationary. Svo höfum við strict stationary<br />
F(Xt1,...,Xtk) = F(Xt1+n,... ,Xtk+n)<br />
. Óháðar Cauchy hendingar eru t.d. strictly stationary. En meðaltal og covariance er ekki til fyrir<br />
Cauchy þ.a. það er ekki weakly stationary.
4 FYRIRLESTUR 5. FEB 17<br />
Getum metið líkan útfrá ósístæðum ferlum ef við höfum t.d. monte carlo með 1000 köstum. Erfitt<br />
að prófa hvort röð er ergodic. Hjá sístæðum tímaröðum er mean function bara constant (autocovariance<br />
function).<br />
γ(k)<br />
ρ(k) = γ(k)<br />
= autocorrelation f unction(ac f )<br />
γ(0)<br />
⎛<br />
⎞<br />
γ(0) γ(1) ...<br />
⎜<br />
Ω = ⎝<br />
.<br />
. ..<br />
⎟<br />
. ⎠<br />
γ(0)<br />
Xt = φXt−1 + εt, E(Xt) = 0.<br />
E( Xt−1Xt<br />
<br />
γ(1)=φγ(0)+0→ρ(1)= γ(1)<br />
γ(0) =φ<br />
= φX 2<br />
t−1 + εtXt−1)<br />
þetta verður svo strax erfiðara fyrir AR(2)<br />
Xt−1Xt = φ1X 2<br />
t−1 + φ2Xt−1Xt−2 + Xt−1 + εt<br />
Xt−2Xt = φ1Xt−1Xt−2 + φ2X 2<br />
t−2 + Xt−2εt<br />
γ1 = φ1γ(0) + φ2γ(1) + 0<br />
γ2 = φ1γ(1) + φ2γ(0)<br />
og þessar síðustu tvær kallast Yule walker jöfnur. Þetta eru tvær óþekktar (φ1 φ2) og má leysa fyrir φ1<br />
og φ2. εt-ið lætur stochastic koma í dæmið.<br />
Getum vel gert úrtaks covariance. Með úrtaksstærðum má ná mati á gömmunum.<br />
ˆγ(k) = 1<br />
n<br />
n<br />
∑<br />
t=k+1<br />
Hvað kallast þessi vinnubrögð? Least squares er<br />
(Xt − ¯X)(Xt−k − ¯X)<br />
min<br />
φ1φ2 ∑(Xt − ˆXt) 2<br />
. En vinnubrögðin hér fyrir ofan er Method of moments. gamma 1 og 2 eru fræðileg úrtök. Yule var<br />
uppi um 1920.<br />
Höldum nú aðeins áfram að skoða AR(2).<br />
LXt = Xt−1<br />
BXt = Xt−1<br />
FXt = Xt+1<br />
Δ = 1 − L<br />
ΔXt = Xt − Xtt − 1<br />
og þá getum við skrifað<br />
Xt = φ1LXt + φ2L 2 Xt + εt<br />
Xt(1 − φ1L − φ2L 2 ) = φ(L)Xt
4 FYRIRLESTUR 5. FEB 18<br />
Mismunajöfnur eru ofboðslega líkar diffurjöfnum. Diffurjafna á borð við y” + ay’ + by = 0 lýsir<br />
dýnamískum eiginleikum y í tíma. Mismunajöfnur eru diffurjöfnur í strjálum tíma. Skoðnum nú<br />
φ(z) = 1 − φ1Z − φ2Z 2<br />
= (1λ1Z)(1 − λ2Z)<br />
rætur eru utan einingarhrings ef Xt stationary. Í fjármálatölfræði dX = deterministic + stochastic, liða<br />
þetta í spáanlegan hluta og í óspáanlegan hluta. AR(2) veiðir bara út eina sveiflu því cos samsvarar<br />
bara einni tíðni. Til að hafa margar sveiflur þá þurfum við að vera með flóknari dýnamískan strúktur.<br />
4.1.1 Partial Autocorrelation function, PACF<br />
Mjög svipað og partial correlation. pacf φkk = fylgni Xt og Xt−k gefið Xt−1, ..., Xt−k+1, þetta er skilyrt<br />
fylgni. Sjá töflu 7.1 sem tengir autocorrelation, partial autocorrelation eiginlega og hvort þetta er<br />
AR eða MA eða ARMA líkan. Sjá útleiðslur 213 og 214, skilja þessar útleiðslur. Næsta skref er að<br />
pæla í því hvernig hagmælingar passa í þetta kerfi. Gefum okkur stationary forsendur. Könnum hvort<br />
mismunur ΔXt er stationary. Ef Δ d Xt er ARMA(p,q) þá Xt er ARIMA(p,d,q) þar sem I stendur fyrir<br />
integrated. Ef Δ d Xt er stationary þá er sagt að Xt er I(d). Oft tekinn logrinn fyrst með svona hagraðir.<br />
Það er gert því breytingar í hagröðum eru relativar (prósentubreytingar) en aðferðarfræðin gengur út<br />
á að skoða level breytingar (absolut breytingar). Með logrun breytir maður relativum breytingum í<br />
absolut.<br />
Kaflar 14 og 15 í Thomas eru mjög gagnlegir. Þar er um stationarity og próf fyrir stationarity. Við<br />
getum séð<br />
Xt = φXt−1 + εt<br />
= φLXt + εt<br />
(1 − φL)Xt<br />
= εt<br />
<br />
φ(L)<br />
og við getum deilt 1 - φ Z upp í 1 + φ Z + φ 2 Z 2 + ....<br />
Xt = εt<br />
1 − φL = (1 + φL + φ2 L 2 + ...) + εt<br />
=<br />
∞<br />
∑ φ<br />
j=0<br />
j εt− j<br />
Höfum Wold decomposition theorem, stationary process = deterministiskur process + MA(∞). Wold<br />
sannaði þetta um 1930. Wold sagði að hagfræði sé ekki simultan vísindagrein og því henta tímaraðir<br />
betur en simultan jöfnur.<br />
Kíkjum núna aðeins á óstationary líkön. Hagraðir virðast almennt ekki vera stationary. Til að átta<br />
sig á því hvernig óstationary raðir hegða sér þá hafa Jack og John hermt slíka ferla. Sjá bls. 216. Það<br />
að fyrsti mismunur sé constant þýðir e-rs konar trend.<br />
Y1(1 − αL)Yt = ... + εt, α = 0,95<br />
Y2 − − − − − − − −|| − − − − − − − − − − − − − − − − − − − − − − − − − −−, α = 1<br />
Y3 − − − − − − − −|| − − − − − − − − − − − − − − − − − − − − − − − − − −−, α = 1,05<br />
Y4(1 − αL)(Yt − δ0 − δ1t) = εt, α = 0,9<br />
Y5 − − − − − − − −|| − − − − − − − − − − − − − − − − − − − − − − − − − −−, α = 1.0
5 FYRIRLESTUR 12. FEB 19<br />
þegar rótin er = 1 á einingarhringnum þá glatast sístæðnin. Í α = 1,05 þá er þetta explosivt. Gott að<br />
skilja mismunin á milli þessara tilvika. Svo skoðar hann correlogram. Við skoðum ˆρ sem eru metnir<br />
sjálffylgnistuðlar. Rétta ρ er 0,95 en hann fær fyrst 0,882. Myndin í heild sinni myndi hafa svipaðan<br />
caracter ef við myndum sjálfir gera þessa tilraun.<br />
ΔYt = δ0(1 − α) + γYt−1 + εt γ = α − 1<br />
ΔYt = β0 + γYt−1 + εt<br />
ef H0 rétt þá höfum við kvaðratískt trend<br />
H0 : α = 1 ↔ γ = 0<br />
H1 : α < 1 ↔ γ < 0<br />
Sagt er frá Dickey Fuller prófum. Tafla í bók. Ath. að bók gefur sér að ε t sé white noise, þá<br />
augmented dickey fuller.<br />
5 Fyrirlestur 12. feb<br />
Kíkja á töflu bls. 216. Prófa að gera óháðar svona raðir líka og reikna fylgni á milli þeirra. Nú í dag<br />
förum við í kafla 7.4. Stundum eru heil námskeið bara um kafla 7.4.<br />
5.1 7.4 Sístæðar tímaraðir<br />
Aðferðarfræði til að búa til spár fyrir eina röð. Spectral fræðin er tíðni nálgun á tímaraðir. Í einni<br />
setningu: Ef við lítum á 100 ára tímabil og lítum á hagsveiflu þá getum við kannski sagt að 5 ár<br />
séu á milli toppa eða 20 toppar á 100 árum. Munurinn hér er bara að sveiflurnar eru skoðaðar með<br />
mismunandi gleraugum. Tíðniskoðunin segir okkur ekkert nýtt, bara nýtt sjónarhorn.<br />
Box Jenkins<br />
1. Identification. Í hefbundnum hagrannsóknum þýddi þetta áður að hægt var að leysa parametra<br />
út úr strúktúreðum líkönum. Verkfræðingar slá stundum identification og estimation saman og<br />
kalla bæði skrefin identification.<br />
2. Estimation<br />
3. Diagnostics<br />
4. Forecasting<br />
Hugmyndin hér er að nálga stationary ferli með ARMA líkani. Arma líkan hefur myndina<br />
Xt = φXt−p + εt − θ1εt−1 − ... − θqεt−q<br />
φ(L)Xt = θ(L)εt<br />
Rætur φ(Z) utan einingahrings → Xt stationary.<br />
Rætur θ(Z) utan einingahrings (invertable framsetning s, θi einhlítt ákvarðaðar).<br />
invertable skilyrðið er bara til að hægt sé að skoða theturnar. Athugið að eftirfarandi eru jafngild<br />
Xt = εt − 2εt−1<br />
Xt = et − 1<br />
2 et−1
5 FYRIRLESTUR 12. FEB 20<br />
Arma líkön eru þó ekkert sérstaklega áhugaverð þar sem þau eru sístæð. Því var búið til ARIMA<br />
líkön.<br />
Ath. að<br />
Yt er I(d) efΔ d Yt = (1 − L) d 1/t er stationary ef<br />
Xt = Δ d Yt er ARMA(p,q) Yt ∼ ARIMA(p,d,q)<br />
∞<br />
∑θ j<br />
j Xt− j = εt ↔ Xt = θXt−1 + θ 2 Xt−2 + ... + εt<br />
5.2 Identification skrefið, ákveða p,d,q<br />
Leyst með því að skoða úrtaksstærðir<br />
Sjá töfluna í bók með acf, pacf, ar, ma, arma.<br />
ρ1.1, ˆ ρ.2,... ˆ<br />
φ11, ˆ φ22,... ˆ<br />
ˆρi = úrtakssjálffylgni acf<br />
ˆ<br />
φii = úrtaks partial acf<br />
min<br />
p,d,q= log ˆσ 2 + P + q logn<br />
n<br />
BIC(Schwarz<br />
Hér þarf að velja fullt af líkönum. Þurfum að meta aragrúa af líkönum með fullt af gildum á p,d,q.<br />
Þetta var ekki boðlegt þegar lítið var um tölvur og því höfðu Box og Jenkins sérstakt estimation skref<br />
þar sem þessir óþekktu parametrar metnir.<br />
Þegar við vinnum gögn þá er það alltaf þessi gangur. Velja líkan, mat á óþekktum parametrum<br />
út frá mælingum. Svo diagnostics - pæla í því hvernig líkanið stendur sig. Og svo notkun, í hagrannsóknum<br />
er það oft spágerð.<br />
5.2.1 Estimation<br />
Nokkur prinsipp á bakvið estimationið<br />
5.3 a) Method of moments.<br />
Elsta aðferðin. Nota reiknireglur fyrir væntanlegt gildi og varíans. Skrifa líkanið. Reikna fræðilegt<br />
gildi af momentum. Getur verið fall af óþekktum parametrum. Leysa svo fyrir óþekkta parametra.<br />
Yule-Walker<br />
Xt = φ1Xt−1 + ... + φpXt−p + εt<br />
Xt−1 = φXt−2 + ... + φpXt−p−1 + εt−1<br />
margfalda svo í gegn og taka væntanlegt gildi<br />
Xt−kXt = Xt−kφ1Xt−1 + ... + φpXt−pXt−k + εtXt−k<br />
p óþekktir parametrar og nota p jöfnur ˆ<br />
γ(0) = ..., ˆ<br />
γ(1) = ...,..., ˆγ(p−)<br />
E(Xt−kXt == φ1E(Xt−1Xt−k) + ... + φpE(Xt−pXt−k) + E(εtXt−k)<br />
<br />
cova f laggik
5 FYRIRLESTUR 12. FEB 21<br />
Gætum leyst þetta ef við vissum gömmurnar (p óþekktu). Stingum inn útaksstærðum fyrir þær og<br />
köllum lausn. Þetta er consistent lausn en ekki efficient. Þó er hún asymptotiskt efficient. Leysi jöfnur<br />
og kalla lausn<br />
Fyrir MA(1)<br />
ˆφMM = (ˆφ1,..., ˆφp)<br />
Xt = εt − θεt−1<br />
γ(1) = E(X2Xt−1) = −θσ 2<br />
V (Xt) = (1 + θ 2 )σ 2<br />
Tíska í hagrannsóknum að bæta G fyrir framan MM og kalla generalized method of moments.<br />
GMM velur það φ sem leysir jöfnurnar sem best. Þessar jöfnur geta verið milu fleiri en p.<br />
Athugið að dreifingin á ε kemur ekki við sögu hér. Eina sem skiptir máli er að momentin séu til.<br />
Yule Walker er sem sagt method of moments aðferð.<br />
5.4 b) Least Squares.<br />
Viljum leysa lágmörkunar vandamálið<br />
min<br />
φ,θ<br />
n<br />
∑<br />
t=?<br />
(Xt − ˆXt) 2<br />
ˆXt = φXt−1 ... − θˆεt−1 ...<br />
Hvernig á að giska á gömlu ε? Hvað er ˆεt? Ein sniðug aðferð er að nota recursive least residuals. ˆεt<br />
er metin spáskekkja. Ath að OLS residuals ekki óháðir, þeir summast í 0. Hvernig á að byrja? Hvað<br />
er ˆX1? Getum byrjað í Xmax(p,q) + 1. → conditional least squares , auðvelt að forrita þessa aðferð.<br />
Önnur lausn er að spá aftur í tímann, backcasting. Snúa röðinni við og spá aftur í tímann<br />
5.5 c) Maximum likelihood.<br />
n<br />
∑<br />
−∞<br />
(Xt − ˆXt) 2<br />
<br />
unconditionalleastsquares<br />
Langerfiðasta aðferðin. Þarf alltaf að skrifa niður dreifingu hér. Það þarf ekki að gera í least squares.<br />
Festi dreifingu á εt. Ágætt að muna eftir margvíðu normaldr. Aðallega áhugavert ef ε ∼N því summa<br />
normaldreifðra afgangsliða er normaldreifð.<br />
X = [X1,... ,Xn] ′ ∼ N(0,σ 2 Ω)<br />
þar sem Ω er covariance fylki. Mjög flókið fall. Erfitt að skrifa niður nema kannski fyrir einföld líkön<br />
eins og AR(1) og MA(1). Í einvíðu er Ω = 1. Þáttum Ω til að geta tekið aðra rót. Ansley fattaði þetta<br />
og þá varð auðvelt að reikna þetta fyrir normaldreifingu.<br />
f (X|φ,θσ) = 1 1<br />
√<br />
2π σ<br />
1<br />
|Ω| 2 e−X′ Ω −1 X ′ 2σ 2<br />
logL = log f (Xφ,θ,σ) = −logσ − 1 1<br />
log|Ω| −<br />
2 2σ2 X ′ Ω −1 X
5 FYRIRLESTUR 12. FEB 22<br />
Fyrir AR(1) er Ω<br />
⎡<br />
σ 2 ⎢<br />
Ω = ⎣<br />
σ 2 x φσ 2 x φ 2 σ 2 x ...<br />
. ..<br />
σ 2 x<br />
⎤<br />
⎥<br />
⎦<br />
E(X 2<br />
t ) = σ 2 X = γ(0), E(XtXt−1) = γ(1)<br />
Til aðferðir (t.d. Durbin Levinsson) til að reikna Ω. Önnur leið oft sniðug leið til að skrifa likelihood<br />
fallið. Skrifa má f(X1, X2) = f(X2|X1) * f(X1). Fyrir AR(P)<br />
f (Xp+1|X1 ...Xp) = f (Xp+1|X1 ...Xp) · f (X1 ...Xp)<br />
<br />
predictivadrei f ingin<br />
(Xp+1|X1 ...Xp) ∼ N(φ1Xp + φ2Xp−1 + ... + XpX1 σ 2 ε)<br />
<br />
autoregressionas jal ftsig<br />
Þannig að ef við getum reiknað Ω fyrir f(X1 ... XP) þá þurfum við ekki meira.<br />
Þessi aðferð gengur ekki fyrir MA því þá ekki hægt að þátta fortíðina á þennann hátt. Fyrir MA(1)<br />
Ω = σ 2<br />
⎡<br />
1 + θ<br />
⎢<br />
⎣<br />
2 −θ 0 ... 0<br />
−θ 1 + θ2 ⎤<br />
−θ 0 ... ⎥<br />
⎦<br />
. .. . .. . ..<br />
Þetta er svona bandfylki. Band í ferningum í hornalínu sem = 0 en allt hitt núll. Efe Xt er ARMA,<br />
búa til nýja breytu<br />
<br />
Xt<br />
, ef t í max (p,q) H<br />
Zt =<br />
.<br />
1 − φ1X1 − φ1Xt−p , annars.<br />
E(ZZ ′ ⎡<br />
⎤<br />
. ..<br />
⎢<br />
0 ⎥<br />
⎢<br />
) = ⎢<br />
. .. . ..<br />
⎥ = ll′<br />
⎣<br />
⎦<br />
.<br />
0 .. . ..<br />
og V(e) var diagoanl fylki. Og að umhverfa hornalínufylki er ekkert mál. Flest ný forrit nota þetta<br />
ML-trix.<br />
Við eigum að kunna prinsippin fyrir ML og MM. Geta leitt þetta út fyrir einföld líkön. Kunna<br />
trixið með margvítt þéttifall f(X1, X2) = f(X2|X1) * f(X1) en þetta með að varða Ω skiptir ekki höfuð<br />
máli.<br />
Oft í gagnavinnslu skiptir öllu að láta sér detta í hug teknísk trix. ML eiginleikar: besta nýting<br />
á upplýsingum. Verðum að hafa rétta forritið til að fá samkvæm möt. Dreifing má vera vitlaus. Til<br />
dæmis nota normal ef ekki ∼ N en þá minnkar nýtni. Consistent möt á parametrum en t gildi vitlaus.<br />
Má leiðrétta með samlokuaðferðum.
5 FYRIRLESTUR 12. FEB 23<br />
5.6 d) bayesískar aðferðir<br />
Tjá okkur um upplýsingar með líkindadreifingu. Apriori dreifing á (φ, θ, σ) táknað π(φ, θ, σ). Ef<br />
parameter rúm endanlegt þá getur apriori verið constant. Þurfum að setja vogir á rauntalnaásinn ef<br />
óendanlegt param. rúm svo að heildist í 1.<br />
likelihood fall fyrir ARMA ferli er<br />
π(X|φ,θ,σ)<br />
Xt = φXt−1 + εt − θεt−1, ε ∼ N(0,σ 2 )<br />
Nota svo reglu Bayes til að reikna aposteriori dreifingu<br />
π(φ,θ,σ) =<br />
π(X|φ,θ,σ) · π(φ,θ,σ)<br />
∑π(X|φ,θ,σ) · π(φ,θ,σ)dφdθdσ<br />
Að reikna þetta er þó mjög erfitt. Margir hafa reynt að sneiða fram hjá þessu með hermunum (kafli<br />
11). Markow chain, Monte Carlo. Gott að nota Bayes aðferðir í hagfræði því setja fram skoðanir um<br />
líkan í apriori dreifingu. Ekki auðvelt að steja fram prior fyrir ARMA líkön. Þó hægt að reyna t.d. að<br />
setja skoðun um lengd hagsveiflna inn, það er þó smá bögg. Við stöndum alltaf frammi fyrir að ákveða<br />
hvernig velja á stika. Stór <strong>hluti</strong> ástæðu fyrir velgengni Box-Jenkins var áhersla þeirra á diagnostics.<br />
Þá skoðum við ˆεt. Ef vel tókst til þá á ˆεt að líkjast hvítu suði. Með líkanasmíðinni erum við að sigta<br />
út spáanlega hlutann. Skipta líkaninu í spáanlegan og óspáanlegan hluta.<br />
Ef ˆεt ekki líkt hvítu suði þá hefur sigtunin ekki tekist vel. Skoðum t.d. ACF, PACF, gröf: plotta<br />
ˆεt á y-ás og tíma á x-ás. Skoðum líka CUSUM, CUSUMSQ sem eru einföld grafísk próf. Ef mikil<br />
sjálffylgni er í ˆεt → ættum að geta spáð því → e-r spáanlegur <strong>hluti</strong> eftir í leifarliðum og því sigun á<br />
spáanlega hlutanum ekki tekist nægjanlega vel.<br />
5.6.1 CUSUM<br />
Skoðum<br />
E(<br />
t<br />
∑<br />
j=n<br />
ˆε j) = 0, V (<br />
t<br />
∑<br />
j=n<br />
Wt =<br />
t<br />
∑ ˆε j<br />
j=n<br />
höfum<br />
ˆε j) = (t · k)σ 2
6 FYRIRLESTUR 19. FEB 24<br />
Því eðlilegt að cusum sveiflist innan ákveðinna marka. Ef fer út fyrir mörkin þá vísbending um að<br />
þetta of sveiflukennt og trent þátt vantar kannski í líkanið. Sumir normalisera með því að deila með ˆσ<br />
5.6.2 CUSUMSQ<br />
Wt =<br />
t ˆε j<br />
∑<br />
j=n ˆσ<br />
st = 1 t<br />
n ∑ ˆε<br />
j=n<br />
2 j<br />
Ef öll ˆε 2 u.þ.b. jafnstór → vísbending um ekki misdreifni. Viljum að þetta fylgi u.þ.b. 45 gráðu línu<br />
og setjum e-r mörk á þetta. Sjá töflu fyrir línur töflu D8 í bók.<br />
Prófin CUSUM og CUSUMSQ eru ágæt en hafa ekki mikið power.<br />
5.6.3 Durbin Watson<br />
Durbin Watson er aðferð til að kanna sjálffylgni. DW u.þ.b. 2(1 - ˆρ). Viljum að<br />
∑(ˆρε(k)) 2<br />
sé lítil. Spurning hvað maður tekur marga liði í þessari summu. Það er breytilegt milli forrita. Box<br />
Pierce Ljung byggir á því að vega (*) og bera svo saman við χ 2 töflur.<br />
Að skoða ACF, PACF teikningar getur gefið vísbendingar um hvort bæta við MA eða AR liðum.<br />
Gera svo alltaf diagnostics og pæla í því hvar við erum að misstíga okkur. Í næsta tíma verður fjallað<br />
um forecasting (sbr. 3.4.6 í Poirier).<br />
6 Fyrirlestur 19. feb<br />
Yt,ARIMA(p,d,q)<br />
(1 − L) d φ(L)Xt = θ(L)εt<br />
LXt = Xt−1,φ(Z) = 1 − φ1Z − ... − φpZ p<br />
= (1 − λ1L)(1 − λ2L)...(1 − λpL)<br />
BXt == Xt−1,θ(Z) = 1 − θ1Z − ... − θqZ q<br />
(*)
6 FYRIRLESTUR 19. FEB 25<br />
Rætur φ, θ utan einingarhrings.<br />
φ(Z) = 0,θ(Z) = 0 ef |Z| ≤ 1.<br />
φ, θ ekki sameiginlegar rætur (ekki common factor).<br />
(1 − φL)Xt = (1 − θL)εt<br />
hvað ef φ = θ, þá Xt = εthvað ef φ = θ, þá Xt = εt<br />
X = ˜X + µ + γt + ...<br />
Oft höfum við árstíðir í tímaröðum (season). Nálgast má þetta með tvennum hætti. Deterministiskt<br />
eða stókastískt. Svo verður að reyna að gera þetta rétt en í praktískri tölfræði veit maður aldrei hvað er<br />
rétt. Reynir bara að komast sem næst sannleikanum. Ef við segjum að margir hafi keypt skíði í fyrra<br />
þá er líklegt að færri kaupi í ár. Getum þá sett stókastískt seasonal AR þátt í líkan. Gætum líka sett<br />
MA þátt í líkanið. Þá verður líkanið e-n veginn<br />
AR : Xt = µ + φXt−12 + µt<br />
MA : Xt = µ + θUt−12 + µt<br />
Ef við veljum φ < 1 þá X stationary. Ef (1 - φZ 12 ) þá höfum við tólf rætur á einingarhringnum og þá<br />
erum við komin með seasonal unit root og þá er X-ið ekki lengur stationary. Helgi hefur lagt ákveðinn<br />
skilning í þetta og borið undir gáfumenni í fræðunum. Ekki viss hvort þeir kunna þetta ekki eða hvort<br />
Helgi misskilur þetta.<br />
Túlkun Helga: Getum þá tekið seasonal mismun (1−L 12 ) D það er skoða Xt −Xt−12. Þá þýðir það<br />
að við vitum ekki hvenær á árinu seasonið er. Það getur færst yfir árið. Getur einnig orðið misstórt.<br />
Hér getur annað hvort verið shock á X sem hverfur svo eða e-ð sem lifir alltaf eftir það. Dæmi:<br />
síldarsala Íslendinga. Salan var alltaf mest á þriðja ársfjórðung. Svo breyttist e-ð, síldin fór og loðnan<br />
kom í staðinn og hún veiddist á öðrum ársfjórðungi. Útflutningurinn hefur heldur ekki neitt eðlilegt<br />
meðaltal.<br />
Margar hagraðir hafa grip á borð við (1 - φZ 12 ). Sumir nota stórt D oft yfir hvað þeir taka oft<br />
seasonal difference.<br />
Determiniski <strong>hluti</strong> seasonal er t.d. að setja dummy breytur inn. Til dæmis meta e-n parameter fyrir<br />
febrúar. Skíðasölu meðaltal fyrir febrúar. Ef maður gerir þetta þá er maður að negla niður ákveðinn<br />
strúktúr. Einnig mætti skella inn cos, sin liðum. Ef vottar fyrir determiniskum sveiflum í hagröðum<br />
þá eru þær árstíðarsveiflur.<br />
Hitastigið er alveg determiniskt. Vitum að meðalthitinn í jan er 10 gráðum lægri en í júní. Getum<br />
sett inn dummy þar.<br />
6.1 Tölvuæfing úr kafla 7<br />
Notum Gretl forritið. Æfingin í kafla 7 um unit root prófunina. Við eigum að gera dæmi 7.6 í kaflanum.<br />
Við endurtökum nú það sem er á bls. 227 augmented dickey fuller. Framkvæmum regression<br />
ΔYt = µ + γt + φYt−1 + µt<br />
reiknum svo t gildi. Nokkur reiknimál: RATS, SHAZAM, TSP, SORITEC, STATA, PK-GIVE,<br />
EVIEWS. Búum til tafðar breytur fyrir allar breyturnar og fyrsta mismun. Upphaflegu breyturnar
6 FYRIRLESTUR 19. FEB 26<br />
eru Y1, ..., Y5. Hægt að fara í Variables augmented dickey fuller. Helgi ætlar að reikna jöfnu 7.54<br />
og fá út töflu 7.10. 200 mælingar. Veljum mælingar, Set range 101.200. Við fáum e-ð smá annað í<br />
constant og hallatölu en í bók því tími byrjar í 101 en ekki í 0 eða 1 eins og í bók. Setjum svo dY 1 sem<br />
háðu breytuna og const, Y 11 og time sem skýribreytur í OLS og eigum að fá næstum því það sama og<br />
í bók a.m.k. Skoðum svo línu 8), -0,118 er phi stuðullinn, t-gildi -2,45 sem er eins og í bók. Berum<br />
t-gildið við töflu 7.9. Ályktum að núll kenning um non stationary er ekki hafnað. Sanna phi var 0,95.<br />
Það er mjög nálægt því að vera stationary. Prófum nú að sleppa trendinu (time) og þá kemur það sama<br />
og í Bókinni.<br />
Skoðum nú housing start bls. 238. Verið að spá í hvað er byrjað á mörgum húsum. Þetta stundum<br />
notað sem hagsveiflu indicator. Spurningin hvernig á að spá því. Við förum í Sample->Interpred<br />
as time series... og ekki árlegt. Svo Sample->Set frequency og veljum þar 12 1959.01 og Apply.<br />
Hugmyndin er að ath. seasonality. Forum svo í Data->Add variables->periodic dummies og þá bætast<br />
við 12 dummy breytur. Tökum housing start sem háða breytur og dummy sem skýribreytur. Summa<br />
seasonal dummy breytanna er alltaf einn og því við því búið að OLS klikki ef ákveðið form á dummy<br />
breytunum. Sleppum const vegna þessa. Forum í OLS og veljum HS sem háða, const, dummy1, .. ,<br />
dummy12 sem háðar breytur. Des er lægstur og feb. Hér gerum við ráð fyrir að árstíðarsveiflan sé fast<br />
lögmál yfir allt tímabilið.<br />
Förum nú í R. skrifum >library(ts). Notum fallið ARIMA í ts. ESS er e-r emacs statistics. Skrifum<br />
svo >arima(HS, order=c(1,0,0),seasonal=list(order=c(1,0,0),period=12). fyrra order er (p,d,q) og<br />
seinna er (P,D,Q). Ekki víst að þurfi að gera period. Berum þetta svo saman við bls. 240 í bókinni og<br />
fáum næstum því það saman. Reiknum svo sjálffylgninga > ac ac$acf[1:10] og þetta á að<br />
vera það sama og bls. 239.