11.07.2015 Views

x - Ekonomski Fakultet

x - Ekonomski Fakultet

x - Ekonomski Fakultet

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Narušavanje pretpostavkiu linearnom regresijskommodeluPredavanje 71


Polazne pretpostavke u analizi modelavišestruke linearne regresije1. Veza između zavisne varijable i odabranog skupanezavisnih varijabli je linearna, tj.y01x1kx k2. Regresorske varijable su nestohastičke, te su stoganezavisne o greškama relacije i , i=1,2,...,ni su međusobno su i.i.d2E( i) 0 Var( i)Cov(, ) E() 0 i j, i, j 1, ,nijij2


Polazne pretpostavke u analizi modelavišestruke linearne regresije4. Nadalje se pretpostavlja da su varijable međusobnonezavisni vektori, te da je matrica X punoga ranga;rang(X'X)=rang(X)=k+1.......pretpostavka se uvodi iz numeričkih razloga5. Normalnost reziduala~N(0,2 I)3


Problem multikolinearnosti prisutan ako su dvije regresorske varijable (iliviše njih) linearno zavisne ili približnolinearno zavisne (uključujući i varijablu kojagenerira konstantni član).Moguće je razlučiti dva tipa multikolinearnosti:• Savršena multikolinearnost• Približna multikolinearnost


Savršena multikolinearnost prisutna je ako su dvije (ili više) regresorskih varijablilinearno zavisne. U tom je slučaju det(X’X)=0 vektor procijenjenih parametara dobiven LS-metodomˆ 1( X X )X yadj(det(X XX X))X y ne postoji jedinstveno rješenje jednadžbe, tj procjeneparametara nisu jednoznačno određene.


Savršena multikolinearnost Rjeđe pri primjeni stvarnih podataka:no može se pojaviti ako: Koristimo kvalitativne eksplanatorne varijable, ane vodmo računa o tome da u regresiji postojikonstantni član broj dummy (binarnih, indikator) varijabli??za svaku kvalitativnu varijablu mora biti za jedan manjinego li je broj njenih modaliteta.


Približna multikolinearnost Ili približna linearna zavisnost regresorskih varijabli češći i ozbiljniji problem u empirijskim istraživanjima prisutan je ako su dvije ili više regresorskih varijablivisoko korelirane.• ŠTO ZNAČI VISOKO KORELIRAN, 0.8, 0.9???? U tom će slučaju matrica (X'X) biti približnosingularna i stoga neprikladna za inverziju.det( X X )0


Približna multikolinearnostˆ 1( X X )X yadj(det(X XX X))X y vrijednosti vektora procijenjenih parametara bitće brojčano nepouzdane. Nadalje, kako jevar(ˆ)ˆ2( XX)1 to će zbogdet( X X )0varijance (standardne pogreške procijenjenihparametara) biti velike.


Približna multikolinearnost Veliki će biti i elementi izvan glavne dijagonale,odnosno kovarijancecov(Zbog velikih standardnih pogrešakaˆi,ˆj)SE(ˆ ) ˆ s , s ( X X ) 1jjjjj1jjhjjvrijednosti procijenjenih parametara moguće jeizračunati s pogrešnim predznakom.


Približna multikolinearnost empirijski t omjeritjˆSE(jˆj) će biti nerealno mali, što će navoditi na zaključak da supojedine regresorske varijable nesignifikantne, te da ihtreba isključiti iz modela Također, zbog velikih standardnih pogrešaka intervalneprocjene parametara bit će vrlo neprecizne.


Posljedice nesavršene multikolinearnosti moguse sažeti na sljedeći način: LS- procjenitelji mogu biti neprecizni u smislu da velikestandardne greške uzrokuju šire intervale procjene t-testovi mogu ukazivati na nesignifikantnost pojedinihvarijabli što može (u najgorem slučaju) prouzročitiizostavljanje bitne varijable iz regresijskog modela predznaci procijenjenih parametara mogu biti suprotnihpredznaka od očekivanih


Neki pokazatelji multikolinearnost Najjednostavniji način utvrđivanja ozbiljnogproblema multikolinearnosti je da se ispitajustandardne pogreške procijenjenih parametara.var(ˆj)2( X X ) koeficijent determinacije u modelumultiple linearne regresije u kojem je• j-ta regresorska varijabla zavisna, a• preostali regresori nezavisne varijable1jjin1( xijxˆj)22(1R2j)


Neki pokazatelji multikolinearnost standardni pokazatelji• faktor inflacije varijance VIF (Variance Inflation Factor) ili• TOL (Tolerance) definirani izrazom:VIFj1 Ozbiljan problem multikolinearnosti - ako je• SAS.....1Rj 1,2, ,p TOL 12 jjVIFj1R2j• Maddala.....


Naziv „faktor inflacije varijance“VIFj11R2j u slučaju visoke korelacije X j s ostalim regresorskimvarijablama, koeficijent determinacije pomoćneregresijske jednadžbe2R j1→ dolazi do povećanja („inflacije“) varijance odˆj


Neki pokazatelji multikolinearnost→ da ne postoji ozbiljan problem multikolinearnosti


Primjer 1: analiza prometa (u mil HRK) u trgovini na malo u 18županija RH 2006., yNezavisne varijable su zalihe, broj zaposlenih u tisućama i brojprodavaonicaNa osnovi VIF, odnosno TOL zaključuje se da postoji ozbiljanproblem multikolinearnosti.Uz ZAPOSLENI - najveća vrijednost VIF=59.07877,najmanja vrijednost TOL=0.01693).


Kondicioni broj CN i kondicioni indeks CIKondicioni broj CN i kondicioni indeks CI matrice (X'X) -1 ubrajaju semeđu pokazatelje multikolinearnosti mjere osjetljivosti procjena u regresiji na male promjene upodacima. najmanje kritika, premalo zastupljen u praksiKondicioni broj definiran je kao drugi korijen omjera najveće inajmanje svojstvene vrijednosti, tj:CNmaxmin


Kondicioni indeks CImaxCIii 1,2, ,kimax = najveća svojstvena vrijednost, i = odabrana svojstvenavrijednosti Poželjno da je CN što manji (što bliži 1)Neki autori smatraju da postoji umjerena do jaka multikolinearnost ako je CN između 100 i 1000 ili ako je CI između 30 i 100 ozbiljan problem multikolinearnosti ako je CN iznad 1000 postoji ili CI iznad 100.


Kleinovi kriterijiI.Kleinov kriterij:Temelji se na koeficijentima korelacije nultog reda, tj. naelementima korelacijske matrice


Kleinovi kriterijiI.Kleinov kriterij: Postoji ozbiljan problem multikolinearnosti akoje barem jedan od koeficijenata korelacije nultog redaizmeđu regresorskih varijabli po apsolutnoj vrijednosti veći odkoeficijenta multiple linearne korelacije ako postoji barem jedan r i,j takav da je |r i,j |>RR2R


Kleinovi kriterijiII.Kleinov kriterij:Postoji ozbiljan problem multikolinearnosti ako je:• koeficijent determinacije dovoljno velik(0,7 ≤ R 2 ≤ 0,9)), a• istovremeno su empirijski t-omjeri mali.


II. Kleinov kriterijEmpirijski F omjer (za skupni test) može se izraziti kao funkcijakoeficijenta determinacijeFSP/kSR/n ( k1)SRST/SPSTn/ k( k1)(1R22R / k)/ n( k1) zbog velike vrijednosti R 2 empirijski F-omjer bio bi signifikantan,što bi značilo da je barem jedna od regresorskih varijabli značajnau modelu. S druge strane, male vrijednosti empirijskih t-omjera upućuju nazaključak o nesignifikantnosti regresorskih varijabli, što jekontradiktorno prethodnom.


Primjer 2:Predmet regresijske analize je promet uugostiteljstvu ( za poslovne jedinice ugostiteljaobrtnika) u razdoblju 1997.-2006.Varijable u modelu su:y = promet u mil HRKx 1 = broj poslovnih jedinicax 2 = indeksi neto plaća, 2002=100


Farrar- Glauberov test H 0 pretpostavlja da su regresorske varijablemeđusobno nezavisni vektori, odnosno da jekorelacijska matrica jedinična matrica Empirijska test veličina ≈ k je broj regresorskih varijablik(k+1)/2)2n116(2k5)lndetC


Farrar- Glauberov test2n1(2kln detC C je matrica koeficijenata linearne korelacije165)1Crr2131r1321rk1rk 2rk31 Odluka se donosi na uobičajen način• tj. usporedbom testovne veličine i teorijske vrijednostihi-kvadrat distribucije za zadani


Primjer: nastavak Za podatke iz primjera 2 matrica C• do koje se dolazi izostavljanjem prvog stupca i prvogretka korelacijske matriceC1.0000000.2328010.2328011.000000det( C)10.23280120.945804n10k2k(k1)/23210116(225)ln 0.9458040.41789920.05(3)7.815220.05(3)H0


Postupci ublažavanja problemamultikolinearnosti Multikolinearnost – u empirijskim istraživanjima višepravilo nego izuzetak Uklanjanje - NEMA egzaktnog rješenja(eventualno povećanje broja regresorskih varijabli –često nemoguće) dovoljno je biti svjestan da problem postoji


Postupci ublažavanja problemamultikolinearnostiUblažavanje problema multikolinearnosti Problem multikolinearnosti moguće je ublažitipovećanjem broja podataka (povećanjem uzorka)Kmenta: .....multikolinearnost je problem uzorka a nepopulacije Nije bitno praviti razliku između prisustva i odsutnostimultikolinearnosti, već između različitih stupnjevamultikolinearnosti.


Postupci uklanjanja (ublažavanja) problemamultikolinearnosti Ponekad se vrijednosti varijabli transformiraju uobliku diferencija ili omjera. Naime uporabom diferencija X t =X t -X t-1 ili omjeraX t / X teliminira se linearni ili eksponencijalni trendvarijable koja najviše doprinosi multikolinearnosti1


Postupci uklanjanja (ublažavanja) problemamultikolinearnosti Isključivanjem jedne ili više regresorskih varijabli(koje najviše pridonose problemumultikolinearnosti) iz modela• Npr. na bazi VIF-a OPREZ!!! no taj postupak može uzrokovatispecifikacijsku pogrešku Ridge regresija, regresija s glavnimkomponentama


Postupci uklanjanja (ublažavanja) problemamultikolinearnosti Problemu multikolinearnosti neki ekonometričaripristupaju ovisno o cilju istraživanja Ako je cilj prognoziranje (na osnovi utvrđenogregresijskog modela)→ problem multikolinearnosti se zanemaruje u ostalim se slučajevima tom problemu pristuparigoroznije.


Problem heteroskedastičnosti Prisutan kada je narušena pretpostavka o nepromjenjivostivarijance slučajnih varijabli i u linearnom regresijskommodelu. Problem nejednake varijance i LS-procjenitelji parametara su i u slučaju promjenljivostivarijance nepristrani i konzistentni, ali više nisu efikasni jer jenarušeno svojstvo „najmanje varijance“. Uz pretpostavku da su ispunjene polazne pretpostavke omodelu, matrica varijanci i kovarijanci vektora procijenjenihparametara metodom najmanjih kvadrata dana je relacijom


Primjer: Jednostavna linearna regresija u slučaju homoskedastičnostiVar(ˆ1)in12( x ix)2 dok je u slučaju heteroskedastičnosti Očito nije isto!Var(ˆ1)ni 1ni 1( xi( xix)2x)22i2


Heteroskedastičnost varijance


Otkrivanje problema heteroskedastičnostiGrafičkim putem U modelu jednostavne linearne regresijeheteroskedastičnost je moguće utvrditi na osnovidijagrama rasipanja.• Heteroskedastičnost je prisutna ako reziduali pokazujusistematska odstupanja za različite vrijednosti nezavisnevarijable. U modelu multiple linearne regresije• dijagrami rasipanja na kojima se kao varijable odabirukvadrirani reziduali i zavisna, odnosno nezavisnevarijable.


Grafički – dijagram rasipanjaPrimjer 1. (homo): Ovisnost potrošnje o dohotku?


Primjer 2. (hetero): Ovisnost potrošnje o dohotku?Prosječna potrošnja može dosta različita od one aktualne(opažene)!


Primjer 3. Pretpostavimo da varijabla price označava cijenu kuće (utisućama dolara), sqrft veličinu kuće, dok je bdrms broj spavaćihsoba kuće.


Ovisnost cijene o veličini kuće:


Primjer homoskedastičnosti


Primjer heteroskedastičnosti


Goldfeld-Quandtov test Za regresijski model koji zadovoljava pretpostavku onepromjenjivosti varijance, rezidualna su odstupanja jednolikoraspoređena za sva opažanja. U prisustvu promjenljivosti varijance to neće biti slučaj. Na osnovi grafičkog prikaza može se odrediti regresorska varijablakoja je najjače povezana s rezidualnim odstupanjima uz pretpostavku da se disperzija povećava s porastom vrijednostiodabrane varijable, vrijednosti u uzorku se poredaju premapadajućim vrijednostima odabrane varijable. Zatim se ispusti dio središnjih vrijednosti s ciljem povećanja snagetesta Zatim se uzorak dijeli na dva jednakobrojna dijela.


Goldfeld-Quandtov testGoldfield i Quandt predlažu da se: ispusti c središnjih vrijednosti, a ostatak uzorka podijeli na dva jednakobrojnadijela, tako da svaki poduzorak sadrži (n-c)/2 opažanja. Preporuča se da broj ispuštenih vrijednosti buden/4.


Goldfeld-Quandtov test Prvi poduzorak sadržavat će velike, a drugi malevrijednosti varijable x i . Za svaki se poduzorak računa regresijska jednadžba, azatim se F-testom ispituje jednakost varijanci upoduzorcima. Pretpostavi li se da je disperzija oko regresije veća za većevrijednosti varijable x i , hipoteze se formuliraju:


Goldfeld-Quandtov test Test veličina je empirijski F-omjer:FSRSR12• SR 1 i SR 2 su rezidualne sume kvadrata u prvoj odnosnodrugoj regresiji. Test se provodi na uobičajan način Na osnovi p-vrijednosti ili na osnovi usporedbe F-omjera i teorijske vrijednostiF(( n c)/2 k 1,( n c)/2 k1)donosi se odluka o odbacivanju H 0 .


Primjer: Analiza prometa (u mil HRK) u trgovini namalo (PROMET) u 18 županija RH 2006. godine.Nezavisne varijable u modelu su: zalihe (ZALIHE) broj prodavaonica (PRODAVAONICE) i broj zaposlenih u tisućama (ZAPOSLENI) podaci polaznog uzorka n=18 poredani su silazno prema veličinibroja zaposlenih. Nakon sortiranja izostavljene su 4 središnje vrijednosti, te suprocijenjene regresije za prvi i drugi uzorak.


Rezultati regresijske analize provedene nad prvim uzorkom


Rezultati regresijske analize provedene nad drugim uzorkom


Primjer:


LM –testovi(testovi Lagrangeovih multiplikatora)


LM –testovi(testovi Lagrangeovih multiplikatora)U LM testovima o heteroskedastičnosti varijance s H 0 se pretpostavljada je varijanca slučajnih varijabli homoskedastična, tj:22 2H0 : Eix1,x2,...,xnE(i) i,i 1,2, ,na H 1 je dana tvrdnjom:H22: Eix1,x2,...,xnE(i) g(zi1,zi2,zir,0,1,,1 rz j , j=1,2,...,r su varijable za koje se pretpostavlja da utječu na varijancu slučajnihvarijabli e j , a d j , j=1,2,...,r su nepoznati parametri)


LM –testovi(testovi Lagrangeovih multiplikatora) Test se temelji na pretpostavci da se u regresijskom modelu shomoskedastičnom varijancom• procjene parametara LS-metodom i ML-metodom značajno nerazlikuju. U tom slučaju prve derivacije funkcije vjerosostojnosti L• koje su jednake nuli kad se umjesto nepoznatih parametarauvrste njihove ML procjene) ne bi trebale signifikantno odstupati od nule ni kada se nepoznatiparametri zamijene LS-procjenama


LM –testovi(testovi Lagrangeovih multiplikatora) Breusch-Paganov LM test Gleiserov LM-test LM test Parka Harvey-Godfreyjev LM test Whiteov testVećina testova bazira na činjenici da je u postupkunjihovog provođenja potrebno imati pretpostavku oobliku heteroskedastičnosti koju očekujemo da ćemonaći u podacima.


Whiteov testPrednost testa u odnosu na ostale testove: ne pretpostavlja se normalna distribucija grešaka relacije i , ne pretpostavlja se da su unaprijed poznati regresori z i u pomoćnojregresijiNedostaci: Općenit test, ne specificira oblik se heteroskedastičnosti Ako se H 0 odbaci, ne znamo uzrok heteroskedastičnosti


Whiteov testGrubo govoreći......Ako su greške relacije homoskedastične, kvadrati grešaka relacije su uprosjeku gotovo konstantni Ostale regresorske varijable NEBI SMJELE BILI ZNAČAJNE upredikciji kvadrata grešaka relacije (ili njihovih procjena kvadratareziduala) Whiteov test najopćenitiji test heteroskedastičnosti


Whiteov test Whiteovim testom se u H 0 pretpostavljahomoskedastičnost test se provodi usporedbom LS procjena varijanci uslučaju homoskedastičnosti i heteroskedastičnosti. Uz pretpostavku H 0 o homoskedastičnosti razlika međudobivenim procjenama trebala bi biti nesignifikantna.


Postupak provođenja Whiteovog testa1. U prvom se koraku LS-metodom izračunajureziduali polaznog regresijskog modela:yi2. Procijenjuje se pomoćna regresijska jednadžba ukojoj su vrijednosti zavisne varijable, ˆi2a regresorske varijable su regresorske• varijable polaznog modela, x i , i=1,...,n,• njihovi kvadrati, tei2• njihovi međusobni umnošci .01xi12x i2xxi xj, i j,i,j 1,2, ,kkxiki


Postupak provođenja Whiteovog testaNpr: k=2yi0 1xi12xi2iˆi2pomoćna regresijska jednadžbaˆ2012 2x12x23x14x25x1x1u iHipoteze:HH01::1j20,j501,2, ,5


Postupak provođenja Whiteovog testaTest veličina Whiteovog testa jeW=nR 2pri čemu je n veličina uzorka, a R 2 je koeficijent determinacijepomoćne regresijske jednadžbe. W ima asimptotsku (r) distribuciju, pri čemu je r brojnezavisnih varijabli u pomoćnoj regresijskoj jednadžbi. Ako je broj podataka mali, test se ne može provesti jer jebroj stupnjeva slobode premali


Primjer: nastavakAnalizira se ostvaren promet u ugostiteljsktu PROMET(u mil kn.) u odnosu na: broj poslovnih jedinica, JEDINICE iindekse neto plaća (2002=100), IND_NPu razdoblju 1997.-2006. (n=10)Pomoćna regresijska jednadžba uključuje: Regresore polazne jednadžbe (JEDINICE i ND_NP) i njihove kvadrate (JEDINICE^2 i IND_NP^2)


Primjer: nastavakPomoćna regresijska jednadžba uključuje: Regresore polazne jednadžbe (JEDINICE i ND_NP) i njihove kvadrate (JEDINICE^2 i IND_NP^2) njihov umnožak (JEDINICE*IND_NP)


Uklanjanje problema heteroskedastičnosti U prisustvu heteroskedastičnosti procjeniteljparametara je nepristran i konzistentan, ali nijeefikasan• ne se mogu odrediti korektne standardne pogreškeprocijenjenih parametara, te provoditi t- i F- testovi.Dvije skupine postupaka ovisno o tome je li poznat oblik varijabilnostivarijance ili ne.


Uklanjanje problema heteroskedastičnosti Ako postoje pretpostavke o analitičkom izrazuvarijabilnosti varijance za procjenu parametarakoristi se vagana metoda najmanjih kvadrata• izbor pondera ovisi o ''prirodi'' heteroskedastičnosti. U protivnom, vrijednosti varijable y setransformiraju• Najčešće: log transformacija• Npr. manja vjerojatnost heteroskedastičnosti u logmodelunego u odgovarajućem modelu u razinama


Uklanjanje problema heteroskedastičnostiUkoliko nije moguće utvrditi oblik najprikladnije transformacijevarijable y koja bi rezultirala homoskedastičnom varijancom,primjenjuje se Box-Cox-ov postupak stabilizacije varijance.y()y1za0log( y)za0 Često ''poboljšava'' i aproksimaciju normalnosti distribucije. Za λ=0 imamo log-model, a za λ=1 linearan model


Uklanjanje problema heteroskedastičnosti Deflacioniranje vrijednosti vrijednosti per capita, realni dohodak i sl. izračunavanjem prosječnih ukupnih troškova pojedinici, recipročne vrijednosti.


Primjenom heteroskedastički konzistentnihmetoda procjene Korekcija standardnih pogrešaka parametara –White-ova korekcija, npr. k=1SEˆ1nn2ni 1ni 1( xi( xix)2x)2ˆ2i2robusne standardne pogreške mogu biti različite od uobičajenihstandardnih pogrešakaempirijski gledano, robusne standardne pogreške su češće većeod običnih standardnih grešaka.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!