Eine Einführung in Stata - Regressionsanalyse - Universität Würzburg

vwl.uni.wuerzburg.de

Eine Einführung in Stata - Regressionsanalyse - Universität Würzburg

Gliederung1 Einfache Regressionsanalyse2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 2 / 57


GliederungEinfache Regressionsanalyse1 Einfache Regressionsanalyse2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 3 / 57


Einfache RegressionsanalyseDie lineare EinfachregressionDas Grundprinzip aller Regressionsmodelle ist die Bildung eines Modells,welches eine abhängige Variable (den Regressanden) in einenZusammenhang mit unabhängigen Variablen (den Regressoren) stellt. Ineiner linearen Einfachregression wird ein Zusammenhang zwischen demRegressanden, einer Konstante und einem weiteren Regressor unterstellt.Bsp.:Wohnungsgröße Meier =β 0 +β 1· Einkommen Meier +ɛ Meier (1)Dieser Zusammenhang wird nun für alle Mitglieder einer Populationunterstellt. D.h.:Wohnungsgröße i =β 0 +β 1· Einkommen i +ɛ i (2)Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 4 / 57


Einfache RegressionsanalyseDie lineare EinfachregressionSomit ergibt sich die geschätzte Wohnraumgröße für ein beliebigesPopulationsmitglied:Die Residuen dieser Schätzung lauten:ŷ i =β 0 +β 1· x i (3)e i = y i − ŷ i (4)Die Summe der quadrierten Residuen werden als RSS (Residual Sum ofSquares bezeichnet:)n∑RSS ==ei2i=1n∑(y i − ŷ i ) 2 (5)i=1Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 5 / 57


Einfache RegressionsanalyseDie lineare EinfachregressionDurch Minimierung dieser Quadrate erhält man den OLS-Schätzer(“Ordinary least squares“):∂RSS=−2 ∑ ∑y i + 2nβ 0 + 2nβ 1 xi (6)∂β 0=⇒β 0 = ȳ−β 1¯x∂RSS=−2 ∑ ∑ ∑y i x i + 2β 0 xi + 2β 1 x2∂β i1∑ (xi − ¯x)(y i − ȳ)=⇒β 1 = ∑ (xi − ¯x) 2Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 6 / 57


Einfache RegressionsanalyseDie lineare Einfachregression in STATADer OLS-Schätzer wird in STATA mittels des Befehls regress aufgerufen:regress Regressand Regressor[en], Optionen . Ein einfachesBeispiel:use data1regress sqm hhincereturn listAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 7 / 57


Einfache RegressionsanalyseInterpretation: KoeffizientenblockBeantworten Sie folgende Fragen:Wie lässt sich der Koeffizientβ 0 [ cons] interpretieren?Wie lässt sich der Koeffizientβ 1 [hhinc] interpretieren?Wie hoch ist die erwartete Wohnungsgröße einesDurchschnittsverdieners?Wie hoch ist das erwartete Wohnungsgröße der Person Nummer3155820 (persnr)?Hinweis:Benutzen Sie den eingebauten STATA-Taschenrechner display.Koeffizienten können mittels des Ausdrucks b[Koeffizientenname]genutzt werden. D.h.:display b[ cons]display 2· b[ cons]Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 8 / 57


Der predict-BefehlEinfache RegressionsanalyseOftmals ist es interessant, die geschätzten Werte des Regressanden, ŷ,oder der Residuen, ŷ− y, usw. zu berechnen. Dies kann wie oben gesehenper Hand über den generate Befehl geschehen. Alternativ hat STATAdieses Vorgehen bereits implementiert:Berechnung der geschätzten Werte ŷ:predict NeuerVariablennameBerechnung der geschätzten Werte ŷ, andere Möglichkeit:predict NeuerVariablenname, xbHier kein Unterschied. ABER: nicht immer!!!Berechnung der Residuen ŷ− y:predict NeuerVariablenname, residBerechnung der Standardfehler der geschätzten Werte:predict NeuerVariablenname, residHinweis:Zur grafischen Verdeutlichung:twoway scatter sqm hhinc || lfitci sqm hhincAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 9 / 57


ANOVA-BlockEinfache RegressionsanalyseIm STATA-Output nach einer Regression wird “oben links“ derANOVA-Block (“Analysis of Variance“) ausgegeben. Hier wird dieVariation der abhängigen Variable in einen erklärten und einennicht-erklärten Teil zerlegt. Die quadrierten Abweichungen vom Mittelwertwerden dabei als TSS (“Total Sum of Squares“) bezeichnet.TSS = ∑ (y i − ȳ) 2 (7)Durch die Hereinnahme (weiterer) erklärender Variable wird das Modellverbessert. D.h. dass die Unterschiede zwischen dem geschätzten Wertund dem tatsächlichen Wert hoffentlich kleiner sind als die Abweichungender erklärenden Variable vom Mittelwert. Diese Abweichungen werden alsRSS (“Residual Sum of Squares“) bezeichnet.RSS = ∑ (e i − ē) 2 = ∑ (e i ) 2 (8)Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 10 / 57


ANOVA-BlockEinfache RegressionsanalyseDie Differenz aus TSS und RSS wird als MSS (“Model Sum of Squares“)bezeichnet. Sie beschreibt den Teil der Variation, die durch eineHereinnahme weiterer Variablen erklärt wird.MSS = ∑ (ŷ i − ˆȳ) 2 (9)Rechts neben diesen Angaben lassen sind die Freiheitsgrade derAbweichungen finden. Diese lauten für:TSS: n−1RSS: n−kMSS: k− 1Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 11 / 57


ANOVA-BlockEinfache RegressionsanalyseRechts neben den Freiheitsgraden sind die mittleren quadratischenAbweichungen angegeben (MS = “mean square deviation“). Man ehältdiese, indem man die SS (“Sum of Squares“) durch die Freheitsgrade teilt.Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 12 / 57


Einfache RegressionsanalyseModellfit“Rechts oben“ in der Ausgabe befindet sich der sogenannteModellfit-Block. In diesem werden folgende Werte ausgegeben:Anzahl an BeobachtungenF-StatistikP(x> F)R 2R 2 adj.RMSEAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 13 / 57


Einfache RegressionsanalyseModellfitDie bekannteste Maßzahl für den Modellfit stellt wohl das R 2 dar, welchesden Anteil der Varianz, der durch das Modell erklärt wird zu der Varianzder abhängigen Variable ins Verhältnis setzt:R 2 = MSSTSS= 1−RSSTSS = 1− ∑ e2i∑ (yi − ȳ) 2 (10)(TSS = MSS + RSS)In der multiplen Regression wird des Weiteren noch das adjustierte R 2genutzt, das berücksichtigt, dass bei Aufnahme weiterer RegressorenFreiheitsgrade verloren gehen:R 2 a= 1−n−1n−k (1−R2 ) (11)Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 14 / 57


ModellfitEinfache RegressionsanalyseAls Alternative zum R 2 bietet sich der RMSE (”Root Mean SquaresError”), also die Wurzel der durchschnittlichen Residuen, an:√RSSRMSE =n−k(12)Des Weiteren wird oftmals die F-Statistik verwendet, die ein Aussagedarüber zulässt, ob das Regressionsmodell als ganzes signifikant ist:F = MSS /k−1RSS/n−k(13)Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 15 / 57


Einfache RegressionsanalyseModellfit: BerechnungenBerechnen Sie folgende Werte:R 2R 2 aRMSEF-StatistikAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 16 / 57


GliederungMultiple Regression1 Einfache Regressionsanalyse2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 17 / 57


Multiple RegressionMultiple RegressionIn die multiple Regression unterscheidet sich von der Einfachregressiondurch die Aufnahme weiterer Regressoren. D.h. wir unterstellen in unseremModell folgenden linearen Zusammenhang:y i =β 0 +β 1 x 1i +β 2 x 2i +β 3 x 3i +··· +β k−1 x k−1i +ɛ i (14)Es sei u’u die Summe der Quadrate der Residuen Q. Diese soll nunminimiert werden, d.h.:Q = u’u (15)= (y−Xβ) ′ (y−Xβ)= y’y−y’Xβ−β ′ X’y +β ′ X’XβAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 18 / 57


Multiple RegressionMultiple RegressionDie Minimierung erfolgt durch ableiten:Daraus folgt:∂Q∂β∂∂β (y’y−y’Xβ−β′ X’y +β ′ X’Xβ) ! = 0⇔−2(y’X) ′ + 2X’Xˆβ = 0!= 0 bzw. (16)∂Q∂β = 0 (17).ˆβ = (X’X) −1 X’yAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 19 / 57


Multiple RegressionMultiple Regression in StataEin einfaches Beispiel:use data1, cleargen owner = renttype == 1 if renttype < .gen east = state >= 11 & state


Multiple RegressionStandardisierte RegressionskoeffizientenOftmals ist es schwierig, unterschiedliche Regressionskoeffizientenmiteinander zu vergleichen, da die Einflüsse deutlich von der Maßeinheitabhängen. Um die Stärke des Einflusses zu identifizieren kann man daherstandardisierte Beta-Koeffizienten verwenden.Dieser ist definiert als:βk ∗ =β s x kk(18)s yDie standardisierten Beta-Koeffizienten haben folgende Interpretation:”Wenn sich die unabhängige Variable k um eine Standardabweichungändert, ändert sich die abhängige Variable umβ ∗ k Standardabweichungen.Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 21 / 57


Multiple RegressionStandardisierte RegressionskoeffizientenAchtung:Aufgabe:In Stata werden “normale“ Betas als ”bs”bezeichnet,Beta hingegen meint die standardisierten Regressionkoeffizienten.Berechnen Sie den standardisierten Regressionskoeffizienten für dasHaushaltseinkommen. Überprüfen sie diese Berechnung mittels:reg sqm hhinc hhsize east owner, betaAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 22 / 57


Multiple RegressionStandardisierte RegressionskoeffizientenBei den standardisierten Regressionskoeffizienten ist auf folgendes zuachten:Keine sinnvolle Interpretation bei dichotomen VariablenBei Interaktionstermen stimmen die ausgegebenen Betas nicht. Einevorherige Standardisierung ist erforderlichKein Vergleich von Beta-Koeffzienten zwischen verschiedenenDatensätzenAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 23 / 57


GliederungRegressionsdiagnostik1 Einfache Regressionsanalyse2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 24 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0Für die Unverzerrtheit des Schätzers ist folgende Annahme essentiell:E(ɛ 1 ) = 0Diese Annahme kann aus folgenden Gründen verletzt sein:Der tatsächliche Zusammenhang zwischen abhängiger und denunabhängigen Variablen kann nichtlinear seinein Ausreißer beeinflusst das Regressionsergebnis sehr starkEs wurde eine Variable vergessen, die mit einem Regressor korreliertistAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 25 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0Eine wesentliche Annahme der OLS-Regression ist die Linearität in denParametern. Diese ist dann verletzt, wenn der tatsächliche Zusammenhangnicht-linear (oder falsch spezifiziert) ist. Eine Möglichkeit zur grafischenAnalyse stellt der Median-Trace dar. Hierbei werden die Daten in “Bänder“unterteilt und in diesen dann jeweils der Median berechnet.Bsp.:use data1, cleartwoway scatter sqm hhinc || mband sqm hhinc, bands(20)Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 27 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0In der multiplen Regression bietet sich folgendes Vorgehen an:reg sqm hhinc hhsizepredict resid, residgenerate residplus=resid + b[hhsize]*hhsizecprplot hhsize, mspline msopts(bands(20))Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 28 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0Ein weiteres Problem kann die Existenz von Einflussreichen Variablen sein.Da die Methode der kleinsten Quadrate sehr anfällig für Ausreißer ist. Bsp.:clearset obs 100gen y=invnorm(uniform())gen x=invnorm(uniform())reg y xtwoway scatter y x || lfit y xAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 29 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0Solche Ausreißer können auf verschiedene Weise identifiziert werden. EineMöglichkeit stellt der Befehl dfbeta dar, mittels dem die Einflüsse einerBeobachtung auf den Regressionskoeffizienten identifiziert werden können.Dieser ist definiert:In unserem Beispiel:regdfbetagraph box DFxDFBETA ik = β k−β k(i)s e(i)/ √ RSS k(19)Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 30 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0Im allgemeinen gilt der Einfluss einer Beobachtung als kritisch, wenn gilt:| DFBETA ik |> 2 / √ n (20)Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 31 / 57


RegressionsdiagnostikVerletzung von Var(ɛ) =σ 2· IDie Verletzung der Homoskedastizitätsannahme für zu ineffizientenErgebnissen der Schätzung. Grundsätzlich gibt es unterschiedlicheMöglichkeiten einen solchen Test durchzuführen. Bsp.:use data1reg sqm hhsize hhincpredict resid, residpredict yhatgen resid2= residˆ2reg resid2 yhatAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 32 / 57


RegressionsdiagnostikVerletzung von Var(ɛ) =σ 2· IIn Stata sind mehrere unterschiedliche Tests auf Heteroskedastiztätenthalten:reg sqm hhinc hhsizehettest, fstathettest, normalhettest, rhsAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 33 / 57


RegressionsdiagnostikVerletzung von Var(ɛ) =σ 2· IEine weitere Möglichkeit, Heteroskedastizität zu erkennen, ist diesogenannte Quantilsregression. Für den Median ergibt sich beisymmetrischen Fehlern derselbe Koeffizient wie bei dem OLS-Regression.Führt man zusätzlich noch Quantilsregressionen für bspw. das neunte underste Dezil aus, lässt sich dann erkennen, ob Heteroskedastizität vorliegt.Für die Qauntilsregression gilt es, folgenden Ausdruck zu minimieren:n∑n∑φ = | y i − x i ′ β|= (y i − x i ′ )sgn(y i− x i ′ ) (21)i=1i=1Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 34 / 57


RegressionsdiagnostikVerletzung von Var(ɛ) =σ 2· IIn STATA lautet der Befehl für Quantilsregressionen:qreg abh. unabh., q(quantilsnummer)Bsp.:. use data1. reg sqm hhinc. qreg sqm hhinc, q(50). qreg sqm hhinc, q(10). qreg sqm hhinc, q(90). graph twoway scatter sqm hhinc || lfit sqm hhinc || function y= 48.16008 +0.0178908 * x, range(0 15000) || function y= 95.16159 + 0.0218516 * x, range(015000) || function y= 26.41627 + 0.0095694 * x, range(0 15000)Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 35 / 57


RegressionsdiagnostikVerletzung von Var(ɛ) =σ 2· ILösungsansätze:(F)GLS: Gewichtung der Regression. Bspw.:Var[ u i/z i ] = ( 1 /z 2 i)Var[u i ]reg y x, [aweight 1 / [z 2 i ]]Huber-White-Sandwich-Estimator:reg y x, robustVorsicht: Heteroskedastizität kann auch ein Hinweis auf Fehlspezifikationdes Modells sein!Weiter Möglichkeiten: help reghelp vcetypehelp neweyAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 36 / 57


RegressionsdiagnostikWichtige Tests. tab state, gen(statedum). tab area, gen(areadum). reg rent sqm hhinc hhsize statedum* areadum* garden balcony, vce(robust)Einfacher Wald-Testtest hhinc == .2test garden == balconyF-Testtest hhinc hhsizetestparm statedum*Wald-Test von Linearkombinationenlincom garden - 1.5 * balconyAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 37 / 57


GliederungInstrumentenvariablen1 Einfache Regressionsanalyse2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 38 / 57


IVInstrumentenvariablenEine wesentliche Vorraussetzung dafür, dass eine Schätzung unverzerrt ist,stellt die Annahme dar, dass der Regressor unabhängig von dem Störtermist. Ist diese Annahme verletzt stellt die IV-Methode ein gängiges Mitteldar, eine Schätzung durchzuführen.Es sei folgendes Modell gegeben:y =β 1 x 1 +β 2 x 2 +··· +β k x k +ɛ (22)Ein Regressor ist dann exogen, wenn gilt:Cov[x j ,ɛ] = 0 (23)Entsprechend ist ein Regressor endogen, wenn gilt:Cov[x j ,ɛ] ≠ 0 (24)Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 39 / 57


InstrumentenvariablenIVGehen wir weiterhin von folgendem Modell aus:y = Xβ +ɛ (25)Nun definieren wir eine Matrix Z mit der gleichen Dimension wie X, in derjedoch der endigene Regressor durch das Instrument z ersetzt wurde.Entsprechend definieren wir nun:y = Xβ + uZ’y = Z’Xβ + Z’ɛZ’y = Z’Xˆβ IVˆβ IV = Z’X −1 Z’y (26)Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 40 / 57


IVInstrumentenvariablenWenn wir eine endogene Variable x mit mehreren exogenen Variablen zinstrumentrieren wollen, kann der einefache IV-Schätzer nicht mehrgenutzt werden, da X und Z dann unterschiedliche Dimensionen hättten.Daher müssen die Anzahl der Instrumente der Instrumente in einem erstenSchritt reduziert werden:ˆX = Z(Z’Z) −1 Z’X (27)Wenn wir nun P Z als Projektionsmatrix Z(Z’Z) −1 Z’ definieren, könnenwir das in den bekannten IV-Schätzer einsetzen:ˆβ 2SLS = (ˆX ′ X)ˆX’y( )= X’Z(Z’Z) −1 −1Z’X X’Z(Z’Z)Z’y= (X’P Z X) −1 X’P Z y (28)Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 41 / 57


IVInstrumentenvariablenIn STATA wird eine Instrumentenvariablenschätzung mittels des Befehlsivreg durchgeführt:. ivreg Regressand Regressoren (Instrumentierte = Instrument(e) ), OptionenBsp.:use grilichesivreg lw s expr tenure rns smsafirstoverid Wir stellen fest:I* (iq =med kww age mrt),Die Variable iq ist ein schlechtes Maß für Fähigkeit (ability).Die Instrumente kww, age und mrt sind stark mit dem endogenenRegressor korreliert, med ist nur schwach korreliertDer overid-Test lehnt die Nullhypothese, dass die Instrumente nichtmit den Störtermen korreliert sind abAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 42 / 57


GliederungZeitreihenanalyse1 Einfache Regressionsanalyse2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 43 / 57


ZeitreihenanalyseZeitreihenanalysePrinzipiell unterscheidet sich eine Zeitreihenregression (in Stata) nicht voneiner normalen Regression. Allerdings ist es zweckmäßig die Zeitvariable zuspezifizieren um “echte“ Zeitreihenanalysen vorzunehmen.Dafür ist es zuvorderst notwendig, die Zeitreihe zu spezifizieren, was inSTATA mittels des Befehls tsset geschieht:use ukratedtsset monthAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 44 / 57


ZeitreihenanalyseZeitreihenanalyseEine Übersicht der Erweiterungen der Variablenliste bei Zeitreihen:Operator Bedeutung Formale DarstellungL.var Lag var t−1L2.varvar t−2···F.var Lead var t+1F2.var var t+2···D.var Difference var t− var t−1D2.var (Diff. of Diff.) var t− 2·var t−1 + var t−2(1−L) 2· var t = var t− 2Lvar t + LLvar···S.var “Seasonal“ Diff. var t− var t−1S2.varvar t− var t−2···Hinweis: help varlistAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 45 / 57


ZeitreihenanalyseZeitreihenanalyseEin wesentliches Problem bei Zeitreihen ist, dass die Störtermemiteinander korreliert sein können. Für den einfachsten Fall einesautoregressiven Prozesses (oder Markov Prozess erster Ordnung) gilt:u t =ρu t−1 +υ t ,|ρ|


ZeitreihenanalyseZeitreihenanalyseBeispiel:reg D.rs LD.rspredict resid, residreg resid L.resid, noconsOder, der “Klassiker“:d =∑ Tt=2(û t − û t−1 ) 2∑ Tt=1 û 2 t≃ 2(1−ρ) (30)reg D.rs LD.rsestat dwatsonAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 47 / 57


ZeitreihenanalyseZeitreihenanalyseWeitere Möglichkeiten:Grafische Untersuchung:ac residcorrgram residAndere TeststatistikenBreusch-Godfrey-Test (H 0 :ρ i = 0∀i):bgodfrey, lags(anzahl)Ljung-Box-Test (Box-Pierce-Test):wntestq residAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 48 / 57


ZeitreihenanalyseZeitreihenanalyseDie bekanntesten Möglichkeiten Zeitreihen mit AR(1)-Fehlern zu schätzensind die Modelle von Prais-Winsten und Cochrane-Orcutt:Cochrane-Orcutt schätzt das transformierte (quasi-differenzierte)Modell:y t −ρy t−1 =β(1−ρ) +γ(X t −ρX t−1 +ɛt)(Iterativ: OLS =⇒Residuen =⇒ˆρ =⇒Transformation =⇒usw)prais D.rs LD.r20, corcPrais-Winsten:Wie Cochrane Orcutt, nur wird die erste Beobachtung mit √ 1−ρ 2multipliziert anstatt diese wegzulassenprais D.rs LD.r20Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 49 / 57


GliederungPaneldaten1 Einfache Regressionsanalyse2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 50 / 57


PaneldatenPaneldatenPaneldaten (auch: Längsschnittdaten) liegen dann vor, wenn ein Subjektüber einen längeren Zeitraum beobachtet wird. Die einfachste Möglichkeitbesteht darin, die Beobachtungen einfach zu “poolen“, d.h. wir führen einenormale Regression mit N· T Beobachtungen durch. Allerdings kannfolgendes Modell verdeutlichen, dass dies nicht unbedingt zweckmäßig ist:y it = x it β k + z i δ + u i +ɛ it (31)mit:x it : Variablen, die sich über die Zeit und zwischen den Individuenunterscheidenβ k : zugehöriger Koeffizientenvektorz i : zeit-invariate Variablenδ : zugehöriger Koeffizientenvektoru i : indiviudeller Level-EffektAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 51 / 57


PaneldatenPaneldatenGrundsätzlich besteht somit die Möglichkeiten, (un)beobachtbarezeitinvariate Einflüsse zu eleminieren, da wir mehrere Beobachtungen fürein Individuum haben. Je nachdem, welche Annahmen wir in dieinividuellen Level-Effekte u i stecken, können wir random effects und fixedeffects unterscheiden:u i ist mit den Regressoren unkorreliert: REIntuition: wenn die u i mit allem anderen in dem Modell unkorreliertsind, stellen sie einfach zusätzliches Rauschen daru i ist mit den Regressoren korreliert: FEInuition: wenn die u i mit den Regressoren korreliert sind, kann mansie einfach wie zeitinvariate Parameter, also fixe Effekte, behandeln.Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 52 / 57


PaneldatenPaneldatenDa wir ofmtals zwar sehr viele Individuen, jedoch nur wenige Zeitpunktehaben, ist es äußerst problematische, für jedes Individuum eineDummyvariable zu generieren. Daher bedient man sich bei derFE-Schätzung folgenden Tricks:y it − ȳ i = (x it − ¯x i )β + (z i − z i )δ + u i − u i +ɛ it − ¯ɛỹ it = ˜x it β + ˜ɛ it (32)Diese Transformation kann dann mittels der Methode der kleinstenQuadrate geschätzt werden. Der Vorteil (und auch Nachteil) diesesVorgehens ist, dass sämtliche beobachtbaren und unbeobachtbarenMerkmale “entfernt“ werden. (klar?) der FE-Schätzer wird auch alswithin-Schätzer bezeichnet da er von der Variation innerhalb desIndividuums abhängtAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 53 / 57


PaneldatenPaneldatenPaneldaten können im breiten und im langen Format vorliegen. FürRegressionen benötigt STATA Daten im langen FormatWide FormatLong Formati X 1968 X 1969 X 1970 i year XJohn 7 8 5 John 1968 7Paul 5 2 2 John 1969 8George 4 3 1 John 1970 5Ringo 8 8 6 Paul 1968 5Paul 1969 2Paul 1970 2George 1968 4. . .Ringo 1970 6Alexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 54 / 57


PaneldatenPaneldatenIn STATA wechselt man mittels des reshape-Befehls zwischen dem langenund dem breiten Format. In dem Befehl müssen folgende Punkte kenntlichgemacht werden:Variable, die das Individuum eindeutig identifiziertAngabe der Variablen, welche über die Zeit beobachtbar sindInformation über die ZeitpunkteAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 55 / 57


PaneldatenPaneldatenDer Befehl lautet:reshape long/wide zeitvariate Variable,i(Individuenidentifikation) j(Zeitvariable)Bsp.:use data2wdreshape long inc lsat mar hour, i(persnr) j(wave)dxtset persnr wavextdesxtsumAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 56 / 57


PaneldatenPaneldatenFortsetzung Bsp.:gen age = wave - gebjahrreplace lsat = . if lsat < 0gen age2 = ageˆ2replace inc = . if inc < 0reg lsat age age2 inc sex marxtreg lsat age age2 inc sex mar, feAlexander Brunner (Universität Würzburg) Eine Einführung in Stata WS 2008/09 57 / 57

Weitere Magazine dieses Users
Ähnliche Magazine