Zeitreihenanalyse â Einstieg und Aufgaben - FernUniversität in Hagen
Zeitreihenanalyse â Einstieg und Aufgaben - FernUniversität in Hagen
Zeitreihenanalyse â Einstieg und Aufgaben - FernUniversität in Hagen
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Thomas Mazzoni<br />
<strong>Zeitreihenanalyse</strong><br />
<strong>E<strong>in</strong>stieg</strong> <strong>und</strong> <strong>Aufgaben</strong>
Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, <strong>in</strong>sbesondere das Recht der Vervielfältigung <strong>und</strong> Verbreitung<br />
sowie der Übersetzung <strong>und</strong> des Nachdrucks, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Ke<strong>in</strong> Teil des<br />
Werkes darf <strong>in</strong> irgende<strong>in</strong>er Form (Druck, Fotokopie, Mikrofilm oder e<strong>in</strong> anderes Verfahren) ohne schriftliche Genehmigung der<br />
FernUniversität reproduziert oder unter Verwendung elektronischer Systeme verarbeitet, vervielfältigt oder verbreitet werden.
Vorwort<br />
Die Analyse ökonomischer Zeitreihen ist e<strong>in</strong> komplexes Gebiet der quantitativen<br />
Wirtschaftsforschung. Das notwendige mathematische Instrumentarium<br />
ist anspruchsvoll <strong>und</strong> <strong>in</strong> der Regel nicht oder nur teilweise Bestandteil<br />
der wirtschaftswissenschaftlichen Ausbildung. Dieses Skript verfolgt daher<br />
das Ziel, den <strong>E<strong>in</strong>stieg</strong> <strong>in</strong> die Welt der quantitativen Analyse ökonomischer<br />
Zeitreihen zu erleichtern. Es f<strong>in</strong>det sich hier e<strong>in</strong> buntes Sammelsurium aus<br />
veranschaulichenden Erklärungen, <strong>Aufgaben</strong>, Kochrezepten <strong>und</strong> mathematischen<br />
Basics, die Studierenden der Wirtschaftswissenschaften den <strong>E<strong>in</strong>stieg</strong><br />
<strong>in</strong> die quantitativen Konzepte erleichtern sollen.<br />
Dieses Skript kann sowohl als begleitendes Material zum eigentlichen<br />
Kurs parallel bearbeitet sowie auch dem Kurs vorgeschaltet werden. Letztgenannte<br />
Strategie empfiehlt sich für Studierende ohne ausgesprochene<br />
mathematische Vorbildung. Ke<strong>in</strong>esfalls ist dieser <strong>E<strong>in</strong>stieg</strong> geeignet, das<br />
Studium des Kurses 00889 zu ersetzen, da dort noch viele weiterführende<br />
Konzepte behandelt werden. Er soll vielmehr als Generator für das Verständnis<br />
der h<strong>in</strong>ter den formalen Verfahren liegenden Ideen fungieren. Mit<br />
dem Verständnis dieser Ideen degeneriert der zugehörige mathematische<br />
Ballast zu e<strong>in</strong>er alternativen Darstellung, die sich nun e<strong>in</strong>facher verstehen<br />
lässt, da e<strong>in</strong>e <strong>in</strong>tuitive Referenz vorhanden ist.<br />
Me<strong>in</strong> Dank gilt Herrn Prof. Dr. Hermann S<strong>in</strong>ger <strong>und</strong> me<strong>in</strong>en Kolleg<strong>in</strong>nen<br />
Mar<strong>in</strong>a Lorenz, Daniela Doliwa <strong>und</strong> Anja Bittner für gewissenhafte Lektüre<br />
<strong>und</strong> vielfältige Unterstützung.<br />
i
Inhaltsverzeichnis<br />
1 Zeitreihen im Allgeme<strong>in</strong>en 1<br />
2 AR-Prozesse <strong>und</strong> Elementares 5<br />
2.1 Der AR(1)-Prozess . . . . . . . . . . . . . . . . . . . . . . . . 5<br />
2.1.1 Zentrierter AR(1)-Prozess . . . . . . . . . . . . . . . . 6<br />
2.1.2 Stationarität des AR(1)-Prozesses . . . . . . . . . . . . 6<br />
2.1.3 Wissenswertes über den AR(1)-Prozess . . . . . . . . . 11<br />
2.2 Autokovarianz <strong>und</strong> Autokorrelation . . . . . . . . . . . . . . . 12<br />
2.2.1 Autokovarianz . . . . . . . . . . . . . . . . . . . . . . . 14<br />
2.2.2 Autokorrelation . . . . . . . . . . . . . . . . . . . . . . 15<br />
2.2.3 Partielle Autokorrelation . . . . . . . . . . . . . . . . . 16<br />
2.3 Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . . 20<br />
2.3.1 Parameterschätzung <strong>und</strong> Stationarität . . . . . . . . . 22<br />
2.3.2 Kle<strong>in</strong>ste Quadrate (KQ) . . . . . . . . . . . . . . . . . 24<br />
2.3.3 Maximum Likelihood (ML) . . . . . . . . . . . . . . . 28<br />
2.3.4 Konfidenz<strong>in</strong>tervalle . . . . . . . . . . . . . . . . . . . . 32<br />
2.4 Der AR(2)-Prozess . . . . . . . . . . . . . . . . . . . . . . . . 36<br />
2.4.1 Operatoren . . . . . . . . . . . . . . . . . . . . . . . . 37<br />
2.4.2 Stationarität des AR(2)-Prozesses . . . . . . . . . . . . 39<br />
2.4.3 Darstellung <strong>in</strong> Polar-Koord<strong>in</strong>aten . . . . . . . . . . . . 43<br />
2.4.4 Autokovarianz <strong>und</strong> Autokorrelation . . . . . . . . . . . 46<br />
2.4.5 Parameterschätzung . . . . . . . . . . . . . . . . . . . 50<br />
2.5 AR(p)-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
2.5.1 Stationarität des AR(p)-Prozesses . . . . . . . . . . . . 51<br />
2.5.2 Autokovarianz <strong>und</strong> Autokorrelation . . . . . . . . . . . 51<br />
2.5.3 Parameterschätzung . . . . . . . . . . . . . . . . . . . 52<br />
3 MA-Prozesse 55<br />
3.1 AR(1)- <strong>und</strong> MA(unendlich)-Darstellung . . . . . . . . . . . . . 56<br />
3.2 Der MA(1)-Prozess . . . . . . . . . . . . . . . . . . . . . . . . 56<br />
3.2.1 Parameterschätzung . . . . . . . . . . . . . . . . . . . 59<br />
3.3 MA(q)-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />
3.3.1 Autokovarianz <strong>und</strong> Autokorrelation . . . . . . . . . . . 61<br />
3.3.2 Invertierbarkeit . . . . . . . . . . . . . . . . . . . . . . 64<br />
3.3.3 Parameterschätzung . . . . . . . . . . . . . . . . . . . 66<br />
iii
INHALTSVERZEICHNIS<br />
4 ARMA-Prozesse <strong>und</strong> Erweiterungen 69<br />
4.1 Der ARMA(1,1)-Prozess . . . . . . . . . . . . . . . . . . . . . 70<br />
4.1.1 Parameterschätzung . . . . . . . . . . . . . . . . . . . 73<br />
4.2 ARIMA <strong>und</strong> SARIMA . . . . . . . . . . . . . . . . . . . . . . 74<br />
4.2.1 ARIMA(p, d, q)-Modelle . . . . . . . . . . . . . . . . . 74<br />
4.2.2 Seasonal ARIMA-Modelle . . . . . . . . . . . . . . . . 77<br />
4.3 ARMAX-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . 78<br />
4.3.1 Das ARMAX(1,0,1)-Modell . . . . . . . . . . . . . . . 79<br />
4.3.2 ARMAX(p, s, q)-Modelle . . . . . . . . . . . . . . . . . 81<br />
4.4 Modellidentifikation . . . . . . . . . . . . . . . . . . . . . . . . 82<br />
4.4.1 Akaike-Informationskriterium . . . . . . . . . . . . . . 83<br />
4.4.2 Bayes-Informationskriterium . . . . . . . . . . . . . . . 85<br />
4.4.3 Modellselektion . . . . . . . . . . . . . . . . . . . . . . 86<br />
5 Bed<strong>in</strong>gt heteroskedastische Prozesse 89<br />
5.1 ARCH-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 91<br />
5.1.1 Das ARCH(1)-Modell . . . . . . . . . . . . . . . . . . . 91<br />
5.1.2 Stationarität des ARCH(1)-Prozesses . . . . . . . . . . 93<br />
5.1.3 Kurtosis im ARCH(1)-Modell . . . . . . . . . . . . . . 95<br />
5.1.4 Parameterschätzung im ARCH(1)-Modell . . . . . . . . 98<br />
5.1.5 Das ARCH(p)-Modell . . . . . . . . . . . . . . . . . . . 101<br />
5.2 GARCH-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . 103<br />
5.2.1 Das GARCH(1,1)-Modell . . . . . . . . . . . . . . . . . 104<br />
5.2.2 Das GARCH(p, q)-Modell . . . . . . . . . . . . . . . . 105<br />
5.3 ARMA-GARCH <strong>und</strong> asymmetrische Erweiterungen . . . . . . 106<br />
5.3.1 ARMA-GARCH . . . . . . . . . . . . . . . . . . . . . 107<br />
5.3.2 Asymmetrische GARCH-Modelle allgeme<strong>in</strong> . . . . . . . 108<br />
5.3.3 Threshold ARCH . . . . . . . . . . . . . . . . . . . . . 109<br />
5.3.4 Quadratic GARCH . . . . . . . . . . . . . . . . . . . . 110<br />
5.3.5 Exponential GARCH . . . . . . . . . . . . . . . . . . . 110<br />
5.3.6 Symmetrische vs. asymmetrische Modelle . . . . . . . . 113<br />
5.3.7 ARCH <strong>in</strong> Mean . . . . . . . . . . . . . . . . . . . . . . 114<br />
5.4 Modellidentifikation <strong>und</strong> Selektion . . . . . . . . . . . . . . . . 116<br />
5.4.1 ARMA vs. GARCH . . . . . . . . . . . . . . . . . . . . 116<br />
5.4.2 Modellordnung <strong>und</strong> Selektion . . . . . . . . . . . . . . 118<br />
6 Zustandsraummodelle <strong>und</strong> Kalman-Filter 119<br />
6.1 Das l<strong>in</strong>eare Filterproblem . . . . . . . . . . . . . . . . . . . . 119<br />
6.2 Zustandsraummodelle . . . . . . . . . . . . . . . . . . . . . . . 122<br />
6.2.1 Architektur des Zustandsraummodells . . . . . . . . . 123<br />
6.2.2 AR(p)-Modelle <strong>und</strong> VAR(1)-Darstellung . . . . . . . . 126<br />
iv
INHALTSVERZEICHNIS<br />
6.2.3 ARMA-Modelle <strong>in</strong> Zustandsraumform . . . . . . . . . 127<br />
6.3 Kalman-Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . 129<br />
6.3.1 Die Bayes-Formel . . . . . . . . . . . . . . . . . . . . . 131<br />
6.3.2 Mess-Update . . . . . . . . . . . . . . . . . . . . . . . 132<br />
6.3.3 Innovation <strong>und</strong> effizientes Kalman-Update . . . . . . . 135<br />
6.3.4 Time-Update <strong>und</strong> Kalman-Filter-Algorithmus . . . . . 136<br />
6.3.5 Zustandsschätzung <strong>und</strong> Prognose . . . . . . . . . . . . 138<br />
6.3.6 Parameterschätzung . . . . . . . . . . . . . . . . . . . 140<br />
6.4 ARV-Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 141<br />
6.4.1 Zustandsraumform des ARV-Modells . . . . . . . . . . 141<br />
7 Tipps <strong>und</strong> Tricks 145<br />
7.1 Zentrale Momente e<strong>in</strong>er Normalverteilung . . . . . . . . . . . 145<br />
7.2 E<strong>in</strong>fache Berechnung stationärer Momente . . . . . . . . . . . 145<br />
7.3 Vere<strong>in</strong>fachte Kovarianzformel . . . . . . . . . . . . . . . . . . 147<br />
7.4 Hodrick-Prescott-Filter . . . . . . . . . . . . . . . . . . . . . . 147<br />
8 Lösungen 149<br />
v
1<br />
Zeitreihen im Allgeme<strong>in</strong>en<br />
E<strong>in</strong>e Zeitreihe ist zunächst, wie ihr Name schon nahelegt, e<strong>in</strong>e Reihe oder Sequenz<br />
zeitlich geordneter Daten. Traditionell wird die Zeitreihe durch e<strong>in</strong>en<br />
kle<strong>in</strong>en Buchstaben mit Index, bspw. (y t ) t=1,...,T , gekennzeichnet. Dabei handelt<br />
es sich um die Menge<br />
(y t ) t=1,...,T = { y 1 , y 2 , . . . , y T −1 , y T<br />
}<br />
(1.1)<br />
zeitlich geordenter Werte. Der Index t muss dabei nicht zwangsläufig bei<br />
e<strong>in</strong>s beg<strong>in</strong>nen oder bei T enden, häufig beg<strong>in</strong>nen Zeitreihen auch mit e<strong>in</strong>em<br />
(bekannten) Anfangswert y 0 woraus folgt, dass der Index der Zeitreihe (1.1)<br />
auch bei t = 0 beg<strong>in</strong>nen könnte.<br />
Diese Def<strong>in</strong>ition e<strong>in</strong>er Zeitreihe hat zunächst noch nichts mit Zufallsvariablen<br />
oder Ähnlichem zu tun, sie besagt nur, dass die erfassten Werte <strong>in</strong><br />
e<strong>in</strong>em zeitlich geordneten Verhältnis zue<strong>in</strong>ander stehen. Ziel der <strong>Zeitreihenanalyse</strong><br />
ist es e<strong>in</strong>e Systematik <strong>in</strong> dieser Zeitordnung zu identifizieren <strong>und</strong><br />
mathematisch zu erfassen, um die Zeitreihe damit weiteren mathematischen<br />
Diagnoseverfahren zuführen zu können oder um mit Hilfe des gef<strong>und</strong>enen<br />
Zusammenhangs Vorhersagen über den weiteren Verlauf der Zeitreihe<br />
machen zu können.<br />
1
KAPITEL 1. ZEITREIHEN IM ALLGEMEINEN<br />
Beispiel 1.1:<br />
Die Zeitreihe<br />
(y t ) t=0,...,5 =<br />
{<br />
1, 1 2 , 1 4 , 1 8 , 1 16 , 1 }<br />
32<br />
hat ganz offensichtlich e<strong>in</strong>e Struktur. Der Wert zum Zeitpunkt t<br />
ist immer die Hälfte des Wertes des vorangegangenen Zeitpunktes<br />
t − 1. Daher kann die Zeitreihe durch die Vorschrift<br />
repräsentiert werden.<br />
y t = 1 2 y t−1<br />
Mit Hilfe der erkannten Struktur lassen sich nun auch Vorhersagen für zukünftige<br />
Werte der Zeitreihe machen. Dies kann entweder rekursiv geschehen,<br />
<strong>in</strong>dem man ausgehend von e<strong>in</strong>em bekannten Wert solange den folgenden Wert<br />
berechnet, bis die Prognose für den gewünschten Zeitpunkt verfügbar ist,<br />
oder durch Ermitteln e<strong>in</strong>er expliziten Funktion. Man verifiziert leicht den<br />
folgenden Zusammenhang für die Zeitreihe <strong>in</strong> Beispiel 1.1<br />
y 1 = 1 2 y 0 = 1 2<br />
y 2 = 1 ( ) 2 1<br />
2 y 1 = y 0 = 1 2 4<br />
(1.2)<br />
y 3 = 1 ( ) 2 ( ) 3 1 1<br />
2 y 2 = y 1 = y 0 = 1 2 2 8 ,<br />
woraus die explizite Form<br />
( ) t ( ) t 1 1<br />
y t = y 0 =<br />
(1.3)<br />
2 2<br />
hervorgeht. Das zweite Gleichheitszeichen <strong>in</strong> (1.3) gilt weil die Anfangsbed<strong>in</strong>gung<br />
y 0 = 1 ist. Mit Hilfe der expliziten Form (1.3) lässt sich auch e<strong>in</strong><br />
Grenzwert für t → ∞ berechnen<br />
( 1<br />
lim y t = lim<br />
t→∞ t→∞ 2<br />
) t<br />
= 0. (1.4)<br />
Die Existenz e<strong>in</strong>es solchen Grenzwertes ist eng mit dem Begriff der Stationarität<br />
von Zeitreihen verb<strong>und</strong>en. Vere<strong>in</strong>facht ausgedrückt bedeutet<br />
2
Stationarität, dass die Eigenschaften e<strong>in</strong>er Zeitreihe auf lange Sicht (also für<br />
große t) nicht mehr spürbar vom Index t abhängen.<br />
In der Realität s<strong>in</strong>d die Zusammenhänge natürlich nicht so e<strong>in</strong>fach wie <strong>in</strong><br />
Beispiel 1.1 dargestellt. Verschiedene Komplikationen können beim Betrachten<br />
von Zeitreihen auftreten. E<strong>in</strong>ige sollen an dieser Stelle explizit aufgeführt<br />
werden:<br />
• Die Werte e<strong>in</strong>er Zeitreihe lassen sich für gewöhnlich ke<strong>in</strong>er so klaren<br />
Systematik zuführen wie es im Beispiel 1.1 der Fall war. Meistens s<strong>in</strong>d<br />
sie „verrauscht“. Daher wird es <strong>in</strong> der Regel notwendig se<strong>in</strong>, e<strong>in</strong>e weitere<br />
Variable <strong>in</strong> die Funktionsvorschrift aufzunehmen, die diese Abweichungen<br />
kompensiert, bspw.<br />
y t = φy t−1 + ɛ t .<br />
Der Parameter φ war <strong>in</strong> Beispiel 1.1 mit φ = 1 gewählt worden, er kann<br />
2<br />
jedoch auch andere Werte annehmen. Die zweite Variable ɛ t wird <strong>in</strong> der<br />
Regel als zufallsabhängig angenommen, mit e<strong>in</strong>er an dieser Stelle nicht<br />
näher spezifizierten Verteilung. Daher auch der Begriff „verrauscht“, weil<br />
man annimmt, dass ɛ t den irregulären <strong>und</strong> nicht vorhersagbaren Anteil<br />
des Zusammenhangs darstellt.<br />
• Die Präsenz e<strong>in</strong>es Zufallse<strong>in</strong>flusses <strong>in</strong> der Funktionsgleichung hat weitreichende<br />
Folgen. Die Werte y t der Zeitreihe s<strong>in</strong>d damit selbst Zufallsvariablen,<br />
die mit Hilfe angemessener statistischer Instrumente wie<br />
Verteilungs- bzw. Dichtefunktionen, Erwartungswerte etc. analysiert<br />
werden müssen.<br />
• Es ist weiterh<strong>in</strong> denkbar, dass der Wert y t nicht ausschließlich systematisch<br />
vom vorangegangenen Wert y t−1 abhängt, sondern vielleicht<br />
ebenfalls noch von y t−2 . Solche Prozesse werden allgeme<strong>in</strong> als autoregressiv<br />
bezeichnet (AR-Prozesse), wobei auch häufig die Form AR(p)-<br />
Prozess zur Charakterisierung verwendet wird. Der Parameter p gibt<br />
dabei die (größte) zeitliche Verzögerung an, mit der vergangene Werte<br />
der Zeitreihe noch auf den gegenwärtigen Wert wirken. Beispiel 1.1<br />
stellt also e<strong>in</strong>en AR(1)-Prozess dar, da der Gegenwartswert y t lediglich<br />
von y t−1 abhängt. Wäre zusätzlich noch e<strong>in</strong>e Abhängigkeit von y t−2 zu<br />
berücksichtigen gewesen, würde es sich um e<strong>in</strong>en AR(2)-Prozess handeln.<br />
• Die Zeitreihe könnte für t → ∞ divergieren. E<strong>in</strong>e solche Nicht-<br />
Stationarität hat schwerwiegendere Folgen als man zunächst vermuten<br />
3
KAPITEL 1. ZEITREIHEN IM ALLGEMEINEN<br />
könnte. Da es sich im Allgeme<strong>in</strong>en bei den Werten y t der Zeitreihe um<br />
Zufallsvariablen handelt würde hier der Erwartungswert für t → ∞ divergieren.<br />
In der Statistik beruhen aber außerordentlich viele wichtige<br />
Schätzfunktionen <strong>und</strong> Teststatistiken auf der Bed<strong>in</strong>gung E|X| < ∞, also<br />
darauf, dass der Erwartungswert e<strong>in</strong>er Zufallsvariable X eben nicht<br />
divergiert.<br />
Diese Probleme zu meistern oder Bed<strong>in</strong>gungen anzugeben, unter denen solche<br />
Komplikationen behandelbar s<strong>in</strong>d, ist die größte Herausforderung <strong>in</strong> der<br />
<strong>Zeitreihenanalyse</strong>.<br />
4
2<br />
AR-Prozesse <strong>und</strong> Elementares<br />
Wir haben bereits <strong>in</strong> Beispiel 1.1 e<strong>in</strong>e e<strong>in</strong>fache Manifestation des AR(1)-<br />
Prozesses kennengelernt. Wir werden nun e<strong>in</strong>ige Eigenschaften dieser Prozessklasse<br />
zusammentragen <strong>und</strong> dabei auf allgeme<strong>in</strong>ere Eigenschaften schließen.<br />
Das notwendige mathematische Instrumentarium wird dabei an den entsprechenden<br />
Stellen <strong>in</strong> Form e<strong>in</strong>es kurzen Repetitoriums (Kochkurs) e<strong>in</strong>geschoben.<br />
2.1 Der AR(1)-Prozess<br />
In se<strong>in</strong>er allgeme<strong>in</strong>en Form wird der AR(1)-Prozess als<br />
y t = φy t−1 + ɛ t (2.1)<br />
notiert. Der Parameter φ stellt dabei den AR-Parameter dar, der angibt, wie<br />
stark der vergangene Wert y t−1 bei der Berechnung des gegenwärtigen Wertes<br />
y t berücksichtigt wird. φ besitzt deshalb den Charakter e<strong>in</strong>es Gewichts. Die<br />
Zufallsvariable ɛ t sei normalverteilt mit Erwartungswert 0 <strong>und</strong> Varianz σ 2 .<br />
E<strong>in</strong>schub: Normalverteilung<br />
E<strong>in</strong>e stetige Zufallsvariable X ist normalverteilt mit E[X] = µ<br />
<strong>und</strong> Var [X] = σ 2 , wenn ihre Wahrsche<strong>in</strong>lichkeitsdichte die Form<br />
p(x) =<br />
1<br />
√ 1 2( x−µ<br />
2πσ<br />
2 e− σ ) 2<br />
besitzt. Die Normalverteilung ist <strong>in</strong> der Statistik so wichtig, weil<br />
e<strong>in</strong>e große Summe von unabhängigen Zufallsvariablen durch e<strong>in</strong>e<br />
entsprechende Normalverteilung approximiert werden kann (zentraler<br />
Grenzwertsatz).<br />
Der Fehlerterm ɛ t <strong>in</strong> (2.1) wird mit Erwartungswert 0 spezifiziert, da jeder<br />
5
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
andere Wert ja e<strong>in</strong>en systematischen E<strong>in</strong>fluss auf y t hätte, der Zufallsfehler<br />
aber gerade die nichtsystematischen E<strong>in</strong>flüsse repräsentiert. Die Normalverteilungsannahme<br />
ist deswegen plausibel, weil man davon ausgeht, dass unter<br />
ɛ t e<strong>in</strong>e nahezu unbegrenzte Anzahl von vone<strong>in</strong>ander unabhängigen E<strong>in</strong>flüssen<br />
subsummiert wird, die <strong>in</strong> Konsequenz des zentralen Grenzwertsatzes durch<br />
e<strong>in</strong>e Normalverteilung approximiert werden können. Nichtsdestotrotz können<br />
auch andere Verteilungen spezifiziert werden!<br />
2.1.1 Zentrierter AR(1)-Prozess<br />
Es ist <strong>in</strong> wirtschaftswissenschaftlichen Anwendungen gelegentlich auch erforderlich<br />
die Abweichungen von bestimmten Werten über die Zeit zu untersuchen.<br />
Beispielsweise die Abweichung der Arbeitslosigkeit von der natürlichen<br />
Arbeitslosenquote oder ähnliches. In diesem Fall kann der AR(1)-Prozess<br />
(2.1) mit der Substitution y t = x t − µ betrachtet werden<br />
x t − µ = φ(x t−1 − µ) + ɛ t . (2.2)<br />
µ repräsentiert dabei den <strong>in</strong>teressierenden (langfristigen) Gleichgewichtszustand.<br />
Nach Ausmultiplizieren von (2.2) <strong>und</strong> Umstellen erhält man<br />
x t = (1 − φ)µ + φx t−1 + ɛ t , (2.3)<br />
was <strong>in</strong>sofern erstaunlich ist, als dass x t offenbar als gewichtetes Mittel aus<br />
dem Gleichgewichtswert <strong>und</strong> dem vergangenen Wert gebildet wird, falls<br />
0 < φ < 1 gilt <strong>und</strong> die Zufallse<strong>in</strong>flüsse e<strong>in</strong>mal vernachlässigt werden.<br />
Die Verwendung des Buchstabens µ für den langfristigen Gleichgewichtswert<br />
an dieser Stelle ist natürlich suggestiv, da µ für gewöhnlich für den<br />
Erwartungswert verwendet wird. Wir werden im nächsten Abschnitt sehen,<br />
was es damit auf sich hat.<br />
2.1.2 Stationarität des AR(1)-Prozesses<br />
Wir leiten nun die Bed<strong>in</strong>gung ab, unter der der AR(1)-Prozess stationär<br />
ist. Wir haben <strong>in</strong> (1.3) e<strong>in</strong>e explizite Formel für y t hergeleitet, die jedoch<br />
nicht ohne weiteres auf den AR(1)-Prozess (2.1) zu übertragen ist, da hier<br />
e<strong>in</strong> Zufallse<strong>in</strong>fluss <strong>in</strong>volviert ist. Es könnten aber ganz ähnliche Formeln<br />
zum Tragen kommen, die sich nicht auf y t selbst beziehen, sondern auf die<br />
Momente der Verteilung von y t .<br />
6
2.1. DER AR(1)-PROZESS<br />
E<strong>in</strong>schub: Momente<br />
Mit Momenten werden wichtige Kenngrößen e<strong>in</strong>er Wahrsche<strong>in</strong>lichkeitsverteilung<br />
bezeichnet. Das erste Moment ist der<br />
Erwartungswert, der sich für e<strong>in</strong>e stetige Zufallsvariable X<br />
aus<br />
∫<br />
µ = xp(x)dx<br />
berechnet, wobei p(x) die Wahrsche<strong>in</strong>lichkeitsdichtefunktion<br />
darstellt. Höhere Momente werden <strong>in</strong> Form von Abweichungen<br />
vom Erwartungswert angegeben (zentrale Momente)<br />
∫<br />
m k = (x − µ) k p(x)dx.<br />
Das zweite zentrale Moment entspricht damit gerade der Varianz,<br />
m 2 = σ 2 . Wir werden später sehen, dass auch höhere<br />
Momente bei der Analyse von Zeitreihen e<strong>in</strong>e Rolle spielen<br />
können.<br />
Wir betrachten den AR(1)-Prozess y t = φy t−1 + ɛ t bzw. den zentrierten Prozess<br />
y t = x t − µ. Der Zufallsfehler sei normalverteilt mit ɛ t ∼ N(0, σ 2 ) <strong>und</strong><br />
der Anfangswert y 0 sei bekannt. Für den Erwartungswert des (zentrierten)<br />
AR(1)-Prozesses erhalten wir<br />
E[y t ] = φE[y t−1 ] bzw. E[x t ] − µ = φ ( E[x t−1 ] − µ ) . (2.4)<br />
Der Erwartungswert des Fehlerterms ɛ t ist gerade null, daher taucht er nicht<br />
mehr <strong>in</strong> der Erwartungswertgleichung (2.4) auf. Der Gleichgewichtswert µ ist<br />
e<strong>in</strong>e determ<strong>in</strong>istische Größe, daher gilt E[µ] = µ. Es kann nun dasselbe Rekursionspr<strong>in</strong>zip<br />
wie <strong>in</strong> (1.2) auf Seite 2 angewendet werden, um e<strong>in</strong>e explizite<br />
Darstellung für den Erwartungswert von y t abzuleiten. Man erhält so<br />
E[y t ] = φ t E[y 0 ] = φ t y 0 (2.5)<br />
bzw. e<strong>in</strong>en analogen Ausdruck für den zentrierten Prozess y t = x t − µ. Berechnet<br />
man weiterh<strong>in</strong> den Grenzwert für großes t,<br />
lim E[y t] = lim φ t y 0 , (2.6)<br />
t→∞ t→∞<br />
erkennt man sofort, dass der Erwartungswert nur dann gegen null strebt,<br />
wenn die Bed<strong>in</strong>gung |φ| < 1 erfüllt ist. Für |φ| > 1 divergiert der Prozess,<br />
woraus hervorgeht, dass ke<strong>in</strong> stationärer Erwartungswert existiert. Der Fall<br />
7
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
|φ| = 1 ist e<strong>in</strong> Spezialfall, da der stationäre Erwartungswert hier der Anfangsbed<strong>in</strong>gung<br />
entspricht. Diesen Fall bezeichnet man als E<strong>in</strong>heitswurzel.<br />
Dieser Begriff wird später klarer, wenn wir das AR(2)-Modell betrachten. Im<br />
Fall e<strong>in</strong>er E<strong>in</strong>heitswurzel liegt dennoch ke<strong>in</strong> stationärer Prozess vor, da die<br />
Varianz divergiert, wie wir im Anschluss zeigen werden. Bis hierher haben wir<br />
den stationären Erwartungswert ermittelt, der unter der Bed<strong>in</strong>gung |φ| < 1<br />
existiert<br />
E[y st. ] = 0 bzw. E[x st. ] = µ für |φ| < 1. (2.7)<br />
Für die Varianz des AR(1)-Prozesses gilt die rekursive Formel<br />
Var[y t ] = Var[φy t−1 + ɛ t ] = φ 2 Var[y t−1 ] + σ 2 . (2.8)<br />
Dieses Ergebnis mag nicht unmittelbar e<strong>in</strong>leuchten, daher hier e<strong>in</strong> kurzer<br />
E<strong>in</strong>schub zu den Rechenregeln von Varianzen.<br />
E<strong>in</strong>schub: Varianzen<br />
Seien X <strong>und</strong> Y zwei unabhängige Zufallsvariablen <strong>und</strong><br />
c e<strong>in</strong>e beliebige Konstante, dann gilt<br />
1. Var[c] = 0<br />
2. Var[cX] = c 2 Var[X]<br />
3. Var[X + Y ] = Var[X − Y ] = Var[X] + Var[Y ].<br />
Voraussetzung für die Gültigkeit der letzten Eigenschaft<br />
ist die Unabhängigkeit der Zufallsvariablen.<br />
ɛ t ist von φy t−1 unabhängig, da der zum Zeitpunkt t − 1 manifestierte<br />
Wert der Zeitreihe ke<strong>in</strong>en E<strong>in</strong>fluss auf die Realisierung der Zufallsvariable<br />
ɛ t zum Zeitpunkt t hat. Daher zerfällt die geme<strong>in</strong>same Varianz <strong>in</strong> (2.8) <strong>in</strong><br />
die Summe der E<strong>in</strong>zelvarianzen. φ ist e<strong>in</strong>e Konstante <strong>und</strong> rückt deshalb<br />
quadratisch vor die Varianz von y t−1 . Die Varianz von ɛ t ist bereits bekannt<br />
<strong>und</strong> für jeden Zeitpunkt gleich, Var[ɛ t ] = σ 2 .<br />
Der nächste Schritt ist nun wieder e<strong>in</strong>e explizite Vorschrift für Var[y t ]<br />
abzuleiten <strong>und</strong> dann den Grenzwert für t → ∞ zu betrachten. Diese<br />
Iteration gestaltet sich ger<strong>in</strong>gfügig sperriger als die des Erwartungswertes,<br />
daher kommt an dieser Stelle zunächst e<strong>in</strong>e kurze Auffrischung zum Summenoperator<br />
<strong>und</strong> der geometrischen Reihe.<br />
8
2.1. DER AR(1)-PROZESS<br />
E<strong>in</strong>schub: Summenzeichen <strong>und</strong> geometrische Reihe<br />
Das Summenzeichen ist e<strong>in</strong>e bequeme Art lange Additionsketten<br />
zu schreiben<br />
n∑<br />
x k = x 1 + x 2 + x 3 + . . . + x n−1 + x n .<br />
k=1<br />
Der Index unter <strong>und</strong> über dem Operator gibt dabei die „Laufgrenzen“<br />
der Summation an. Im Weiteren werden wir e<strong>in</strong> Polynom<br />
betrachten, das durch folgende Summe gebildet wird<br />
n∑<br />
x k = 1 + x + x 2 + . . . + x n−1 + x n .<br />
k=0<br />
Diese Summe wird als geometrische Reihe bezeichnet <strong>und</strong> ist<br />
e<strong>in</strong> wichtiges Instrument <strong>in</strong> der <strong>Zeitreihenanalyse</strong>. Die geometrische<br />
Reihe besitzt folgende nützliche Eigenschaft<br />
∞∑<br />
k=0<br />
x k = 1<br />
1 − x<br />
für |x| < 1,<br />
die wir uns im Folgenden zu Nutze machen. Man beachte,<br />
dass die Summe unendlich viele Glieder besitzt.<br />
Wir beg<strong>in</strong>nen nun (2.8) vorwärts zu iterieren<br />
Var[y 1 ] = φ 2 Var[y 0 ] + σ 2 = σ 2<br />
Var[y 2 ] = φ 2 Var[y 1 ] + σ 2 = φ 2 σ 2 + σ 2 = σ 2 (1 + φ 2 )<br />
Var[y 3 ] = φ 2 Var[y 2 ] + σ 2 = φ 4 σ 2 + φ 2 σ 2 + σ 2 = σ 2 (1 + φ 2 + φ 4 ).<br />
(2.9)<br />
Man erkennt schnell, dass sich bei entsprechendem Umstellen der Terme <strong>in</strong><br />
(2.9) e<strong>in</strong>e geometrische Reihe bezüglich φ 2 bildet. Daher lässt sich die Varianz<br />
für e<strong>in</strong> beliebiges Glied der Zeitreihe <strong>in</strong> der kompakten Form<br />
∑t−1<br />
(<br />
Var[y t ] = σ ) 2 φ<br />
2 k<br />
k=0<br />
(2.10)<br />
angeben. Hier zeigt sich wieder die Effizienz des Summenzeichens bei der<br />
Notation langer Additionsketten. Wer mit dem Handl<strong>in</strong>g noch nicht vertraut<br />
ist kann im Rahmen der <strong>Aufgaben</strong> am Ende dieses Abschnittes e<strong>in</strong> wenig<br />
Erfahrung sammeln.<br />
9
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Die Frage nach der stationären Varianz steht noch im Raum. Dazu bilden<br />
wir wieder den Grenzwert für t → ∞ <strong>und</strong> verwenden die entsprechende<br />
Eigenschaft der geometrischen Reihe<br />
∑t−1<br />
(<br />
Var[y st. ] = lim σ ) 2 φ<br />
2 k σ 2<br />
= für φ 2 < 1. (2.11)<br />
t→∞ 1 − φ 2<br />
k=0<br />
Die Bed<strong>in</strong>gung φ 2 < 1 für die Konvergenz der geometrischen Reihe entspricht<br />
genau der Bed<strong>in</strong>gung |φ| < 1, die wir bereits im Rahmen der stationären Erwartungswertgleichung<br />
(2.7) bestimmen konnten. Es ist jetzt ebenfalls klar,<br />
dass im Fall der E<strong>in</strong>heitswurzel mit φ = 1 die Varianz divergiert. Wir erhalten<br />
lim Var[y ∑t−1<br />
t] = lim σ 2 1 k = lim σ 2<br />
t→∞ t→∞ t→∞<br />
k=0<br />
t∑<br />
k=1<br />
1 = lim<br />
t→∞<br />
σ 2 t = ∞. (2.12)<br />
Wir halten zusammenfassend fest, dass die beiden stationären Momente,<br />
(2.7) <strong>und</strong> (2.11) nicht mehr vom Index t abhängen <strong>und</strong> konstant s<strong>in</strong>d. Damit<br />
gelangen wir unmittelbar zur Def<strong>in</strong>ition der schwachen Stationarität:<br />
Unter schwacher Stationarität versteht man die Zeit<strong>in</strong>varianz der<br />
ersten beiden Momente e<strong>in</strong>es Prozesses.<br />
Im Fall der Normalverteilung ist diese Def<strong>in</strong>ition besonders vorteilhaft, da<br />
e<strong>in</strong>e beliebige Normalverteilung durch ihre ersten beiden Momente vollständig<br />
spezifiziert ist. Für andere Verteilungen wie beispielsweise die Student-t-<br />
Verteilung oder die χ 2 -Verteilung gilt das nicht. Im Fall e<strong>in</strong>er solchen Verteilung<br />
käme e<strong>in</strong>e Def<strong>in</strong>ition der Stationarität im strengen S<strong>in</strong>n zum Tragen:<br />
Unter Stationarität (im strengen S<strong>in</strong>n) versteht man die Zeit<strong>in</strong>varianz<br />
der gesamten Verteilung e<strong>in</strong>es Prozesses.<br />
Würde man beispielsweise den zentrierten AR(1)-Prozess (2.3) mit |φ| < 1<br />
<strong>und</strong> der zufälligen Anfangsbed<strong>in</strong>gung x 0 ∼ N ( )<br />
σ<br />
µ, 2<br />
1−φ starten, wäre der resultierende<br />
Prozess augenblicklich stationär <strong>und</strong> zwar im strengen S<strong>in</strong>n, da<br />
2<br />
die Fehlerterme normalverteilt s<strong>in</strong>d <strong>und</strong> die ersten beiden Momente für jedes<br />
weitere Glied x t mit t = 1, . . . , ∞ unverändert bleiben, wie durch E<strong>in</strong>setzen<br />
<strong>in</strong> (2.4) <strong>und</strong> (2.8) leicht zu zeigen ist.<br />
10
2.1. DER AR(1)-PROZESS<br />
Aufgabe 2.1<br />
Berechnen Sie die folgenden Summen:<br />
a)<br />
e)<br />
5∑<br />
k, b)<br />
k=1<br />
3∑<br />
i=1<br />
3∑ 1<br />
4∑<br />
2k , c) 2 k , d)<br />
k=1<br />
i∑<br />
i · j, f)<br />
j=0<br />
k=0<br />
∞∑<br />
( ) k 3<br />
, g)<br />
4<br />
k=0<br />
∞∑<br />
k=1<br />
2∑<br />
i=1<br />
1<br />
2 k<br />
3∑<br />
(i + j) 2<br />
j=1<br />
Aufgabe 2.2<br />
Schreiben Sie die folgenden Terme mit dem Summenoperator:<br />
a) 2 + 4 + 6 + . . . + 16<br />
b) − 1 + 1 2 − 1 3 + 1 4 − 1 5 + 1 6<br />
c) 0 + 1 2 + 2 3 + 3 4 + . . . + 45<br />
46<br />
d) 1 + 4 + 27 + 256<br />
2<br />
e)<br />
1 − 1 2<br />
Anmerkung: Es gibt unter Umständen mehrere Möglichkeiten<br />
die Summen zu notieren. In der <strong>Aufgaben</strong>lösung wird lediglich<br />
der kompakteste Ansatz wiedergegeben.<br />
2.1.3 Wissenswertes über den AR(1)-Prozess<br />
Der AR(1)-Prozess (2.1) nimmt e<strong>in</strong>e gewisse Sonderstellung bei der Betrachtung<br />
dynamischer Systeme e<strong>in</strong>. Er ist e<strong>in</strong> kausaler Prozess, was bedeutet,<br />
dass die Wirkung (l<strong>in</strong>ke Seite der Gleichung) nach der Ursache (rechte<br />
Seite der Gleichung) e<strong>in</strong>tritt. Es gibt auch simultane, respektive akausale<br />
Modelle, wo beispielsweise auf beiden Seiten der Gleichung y t steht oder<br />
der Gegenwartswert von zukünftigen Werten abhängt. Wir werden mit der<br />
Wold-Zerlegung e<strong>in</strong>e noch allgeme<strong>in</strong>ere Bed<strong>in</strong>gung für die Kausalität e<strong>in</strong>es<br />
Prozesses kennenlernen.<br />
Im H<strong>in</strong>blick auf die Prognose im AR(1)-Modell lässt sich sagen, dass<br />
der nächste vorherzusagende Wert y t+1 lediglich vom Gegenwartswert y t<br />
abhängt. Die Kenntnis der Vergangenheit y t−1 , . . . , y 0 ist zur Erstellung<br />
11
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
der Prognose nicht erforderlich, sie erklärt nur den Weg, den der Prozess<br />
bis zur Gegenwart genommen hat. Da wir den Gegenwartswert y t aber<br />
kennen, liefert uns die Vergangenheit ke<strong>in</strong>e zusätzlichen Erkenntnisse mehr<br />
bezüglich der Zukunft. Prozesse, die ihre gesamte Vergangenheit sozusagen<br />
im Gegenwartswert speichern, bezeichnet man als Markov-Prozesse.<br />
Markov-Prozesse s<strong>in</strong>d <strong>in</strong> vielen Wissenschaftsgebieten von Interesse, da mit<br />
ihnen e<strong>in</strong>e außerordentlich große Zahl natürlich auftretender Phänomene<br />
abgebildet werden kann.<br />
Weiterh<strong>in</strong> können AR-Prozesse höherer Ordnung immer <strong>in</strong> e<strong>in</strong> System<br />
von gekoppelten AR(1)-Prozessen überführt werden. Diese gekoppelten<br />
Prozesse werden meistens <strong>in</strong> Vektorform zusammengefasst <strong>und</strong> man spricht<br />
dann von e<strong>in</strong>em VAR-Prozess (Vector Auto Regressive). Wir werden später<br />
sehen, wie sich das AR(2)-Modell <strong>in</strong> e<strong>in</strong> VAR-Modell der Dimension d = 2<br />
umschreiben lässt.<br />
Der Spezialfall der E<strong>in</strong>heitswurzel, |φ| = 1 wird als Random Walk oder<br />
als e<strong>in</strong>fache Irrfahrt bezeichnet. Gelegentlich begegnet man auch der etwas<br />
unterhaltsameren Metapher des Weges e<strong>in</strong>es Betrunkenen. Die Struktur<br />
y t = y t−1 + ɛ t zeigt, dass die nächste „Position“ sich aus der letzten, zuzüglich<br />
e<strong>in</strong>es zufälligen „Schrittes“ ergibt. Wobei wie bei e<strong>in</strong>em Betrunkenen nicht<br />
vorherzusagen ist, <strong>in</strong> welche Richtung der nächste Schritt wohl erfolgen wird.<br />
Ferner wird hier natürlich vernachlässigt, dass der Betrunkene stolpern <strong>und</strong><br />
h<strong>in</strong>fallen könnte, was möglicherweise zur Stationarität des Betrunkenen führt<br />
aber nicht des Prozesses. Auch der Random Walk ist e<strong>in</strong> wichtiges dynamisches<br />
Modell <strong>in</strong> vielen Wissenschaftsdiszipl<strong>in</strong>en.<br />
2.2 Autokovarianz <strong>und</strong> Autokorrelation<br />
Wir s<strong>in</strong>d nun soweit genauer zu verstehen, um was für e<strong>in</strong> Objekt es sich bei<br />
e<strong>in</strong>er Zeitreihe eigentlich handelt:<br />
E<strong>in</strong>e Zeitreihe ist e<strong>in</strong>e Manifestation e<strong>in</strong>es darunterliegenden (stochastischen)<br />
Prozesses.<br />
Das bedeutet, e<strong>in</strong> <strong>in</strong> der Regel unbekannter Prozess erzeugt e<strong>in</strong>e Reihe von<br />
Realisierungen <strong>in</strong> der Zeit, die wir beobachten können. Diese Beobachtungsreihe<br />
bezeichnen wir als Zeitreihe. Da wir nicht wissen, welcher Prozess diese<br />
Zeitreihe erzeugt hat, bspw. e<strong>in</strong> AR(1)-Prozess oder e<strong>in</strong> AR(2)-Prozess oder<br />
e<strong>in</strong>e völlig andere Prozessklasse, s<strong>in</strong>d wir darauf angewiesen die H<strong>in</strong>weise, die<br />
<strong>in</strong> der Zeitreihe verborgen s<strong>in</strong>d, sehr genau auszuwerten.<br />
12
2.2. AUTOKOVARIANZ UND AUTOKORRELATION<br />
Die Zeitreihe ähnelt <strong>in</strong> vielerlei H<strong>in</strong>sicht e<strong>in</strong>er beliebigen Zufallsstichprobe,<br />
mit e<strong>in</strong>em entscheidenden Unterschied: Die Realisierungen s<strong>in</strong>d nicht unabhängig<br />
vone<strong>in</strong>ander. Die Abhängigkeit wird sofort klar, wenn wir für den<br />
Moment e<strong>in</strong>mal annehmen, der Prozess, der die Zeitreihe erzeugt hat, sei e<strong>in</strong><br />
AR(1)-Prozess<br />
y t = φy t−1 + ɛ t . (2.13)<br />
Der Wert y t besteht aus der Realisation des Zufallsfehlers zuzüglich des mit<br />
dem AR-Parameter φ gewichteten vorangegangenen Wert y t−1 . Für die Wahl<br />
φ = 0 würde die Zeitreihe <strong>in</strong> der Tat e<strong>in</strong>er unabhängigen Zufallsstichprobe<br />
entsprechen, <strong>in</strong> der Regel gilt aber φ ≠ 0.<br />
Die Abhängigkeit der Zeitreihenwerte wird mit Hilfe ihrer Kovarianz<br />
bzw. ihrer Korrelation charakterisiert. Da es sich gewissermaßen um e<strong>in</strong>e<br />
Korrelation des Merkmals mit sich selbst <strong>in</strong> der Zeit handelt, verwendet<br />
man die Begriffe Autokovarianz bzw. Autokorrelation.<br />
E<strong>in</strong>schub: Kovarianz <strong>und</strong> Korrelation<br />
Seien X <strong>und</strong> Y zwei Zufallsvariablen, die auf nicht näher<br />
spezifizierte Weise vone<strong>in</strong>ander abhängen, dann ergibt<br />
sich die Kovarianz zwischen ihnen aus<br />
Cov[X, Y ] = E [( X − E[X] )( Y − E[Y ] )] .<br />
Für unabhängige Zufallsvariablen ist die Kovarianz null.<br />
Die Varianz e<strong>in</strong>er Zufallsvariablen ist e<strong>in</strong> Spezialfall der<br />
Kovarianz<br />
Cov[X, X] = E [ (X − E[X]) 2] = Var[X].<br />
Bei der Korrelation ρ handelt es sich um e<strong>in</strong>e Normierung<br />
der Kovarianz <strong>in</strong> den Bereich [−1, 1]. Diese Normierung<br />
wird durch folgende Operation bewirkt<br />
ρ[X, Y ] =<br />
Cov[X, Y ]<br />
√<br />
Var[X]<br />
√<br />
Var[Y ]<br />
.<br />
Die quasi Korrelation mit sich selbst br<strong>in</strong>gt e<strong>in</strong>en angenehmen Effekt mit<br />
sich, nämlich dass der Grad der Korrelation im stationären Zustand lediglich<br />
vom zeitlichen Abstand der Werte abhängt, jedoch nicht von der Zeit selbst.<br />
Das heißt nichts anderes, als dass beispielsweise die Autokorrelation ρ[y t , y t−1 ]<br />
gleich der Autokorrelation ρ[y t−1 , y t−2 ] ist usw. Infolge dessen werden Auto-<br />
13
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
korrelationen <strong>und</strong> Autokovarianzen lediglich mit e<strong>in</strong>em Verschiebungs<strong>in</strong>dex<br />
geschrieben, der die Lücke (Lag) zwischen den beiden Werten angibt<br />
γ k = Cov[y t , y t−k ]. (2.14)<br />
Wir können nun die e<strong>in</strong>mal getroffene Konvention (2.14) ausnutzen um die<br />
stationäre Varianz des AR(1)-Prozesses als Autokovarianz mit Lag 0 zu<br />
schreiben<br />
γ 0 = Var[y t ] =<br />
σ2<br />
1 − φ . (2.15)<br />
2<br />
Auch die stationäre Varianz bleibt für alle t gleich, denn das war ja gerade<br />
e<strong>in</strong>es der Kriterien für Stationarität. Da die Varianz aber e<strong>in</strong> Spezialfall der<br />
Kovarianz, nämlich mit Verschiebung (Lag) 0 ist, lässt sich <strong>in</strong>tuitiv verstehen,<br />
warum die Autokovarianz im stationären Zustand nur vom Lag abhängen<br />
darf. In der Tat wird die schwache Stationarität auch als Kovarianzstationarität<br />
bezeichnet <strong>und</strong> es wird im Allgeme<strong>in</strong>en def<strong>in</strong>iert:<br />
E<strong>in</strong> Prozess ist schwach stationär (kovarianzstationär), wenn se<strong>in</strong>e<br />
ersten beiden Momente endlich <strong>und</strong> konstant (<strong>in</strong>variant gegenüber<br />
Zeitverschiebungen) s<strong>in</strong>d <strong>und</strong> die Autokovarianz lediglich von der<br />
Verschiebung aber nicht von der Zeit abhängt.<br />
Dies ist e<strong>in</strong>e Erweiterung gegenüber unserer vorangegangenen Def<strong>in</strong>ition<br />
schwacher Stationarität. Wir kannten jedoch zu diesem Zeitpunkt noch nicht<br />
die Rolle der Autokovarianz. Ferner ist es nicht nötig bezüglich der Autokovarianz<br />
den zentrierten Prozess y t = x t − µ gesondert zu betrachten, da<br />
gilt.<br />
Cov[x t , x t−k ] = E [ (x t − µ)(x t−k − µ) ] = E[y t y t−k ] = Cov[y t , y t−k ] (2.16)<br />
2.2.1 Autokovarianz<br />
Wir werden nun die Autokovarianz für den AR(1)-Prozess ausrechnen. Wir<br />
beg<strong>in</strong>nen naheliegenderweise mit dem Lag 1. Man sollte dabei im H<strong>in</strong>terkopf<br />
behalten, dass der AR(1)-Prozess (2.13) den stationären Erwartungswert<br />
E[y t ] = 0 <strong>und</strong> die stationäre Varianz Var[y t ] = γ 0 für alle t besitzt.<br />
14<br />
γ 1 = Cov[y t , y t−1 ] = E[y t y t−1 ]<br />
= E [ ]<br />
(φy t−1 + ɛ t )y t−1 = E[φy<br />
2<br />
t−1 ] + E[ɛ t y t−1 ]<br />
(2.17)<br />
= φVar[y t−1 ] + Cov[ɛ t , y t−1 ]<br />
= φγ 0
2.2. AUTOKOVARIANZ UND AUTOKORRELATION<br />
Es wurde <strong>in</strong> der Herleitung (2.17) wieder das frühere Ergebnis benutzt, dass<br />
der Zufallsfehler ɛ t nicht vom Vergangenheitswert y t−1 abhängt. Folglich ist<br />
deren Kovarianz null.<br />
Als nächstes soll nun die Autokovarianz mit Lag 2 berechnet werden. Wir<br />
modifizieren dafür den Ansatz (2.17) zu<br />
γ 2 = Cov[y t , y t−2 ] = E[y t y t−2 ]<br />
= E [ (φy t−1 + ɛ t )y t−2<br />
]<br />
= E[φyt−1 y t−2 ] + E[ɛ t y t−2 ]<br />
= φCov[y t−1 , y t−2 ] + Cov[ɛ t , y t−2 ]<br />
= φγ 1 = φ 2 γ 0 .<br />
(2.18)<br />
Wir haben hier wieder ausgenutzt, dass der Fehlerterm ɛ t von vergangenen<br />
Zeitreihenwerten unabhängig ist.<br />
Aufgabe 2.3<br />
Berechnen Sie die Autokovarianz mit Lag 3.<br />
Wir erhalten offensichtlich e<strong>in</strong>e AR-Repräsentation der Autokovarianz mit<br />
beliebigem Lag k<br />
γ k = φγ k−1 . (2.19)<br />
Diese Repräsentation (2.19) wird Yule-Walker-Gleichung genannt. Sie stellt<br />
die Verb<strong>in</strong>dung zwischen Autokovarianz bzw. Autokorrelation (wie wir noch<br />
sehen werden) <strong>und</strong> dem AR-Prozess her. Die Yule-Walker-Gleichung lässt<br />
sich <strong>in</strong> zwei Schritten aus der Funktionsvorschrift des AR-Prozesses gew<strong>in</strong>nen.<br />
Im ersten Schritt werden alle Terme mit verzögerten Werten mit dem<br />
entsprechenden Lag multipliziert <strong>und</strong> im zweiten Schritt wird der Erwartungswert<br />
gebildet. (2.19) lässt sich somit e<strong>in</strong>fach aus (2.13) herleiten<br />
y t = φy t−1 + ɛ t<br />
∣ ∣ · yt−k<br />
⇒ y t y t−k = φy t−1 y t−k + ɛ t y t−k<br />
∣ ∣E[. . .]<br />
⇒ E[y t y t−k ] = φE[y t−1 y t−k ] + E[ɛ t y t−k ]<br />
⇒ γ k = φγ k−1 .<br />
(2.20)<br />
2.2.2 Autokorrelation<br />
Die Autokorrelation ist das eigentlich wichtigere Maß der Abhängigkeit der<br />
Zeitreihenwerte, da sie auf das Intervall [−1, 1] normiert ist. Die Autokorrelation<br />
berechnet sich recht e<strong>in</strong>fach für beliebiges Lag k<br />
ρ k =<br />
Cov[y t , y t−k ]<br />
√<br />
Var[yt ] √ Var[y t−k ] =<br />
γ k<br />
√<br />
γ0<br />
√<br />
γ0<br />
= γ k<br />
γ 0<br />
. (2.21)<br />
15
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Abbildung 2.1: Autokorrelationsfunktion mit φ = 0.75 (l<strong>in</strong>ks) <strong>und</strong> φ = −0.8<br />
(rechts)<br />
Formel (2.21) birgt mehr Information, als man auf Anhieb vermuten könnte.<br />
Setzen wir beispielsweise k = 0, so ergibt sich die e<strong>in</strong>fache Korrelation<br />
ρ 0 = 1. Nutzen wir die Yule-Walker-Gleichung (2.19) resp. (2.20) für die<br />
Autokovarianz aus, erhalten wir<br />
ρ k = γ k<br />
γ 0<br />
= φγ k−1<br />
γ 0<br />
= φρ k−1 . (2.22)<br />
Offensichtlich gilt die Yule-Walker-Gleichung auch für die Autokorrelation.<br />
Vielmehrnoch kann die Autokorrelation mit Lag k sehr bequem explizit geschrieben<br />
werden<br />
ρ k = φ k ρ 0 = φ k , (2.23)<br />
da ja die Korrelation mit Lag 0 genau e<strong>in</strong>s ist. Man sieht <strong>in</strong> (2.23) sehr<br />
schön, dass die Autokorrelation exponentiell abfällt, wenn die Verschiebung<br />
k größer wird. Alle bis hierher gemachten Aussagen gelten natürlich nur für<br />
stationäre Prozesse, was im Fall des AR(1)-Prozesses bedeutet |φ| < 1.<br />
Abbildung 2.1 zeigt die Autokorrelationsfunktion (ACF) für verschiedene<br />
Werte des AR-Parameters. Für φ = 0.75 ergibt sich e<strong>in</strong> schöner exponentieller<br />
Abfall der Autokorrelation. Bei negativem AR-Parameter, φ = −0.8,<br />
kl<strong>in</strong>gt die Autokorrelation ebenfalls exponentiell ab, jedoch mit alternierenden<br />
Werten. Dennoch kann ebenfalls beobachtet werden, dass die ACF für<br />
große Lags k gegen null strebt.<br />
2.2.3 Partielle Autokorrelation<br />
Die Herleitung der partiellen Autokorrelation ist formal kompliziert 1 , <strong>in</strong>teressierte<br />
Leser seien deshalb an dieser Stelle auf Spezialliteratur verwiesen<br />
1 Insbesondere wird dabei die Symmetrieeigenschaft der Autokorrelation ρ k = ρ −k ausgenutzt.<br />
16
2.2. AUTOKOVARIANZ UND AUTOKORRELATION<br />
(siehe Hauptskript). Stattdessen soll zunächst die zugr<strong>und</strong>eliegende Idee<br />
erläutert werden.<br />
Abbildung 2.1 zeigt das Autokorrelogramm für e<strong>in</strong>en AR(1)-Prozess.<br />
Wir wissen <strong>in</strong>zwischen, dass y t im AR(1)-Prozess eigentlich nur systematisch<br />
von y t−1 abhängt, die Autokorrelation kl<strong>in</strong>gt jedoch nur langsam<br />
ab, weil der E<strong>in</strong>fluss früherer Werte noch wie e<strong>in</strong> „Echo“ präsent ist. In<br />
AR-Modellen höherer Ordnung treten zusätzlich noch „Interferenzen“ mit<br />
Zwischenwerten h<strong>in</strong>zu. Wir wissen beispielsweise, dass e<strong>in</strong> AR(2)-Prozess<br />
die Form y t = φ 1 y t−1 + φ 2 y t−2 + ɛ t hat. Wie ermittelt man nun den isolierten<br />
(partiellen) E<strong>in</strong>fluss der Variable mit Lag 2, ohne die Überlagerung die von<br />
y t−1 erzeugt wird?<br />
Dieses Problem wird vere<strong>in</strong>facht gesprochen durch das Verschieben der<br />
Autokorrelationen gegene<strong>in</strong>ander gelöst. Dabei werden quasi Überlagerungen<br />
<strong>und</strong> Echos herausgerechnet. Diese Verschiebung wird durch das Lösen des<br />
l<strong>in</strong>earen Gleichungssystems<br />
⎛<br />
⎞ ⎛ ⎞ ⎛ ⎞<br />
ρ 0 ρ 1 ρ 2 · · · ρ k−1 φ k1 ρ 1<br />
ρ 1 ρ 0 ρ 1 · · · ρ k−2<br />
φ k2<br />
⎜<br />
⎝<br />
.<br />
. . .. . ..<br />
⎟ ⎜ ⎟<br />
. ⎠ ⎝ . ⎠ = ρ 2<br />
⎜ ⎟ (2.24)<br />
⎝ . ⎠<br />
ρ k−1 ρ k−2 · · · ρ 1 ρ 0 φ kk ρ k<br />
bewirkt. Zunächst gilt natürlich ρ 0 = 1, daher besteht die Hauptdiagonale<br />
der Matrix <strong>in</strong> (2.24) aus E<strong>in</strong>sen. φ k1 , φ k2 usw. s<strong>in</strong>d die partiellen Autokorrelationen.<br />
Der erste Index k gibt hier die Gesamtzahl der berücksichtigten<br />
Zwischenkorrelationen an. Wir sehen beispielsweise <strong>in</strong> Abbildung 2.1, dass<br />
die Autokorrelation irgendwann für große Lags gegen null geht, daher ist<br />
anzunehmen, dass k <strong>in</strong> übersichtlichen Größenordnungen bleibt. Der zweite<br />
Index gibt dann die Partielle Autokorrelation mit der entsprechenden Verschiebung,<br />
bere<strong>in</strong>igt um die E<strong>in</strong>flüsse von <strong>in</strong>sgesamt k Lags. Zunächst aber<br />
e<strong>in</strong>e kle<strong>in</strong>e Auffrischung zur Matrixnotation!<br />
17
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
E<strong>in</strong>schub: Matrizen <strong>und</strong> Vektoren<br />
Matrizen <strong>und</strong> Vektoren s<strong>in</strong>d e<strong>in</strong>e bequeme Art l<strong>in</strong>eare Gleichungssysteme<br />
zu schreiben. Beispielsweise das System<br />
a 11 x 1 + a 12 x 2 = b 1<br />
a 21 x 1 + a 22 x 2 = b 2<br />
kann <strong>in</strong> Matrixform als<br />
( ) ( ) ( )<br />
a11 a 12 x1 b1<br />
=<br />
a 21 a 22 x 2 b 2<br />
geschrieben werden. Matrizen <strong>und</strong> Vektoren werden oft mit<br />
fettgedruckten Buchstaben oder Symbolen abgekürzt, wodurch<br />
die obige Matrixgleichung <strong>in</strong> der kompakten Form<br />
Ax = b notiert werden kann. Die Rechenregeln für das Produkt<br />
der Matrix A mit dem Vektor x gehen unmittelbar aus<br />
der obigen Darstellung hervor.<br />
Der Vorteil der Matrixdarstellung ist, dass e<strong>in</strong> l<strong>in</strong>eares Gleichungssystem<br />
der Form Ax = b simultan durch e<strong>in</strong>e Operation gelöst werden kann, die als<br />
Matrix<strong>in</strong>version bezeichnet wird. Diese Operation wird zu e<strong>in</strong>em späteren<br />
Zeitpunkt noch genauer beleuchtet. Man erhält dann e<strong>in</strong>e Matrixgleichung<br />
der Form x = A −1 b wodurch die Lösungen des l<strong>in</strong>earen Gleichungssystems<br />
sofort im Vektor x abgelesen werden können.<br />
Wir wollen nun die partiellen Autokorrelationen für den AR(1)-Prozess<br />
bis zum Lag k = 2 berechnen. Mit Hilfe des Gleichungssystems (2.24) erhalten<br />
wir ( ) ( ) ( )<br />
1 ρ1 φ21 ρ1<br />
= . (2.25)<br />
ρ 1 1 φ 22 ρ 2<br />
Um an die partiellen Autokorrelation zu kommen muss nun die (2×2)-Matrix<br />
<strong>in</strong> (2.25) <strong>in</strong>vertiert werden.<br />
18
2.2. AUTOKOVARIANZ UND AUTOKORRELATION<br />
E<strong>in</strong>schub: Determ<strong>in</strong>ante <strong>und</strong> Inverse e<strong>in</strong>er (2×2)-<br />
Matrix<br />
Beim Teilen durch e<strong>in</strong>en Skalar a muss sichergestellt werden,<br />
dass a ≠ 0 gilt, da durch null nicht geteilt werden darf. Bei<br />
Matrizen gilt e<strong>in</strong>e ähnliche Bed<strong>in</strong>gung, hier darf die Determ<strong>in</strong>ante<br />
nicht null werden. Die Determ<strong>in</strong>ante e<strong>in</strong>er (2×2)-Matrix<br />
( )<br />
a11 a<br />
A =<br />
12<br />
a 21 a 22<br />
wird durch die Differenz der Produkte der Diagonalelemente<br />
gegeben<br />
det A = a 11 a 22 − a 12 a 21 .<br />
Die Determ<strong>in</strong>ante ist wieder e<strong>in</strong> Skalar <strong>und</strong> für det A ≠ 0<br />
ergibt sich als Inverse Matrix zu A<br />
A −1 = 1 ( )<br />
a22 −a 12<br />
.<br />
det A −a 21 a 11<br />
Skalare wie 1/ det A werden e<strong>in</strong>fach mit jedem Element e<strong>in</strong>er<br />
Matrix oder e<strong>in</strong>es Vektors multipliziert oder können wie oben<br />
„vor die Matrix“ gezogen werden.<br />
Als Determ<strong>in</strong>ante der Matrix <strong>in</strong> (2.25) erhalten wir 1 − ρ 2 1 <strong>und</strong> damit die<br />
Bed<strong>in</strong>gung |ρ 1 | < 1 für die Existenz e<strong>in</strong>er e<strong>in</strong>deutigen Lösung für das Gleichungssystem<br />
der partiellen Autokorrelationen. Für den AR(1)-Prozess entspricht<br />
das gerade der Stationaritätsbed<strong>in</strong>gung, da ja ρ 1 = φ gilt. Wir erhalten<br />
also im stationären Fall<br />
( )<br />
φ21<br />
= 1 ( ) ( )<br />
1 −ρ1 ρ1<br />
= 1 ( )<br />
ρ1 − ρ 1 ρ 2<br />
φ 22 1 − ρ 2 −ρ<br />
1 1 1 ρ 2 1 − ρ 2 −ρ 2 , (2.26)<br />
1 1 + ρ 2<br />
bzw. e<strong>in</strong>zeln notiert<br />
φ 21 = ρ 1 − ρ 1 ρ 2<br />
1 − ρ 2 1<br />
<strong>und</strong> φ 22 = ρ 2 − ρ 2 1<br />
. (2.27)<br />
1 − ρ 2 1<br />
Setzt man nun die Autokorrelationsvorschrift des AR(1)-Prozesses ρ k = φ k<br />
(Gleichung (2.23) auf Seite 16) <strong>in</strong> (2.27) e<strong>in</strong>, so erhält man<br />
φ 21 = φ − φ3<br />
1 − φ 2 = φ(1 − φ2 )<br />
1 − φ 2 = φ = ρ 1<br />
φ 22 = φ2 − φ 2<br />
1 − φ 2 = 0. (2.28)<br />
19
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Mit anderen Worten, die Partielle Autokorrelation (PACF) mit Lag 1 entspricht<br />
genau der herkömmlichen Autokorrelation (ACF) <strong>und</strong> die Partielle<br />
Autokorrelation mit Lag 2 verschw<strong>in</strong>det. Bei genauerem H<strong>in</strong>sehen ist das<br />
genau das Ergebnis, dass sich mit der Idee der partiellen Autokorrelation<br />
deckt. Da beim AR(1)-Prozess ke<strong>in</strong>e Interferenzen zu erwarten s<strong>in</strong>d (es wird<br />
ja lediglich e<strong>in</strong> verzögerter Wert berücksichtigt), entspricht die PACF gerade<br />
der ACF. Ferner werden die Echos für Lags k > 1 beseitigt. Wir haben<br />
das hier zwar nur für k = 2 gezeigt, es ist jedoch e<strong>in</strong>e wichtige Eigenschaft<br />
der AR(p)-Prozesse, dass die Partielle Autokorrelation für Lags k > p<br />
augenblicklich auf null abfällt.<br />
Aufgabe 2.4<br />
Lösen Sie, falls möglich, das l<strong>in</strong>eare Gleichungssystem<br />
Ax = b mit<br />
( ) ( ( ) ( )<br />
2 2 3 4 1 −2<br />
a) A = , b =<br />
b) A = , b =<br />
1 2 6)<br />
2 3 8<br />
( ) ( ( ) ( 3 2 0 2 3 0<br />
c) A = , b =<br />
d) A = , b =<br />
6 4 2)<br />
6 4 2)<br />
( ) ( )<br />
−1 12 −3<br />
e) A =<br />
, b =<br />
0 −4 −8<br />
2.3 Parameterschätzung<br />
Wir haben bereits gelernt, dass die Zeitreihe lediglich e<strong>in</strong>e Manifestation<br />
von Werten ist, die von e<strong>in</strong>em (meist unbekannten) stochastischen Prozess<br />
generiert werden. Das wirft unmittelbar zwei wichtige Probleme auf: Erstens,<br />
woher weiß man, welcher Prozess die Datenreihe generiert hat <strong>und</strong> zweitens,<br />
wie sehen die Parameter dieses Prozesses aus. Die erste Fragestellung betrifft<br />
die Modellidentifikation, auf die wir später zurückkommen werden, die<br />
zweite betrifft die Parameterschätzung.<br />
E<strong>in</strong>e der angenehmsten Eigenschaften der Stationarität ist, dass die Parameterschätzer<br />
mit denen aus e<strong>in</strong>fachen Stichprobensituationen übere<strong>in</strong>stimmen.<br />
Wir bezeichnen im Folgenden die Schätzer mit e<strong>in</strong>em Dach über dem<br />
Symbol, bspw. ˆµ ist e<strong>in</strong> Schätzer für den Erwartungswert. (y t ) t=1,...,T sei e<strong>in</strong>e<br />
Zeitreihe, die von e<strong>in</strong>em uns bekannten stationären Prozess erzeugt wurde.<br />
20
2.3. PARAMETERSCHÄTZUNG<br />
Dann ergibt sich der Mittelwert- <strong>und</strong> der Varianzschätzer wie gewohnt durch<br />
ˆµ = 1 T<br />
ˆγ 0 = 1 T<br />
T∑<br />
y t (2.29)<br />
t=1<br />
T∑<br />
(y t − ˆµ) 2 . (2.30)<br />
t=1<br />
Die Form von (2.29) <strong>und</strong> (2.30) ist vertraut, dennoch gibt es kle<strong>in</strong>e<br />
Unterschiede zu gewöhnlichen Querschnittsstichproben. Zunächst ist die<br />
Stichprobengröße nicht N sondern T . Weiterh<strong>in</strong> steht im Nenner von (2.30)<br />
nicht T − 1, wie wir es von erwartungstreuen Varianzschätzern kennen. Der<br />
Gr<strong>und</strong> dafür ist, dass Zeitreihen meist sehr lang s<strong>in</strong>d (im Gegensatz zu e<strong>in</strong>fachen<br />
Zufallsstichproben) <strong>und</strong> daher kaum e<strong>in</strong> Unterschied zwischen T −1 <strong>und</strong><br />
(T − 1) −1 besteht. Weiterh<strong>in</strong> wird die Varianz des stochastischen Prozesses<br />
auch nicht mit σ 2 bezeichnet, sondern mit γ 0 . Diese Unterscheidung ist vital,<br />
da wir ja die Varianz des Zufallsfehlers ɛ t bereits mit σ 2 bezeichnet haben.<br />
Die Schätzer für Autokovarianz <strong>und</strong> Autokorrelation ergeben sich auf ähnlich<br />
natürliche Weise aus<br />
ˆγ k = 1 T<br />
T∑<br />
t=k+1<br />
(y t − ˆµ) (y t−k − ˆµ) (2.31)<br />
ˆρ k = ˆγ k<br />
ˆγ 0<br />
. (2.32)<br />
Es gilt zu beachten, dass <strong>in</strong> (2.31) weniger Werte zur Verfügung stehen, da<br />
der Summations<strong>in</strong>dex bei k +1 beg<strong>in</strong>nt. Ist der zugr<strong>und</strong>eliegende Prozess e<strong>in</strong><br />
AR(1)-Prozess, können wir die Tatsache ausnutzen, dass ρ 1 = φ gilt <strong>und</strong> mit<br />
Hilfe der stationären Varianzformel (2.15) auf Seite 14 e<strong>in</strong>en Schätzer für die<br />
Varianz des Fehlerterms konstruieren<br />
ˆσ 2 = ˆγ 0<br />
(<br />
1 − ˆφ2 ) = ˆγ 0<br />
(<br />
1 − ˆρ<br />
2<br />
1<br />
)<br />
. (2.33)<br />
Wir werden im Anschluss e<strong>in</strong> Beispiel betrachten, das verdeutlicht, warum<br />
Stationarität im Zusammenhang mit der Parameterschätzung so wichtig ist.<br />
21
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
2.3.1 Parameterschätzung <strong>und</strong> Stationarität<br />
Beispiel 2.1: Simulierter AR(1)-Prozess<br />
Zur Veranschaulichung wurde e<strong>in</strong> AR(1)-Prozess y t = φy t−1 +<br />
ɛ t simuliert, wobei ɛ t ∼ N(0, 1) angenommen wurde. Der AR-<br />
Parameter wurde auf φ = 0.5 gesetzt. Abbildung 2.2 zeigt<br />
die Zeitreihe (y t ) t=0,...,1000 , die durch den simulierten Prozess<br />
erzeugt wurde. Der selbe Prozess wurde zusätzlich mit e<strong>in</strong>em<br />
determ<strong>in</strong>istischen Trend, ν t =<br />
t , überlagert, was natürlich<br />
100<br />
zur Folge hat, dass die Stationarität nicht mehr gegeben ist,<br />
da der Erwartungswert nun von der Zeit t abhängt <strong>und</strong> nicht<br />
mehr konstant ist. Abbildung 2.3 auf der nächsten Seite zeigt<br />
die resultierende Zeitreihe. Die entsprechenden Parameterschätzer<br />
s<strong>in</strong>d <strong>in</strong> Tabelle 2.1 auf der nächsten Seite zusammengefasst.<br />
Die im stationären Modell ermittelten empirischen Parameterschätzungen<br />
stimmen sehr gut mit den wahren Werten übere<strong>in</strong>, während die Werte im<br />
trendüberlagerten Modell völlig unbrauchbar s<strong>in</strong>d. Die Ursache für diese<br />
Fehlschätzungen ist <strong>in</strong> Abbildung 2.3 auf der nächsten Seite angedeutet.<br />
Die horizontalen L<strong>in</strong>ien geben den geschätzten Mittelwert (durchgezogene<br />
L<strong>in</strong>ie) plus/m<strong>in</strong>us zwei Standardabweichungen (gestrichelte L<strong>in</strong>ien) wider.<br />
Man sieht deutlich, dass der „Trendkanal“ hier vollkommen unberücksichtigt<br />
bleibt. Es wird e<strong>in</strong>fach über das volle Spektrum der Werte gemittelt. Daher<br />
s<strong>in</strong>d die resultierenden Schätzer natürlich nicht brauchbar. Das E<strong>in</strong>rechnen<br />
Abbildung 2.2: Stationäre Zeitreihe<br />
22
2.3. PARAMETERSCHÄTZUNG<br />
Abbildung 2.3: Zeitreihe mit determ<strong>in</strong>istischem Trend<br />
dieses Trends durch y t = x t − ν t würde die richtigen Mittelwerte bzw.<br />
Standardabweichungen ergeben. Diese s<strong>in</strong>d <strong>in</strong> Abbildung 2.3 ebenfalls <strong>in</strong><br />
Form des besagten Trendkanals e<strong>in</strong>gezeichnet.<br />
Wir können nun besser verstehen, warum Stationarität e<strong>in</strong>en so hohen<br />
Stellenwert <strong>in</strong> der <strong>Zeitreihenanalyse</strong> hat. Wir haben ebenfalls bereits e<strong>in</strong>e<br />
Möglichkeit angedeutet Stationarität herzustellen, falls der urpsrüngliche<br />
Prozess nicht stationär ist, nämlich durch Differenzenbildung (wir werden<br />
später auf diese Methode zurückkommen). Weiterh<strong>in</strong> haben wir verstanden,<br />
dass die Zeitreihe nur die sichtbare Manifestation e<strong>in</strong>es Zufallsprozesses<br />
darstellt <strong>und</strong> aus diesem Gr<strong>und</strong> aus den Zeitreihenwerten Schätzungen für<br />
die wahren Parameter des darunterliegenden Prozesses berechnet werden<br />
können.<br />
Damit wird unmittelbar klar, dass selbst wenn e<strong>in</strong> <strong>und</strong> derselbe Prozess<br />
zweimal h<strong>in</strong>tere<strong>in</strong>ander e<strong>in</strong>e Zeitreihe mit identischer Länge erzeugt, die<br />
Parameter Wahrer Wert Stationär Nicht-Stationär<br />
µ 0 −0.08 4.91<br />
γ 0 1.¯3 1.33 9.83<br />
γ 1 0.¯6 0.69 9.16<br />
φ 0.5 0.52 0.93<br />
σ 2 1 0.98 1.29<br />
Tabelle 2.1: Parameterschätzungen im AR(1)-Modell<br />
23
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Parameterschätzer nicht die selben s<strong>in</strong>d, da die Zeitreihen ja Manifestationen<br />
e<strong>in</strong>es Zufallsprozesses s<strong>in</strong>d. Daher s<strong>in</strong>d die Parameterschätzer ebenfalls vom<br />
Zufall abhängig <strong>und</strong> besitzen sogar e<strong>in</strong>e eigene Wahrsche<strong>in</strong>lichkeitsverteilung.<br />
Auf solchen Verteilungen bauen verschiedene statistische Tests,<br />
wie beispielsweise der Jarque-Bera-Test auf. Wir werden Verteilungen von<br />
Schätzern nur am Rande betrachten, es sollte jedoch nicht außer Acht<br />
gelassen werden, dass verschiedene Schätzer, bspw. KQ-Schätzer (Kle<strong>in</strong>ste<br />
Quadrate) oder ML-Schätzer (Maximum Likelihood) unter Umständen<br />
verschiedene asymptotische Eigenschaften besitzen. Damit ist geme<strong>in</strong>t, dass<br />
sich die Verteilungen der Schätzer für T → ∞ unterschiedlich verhalten<br />
können. Man bevorzugt natürlich solche Schätzer, deren Eigenschaften<br />
möglichst angenehm oder möglichst gut an die Analysesituation angepasst<br />
s<strong>in</strong>d. Wir werden im Folgenden zwei zentrale Schätzverfahren kennenlernen,<br />
die <strong>in</strong> der Statistik e<strong>in</strong>e f<strong>und</strong>amentale Rolle spielen.<br />
Aufgabe 2.5<br />
Gegeben sei die (stationäre) Zeitreihe<br />
(y t ) t=1,...,10 = {2, 3, 4, 5, 4, 1, 0, 1, 3, 2}.<br />
Gehen Sie davon aus, dass diese Zeitreihe von e<strong>in</strong>em<br />
AR(1)-Prozess erzeugt wurde, der e<strong>in</strong>en normalverteilten<br />
Fehlerterm besitzt. Bestimmen Sie die empirischen<br />
Schätzer für µ, γ 0 , γ 1 , γ 2 , ρ 1 , ρ 2 , φ 21 , φ 22 <strong>und</strong><br />
σ 2 .<br />
2.3.2 Kle<strong>in</strong>ste Quadrate (KQ)<br />
Die Kle<strong>in</strong>ste-Quadrate-Methode (KQ-Methode) ist e<strong>in</strong>e <strong>in</strong>tuitiv e<strong>in</strong>gängige<br />
Schätzmethode. Sie ist sehr alt <strong>und</strong> geht auf Carl Friedrich Gauß zurück, der<br />
mit ihr astronomische Berechnungen vorgenommen hat. Die Idee ist recht<br />
e<strong>in</strong>fach, wir werden sie zunächst am Beispiel des Erwartungswertes erörtern.<br />
Die Beobachtungswerte können als Abweichungen vom Erwartungswert y t =<br />
µ+ɛ t geschrieben werden. Der Fehler ɛ t fängt dabei gerade die Abweichungen<br />
auf, wobei hier ke<strong>in</strong>e Verteilung für ɛ t spezifiziert werden muss. Man kann<br />
nun e<strong>in</strong>fach die Summe der quadratischen Fehler m<strong>in</strong>imieren<br />
m<strong>in</strong><br />
T∑<br />
ɛ 2 t = m<strong>in</strong><br />
t=1<br />
T∑<br />
(y t − µ) 2 . (2.34)<br />
t=1<br />
24
2.3. PARAMETERSCHÄTZUNG<br />
Das Quadrieren des Fehlerterms ist dabei aus zwei Gründen s<strong>in</strong>nvoll, zum<br />
e<strong>in</strong>en spielt die Richtung der Abweichung (positiv oder negativ) ke<strong>in</strong>e Rolle<br />
mehr, zum anderen fallen große Fehler stärker <strong>in</strong>s Gewicht. Wir f<strong>in</strong>den das<br />
M<strong>in</strong>imum durch Nullsetzen der Ableitung der Summe <strong>in</strong> (2.34) nach µ<br />
∂<br />
∂µ<br />
T∑<br />
(y t − µ) 2 = −2<br />
t=1<br />
T∑<br />
y t + 2T µ = ! 0. (2.35)<br />
Der partielle Differentialoperator ∂ wurde hier verwendet, weil die Summe<br />
von y t <strong>und</strong> von µ abhängt. E<strong>in</strong>faches Umstellen <strong>und</strong> Auflösen ergibt den<br />
bekannten KQ-Schätzer für den Erwartungswert, vgl. (2.29) auf Seite 21<br />
t=1<br />
ˆµ = 1 T<br />
T∑<br />
y t . (2.36)<br />
t=1<br />
Das gesamte AR(1)-Modell bietet ebenfalls die Möglichkeit der Parameterschätzung<br />
mittels Kle<strong>in</strong>ste-Quadrate-Methode. Wir notieren den Prozess e<strong>in</strong>mal<br />
<strong>in</strong> se<strong>in</strong>er allgeme<strong>in</strong>en Form<br />
y t = θ 0 + φy t−1 + ɛ t . (2.37)<br />
Der zusätzliche Parameter θ 0 ersche<strong>in</strong>t hier, weil der Erwartungswert <strong>in</strong><br />
der Regel ungleich null ist, wie der zentrierte Prozess (2.3) auf Seite 6<br />
zeigt. Das konstante Glied wurde e<strong>in</strong>fach im Parameter θ 0 = (1 − φ)µ<br />
zusammengefasst. Diese Schreibweise wird sich noch als vorteilhaft erweisen,<br />
da sich die Konstante für Modelle höherer Ordnung anders zusammensetzt.<br />
(2.37) hat die Form e<strong>in</strong>es l<strong>in</strong>earen Regressionsmodells, bei dem die Regressoren<br />
aus verzögerten Werten der Zeitreihe bestehen. Bei e<strong>in</strong>er l<strong>in</strong>earen<br />
Regression stellt man sich vor, dass e<strong>in</strong>e Reihe von Datenpunkten durch<br />
e<strong>in</strong>e Gerade möglichst gut repräsentiert werden soll. Zu diesem Zweck wird<br />
die Gerade genau so platziert, dass die Summe der quadrierten Abstände<br />
der Geraden zu allen Datenpunkten möglichst kle<strong>in</strong> wird. Abbildung 2.4<br />
zeigt die l<strong>in</strong>eare Regression der Zeitreihe aus Aufgabe 2.5 auf der vorherigen<br />
Seite. Die Abstandsquadrate s<strong>in</strong>d ebenfalls e<strong>in</strong>gezeichnet.<br />
Die Parameterschätzung mit der Kle<strong>in</strong>ste-Quadrate-Methode erfolgt wieder<br />
durch M<strong>in</strong>imierung der Fehlerquadratsumme<br />
m<strong>in</strong><br />
T∑<br />
ɛ 2 t = m<strong>in</strong><br />
t=2<br />
T∑<br />
(y t − θ 0 − φy t−1 ) 2 = m<strong>in</strong> Q(θ 0 , φ). (2.38)<br />
t=2<br />
25
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Abbildung 2.4: Kle<strong>in</strong>ste-Quadrate Regression<br />
Die Quadratsumme wurde hier mit Q bezeichnet, was uns an späterer Stelle<br />
viel Schreibarbeit ersparen wird. Beachten Sie, dass der Summations<strong>in</strong>dex<br />
bei t = 2 beg<strong>in</strong>nt, da <strong>in</strong>nerhalb der Quadratsumme Q(θ 0 , φ) <strong>in</strong> (2.38) ja y t−1<br />
steht. Die KQ-Schätzer für θ 0 <strong>und</strong> φ ergeben sich nun aus den Bed<strong>in</strong>gungen<br />
∂<br />
∂θ 0<br />
Q(θ 0 , φ) = 0<br />
<strong>und</strong><br />
∂<br />
∂φ Q(θ 0, φ) = 0. (2.39)<br />
Anstatt die Bed<strong>in</strong>gungen (2.39) für jeden Parameter e<strong>in</strong>zeln zu berechnen,<br />
was <strong>in</strong>sbesondere bei Modellen höherer Ordnung sehr mühsam wäre, geht<br />
man <strong>in</strong> der Praxis e<strong>in</strong>en effizienteren Weg. Zunächst aber e<strong>in</strong>e kle<strong>in</strong>e Auffrischung<br />
zur Vektor- <strong>und</strong> Matrixtransposition.<br />
26
2.3. PARAMETERSCHÄTZUNG<br />
E<strong>in</strong>schub: Transponierte Matrix<br />
Die zu e<strong>in</strong>er Matrix A mit<br />
A =<br />
( )<br />
a11 a 12<br />
a 21 a 22<br />
transponierte Matrix A ′ entsteht e<strong>in</strong>fach durch Vertauschung<br />
der Zeilen- <strong>und</strong> Spalten<strong>in</strong>dizes<br />
( )<br />
A ′ a11 a<br />
=<br />
21<br />
.<br />
a 12 a 22<br />
Für e<strong>in</strong>e symmetrische Matrix gilt demzufolge A = A ′ . Weiterh<strong>in</strong><br />
gilt allgeme<strong>in</strong><br />
(AB) ′ = B ′ A ′ .<br />
Da e<strong>in</strong> Zeilenvektor als (1×n)-Matrix <strong>und</strong> e<strong>in</strong> Spaltenvektor<br />
als (n×1)-Matrix aufgefasst werden kann, wird e<strong>in</strong> transponierter<br />
Zeilenvektor zum Spaltenvektor <strong>und</strong> umgekehrt.<br />
Wir können nun beispielsweise die Parameter θ 0 <strong>und</strong> φ <strong>in</strong> e<strong>in</strong>em Vektor<br />
θ = (θ 0 , φ) ′ zusammenfassen <strong>und</strong> die M<strong>in</strong>imierungsbed<strong>in</strong>gung äquivalent zu<br />
(2.39) als<br />
∂<br />
∂θ ′ Q(θ) = ∂<br />
∂θ ′ (y − Xθ)′ (y − Xθ) = 0 (2.40)<br />
formulieren, wobei<br />
⎛ ⎞<br />
⎛ ⎞<br />
y t<br />
1 y t−1<br />
y t−1<br />
y = ⎜ ⎟<br />
⎝ . ⎠ <strong>und</strong> X = 1 y t−2<br />
⎜ ⎟<br />
(2.41)<br />
⎝.<br />
. ⎠<br />
y 2 1 y 1<br />
gilt. Auflösen von Bed<strong>in</strong>gung (2.40) führt dann zum KQ-Schätzer, wobei wir<br />
den Rechenweg hier nicht erörtern wollen. Wichtiger ist das Ergebnis<br />
ˆθ = (X ′ X) −1 X ′ y. (2.42)<br />
Dieser Schätzer ist <strong>in</strong> der Literatur sehr bekannt <strong>und</strong> wird gegebenenfalls <strong>in</strong><br />
Abhängigkeit von der Problemstellung modifiziert (beispielsweise bei nicht<br />
konstanter Varianz des Fehlerterms).<br />
27
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Aufgabe 2.6<br />
Gegeben sei die (stationäre) Zeitreihe<br />
(y t ) t=0,...,4 = {1, 2, 1, 0, 1}.<br />
Gehen Sie zunächst davon aus, dass diese Zeitreihe<br />
von e<strong>in</strong>em AR(1)-Prozess erzeugt wurde, der e<strong>in</strong>en<br />
normalverteilten Fehlerterm besitzt. Bestimmen Sie<br />
den KQ-Schätzer für θ = (θ 0 , φ) ′ .<br />
2.3.3 Maximum Likelihood (ML)<br />
Das Maximum-Likelihood-Pr<strong>in</strong>zip wurde 1922 von Ronald Aylmer Fisher<br />
vorgeschlagen <strong>und</strong> ist heute e<strong>in</strong>s der meist verwendeten Schätzpr<strong>in</strong>zipien<br />
<strong>in</strong> der Statistik. Der Erfolg von ML leitet sich aus verschiedenen Komponenten<br />
ab, wie zum Beispiel angenehme asymptotische Eigenschaften,<br />
Anwendbarkeit für jede spezifizierbare Verteilung, Nähe zu Teststatistiken<br />
usw. Wir werden den Gr<strong>und</strong>gedanken zunächst an e<strong>in</strong>em e<strong>in</strong>fachen Beispiel<br />
demonstrieren.<br />
Beispiel 2.2: Maximum-Likelihood-Pr<strong>in</strong>zip<br />
Seien x = (x 1 , x 2 , x 3 ) drei unabhängige Realisierungen e<strong>in</strong>er normalverteilten<br />
Zufallsvariable X ∼ N(µ, σ 2 ). Dann zerfällt aufgr<strong>und</strong><br />
der Unabhängigkeit die geme<strong>in</strong>same Dichtefunktion von x<br />
<strong>in</strong> das Produkt der Dichten von x 1 , x 2 <strong>und</strong> x 3<br />
p(x 1 , x 2 , x 3 ) =<br />
3∏<br />
p(x k ) = p(x 1 )p(x 2 )p(x 3 ),<br />
k=1<br />
das Produktzeichen funktioniert hier genauso wie das Summenzeichen.<br />
Nach dem Maximum-Likelihood-Pr<strong>in</strong>zip wird nun dieses<br />
Produkt von Dichten als Funktion der Parameter aufgefasst. Die<br />
Likelihood-Funktion ist dann e<strong>in</strong>fach<br />
L(µ, σ 2 ) =<br />
3∏<br />
k=1<br />
1<br />
√<br />
2πσ<br />
2 e− 1 2( x k −µ<br />
σ ) 2 .<br />
Hier wurde die Dichtefunktion der Normalverteilung verwendet,<br />
da die Zufallsvariable X ja normalverteilt ist. Maximierung der<br />
Likelihoodfunktion ergibt dann den gesuchten Schätzer.<br />
28
2.3. PARAMETERSCHÄTZUNG<br />
Abbildung 2.5: Likelihood- (l<strong>in</strong>ks) <strong>und</strong> LogLikelihood-Funktion (rechts)<br />
Die Parameter selbst s<strong>in</strong>d ke<strong>in</strong>e Zufallsvariablen, daher die Bezeichnung<br />
„Likelihood“ <strong>in</strong> Abgrenzung zu „Probability“. Abbildung 2.5 (l<strong>in</strong>ks) zeigt<br />
die Likelihood-Funktion für drei beliebige Datenpunkte aus Beispiel 2.2.<br />
Man sieht deutlich, dass die Funktionswerte der Gauß-Glocken an den<br />
Datenpunkten stark von der Lokalisation <strong>und</strong> der Breite der Glocken<br />
abhängen. Das Produkt dieser Funktionswerte wird <strong>in</strong> Abhängigkeit von<br />
den Parametern maximiert.<br />
Aus technischen Gründen wird <strong>in</strong> der Praxis häufig nicht das Produkt<br />
der Dichten als Funktion der Parameter maximiert, sondern die Summe der<br />
logarithmierten Dichten.<br />
E<strong>in</strong>schub: Logarithmus<br />
Der (natürliche) Logarithmus ist die Umkehrfunktion<br />
der Exponentialfunktion, das bedeutet<br />
x = log [e x ] .<br />
Als Faustformel ist es nützlich sich e<strong>in</strong>zuprägen, dass<br />
der Logarithmus alle Rechenoperationen um e<strong>in</strong>e Ebene<br />
„herunterdrückt“, d.h. aus e<strong>in</strong>er Potenz wird e<strong>in</strong><br />
Produkt <strong>und</strong> aus e<strong>in</strong>em Produkt wird e<strong>in</strong>e Summe<br />
log [ ax b] = log[a] + b log[x].<br />
Im Fall e<strong>in</strong>er Gauß-Dichte ist das Logarithmieren besonders praktisch,<br />
da ja e<strong>in</strong>e Exponentialfunktion <strong>in</strong>volviert ist. Man schreibt daher die<br />
29
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
LogLikelihood-Funktion für die unabhängigen Realisierungen (x 1 , . . . , x n )<br />
l(µ, σ 2 ) = log L(µ, σ 2 ) = − n 2 log[2πσ2 ] − 1<br />
2σ 2<br />
n∑<br />
(x k − µ) 2 . (2.43)<br />
In (2.43) steht nun aufgr<strong>und</strong> der Logarithmierung ke<strong>in</strong> Produkt mehr, sondern<br />
lediglich e<strong>in</strong>e Summe. Abbildung 2.5 (rechts) zeigt die Funktionswerte<br />
der LogLikelihood-Funktion an den Datenpunkten x 1 bis x 3 aus Beispiel 2.2<br />
auf Seite 28 für verschiedene Parameterkonfigurationen.<br />
Wir wollen nun ML-Schätzer für den AR(1)-Prozess ausrechnen. Hier<br />
stoßen wir jedoch auf die Schwierigkeit, dass die Realisierungen y t nicht unabhängig<br />
s<strong>in</strong>d. Dadurch zerfällt die geme<strong>in</strong>same Dichte nicht <strong>in</strong> e<strong>in</strong> Produkt<br />
der E<strong>in</strong>zeldichten. Wir er<strong>in</strong>nern uns jedoch an die Markov-Eigenschaft des<br />
AR(1)-Prozesses, speziell daran, dass die gesamte Vergangenheit des Prozesses<br />
<strong>in</strong> der letzten Realisierung gespeichert ist. Das bedeutet, bei Kenntnis des<br />
letzten Wertes y t−1 ist die Information über weiter zurückliegende Realisationen<br />
des Prozesses im H<strong>in</strong>blick auf y t irrelevant. Daher zerfällt die geme<strong>in</strong>same<br />
Dichte p(y T , . . . , y 1 ) <strong>in</strong> e<strong>in</strong> Produkt von E<strong>in</strong>zeldichten unter der Bed<strong>in</strong>gung,<br />
dass die jeweils vorangegangene Realisierung, <strong>in</strong>sbesondere y 0 , bekannt ist<br />
k=1<br />
p(y T , y T −1 , . . . , y 1 ) =<br />
T∏<br />
p(y t |y t−1 ). (2.44)<br />
t=1<br />
Die Dichte p(y t |y t−1 ) wird bed<strong>in</strong>gte Dichte genannt, da sie an die Bed<strong>in</strong>gung<br />
der Kenntnis von y t−1 geknüpft ist. Für unseren allgeme<strong>in</strong>en AR(1)-Prozess<br />
y t = θ 0 + φy t−1 + ɛ t mit ɛ t ∼ N(0, σ 2 ) <strong>und</strong> y 0 bekannt, gilt dann<br />
p(y t |y t−1 ) =<br />
1<br />
√ 1 (y t −θ 0 −φy t−1 ) 2<br />
2πσ<br />
2 e− 2 σ 2 . (2.45)<br />
Damit kann ebenfalls die LogLikelihood-Funktion für den gesamten Prozess,<br />
vgl. (2.43), angegeben werden<br />
l(θ 0 , φ, σ 2 ) =<br />
T∑<br />
t=1<br />
log p(y t |y t−1 ) = − T 2 log[2πσ2 ] − 1<br />
2σ 2 Q(θ 0, φ). (2.46)<br />
Wir haben hier wieder die Abkürzung Q für die Quadratsumme verwendet,<br />
vgl. (2.38) auf Seite 25. Wir stellen fest, dass der Parameter σ 2 offenbar nicht<br />
<strong>in</strong> der Quadratsumme steht <strong>und</strong> leiten deswegen zunächst nach ihm ab<br />
30<br />
∂<br />
∂σ 2 l(θ 0, φ, σ 2 ) = − T<br />
2σ 2 + 1<br />
2σ 4 Q(θ 0, φ) ! = 0. (2.47)
2.3. PARAMETERSCHÄTZUNG<br />
Auflösen von Bed<strong>in</strong>gung (2.47) liefert den ML-Schätzer für σ 2<br />
ˆσ 2 = 1 T Q(θ 0, φ) = 1 T<br />
T∑ ( ) 2.<br />
yt − θ 0 − φy t−1 (2.48)<br />
t=1<br />
Dieser Schätzer hat e<strong>in</strong>e uns bekannte Struktur, nämlich<br />
ˆσ 2 = 1 T<br />
T∑ (<br />
yt − E[y t ] ) 2<br />
, (2.49)<br />
t=1<br />
wodurch wir den Schätzer für die stationäre Varianz (2.30) auf Seite 21<br />
nun besser verstehen können. Wir hatten an dieser Stelle argumentiert,<br />
dass Zeitreihen <strong>in</strong> der Regel sehr lang s<strong>in</strong>d <strong>und</strong> deswegen im Nenner nicht<br />
T − 1 sondern T steht. Wir sehen nun, dass es sich bei diesem Schätzer um<br />
den Maximum-Likelihood-Schätzer handelt, was natürlich e<strong>in</strong> f<strong>und</strong>ierteres<br />
Argument ist.<br />
Wir haben auch gesehen, dass der Parameter σ 2 <strong>in</strong> der LogLikelihood-<br />
Funktion (2.46) e<strong>in</strong>e gewisse Sonderstellung e<strong>in</strong>nimmt, da er nicht <strong>in</strong>nerhalb<br />
der Quadratsumme Q steht. Wird der ML-Schätzer ˆσ 2 = 1 Q(θ T 0, φ) <strong>in</strong> die<br />
LogLikelihood-Funktion e<strong>in</strong>gesetzt, erhält man die sog. konzentrierte LogLikelihood<br />
l(θ 0 , φ) = − T 2 log [ 2π<br />
T<br />
]<br />
− T 2 log Q(θ 0, φ) − T 2 . (2.50)<br />
Wir sehen, dass lediglich der mittlere Term auf der rechten Seite von (2.50)<br />
von den Parametern abhängt. Fassen wir θ 0 <strong>und</strong> φ wieder <strong>in</strong> e<strong>in</strong>em Parametervektor<br />
θ = (θ 0 , φ) ′ zusammen <strong>und</strong> leiten die konzentrierte LogLikelihood-<br />
Funktion nach θ ab, f<strong>in</strong>den wir die Bedigung<br />
∂<br />
∂θ l(θ) = −T ∂ log Q(θ)<br />
2 ∂θ<br />
= − T<br />
2Q(θ) · ∂Q(θ)<br />
∂θ<br />
!<br />
= 0. (2.51)<br />
Das entspricht aber nach dem Wegmultiplizieren der entsprechenden Terme<br />
gerade der Bed<strong>in</strong>gung für den KQ-Schätzer<br />
∂<br />
Q(θ) = 0, (2.52)<br />
∂θ<br />
vgl. (2.40) auf Seite 27. Wir sehen also, dass für normalverteilte Fehlerterme<br />
KQ- <strong>und</strong> ML-Schätzer der Regressionsparameter übere<strong>in</strong>stimmen.<br />
31
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Aufgabe 2.7<br />
Expandieren Sie die folgenden Terme:<br />
[ a<br />
]<br />
a) log[ab], b) log , c) log [ 2a b]<br />
b<br />
d) log [√ a ] , e) log [ a 3 4√ b ]<br />
2.3.4 Konfidenz<strong>in</strong>tervalle<br />
Konfidenz<strong>in</strong>tervalle s<strong>in</strong>d deshalb <strong>in</strong>teressant, weil mit ihrer Hilfe e<strong>in</strong>geschätzt<br />
werden kann, wie verlässlich die Informationen, die wir aus der Zeitreihe<br />
gew<strong>in</strong>nen, im H<strong>in</strong>blick auf die darunterliegende Prozessstruktur tatsächlich<br />
s<strong>in</strong>d. Die Frage nach dem Konfidenz<strong>in</strong>tervall ist auch eng mit der Frage nach<br />
der Verteilung des <strong>in</strong>volvierten Schätzers verknüpft.<br />
Um das Pr<strong>in</strong>zip zu verstehen nehmen wir zunächst an, dass e<strong>in</strong>e (stationäre)<br />
Zeitreihe (y t ) t=1,...,T vorliegt, die von e<strong>in</strong>em re<strong>in</strong>en Zufallsprozess y t = ɛ t<br />
mit Fehlerterm ɛ t ∼ N(0, σ 2 ) erzeugt wurde. Wir können den Erwartungswert<br />
µ mit der bekannten Formel<br />
ˆµ = 1 T<br />
T∑<br />
y t (2.53)<br />
t=1<br />
schätzen, vgl. (2.29) auf Seite 21. Dieser Schätzer hängt jedoch von den Werten<br />
der Zeitreihe ab, die ihrerseits vom Zufall abhängen. Damit hängt der<br />
Schätzer ˆµ selbst auch vom Zufall ab, nicht jedoch der wahre, aber unbekannte<br />
Parameter µ. In diesem Fall ist der Schätzer ˆµ ebenfalls normalverteilt,<br />
was bedeutet, dass wir nur se<strong>in</strong>e ersten beiden Momente ermitteln müssen.<br />
Wir erhalten<br />
[ ]<br />
1<br />
T∑<br />
E[ˆµ] = E y t = 1 T∑<br />
E[y t ] = µ (2.54)<br />
T T<br />
t=1<br />
t=1<br />
[ ]<br />
1<br />
T∑<br />
Var[ˆµ] = Var y t = 1 T∑<br />
Var[y<br />
T T 2<br />
t ] = σ2<br />
T . (2.55)<br />
t=1<br />
Die erste Eigenschaft, (2.54), bezeichnet man als Erwartungstreue. Erwartungstreue<br />
Schätzer, deren Abweichung vom wahren Parameter asymptotisch<br />
gegen null geht bezeichnet man als konsistent. Diese Eigenschaft wird durch<br />
(2.55) sichergestellt. Wir haben also bereits e<strong>in</strong>ige wichtige Eigenschaften des<br />
Schätzers ˆµ aufgedeckt.<br />
t=1<br />
32
2.3. PARAMETERSCHÄTZUNG<br />
Das Konfidenz<strong>in</strong>tervall selbst ist e<strong>in</strong> symmetrischer, um den Schätzer herum<br />
aufgebauter Bereich, der so konstruiert ist, dass er den wahren Parameter<br />
mit e<strong>in</strong>er vorgegebenen Wahrsche<strong>in</strong>lichkeit überdeckt. Die Grenzen des Konfidenz<strong>in</strong>tervalls<br />
lassen sich <strong>in</strong>sbesondere für (asymptotisch) normalverteilte<br />
Schätzer sehr e<strong>in</strong>fach durch Rückgriff auf die tabellierte Verteilungsfunktion<br />
der Standard-Normalverteilung berechnen. Für ˆµ muss gelten<br />
P<br />
(<br />
−z 1−<br />
α ≤ ˆµ − µ<br />
2 σ<br />
√<br />
T<br />
≤ z 1−<br />
α<br />
2<br />
)<br />
= 1 − α, (2.56)<br />
mit z κ = Φ −1 (κ). Umformen liefert die gewünschten Grenzen. Das 95%-<br />
Konfidenz<strong>in</strong>tervall für ˆµ beispielsweise hat die obere <strong>und</strong> untere Grenze<br />
c o/u = ˆµ ± 1.96 σ √<br />
T<br />
, (2.57)<br />
wobei 1.96 der Wert der <strong>in</strong>versen Verteilungsfunktion der Standard-Normalverteilung<br />
an der Stelle z = 0.975 ist.<br />
Beispiel 2.3: Konfidenz<strong>in</strong>tervalle<br />
Es werden per Simulation 100 Zeitreihen (y t ) t=1,...,T erzeugt.<br />
Der stochastische Prozess, der die Zeitreihen generiert ist<br />
y t = ɛ t mit ɛ t ∼ N(0, 1). Anschließend wird der (stationäre)<br />
Erwartungswert durch ˆµ geschätzt <strong>und</strong> die entsprechenden<br />
Konfidenz<strong>in</strong>tervalle zum Konfidenzniveau 1 − α = 0.95 berechnet.<br />
Abbildung 2.6 auf der nächsten Seite zeigt die Konfidenz<strong>in</strong>tervalle aus<br />
Beispiel 2.3. Der wahre Mittelwert ist durch die horizontale Achse gekennzeichnet.<br />
Es ist deutlich zu erkennen, dass e<strong>in</strong>ige Intervalle den wahren<br />
Parameter nicht überdecken. Das war zu erwarten, da wir ja die Wahrsche<strong>in</strong>lichkeit<br />
der Überdeckung mit dem Konfidenzniveau auf 95% festgelegt<br />
hatten. Wir würden genaugenommen erwarten, dass fünf aus h<strong>und</strong>ert<br />
Intervallen nicht den wahren Parameter überdecken. In der Tat s<strong>in</strong>d es aber<br />
sechs. Diese Diskrepanz ist auf die kle<strong>in</strong>e Stichprobe von 100 simulierten<br />
Zeitreihen zurückzuführen, für unendlich viele Zeitreihen würde die Anzahl<br />
der nichtüberdeckenden Konfidenz<strong>in</strong>tervalle genau gegen 5% gehen. Da wir<br />
praktisch nie den Luxus genießen mit asymptotisch exakten Ergebnissen zu<br />
arbeiten, sollten wir immer im H<strong>in</strong>terkopf behalten, dass auch der Zufall<br />
e<strong>in</strong>en schlechten Tag haben kann.<br />
33
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Abbildung 2.6: Konfidenz<strong>in</strong>tervalle für µ<br />
Wir haben bisher mit dem e<strong>in</strong>fachen Zufallsprozess e<strong>in</strong>e sehr simple<br />
Konstruktion betrachtet um das Pr<strong>in</strong>zip des Konfidenz<strong>in</strong>tervalls zu verstehen.<br />
In der Praxis s<strong>in</strong>d die <strong>in</strong>volvierten Prozesse natürlich komplizierter<br />
<strong>und</strong> es gibt andere Parameter, deren Schätzung <strong>und</strong> Analyse von vitaler<br />
Bedeutung für die Identifikation des stochastischen Prozesses s<strong>in</strong>d. Wir<br />
haben beispielsweise gelernt, dass die partielle Autokorrelationsfunktion<br />
(PACF) e<strong>in</strong>es AR(p)-Prozesses für Lags m > p auf null abfällt. F<strong>in</strong>den wir<br />
also e<strong>in</strong>e Zeitreihe vor, deren empirische Schätzungen der PACF für Lag 2<br />
<strong>und</strong> größer nahe null liegen, können wir vermuten, dass es sich um e<strong>in</strong>en<br />
AR(1)-Prozess handelt. In dieser Situation können Konfidenz<strong>in</strong>tervalle für<br />
die Schätzer der Autokorrelationen <strong>und</strong> der partiellen Autokorrelationen<br />
unschätzbare Dienste bei der Beurteilung solcher Bef<strong>und</strong>e leisten.<br />
Wir kehren zurück zum AR(1)-Prozess. Der zentrale Parameter bezüglich<br />
der Autokorrelation im AR(1)-Modell ist φ. Wird nun aus den Daten<br />
per Maximum-Likelihood-Methode e<strong>in</strong> Schätzer ˆφ berechnet, so ist dieser<br />
Schätzer asymptotisch ebenfalls erwartungstreu <strong>und</strong> normalverteilt. Er besitzt<br />
die <strong>in</strong>verse Fisher-Information als Varianz, ˆφ a ∼ N(φ, F −1 ). Wir wollen<br />
an dieser Stelle nicht näher beleuchten wie die Fisher-Information berechnet<br />
wird, sondern begnügen uns damit sie anzugeben<br />
F (φ) =<br />
T<br />
1 − φ 2 . (2.58)<br />
Die Fisher-Information (2.58) hängt selbst vom wahren Parameter φ ab, den<br />
wir <strong>in</strong> der Regel natürlich nicht kennen <strong>und</strong> muss daher selbst mit Hilfe von ˆφ<br />
34
2.3. PARAMETERSCHÄTZUNG<br />
geschätzt werden. Daher erhalten wir als asymptotisches Konfidenz<strong>in</strong>tervall<br />
für φ zum Signifikanzniveau 1 − α<br />
√<br />
c o/u = ˆφ 1 −<br />
± z ˆφ 2<br />
1−<br />
α . (2.59)<br />
2<br />
T<br />
Im Fall der ACF <strong>und</strong> PACF werden die Konfidenz<strong>in</strong>tervalle häufig auch<br />
um null herum gelegt, was lediglich e<strong>in</strong>e Umkehrung der Betrachtungsweise<br />
be<strong>in</strong>haltet. Man <strong>in</strong>teresiert sich für gewöhnlich dafür, ob das Konfidenz<strong>in</strong>tervall<br />
um den Schätzer den Wert null e<strong>in</strong>schließt. In diesem Fall würde<br />
man argumentieren, dass sich ke<strong>in</strong>e signifikante (partielle) Autokorrelation<br />
nachweisen lässt. Gruppiert man das Konfidenz<strong>in</strong>tervall um null herum, so<br />
ist genau dann e<strong>in</strong>e signifikante (partielle) Autokorrelation nachweisbar,<br />
wenn der Schätzer aus diesem Bereich herausragt.<br />
Beispiel 2.4: AR(1)-Prozess <strong>und</strong> Korrelogramm<br />
Es wurde der AR(1)-Prozess<br />
y t = 0.8y t−1 + ɛ t<br />
mit ɛ t ∼ N(0, 1) simuliert. Gleichzeitig wurden die Autokorrelationen<br />
<strong>und</strong> partiellen Autokorrelationen mit der<br />
Analysesoftware „EViews“ geschätzt.<br />
Abbildung 2.7 zeigt die vom simulierten AR(1)-Prozess erzeugte Zeitreihe<br />
sowie das zugehörige Autokorrelogramm. Die vertikalen Markierungen im<br />
Korrelogramm kennzeichnen die Grenzen des 95%-Konfidenzbereichs. Die<br />
Correlogram of AR1<br />
3<br />
2<br />
1<br />
0<br />
-1<br />
-2<br />
-3<br />
-4<br />
AR1<br />
10 20 30 40 50 60 70 80 90 100<br />
Date: 06/18/07 Time: 13:35<br />
Sample: 1 100<br />
Included observations: 100<br />
Autocorrelation Partial Correlation AC PAC Q-Stat Prob<br />
1 0.714 0.714 52.512 0.000<br />
2 0.488 -0.044 77.307 0.000<br />
3 0.327 -0.010 88.573 0.000<br />
4 0.276 0.117 96.676 0.000<br />
5 0.241 0.019 102.90 0.000<br />
6 0.201 -0.003 107.30 0.000<br />
7 0.224 0.137 112.79 0.000<br />
8 0.217 -0.006 118.02 0.000<br />
9 0.237 0.085 124.34 0.000<br />
10 0.278 0.127 133.11 0.000<br />
11 0.348 0.141 146.95 0.000<br />
12 0.337 -0.030 160.11 0.000<br />
13 0.286 -0.001 169.70 0.000<br />
14 0.204 -0.062 174.64 0.000<br />
15 0.138 -0.041 176.91 0.000<br />
16 0.073 -0.070 177.56 0.000<br />
17 0.079 0.075 178.33 0.000<br />
18 -0.010 -0.248 178.34 0.000<br />
19 -0.075 -0.065 179.04 0.000<br />
20 -0.073 0.038 179.73 0.000<br />
Abbildung 2.7: AR(1)-Prozess <strong>und</strong> Korrelogramm<br />
35
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Autokorrelation kl<strong>in</strong>gt zunächst auch ab, wie wir es erwarten würden,<br />
erzeugt dann aber vorübergehend noch e<strong>in</strong>e Schw<strong>in</strong>gung, die e<strong>in</strong>en zusätzlichen<br />
E<strong>in</strong>fluss suggeriert, der gar nicht vorhanden ist. Die partielle<br />
Autokorrelation fällt wie erwartet nach Lag 1 sofort unter die Konfidenzgrenze<br />
ab, es wird jedoch zusätzlich e<strong>in</strong>e signifikante partielle Autokorrelation<br />
mit Lag 18 geschätzt. Diese ist natürlich nicht vorhanden, da wir ja<br />
e<strong>in</strong>en AR(1)-Prozess simuliert haben. Solche zufälligen Überschreitungen<br />
passieren aufgr<strong>und</strong> der Fehlerwahrsche<strong>in</strong>lichkeit von α = 5%. Hier ist bei<br />
realen Problemen ökonomischer Sachverstand gefragt um e<strong>in</strong>schätzen zu<br />
können, ob solche „exotischen“ Korrelationen lediglich Schätzartefakte darstellen<br />
oder ob sie auf e<strong>in</strong>e <strong>in</strong>härente Fehlspezifikation des Modells h<strong>in</strong>weisen.<br />
Schließlich wird der AR-Parameter φ mit ˆφ = 0.714 geschätzt. Wir konstruieren<br />
das entsprechende Konfidenz<strong>in</strong>tervall zum Konfidenzniveau 1−α =<br />
95%<br />
√<br />
1 − 0.714<br />
2<br />
c o/u = 0.714 ± 1.96<br />
⇒ φ ∈ [0.577, 0.851]. (2.60)<br />
100<br />
Der wahre Wert des AR-Parameters war φ = 0.8. Er wird somit voll vom<br />
Konfidenz<strong>in</strong>tervall überdeckt.<br />
Aufgabe 2.8<br />
Gegeben sei die stationäre Zeitreihe<br />
(y t ) t=0,...,8 = {1, 2, 3, 3, 4, 2, 0, 2, 1}.<br />
Gehen Sie davon aus, dass e<strong>in</strong> AR(1)-Prozess zugr<strong>und</strong>eliegt.<br />
Schätzen Sie den AR-Parameter φ <strong>und</strong> bilden Sie<br />
das 95%-Konfidenz<strong>in</strong>tervall mit Hilfe der geschätzten Fisher-<br />
Information.<br />
2.4 Der AR(2)-Prozess<br />
Der AR(2)-Prozess ist ebenfalls e<strong>in</strong> ausgesprochen wichtiger Repräsentant<br />
se<strong>in</strong>er Zunft. Er ist der sparsamste Prozess, der <strong>in</strong> der Lage ist schw<strong>in</strong>gende<br />
Systeme zu beschreiben. Wir werden deshalb e<strong>in</strong>ige Eigenschaften des AR(2)-<br />
Prozesses näher beleuchten <strong>und</strong> gleichzeitig die Gelegenheit nutzen e<strong>in</strong>iges,<br />
was wir über den AR(1)-Prozess gelernt haben, allgeme<strong>in</strong>er zu formulieren.<br />
Zunächst werden wir aber e<strong>in</strong>e andere, platzsparende Schreibweise für AR(p)-<br />
Prozesse kennenlernen.<br />
36
2.4.1 Operatoren<br />
2.4. DER AR(2)-PROZESS<br />
Operatoren s<strong>in</strong>d Rechenvorschriften, die nach allgeme<strong>in</strong>er Konvention auf<br />
den Ausdruck angewendet werden, der unmittelbar nach ihnen steht. Wir<br />
haben bereits im vorangegangenen Abschnitt mit Operatoren zu tun gehabt,<br />
nämlich als wir die Ableitung der Quadratsumme nach dem Parametervektor<br />
gebildet haben, vgl. beispielsweise (2.52) auf Seite 31. Die Ableitung e<strong>in</strong>er<br />
beliebigen Funktion f(x) kann nämlich <strong>in</strong> Operatorschreibweise dargestellt<br />
werden<br />
f ′ (x) = df(x)<br />
dx<br />
= d f(x). (2.61)<br />
dx<br />
Der Operator im Fall (2.61) ist d , der Differentialoperator. Er wirkt auf<br />
dx<br />
den Ausdruck nach ihm, nämlich f(x) <strong>und</strong> verursacht e<strong>in</strong>e Manipulation<br />
dieses Ausdrucks nach e<strong>in</strong>er festen Operationsvorschrift. Für Terme der<br />
Form x a beispielsweise lautet diese Vorschrift x a → ax a−1 . Die Möglichkeit,<br />
den Operator wie <strong>in</strong> (2.61) e<strong>in</strong>fach vor die Funktion zu ziehen, suggeriert,<br />
dass er denselben Rechenvorschriften unterliegt wie alle anderen Ausdrücke.<br />
In der Tat kann mit Operatoren <strong>in</strong> vielen Fällen e<strong>in</strong>fach „gerechnet“ werden,<br />
was sie zu e<strong>in</strong>em ausgesprochen leistungsfähigen Instrument macht.<br />
Wir werden nun als ersten Operator den sog. Backshift-Operator B kennenlernen.<br />
Er manipuliert den ihm folgenden Ausdruck gemäß der Rechenvorschrift<br />
B : # t → # t−1 . (2.62)<br />
Die #-Symbole <strong>in</strong> (2.62) s<strong>in</strong>d lediglich Platzhalter. Wir erhalten beispielsweise<br />
By t = y t−1 , Bx t−k = x t−k−1 usw. Die Darstellung (2.62) erlaubt es<br />
uns auch genauer zu verstehen, was für e<strong>in</strong> Objekt der Operator eigentlich<br />
ist. (2.62) hat die Gestalt e<strong>in</strong>er Abbildungsvorschrift, nur das hier nicht e<strong>in</strong>e<br />
Zahl auf e<strong>in</strong>e andere Zahl abgebildet wird (Funktion, Relation) sondern<br />
e<strong>in</strong>e Funktion auf e<strong>in</strong>e andere Funktion (Operator). Wir können nun den<br />
Backshift-Operator selbst durch Rechenvorschriften manipulieren. Für normale<br />
Ausdrücke der Form a 2 x = a(ax) verursacht der Exponent, dass die<br />
ursprüngliche Rechenoperation (Multiplikation mit a) zweimal h<strong>in</strong>tere<strong>in</strong>ander<br />
ausgeführt wird. Für den Backshift-Operator gilt dasselbe<br />
B 2 y t = B(By t ) = By t−1 = y t−2 . (2.63)<br />
Wir können auch den zu B <strong>in</strong>versen Operator B −1 erzeugen. Für normale<br />
Ausdrücke gilt a −1 ax = x. Fordert man dasselbe für den Backshift-Operator,<br />
so folgt<br />
B −1 By t = y t ⇒ B −1 y t = y t+1 . (2.64)<br />
37
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Der <strong>in</strong>verse Operator B −1 wird auch Forward-Operator genannt, weil er e<strong>in</strong>e<br />
Zeitverschiebung <strong>in</strong> Vorwärtsrichtung verursacht.<br />
Operatoren können auch zusammengesetzte Ausdrücke enthalten. E<strong>in</strong><br />
Beispiel für solch e<strong>in</strong>en Operator ist der Rückwärts-Differenzen- oder ∇-<br />
Operator („Nabla“-Operator). Er wird def<strong>in</strong>iert durch ∇ = 1 − B, mit dem<br />
Backshift-Operator B. Er erzeugt somit die erste Rückwärtsdifferenz<br />
∇y t = (1 − B)y t = y t − y t−1 . (2.65)<br />
Das volle Potential dieser Operatorschreibweise lässt sich erkennen, wenn wir<br />
die zweite Rückwärtsdifferenz bilden, also die Differenz zwischen der aktuellen<br />
Rückwärtsdifferenz y t − y t−1 <strong>und</strong> der vergangenen Rückwärtsdifferenz<br />
y t−1 − y t−2 . Wir können dies sehr bequem tun, <strong>in</strong>dem wir den ∇-Operator<br />
quadrieren <strong>und</strong> mittels b<strong>in</strong>omischer Formel berechnen<br />
∇ 2 y t = (1 − B) 2 y t = (1 − 2B + B 2 )y t = y t − 2y t−1 + y t−2 . (2.66)<br />
E<strong>in</strong>e kurze Probe <strong>in</strong> Form von Separation der Rückwärtsdifferenzen offenbart,<br />
dass das Ergebnis absolut korrekt ist.<br />
Um nun die Schreibweise von AR(p)-Prozessen tatsächlich zu vere<strong>in</strong>fachen<br />
(oder zum<strong>in</strong>dest abzukürzen) def<strong>in</strong>iert man e<strong>in</strong>en neuen, zusammengesetzten<br />
Operator, den AR-Operator<br />
p∑<br />
φ(B) = 1 − φ k B k . (2.67)<br />
Diese Schreibweise ist <strong>in</strong> der Tat äußerst kompakt, was sich bereits erahnen<br />
lässt, wenn man den bekannten AR(1)-Prozess mit ihrer Hilfe notiert<br />
k=1<br />
φ(B)y t = y t − φ 1 y t−1 = ɛ t . (2.68)<br />
Der AR(2)-Prozess, den wir im Folgenden ausgiebig untersuchen werden,<br />
notiert genauso kompakt<br />
φ(B)y t = y t − φ 1 y t−1 − φ 2 y t−2 = ɛ t . (2.69)<br />
Aufgabe 2.9<br />
Schreiben Sie die folgenden Operatorausdrücke aus:<br />
a) ∇ 3 y t , b) B∇y t , c) B −1 ∇y t , d) B −2 y t<br />
e) ∇ 2 B −1 y t , f) B −2 ∇ 2 y t<br />
38
2.4.2 Stationarität des AR(2)-Prozesses<br />
2.4. DER AR(2)-PROZESS<br />
Wir haben beim AR(1)-Prozess gesehen, dass die Voraussetzung für Stationarität<br />
durch den AR-Parameter geschaffen wurde. Wir können die dort<br />
abgeleitete Bed<strong>in</strong>gung <strong>in</strong> Verb<strong>in</strong>dung mit dem Backshift-Operator formulieren,<br />
um sie auch für Modelle höherer Ordnung nutzen zu können. Das<br />
AR(1)-Modell notiert <strong>in</strong> Operatorschreibweise<br />
φ(B)y t = (1 − φ 1 B)y t = ɛ t , (2.70)<br />
mit dem AR-Parameter φ 1 . Der AR(1)-Prozess kann nur dann stationär se<strong>in</strong>,<br />
wenn der E<strong>in</strong>fluss der vergangenen Realisation betragsmäßig kle<strong>in</strong>er als e<strong>in</strong>s<br />
ist oder anders formuliert, wenn für e<strong>in</strong>en beliebigen Koeffizient λ vor dem<br />
Backshift-Operator |λ| < 1 gilt. Wie sieht die Sache nun für den AR(2)-<br />
Prozess<br />
φ(B)y t = y t − φ 1 y t−1 − φ 2 y t−2 = ɛ t (2.71)<br />
aus? Wir wissen, dass die benötigte Information ausschließlich im Operator<br />
steckt <strong>und</strong> zerlegen deshalb den Operator φ(B) wie e<strong>in</strong> gewöhnliches Polynom<br />
1 − φ 1 B − φ 2 B 2 = (1 − λ 1 B)(1 − λ 2 B) = 1 − (λ 1 + λ 2 )B + λ 1 λ 2 B 2 . (2.72)<br />
Gleichung (2.72) zeigt, dass der AR(2)-Operator offensichtlich <strong>in</strong> e<strong>in</strong> Produkt<br />
aus zwei AR(1)-Operatoren faktorisiert werden kann. Hier können wir nun<br />
für jeden AR-Operator separat die Stationaritätsbed<strong>in</strong>gung fordern. Weiterh<strong>in</strong><br />
sehen wir, dass die Koeffizienten λ 1 <strong>und</strong> λ 2 gewissermaßen elementare<br />
Bauste<strong>in</strong>e der AR-Parameter φ 1 <strong>und</strong> φ 2 s<strong>in</strong>d, denn wir erhalten aus (2.72)<br />
die Bed<strong>in</strong>gung<br />
φ 1 = λ 1 + λ 2 <strong>und</strong> φ 2 = −λ 1 λ 2 . (2.73)<br />
Die λ-Koeffizienten werden auch als Wurzeln oder „roots“ bezeichnet, oder<br />
noch genauer als „<strong>in</strong>verted roots“. Was es damit auf sich hat erfahren wir im<br />
Anschluss noch genauer; <strong>in</strong> der Tat hat es nicht ausschließlich damit zu tun,<br />
dass sie für die AR-Parameter metaphorisch als Wurzeln fungieren.<br />
Wie f<strong>in</strong>det man nun die Wurzeln λ 1 <strong>und</strong> λ 2 im Allgeme<strong>in</strong>en? Gleichung<br />
(2.72) hat die Form e<strong>in</strong>er quadratischen Gleichung, jedoch macht e<strong>in</strong>e Lösung<br />
für die Backshift-Operatoren ke<strong>in</strong>en S<strong>in</strong>n. Deshalb setzt man <strong>in</strong> den AR-<br />
Operator anstelle von B e<strong>in</strong>e Variable z e<strong>in</strong><br />
φ(z) = 1 − φ 1 z − φ 2 z 2 = (1 − λ 1 z)(1 − λ 2 z). (2.74)<br />
Die rechte Seite von (2.74) verrät uns, dass die Nullstellen bei z = 1/λ 1 <strong>und</strong><br />
z = 1/λ 2 liegen, während die l<strong>in</strong>ke Seite e<strong>in</strong>e quadratische Gleichung ist,<br />
deren Nullstellen aus dem Ansatz<br />
1 − φ 1 z − φ 2 z 2 = 0 (2.75)<br />
39
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
folgen. Die Lösungen z 1 <strong>und</strong> z 2 s<strong>in</strong>d die eigentlichen Wurzeln oder roots.<br />
Für z = λ −1 gilt aber z 1/2 = λ −1<br />
1/2<br />
. Das erklärt auch die Begriffe „roots“ <strong>und</strong><br />
„<strong>in</strong>verted roots“. Für die eigentlichen Wurzeln z 1/2 gilt natürlich auch die<br />
entsprechend umgekehrte Stationaritätsbed<strong>in</strong>gung |z k | > 1 für k = 1, 2. Um<br />
ke<strong>in</strong>e größere Verwirrung zu stiften werden wir im Folgenden die „<strong>in</strong>verted<br />
roots“ λ 1/2 betrachten. Wir sollten jedoch im H<strong>in</strong>terkopf behalten, dass beide<br />
Formulierungen äquivalent s<strong>in</strong>d. Wir multiplizieren (2.74) mit z −2 = λ 2 <strong>und</strong><br />
erhalten<br />
λ 2 − φ 1 λ − φ 2 = (λ − λ 1 )(λ − λ 2 ). (2.76)<br />
Gleichung (2.76) hat e<strong>in</strong>e noch klarere Struktur als (2.74). Die rechte Seite<br />
wird trivialerweise null für λ = λ 1/2 , während sich λ 1 <strong>und</strong> λ 2 selbst als<br />
Nullstellen der quadratischen Gleichung auf der l<strong>in</strong>ken Seite von (2.76)<br />
ergeben.<br />
E<strong>in</strong>schub: Quadratische Gleichungen<br />
E<strong>in</strong>e quadratische Gleichung der Form<br />
x 2 + px + q = 0<br />
kann durch die sog. pq-Formel gelöst werden.<br />
Die Lösungen ergeben sich zu<br />
x 1/2 = − p 2 ± √ (p<br />
2) 2<br />
− q.<br />
Die pq-Formel liefert zwei Lösungen, da e<strong>in</strong><br />
Polynom n-ten Grades immer genau n nicht<br />
notwendigerweise reelle Nullstellen besitzt.<br />
Wir erhalten also aus der quadratischen Gleichung (2.76) mit Hilfe der pq-<br />
Formel die Wurzeln (<strong>in</strong>verted roots)<br />
λ 1/2 = φ 1<br />
2 ± √<br />
φ<br />
2<br />
1<br />
4 + φ 2. (2.77)<br />
Wir wollen Gleichung (2.76) für e<strong>in</strong>en kurzen Moment aus e<strong>in</strong>em anderen<br />
Blickw<strong>in</strong>kel betrachten. Das AR(2)-Modell kann alternativ als VAR(1)-<br />
Modell (Vector Auto Regressive) geschrieben werden. Ohne auf Details e<strong>in</strong>-<br />
40
2.4. DER AR(2)-PROZESS<br />
zugehen verifiziert man leicht, dass die Schreibweise<br />
( ) ( ) ( ) ( )<br />
yt φ1 φ<br />
=<br />
2 yt−1 ɛt<br />
+<br />
y t−1 1 0 y t−2 0<br />
} {{ } } {{ } } {{ } } {{ }<br />
(2.78)<br />
y t = Φ y t−1 + ɛ t<br />
das AR(2)-Modell exakt reproduziert. Die Berechnung der Eigenwerte von<br />
Φ führt nun zu<br />
det[Φ − λI] = −λ(φ 1 − λ) − φ 2 = λ 2 − φ 1 λ − φ 2 , (2.79)<br />
dem charakteristischen Polynom aus (2.74), respektive (2.76).<br />
E<strong>in</strong>schub: Eigenwerte<br />
Jede quadratische (n×n)-Matrix A besitzt n Eigenwerte<br />
λ 1 , . . . , λ n die der Eigenwertgleichung<br />
Av = λv<br />
genügen. E<strong>in</strong> passender Vektor v ≠ 0 wird Eigenvektor<br />
genannt. Die Eigenwerte können dann mit Hilfe der charakteristischen<br />
Gleichung<br />
det[A − λI] = 0,<br />
mit der passenden E<strong>in</strong>heitsmatrix I gewonnen werden. Die<br />
Eigenwerte legen e<strong>in</strong>ige elementare Eigenschaften der Matrix<br />
fest. Ist beispielsweise e<strong>in</strong> Eigenwert null so ist die<br />
Matrix s<strong>in</strong>gulär.<br />
Gleichung (2.79) liefert damit e<strong>in</strong>e alternative Herleitung des charakteristischen<br />
Polynoms des AR(2)-Prozesses. E<strong>in</strong>e Frage haben wir bislang jedoch<br />
nicht erörtert. Wir haben <strong>in</strong> (2.77) die Nullstellen λ 1/2 berechnet, was<br />
passiert jedoch, wenn der resultierende Term unter der Wurzel negativ ist?<br />
Bekannterweise hat e<strong>in</strong> Polynom n-ten Grades auch genau n Nullstellen.<br />
Diese Nullstellen müssen aber nicht zwangsläufig <strong>in</strong> den Bereich der reellen<br />
Zahlen fallen sondern können auch teilweise oder vollständig komplex se<strong>in</strong>.<br />
41
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
E<strong>in</strong>schub: Komplexe Zahlen<br />
E<strong>in</strong>e Zahl z heißt Element der komplexen Zahlen z ∈ C, wenn<br />
sie die Struktur<br />
z = a + ib mit a, b ∈ R<br />
besitzt. i bezeichnet hier die imag<strong>in</strong>äre E<strong>in</strong>heit, die die Eigenschaft<br />
i 2 = −1 besitzt. Sie ermöglicht die Berechnung negativer<br />
Wurzeln, da für beliebiges c ∈ R +<br />
√<br />
−c = i<br />
√ c<br />
gilt. Die beiden Bestandteile e<strong>in</strong>er komplexen Zahl werden<br />
Realteil, Re[z] = a, <strong>und</strong> Imag<strong>in</strong>ärteil, Im[z] = b, genannt.<br />
Im Zusammenhang mit den Wurzeln des AR(2)-Prozesses ist für uns von<br />
vitalem Interesse, wie der Betrag e<strong>in</strong>er komplexen Zahl gebildet wird. Dazu<br />
ist es hilfreich sich die Struktur der komplexen Zahlenebene anzuschauen.<br />
Abbildung 2.8 auf der nächsten Seite zeigt den reellen <strong>und</strong> imag<strong>in</strong>ären Zahlenstrahl,<br />
die seknrecht aufe<strong>in</strong>ander stehen <strong>und</strong> so die komplexe Ebene bilden.<br />
E<strong>in</strong>e komplexe Zahl ist nun durch ihre Koord<strong>in</strong>aten auf der reellen <strong>und</strong> imag<strong>in</strong>ären<br />
Achse festgelegt. Für gewöhnliche reelle Zahlen ist der Betrag als<br />
Abstand vom Ursprung, also als Abstand von null def<strong>in</strong>iert. Dieselbe Def<strong>in</strong>ition<br />
gilt im Rahmen der komplexen Zahlen. Der Unterschied ist hier, dass die<br />
reellen Zahlen nur aus e<strong>in</strong>em Zahlenstrahl bestehen, die komplexen Zahlen<br />
aber aus e<strong>in</strong>er Ebene. Um hier den Abstand vom Ursprung zu ermitteln müssen<br />
wir den Satz des Pythagoras bemühen. Demnach ergibt sich der Betrag<br />
von z als<br />
|z| = r = √ a 2 + b 2 . (2.80)<br />
Die magische Grenze |z| = 1 wird also <strong>in</strong> der komplexen Zahlenebene zu<br />
e<strong>in</strong>em Kreis, der <strong>in</strong> Abbildung 2.8 angedeutet ist. Damit lässt sich die notwendige<br />
Stationaritätsbed<strong>in</strong>gung für das AR(2)-Modell allgeme<strong>in</strong>gültig formulieren:<br />
E<strong>in</strong> AR(2)-Prozess kann nur dann stationär se<strong>in</strong>, wenn se<strong>in</strong>e Wurzeln<br />
außerhalb des komplexen E<strong>in</strong>heitskreises liegen.<br />
Für die „<strong>in</strong>verted roots“ λ 1/2 bedeutet das natürlich genau das Gegenteil,<br />
sie müssen beide <strong>in</strong>nerhalb des komplexen E<strong>in</strong>heitskreises liegen, damit der<br />
Prozess stationär ist.<br />
42
2.4. DER AR(2)-PROZESS<br />
Abbildung 2.8: Komplexe Zahlenebene<br />
2.4.3 Darstellung <strong>in</strong> Polar-Koord<strong>in</strong>aten<br />
Es ist oft bequemer e<strong>in</strong>e komplexe Zahl <strong>in</strong> Polar-Koord<strong>in</strong>aten darzustellen,<br />
da diese besser an die Problemstellung angepasst s<strong>in</strong>d als kartesische Koord<strong>in</strong>aten.<br />
In Polar-Koord<strong>in</strong>aten wird z nicht durch die Real- <strong>und</strong> Imag<strong>in</strong>ärteile<br />
a <strong>und</strong> b festgelegt, sondern durch den Radius r <strong>und</strong> den W<strong>in</strong>kel ω. E<strong>in</strong>en<br />
Zusammenhang zwischen dem Radius <strong>und</strong> den kartesischen Koord<strong>in</strong>aten haben<br />
wir schon mit Hilfe des Satzes von Pythagoras gef<strong>und</strong>en, siehe (2.80).<br />
Um e<strong>in</strong>en Ausdruck für die W<strong>in</strong>kelkoord<strong>in</strong>ate ω abzuleiten er<strong>in</strong>nern wir uns<br />
an zwei elementare Zusammenhänge im rechtw<strong>in</strong>kligen Dreieck <strong>in</strong> Abbildung<br />
2.8, nämlich<br />
cos ω = a <strong>und</strong> s<strong>in</strong> ω = b r<br />
r . (2.81)<br />
Daraus können wir durch geschicktes Arrangieren folgenden Zusammenhang<br />
gew<strong>in</strong>nen<br />
b<br />
a = r s<strong>in</strong> ω = tan ω. (2.82)<br />
r cos ω<br />
Nun müssen wir nur noch die Umkehrfunktion des Tangens bemühen <strong>und</strong><br />
erhalten den gesuchten Ausdruck<br />
[ b<br />
ω = arctan . (2.83)<br />
a]<br />
43
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Es gilt hier zu beachten, dass die Def<strong>in</strong>itionsbereiche beim Übergang von<br />
kartesischen zu Polar-Koord<strong>in</strong>aten ebenfalls verändert werden. Während a<br />
<strong>und</strong> b jeden beliebigen reellen Wert annehmen konnten, a, b ∈ R, gilt für die<br />
Radius- <strong>und</strong> W<strong>in</strong>kelkoord<strong>in</strong>aten r ∈ [0, ∞) <strong>und</strong> ω ∈ [−π, π]. Wir fassen die<br />
beiden alternativen Darstellungen, vgl. (2.82), zusammen<br />
z = a + ib = r(cos ω + i s<strong>in</strong> ω). (2.84)<br />
Wir haben am Anfang des Abschnitts unterstellt, dass im Fall komplexer<br />
Wurzeln Polar-Koord<strong>in</strong>aten besser an die Problemstellung angepasst s<strong>in</strong>d.<br />
Wir sehen <strong>in</strong> (2.84), dass die Polar-Darstellung trigonometrische Funktionen<br />
enthält. Daraus können wir im Umkehrschluss folgern, dass es im Falle<br />
komplexer Wurzeln offenbar zu Schw<strong>in</strong>gungen des Systems kommt. Genau<br />
das ist auch der Fall.<br />
Die Polar-Darstellung der komplexen Zahl z ist aber noch viel leistungsfähiger<br />
als es bislang sche<strong>in</strong>t. Das wird klar, wenn wir versuchen die Potenz<br />
e<strong>in</strong>er komplexen Zahl zu berechnen. In kartesischen Koord<strong>in</strong>aten bekämen<br />
wir als Lösung<br />
t∑<br />
( t<br />
z t = (a + ib) t = a<br />
k)<br />
t−k (ib) k . (2.85)<br />
k=0<br />
In (2.85) wurde der b<strong>in</strong>omische Lehrsatz verwendet, den wir ohne weiteren<br />
Kommentar stehen lassen, da wir nicht die Absicht haben den Ausdruck mühsam<br />
auszurechnen. Im Exponenten steht etwas suggestiv bereits t, was sich<br />
im Anschluss aufklären wird. Wir verwenden stattdessen Polar-Koord<strong>in</strong>aten<br />
<strong>in</strong> Verb<strong>in</strong>dung mit der Eulerschen Formel.<br />
44
2.4. DER AR(2)-PROZESS<br />
E<strong>in</strong>schub: Eulersche Formel<br />
Zwischen den trigonometrischen Funktionen <strong>und</strong> der<br />
Exponentialfunktion besteht folgender Zusammenhang<br />
e iω = cos ω + i s<strong>in</strong> ω.<br />
Der Zusammenhang entsteht aus der Reihenentwicklung<br />
der <strong>in</strong>volvierten Funktion<br />
e iω =<br />
=<br />
∞∑ (iω) k<br />
= 1 + iω − ω k!<br />
2! − iω3 3! + ω4<br />
4! + . . .<br />
k=0<br />
)<br />
)<br />
(1 − ω2<br />
2! + ω4<br />
4! − . . . + i<br />
(ω − ω3<br />
3! + ω5<br />
5! − . . .<br />
= cos ω + i s<strong>in</strong> ω.<br />
Der Ausdruck k! (Fakultät) kann dabei rekursiv def<strong>in</strong>iert<br />
werden<br />
k! = k · (k − 1)! <strong>und</strong> 0! = 1.<br />
Das heißt, wir erhalten für die Potenz e<strong>in</strong>er komplexen Zahl <strong>in</strong> Polar-<br />
Darstellung<br />
z t = r t (cos ω + i s<strong>in</strong> ω) t = r t e iωt = r t( cos[ωt] + i s<strong>in</strong>[ωt] ) . (2.86)<br />
Dieser Ausdruck ist wesentlich e<strong>in</strong>facher zu handhaben <strong>und</strong> er verrät uns<br />
e<strong>in</strong>iges über die Struktur der Schw<strong>in</strong>gungen. Zunächst wird klar, dass die<br />
Schw<strong>in</strong>gungen für r < 1 <strong>in</strong> der Zeit abnehmen (gedämpfte Schw<strong>in</strong>gung) denn<br />
es gilt ja<br />
lim<br />
t→∞ rt = 0 für r < 1. (2.87)<br />
Weiterh<strong>in</strong> können wir die Schw<strong>in</strong>gungszeit (Periode) e<strong>in</strong>er kompletten<br />
Schw<strong>in</strong>gung berechnen. Wir wissen ja, dass e<strong>in</strong> kompletter Zyklus der S<strong>in</strong>usbzw.<br />
Cos<strong>in</strong>usfunktion genau dem Kreisumfang 2π entspricht. Bezeichnet hier<br />
T die Periode erhalten wir durch Gleichsetzen<br />
ωT = 2π ⇒ T = 2π ω . (2.88)<br />
Wir verstehen nun auch besser was mit dem Term<strong>in</strong>us „an die Problemstellung<br />
angepasst“ geme<strong>in</strong>t war. Bei der Berechnung der Schw<strong>in</strong>gungszeit <strong>in</strong><br />
(2.88) wurde implizit ω > 0 angenommen. Diese Annahme ist unproblematisch,<br />
da für S<strong>in</strong>us <strong>und</strong> Cos<strong>in</strong>us mit ω ∈ [−π, π]<br />
cos[−ω] = cos ω <strong>und</strong> s<strong>in</strong>[−ω] = − s<strong>in</strong> ω (2.89)<br />
45
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
gilt. Das heißt nichts anderes, als dass für konjugiert-komplexe Wurzeln<br />
λ 1/2 = a ± ib = r(cos ω ± i s<strong>in</strong> ω) mit ω = arctan<br />
b<br />
∣a∣ (2.90)<br />
gilt. Damit ist ω nicht negativ <strong>und</strong> die Periode T ≥ 0.<br />
Aufgabe 2.10<br />
Gegeben sei der folgende AR(2)-Prozess<br />
mit ɛ t ∼ N(0, σ 2 ).<br />
y t = y t−1 − 1 2 y t−2 + ɛ t<br />
a) Bestimmen Sie die Wurzeln λ 1 <strong>und</strong> λ 2 ,<br />
b) Berechnen Sie die Schw<strong>in</strong>gungsdauer T ,<br />
c) Nach welcher Zeit τ s<strong>in</strong>d die Schw<strong>in</strong>gungen bis<br />
auf 10% ihrer Anfangsamplitude abgeklungen?<br />
2.4.4 Autokovarianz <strong>und</strong> Autokorrelation<br />
Wie im Fall des AR(1)-Prozesses hängt die Autokovarianz bzw. die Autokorrelation<br />
im stationären Fall ausschließlich vom Lag k ab. Wir gehen hier ganz<br />
analog zu (2.20) auf Seite 15 vor um die Yule-Walker-Gleichung abzuleiten<br />
y t = φ 1 y t−1 + φ 2 y t−2 + ɛ t<br />
∣ ∣ · yt−k<br />
⇒ y t y t−k = φ 1 y t−1 y t−k + φ 2 y t−2 y t−k + ɛ t y t−k<br />
∣ ∣E[. . .]<br />
⇒ E[y t y t−k ] = φ 1 E[y t−1 y t−k ] + φ 2 E[y t−2 y t−k ] + E[ɛ t y t−k ]<br />
⇒ γ k = φ 1 γ k−1 + φ 2 γ k−2 .<br />
(2.91)<br />
Für die Autokorrelation ergibt sich e<strong>in</strong>e identische Vorschrift, da lediglich alle<br />
Terme durch γ 0 zu teilen s<strong>in</strong>d. Wir können daher die Yule-Walker-Gleichung<br />
ebenfalls <strong>in</strong> Kurzform als<br />
φ(B)γ k = 0 bzw. φ(B)ρ k = 0 (2.92)<br />
schreiben. Mit (2.92) gew<strong>in</strong>nen wir e<strong>in</strong>e rekursive Gleichung für die Autokovarianz<br />
bzw. die Autokorrelation. Wie gelangen wir aber an e<strong>in</strong>e<br />
explizite Formel <strong>und</strong> müssen wir zwischen reellen <strong>und</strong> imag<strong>in</strong>ären Lösungen<br />
unterscheiden? In e<strong>in</strong>em solchen Fall machen Mathematiker e<strong>in</strong>en „Ansatz“,<br />
46
2.4. DER AR(2)-PROZESS<br />
was nichts anderes heißt, als dass sie raten. Bei e<strong>in</strong>em solchen Ansatz wird<br />
aber nicht bl<strong>in</strong>d irgendetwas geraten, sondern man hat e<strong>in</strong>e Vorstellung<br />
von der Form <strong>und</strong> Struktur der Lösung <strong>und</strong> rät dann e<strong>in</strong>en allgeme<strong>in</strong>en<br />
Lösungstyp, dessen Koeffizienten man durch geschicktes Ausnutzen der<br />
Randbed<strong>in</strong>gungen zu bestimmen versucht. Das hört sich sehr kompliziert<br />
an, ist es aber letztendlich nicht. Wir wollen e<strong>in</strong>mal Schritt für Schritt die<br />
Autokorrelationsfunktion des AR(2)-Prozesses „erraten“.<br />
Zunächst rufen wir uns noch e<strong>in</strong>mal <strong>in</strong>s Gedächtnis, wie die Autokorrelation<br />
des AR(1)-Prozesses aufgebaut war. Im AR(1)-Modell haben wir<br />
zunächst nur e<strong>in</strong>e e<strong>in</strong>zige Wurzel, nämlich λ = φ, was im stationären Fall zur<br />
expliziten Autokorrelation<br />
ρ k = λ k , (2.93)<br />
vgl. (2.23) auf Seite 16, führt. Wir „raten“ nun, dass die Autokorrelation im<br />
AR(2)-Modell aus e<strong>in</strong>er L<strong>in</strong>earkomb<strong>in</strong>ation der Wurzeln besteht<br />
ρ k = A 1 λ k 1 + A 2 λ k 2, (2.94)<br />
mit den Koeffizienten A 1 , A 2 ∈ R. Wir nehmen zunächst an, dass λ 1 ≠ λ 2<br />
gilt. Für k = 0, 1 erhält man das l<strong>in</strong>eare Gleichungssystem<br />
( ) ( ) ( )<br />
1 1 A1 ρ0<br />
= . (2.95)<br />
λ 2 A 2 ρ 1<br />
λ 1<br />
Für die Autokorrelation mit Lag 0 gilt def<strong>in</strong>itionsgemäß ρ 0 = 1. Die Autokorrelation<br />
mit Lag 1 kann mit e<strong>in</strong>em kle<strong>in</strong>en Trick berechnet werden, <strong>in</strong>dem<br />
man den Zusammenhang ρ 1 = ρ −1 ausnutzt <strong>und</strong> die Yule-Walker-Gleichung<br />
(2.92) beg<strong>in</strong>nend mit k = 1 anschreibt<br />
ρ 1 = φ 1 + φ 2 ρ 1 ⇒ ρ 1 = φ 1<br />
1 − φ 2<br />
. (2.96)<br />
Damit erhalten wir die Koeffizienten des Ansatzes (2.94) durch Lösen des<br />
l<strong>in</strong>earen Gleichungssystems<br />
(<br />
A1<br />
)<br />
=<br />
A 2<br />
( ) −1 ( )<br />
1 1 1<br />
φ<br />
λ 1 λ 1<br />
. (2.97)<br />
2 1−φ 2<br />
Die Inverse Matrix <strong>in</strong> (2.97) existiert <strong>in</strong> jedem Fall, wenn λ 1 ≠ λ 2 gilt, <strong>und</strong><br />
man erhält explizit<br />
A 1/2 = ± λ 2/1 − φ 1<br />
1−φ 2<br />
. (2.98)<br />
λ 2 − λ 1<br />
47
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Allerd<strong>in</strong>gs war für die Koeffizienten gefordert, dass Sie <strong>in</strong> der Menge der<br />
reellen Zahlen liegen. Daher ist diese Lösung nur für λ 1 , λ 2 ∈ R brauchbar.<br />
Als nächstes machen wir uns klar, dass e<strong>in</strong>e Lösung mit komplexen Wurzeln<br />
auch den Fall λ 1 = λ 2 umfasst, da jede reelle Zahl auch Element der<br />
komplexen Zahlen ist, wobei lediglich der Imag<strong>in</strong>ärteil null ist. Aus dieser<br />
Überlegung folgt, dass wir mit e<strong>in</strong>er Lösung für komplexe Wurzeln automatisch<br />
auch die Lösung für identische reelle Wurzeln gef<strong>und</strong>en haben. Wir<br />
gehen zweckmäßigerweise wieder zu Polar-Koord<strong>in</strong>aten über<br />
ρ k = A 1 r k (cos ω + i s<strong>in</strong> ω) k + A 2 r k (cos ω − i s<strong>in</strong> ω) k<br />
= A 1 r k e iωk + A 2 r k e −iωk<br />
= (A 1 + A 2 )r k cos[ωk] + i(A 1 − A 2 )r k s<strong>in</strong>[ωk]<br />
(2.99)<br />
Wir wissen, dass die Autokorrelation selbst e<strong>in</strong>e reelle Größe ist, oder allgeme<strong>in</strong>er<br />
formuliert, e<strong>in</strong>e komplexe Größe mit Imag<strong>in</strong>ärteil null. Dieses Wissen<br />
schöpfen wir nun aus, um etwas über die Koeffizienten zu erfahren<br />
Im[ρ k ] = (A 1 − A 2 )r k s<strong>in</strong>[ωk] = 0. (2.100)<br />
Da A 1 <strong>und</strong> A 2 reell s<strong>in</strong>d folgt aus (2.100) unmittelbar A 1 = A 2 = A. Damit<br />
vere<strong>in</strong>facht sich die Korrelationsgleichung (2.99) bereits drastisch <strong>und</strong> wir<br />
erhalten<br />
ρ k = 2Ar k cos[ωk]. (2.101)<br />
Um den verbleibenden Koeffizienten A zu determ<strong>in</strong>ieren, nutzen wir wieder<br />
die Autokorrelation mit Lag null, woraus <strong>in</strong> Verb<strong>in</strong>dung mit (2.101)<br />
ρ 0 = 2A = 1 ⇒ A = 1 2<br />
(2.102)<br />
folgt. Damit können wir explizit die Autokorrelation mit Lag k <strong>in</strong> kartesischen<br />
sowie <strong>in</strong> Polar-Koord<strong>in</strong>aten angeben<br />
ρ k = 1 2(<br />
λ<br />
k<br />
1 + λ k 2)<br />
= r k cos[ωk]. (2.103)<br />
Für λ 1 = λ 2 = λ führt Gleichung (2.103) wieder auf die Autokorrelationsfunktion<br />
des AR(1)-Prozesses<br />
ρ k = λ k , (2.104)<br />
vgl. (2.23) auf Seite 16. In der Tat ist e<strong>in</strong> solcher Prozess nicht anhand se<strong>in</strong>er<br />
Korrelationsstruktur von e<strong>in</strong>em AR(1)-Prozess mit φ = λ unterscheidbar.<br />
48
2.4. DER AR(2)-PROZESS<br />
Abbildung 2.9: ACF <strong>und</strong> PACF des AR(2)-Prozesses mit φ 1 = 1 <strong>und</strong> φ 2 = −0.5<br />
Die partielle Autokorrelation ergibt sich wieder aus der Lösung des<br />
bekannten Gleichungssystems (2.24) auf Seite 17. Hier ergibt sich nichts<br />
Neues, die PACF beseitigt die „Interferenzen“ zwischen den ersten beiden<br />
Lags <strong>und</strong> die „Echos“ für k > 2. Abbildung 2.9 zeigt die Autokorrelationsfunktion<br />
(l<strong>in</strong>ks) <strong>und</strong> die partielle Autokorrelationsfunktion (rechts) des<br />
AR(2)-Prozesses aus Aufgabe 2.10 auf Seite 46. Die PACF offenbart die<br />
isolierten E<strong>in</strong>flüsse der AR-Quellen.<br />
Aufgabe 2.11<br />
Gegeben sei der AR(2)-Prozess<br />
y t = 0.2y t−1 + 0.35y t−2 + ɛ t .<br />
Überprüfen Sie die Stationarität <strong>und</strong> geben Sie die<br />
Korrelationsfunktion für beliebiges Lag k an.<br />
Aufgabe 2.12<br />
Für den AR(2)-Prozess aus Aufgabe 2.10 auf Seite<br />
46 haben wir die Wurzeln (<strong>in</strong>verted roots)<br />
λ 1/2 = 1 2 ± i1 2<br />
errechnet. Ermitteln Sie die Autokorrelationen ρ 2<br />
<strong>und</strong> ρ 4 für diesen Prozess.<br />
49
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
2.4.5 Parameterschätzung<br />
Die Parameterschätzung im AR(2)-Modell hält ke<strong>in</strong>e großen Überraschungen<br />
bereit, es gelten weiterh<strong>in</strong> die Schätzer (2.29) bis (2.32) auf Seite 21 für die<br />
Stationären Momente.<br />
Der Kle<strong>in</strong>ste-Quadrate Schätzer für die „Regressionskoeffizienten“ des<br />
AR(2)-Modells entsteht nun aus der Bed<strong>in</strong>gung<br />
m<strong>in</strong><br />
T∑<br />
ɛ 2 t = m<strong>in</strong><br />
t=3<br />
T∑<br />
(y t − θ 0 − φ 1 y t−1 − φ 2 y t−2 ) 2 . (2.105)<br />
t=3<br />
Daraus leitet sich für den Parametervektor θ = (θ 0 , φ 1 , φ 2 ) ′ abermals der<br />
Schätzer (2.42) von Seite 27<br />
ˆθ = (X ′ X) −1 X ′ y (2.106)<br />
ab, wobei nun für den Vektor y <strong>und</strong> die Matrix X<br />
⎛ ⎞<br />
⎛<br />
⎞<br />
y t<br />
1 y t−1 y t−2<br />
y t−1<br />
y = ⎜ ⎟<br />
⎝ . ⎠ <strong>und</strong> X = 1 y t−2 y t−3<br />
⎜<br />
⎟<br />
⎝.<br />
. . ⎠<br />
y 3 1 y 2 y 1<br />
(2.107)<br />
gilt.<br />
2.5 AR(p)-Prozesse<br />
Der AR(p)-Prozess ist die natürlichen Erweiterung der bisher behandelten<br />
AR(1)- <strong>und</strong> AR(2)-Prozesse. Er wird im Allgeme<strong>in</strong>en effizient <strong>in</strong> Operatorschreibweise<br />
notiert<br />
φ(B)y t = y t − φ 1 y t−1 − . . . − φ p y t−p = ɛ t . (2.108)<br />
Die Analyse von AR(p)-Prozessen wird mit wachsender Ordnung p schnell<br />
sehr komplex <strong>und</strong> ist <strong>in</strong> der Regel nur durch den E<strong>in</strong>satz spezieller Software<br />
möglich. Der Gr<strong>und</strong> hierfür wird schnell klar, wenn die Stationaritätseigenschaften<br />
des Prozesses betrachtet werden.<br />
50
2.5.1 Stationarität des AR(p)-Prozesses<br />
2.5. AR(P)-PROZESSE<br />
Wie <strong>in</strong> den vorangegangenen Beispielen stecken auch hier alle Informationen<br />
zum Auff<strong>in</strong>den der Wurzeln des Prozesses im Operator φ(B). Nach E<strong>in</strong>setzen<br />
der Variable z erhalten wir wieder das charakteristische Polynom<br />
φ(z) = 1 − φ 1 z − φ 2 z 2 − . . . − φ p z p . (2.109)<br />
Verwenden wir die Darstellung mit „<strong>in</strong>verted roots“ λ = z −1 , erhalten wir die<br />
Wurzeln des AR(p)-Prozesses aus der Gleichung<br />
λ p − φ 1 λ p−1 − . . . − φ p−1 λ − φ p = 0. (2.110)<br />
(2.110) ist e<strong>in</strong>e polynomiale Gleichung n-ter Ordnung. Sie kann für n > 4<br />
nur numerisch gelöst werden. Es können sowohl komplexe wie reelle Wurzeln<br />
auftreten, komplexe Wurzeln kommen jedoch nur als konjugiert komplexe<br />
Paare z k/k+1 = a ± ib mit 1 ≤ k < p vor.<br />
E<strong>in</strong> AR(p)-Prozess ist stationär, wenn alle Wurzeln z 1 , . . . , z p außerhalb<br />
des komplexen E<strong>in</strong>heitskreises liegen.<br />
Äquivalent kann wieder gefordert werden, dass alle <strong>in</strong>versen Wurzeln<br />
λ 1 , . . . , λ p <strong>in</strong>nerhalb des komplexen E<strong>in</strong>heitskreises liegen müssen. In der Praxis<br />
ist es oft e<strong>in</strong> Problem zu entscheiden, ob e<strong>in</strong> vorgelegter Prozess stationär<br />
ist oder nicht. Wir haben bereits beim AR(2)-Prozess gesehen, dass die Wurzeln<br />
<strong>in</strong> komplizierter Weise von den AR-Parametern abhängen, vgl. Gleichung<br />
(2.77) auf Seite 40. In praktischen Anwendungen s<strong>in</strong>d die wahren Parameter<br />
jedoch <strong>in</strong> der Regel unbekannt <strong>und</strong> müssen geschätzt werden. Die Konsequenz<br />
ist, dass die Wurzeln des Prozesses ebenfalls nur geschätzt werden können. Es<br />
werden dann häufig sog. „unit root“ Tests verwendet, die auf statistischem<br />
Wege klären sollen, ob e<strong>in</strong>e oder mehrere Wurzeln des Prozesses auf dem<br />
komplexen E<strong>in</strong>heitskreis liegen könnten.<br />
2.5.2 Autokovarianz <strong>und</strong> Autokorrelation<br />
Auch hier stellen AR(p)-Prozesse nur e<strong>in</strong>e Verallgeme<strong>in</strong>erung der bisher<br />
vorgestellten AR(1)- <strong>und</strong> AR(2)-Prozesse dar. Autokovarianz <strong>und</strong> Autokorrelation<br />
hängen weiterh<strong>in</strong> ausschließlich vom Lag k ab. Die Yule-Walker-<br />
Gleichungen können ebenfalls analog durch Multiplikation mit y t−k <strong>und</strong> anschließende<br />
Erwartungswertbildung hergeleitet werden, vgl. (2.91) auf Seite<br />
46. Wir erhalten wiederum <strong>in</strong> Kurzform<br />
φ(B)γ k = 0 bzw. φ(B)ρ k = 0. (2.111)<br />
51
KAPITEL 2. AR-PROZESSE UND ELEMENTARES<br />
Abbildung 2.10: ACF <strong>und</strong> PACF e<strong>in</strong>es AR(4)-Prozesses mit φ 1 = 0.6, φ 2 = 0.3,<br />
φ 3 = −0.4 <strong>und</strong> φ 4 = 0.2<br />
E<strong>in</strong> Ansatz für die explizite Berechnung der Autokorrelation kann wieder<br />
über e<strong>in</strong>e L<strong>in</strong>earkomb<strong>in</strong>ation der Wurzeln gebildet werden. Man erhält<br />
ρ k =<br />
p∑<br />
A j λ k j , (2.112)<br />
j=1<br />
mit den Koeffizienten A 1 , . . . , A p ∈ R. Hier liegt erneut e<strong>in</strong>e polynomiale<br />
Gleichung p-ten Grades mit unbekannten Koeffizienten vor. Die Lösung lässt<br />
sich daher nicht so e<strong>in</strong>fach bestimmen wie im Fall des AR(2)-Prozesses.<br />
Die partiellen Autokorrelationen werden wieder aus dem Gleichungssystem<br />
(2.24) auf Seite 17 gewonnen, wenn die Autokorrelationen vorliegen.<br />
Abbildung 2.10 zeigt exemplarisch die Autokorrelation (l<strong>in</strong>ks) <strong>und</strong> die partielle<br />
Autokorrelation (rechts) für e<strong>in</strong>en AR(4)-Prozess. Solche Prozesse werden<br />
häufig verwendet um saisonale Schwankungen <strong>in</strong> Quartalsdaten zu modellieren.<br />
Die gr<strong>und</strong>legenden Charakteristiken e<strong>in</strong>es AR-Prozesses bleiben offensichtlich<br />
auch für Prozesse höherer Ordnung erhalten. Die partielle Autokorrelation<br />
fällt für Lags k > p augenblicklich auf null ab. Die Autokorrelation<br />
selbst kl<strong>in</strong>gt exponentiell ab. Offenbar wird <strong>in</strong> diesem Fall das Abfallen der<br />
Autokorrelation mit e<strong>in</strong>er Schw<strong>in</strong>gung überlagert, was auf komplexe Wurzeln<br />
des Prozesses h<strong>in</strong>deutet.<br />
2.5.3 Parameterschätzung<br />
Die Parameter des AR(p)-Prozesses können wieder mit der Methode der<br />
kle<strong>in</strong>sten Quadrate geschätzt werden. Das M<strong>in</strong>imierungsproblem lautet nun<br />
52<br />
m<strong>in</strong><br />
T∑<br />
t=p+1<br />
ɛ 2 t = m<strong>in</strong><br />
T∑<br />
(y t − θ 0 − φ 1 y t−1 − . . . − φ p y t−p ) 2 . (2.113)<br />
t=p+1
2.5. AR(P)-PROZESSE<br />
Für den Parametervektor θ = (θ 0 , φ 1 , . . . , φ p ) ′ gilt wieder der KQ-Schätzer<br />
(2.42) von Seite 27<br />
ˆθ = (X ′ X) −1 X ′ y, (2.114)<br />
wobei der Vektor y <strong>und</strong> die Matrix X durch<br />
⎛ ⎞<br />
⎛<br />
⎞<br />
y t<br />
1 y t−1 . . . y t−p<br />
y t−1<br />
y = ⎜ ⎟<br />
⎝ . ⎠ <strong>und</strong> X = 1 y t−2 . . . y t−p−1<br />
⎜<br />
⎝<br />
.<br />
. . ..<br />
⎟ . ⎠<br />
y p+1 1 y p . . . y 1<br />
(2.115)<br />
gegeben s<strong>in</strong>d. Für AR-Modelle höherer Ordnung müssen also umfangreiche<br />
Matrizen berechnet <strong>und</strong> <strong>in</strong>vertiert werden, was <strong>in</strong> der Praxis ebenfalls mit<br />
speziellen Computerprogrammen durchgeführt wird.<br />
Die Schätzfunktionen für die stationären Momente, (2.29) bis (2.32) auf<br />
Seite 21, gelten auch weiterh<strong>in</strong> une<strong>in</strong>geschränkt für AR(p)-Prozesse.<br />
53
3<br />
MA-Prozesse<br />
Im vorangegangenen Kapitel wurden die Eigenschaften von AR-Prozessen<br />
ausführlich diskutiert. Bei der AR-Formulierung steht e<strong>in</strong> quasi lokaler Beschreibungsansatz<br />
im Vordergr<strong>und</strong>. Der aktuelle Systemzustand wird durch<br />
e<strong>in</strong>e beschränkte Anzahl vergangener Systemzustände (beim AR(p)-Prozess<br />
exakt durch p vergangene Zustände) erklärt, wobei noch e<strong>in</strong> aktueller<br />
Zufallse<strong>in</strong>fluss h<strong>in</strong>zu addiert wird. Es existiert jedoch noch e<strong>in</strong> alternativer<br />
Formulierungsansatz, der als global oder separiert charakterisiert werden<br />
könnte. Wir steigen <strong>in</strong> diese Thematik mit e<strong>in</strong>em zentralen Theorem e<strong>in</strong>,<br />
das die Konstruktionsidee dieses Ansatzes sehr schön verdeutlicht.<br />
Theorem 3.1: Wold-Zerlegung<br />
Jeder kovarianzstationäre Prozess kann <strong>in</strong> e<strong>in</strong>e l<strong>in</strong>eare determ<strong>in</strong>istische<br />
Komponente <strong>und</strong> e<strong>in</strong>e re<strong>in</strong> stochastische Komponente<br />
zerlegt werden<br />
∞∑<br />
x t = κ t + ψ k ɛ t−k ,<br />
mit<br />
ψ 0 = 1<br />
<strong>und</strong><br />
k=0<br />
∞∑<br />
ψk 2 < ∞.<br />
Der Term κ t ist der re<strong>in</strong> determ<strong>in</strong>istische Anteil, der sowohl aus<br />
e<strong>in</strong>em konstanten Mittelwert als auch aus e<strong>in</strong>em l<strong>in</strong>earen, polynomialen,<br />
exponentiellen oder zyklischen Trend bestehen kann. Er<br />
ist für alle k = 0, . . . , ∞ von der Rauschkomponente ɛ t−k unabhängig.<br />
Die Separation zwischen systematischen (determ<strong>in</strong>istischen) E<strong>in</strong>flüssen <strong>und</strong><br />
re<strong>in</strong>em Zufallsrauschen wird hier global über die gesamte Historie des Prozesses<br />
vollzogen. Die Quadratsummenrestriktion für die Koeffizienten ψ k ist<br />
k=0<br />
55
KAPITEL 3. MA-PROZESSE<br />
e<strong>in</strong>e technische Bed<strong>in</strong>gung, die gewährleisten soll, dass die Varianz des Prozesses<br />
endlich bleibt, vorausgesetzt die Varianz des Zufallsfehlers ɛ t ist selbst<br />
endlich. Wir werden nun zeigen, dass die AR-Prozesse aus dem letzten Kapitel<br />
e<strong>in</strong>e alternative MA-Darstellung besitzen, die durch die Wold-Zerlegung<br />
vermittelt wird.<br />
3.1 AR(1)- <strong>und</strong> MA(∞)-Darstellung<br />
Wir nehmen nun an, dass der l<strong>in</strong>eare systematische Anteil κ t der Wold-<br />
Zerlegung lediglich aus e<strong>in</strong>em konstanten Mittelwert µ besteht. Wir erhalten<br />
dann gemäß Theorem 3.1 auf der vorherigen Seite<br />
∞∑<br />
x t − µ = y t = ψ k ɛ t−k . (3.1)<br />
Weiterh<strong>in</strong> sei e<strong>in</strong> stationärer AR(1)-Prozess gegeben, der mit Hilfe se<strong>in</strong>es<br />
Lag-Polynoms <strong>in</strong> der Form<br />
k=0<br />
(1 − φ 1 B)y t = ɛ t (3.2)<br />
geschrieben werden kann, vgl. (2.70) auf Seite 39. Da der AR(1)-Prozess<br />
stationär ist <strong>und</strong> daher |φ 1 | < 1 gilt, kann der Faktor 1 − φ 1 B auf die rechte<br />
Seite gebracht <strong>und</strong> <strong>in</strong> e<strong>in</strong>e geometrische Reihe entwickelt werden<br />
y t =<br />
1<br />
1 − φ 1 B ɛ t = (1 + φ 1 B + φ 2 1B 2 + . . .)ɛ t =<br />
∞∑<br />
φ k 1ɛ t−k . (3.3)<br />
E<strong>in</strong> Vergleich der Koeffizienten <strong>in</strong> (3.1) <strong>und</strong> (3.3) zeigt, dass offenbar ψ k = φ k 1<br />
gilt. Der AR(1)-Prozess lässt sich also <strong>in</strong> e<strong>in</strong>e Wold-Darstellung umschreiben.<br />
Allgeme<strong>in</strong>er vere<strong>in</strong>bart man die Mov<strong>in</strong>g Average (MA) Darstellung<br />
k=0<br />
y t = ɛ t + θ 1 ɛ t−1 + . . . + θ q ɛ t−q . (3.4)<br />
Der AR(1)-Prozess besitzt also e<strong>in</strong>e äquivalente MA(∞)-Darstellung mit<br />
θ k = φ k 1.<br />
3.2 Der MA(1)-Prozess<br />
MA-Prozesse stellen e<strong>in</strong>e selbständige Prozessklasse dar, die auch losgelöst<br />
von der Wold-Zerlegung formuliert <strong>und</strong> analysiert werden kann. Das e<strong>in</strong>fachste<br />
Mitglied dieser Klasse ist der MA(1)-Prozess, der ähnlich wie der<br />
AR(1)-Prozess <strong>in</strong> Operatorschreibweise notiert werden kann<br />
56<br />
y t = ɛ t + θ 1 ɛ t−1 = (1 + θ 1 B)ɛ t = θ(B)ɛ t . (3.5)
3.2. DER MA(1)-PROZESS<br />
Der Fehlerterm wird hier unabhängig <strong>und</strong> identisch verteilt angenommen, mit<br />
endlicher Varianz σ 2 . Der MA-Operator wird <strong>in</strong> allgeme<strong>in</strong>er Form analog zum<br />
AR-Operator (2.67) auf Seite 38 def<strong>in</strong>iert als<br />
θ(B) = 1 +<br />
q∑<br />
θ k B k , (3.6)<br />
was im Fall des MA(1)-Modells gerade zur Darstellung (3.5) führt.<br />
Für e<strong>in</strong>en beliebigen vorgelegten MA(1)-Prozess ergeben sich nun zwei<br />
<strong>in</strong>teressante Fragen. Erstens, ist der MA(1)-Prozess stationär? Zweitens, besitzt<br />
er e<strong>in</strong>e äquivalente AR-Darstellung? Wir werden die Frage nach der<br />
Stationarität hier auf die Kovarianzstationarität beschränken; zum e<strong>in</strong>en, da<br />
wir den Fehlerterm <strong>in</strong> der Regel als normalverteilt annehmen, zum anderen<br />
wurde <strong>in</strong> der Wold-Zerlegung (Theorem 3.1 auf Seite 55) lediglich dieses<br />
Kriterium gefordert. Kovarianzstationarität ist gegeben, wenn die ersten beiden<br />
Momente sowie die Autokovarianzfunktion nicht von der Zeit, respektive<br />
lediglich vom Lag abhängen. Für den Erwartungswert gilt<br />
k=1<br />
E[y t ] = E[ɛ t + θ 1 ɛ t−1 ] = E[ɛ t ] + θ 1 E[ɛ t−1 ] = 0. (3.7)<br />
Da die Fehler per Def<strong>in</strong>ition vone<strong>in</strong>ander unabhängig s<strong>in</strong>d, ergibt sich die<br />
Varianz als<br />
Var[y t ] = Var[ɛ t ] + θ 2 1Var[ɛ t−1 ] = (1 + θ 2 1)σ 2 . (3.8)<br />
Beide Momente (3.7) <strong>und</strong> (3.8) hängen damit nicht von der Zeit oder der<br />
Zeitverschiebung ab. Für die Kovarianzfunktion mit Lag 1 erhalten wir<br />
Cov[y t , y t−1 ] = E[y t y t−1 ] = E[ɛ t ɛ t−1 + θ 1 ɛ t ɛ t−2 + θ 1 ɛ 2 t−1 + θ 2 1ɛ t−1 ɛ t−2 ]<br />
= θ 1 Var[ɛ t−1 ] = θ 1 σ 2 .<br />
(3.9)<br />
Für Lags k > 1 ist unmittelbar aus (3.9) ersichtlich, dass die Kovarianz null<br />
ist, da ke<strong>in</strong>e zeitliche Überschneidung der Fehlerterme mehr zustande kommt.<br />
Die allgeme<strong>in</strong>e Kovarianzfunktion ist deshalb<br />
⎧<br />
⎪⎨ (1 + θ1)σ 2 2 für k = 0<br />
γ k = θ 1 σ<br />
⎪⎩<br />
2 für k = 1<br />
(3.10)<br />
0 für k > 1.<br />
Wir können zusammenfassen, dass alle Momente endlich s<strong>in</strong>d <strong>und</strong> nicht von<br />
der Zeit t abhängen. Die Kovarianzfunktion γ k hängt lediglich vom Lag k ab,<br />
daher ist der MA(1)-Prozess <strong>in</strong> jedem Fall stationär, <strong>und</strong> zwar unabhängig<br />
von der Wahl des Koeffizienten θ 1 .<br />
57
KAPITEL 3. MA-PROZESSE<br />
Die zweite Frage war nun, ob der MA(1)-Prozess e<strong>in</strong>e äquivalente<br />
AR-Darstellung besitzt. Es spricht e<strong>in</strong>iges dafür, beispielsweise, dass e<strong>in</strong><br />
stationärer AR(1)-Prozess e<strong>in</strong>e äquivalente MA-Darstellung besitzt. Im<br />
umgekehrten Fall hatten wir den AR-Operator auf die andere Seite der Gleichung<br />
gebracht <strong>und</strong> <strong>in</strong> e<strong>in</strong>e geometrische Reihe entwickelt. Der Gedanke liegt<br />
nahe dasselbe mit Gleichung (3.5) zu tun. Dazu muss aber gefordert werden,<br />
dass |θ 1 | < 1 gilt, da sonst die benötigte Reihenentwicklung nicht möglich ist.<br />
Im Fall des AR(1)-Prozesses war die Bed<strong>in</strong>gung |φ 1 | < 1 automatisch erfüllt,<br />
da Stationarität gefordert wurde. Der MA(1)-Prozess ist h<strong>in</strong>gegen immer<br />
stationär. Hier wird die notwendige Restriktion des MA-Koeffizienten als<br />
Invertierbarkeit bezeichnet. E<strong>in</strong> MA(1)-Prozess besitzt also e<strong>in</strong>e alternative<br />
AR-Darstellung, wenn er <strong>in</strong>vertierbar ist. Die Berechnung dieser Form<br />
steht als Aufgabe am Ende dieses Abschnitts zur Verfügung. Wir wollen<br />
zunächst zeigen, dass diese Bed<strong>in</strong>gung <strong>in</strong> der Praxis e<strong>in</strong>e gewissermaßen<br />
schwächere E<strong>in</strong>schränkung darstellt als die Stationaritätsforderung an den<br />
AR(1)-Prozess.<br />
Wir berechnen zunächst die Autokorrelation des MA(1)-Prozesses<br />
ρ 1 = γ 1<br />
= θ 1<br />
. (3.11)<br />
γ 0 1 + θ1<br />
2<br />
Gleichung (3.11) gilt für alle möglichen Werte des Parameters θ 1 . Weiterh<strong>in</strong><br />
bleibt die Autokorrelationsfunktion unverändert, wenn an Stelle von θ 1 der<br />
Kehrwert 1/θ 1 e<strong>in</strong>gesetzt wird. Diese Behauptung ersche<strong>in</strong>t zunächst völlig<br />
kontra<strong>in</strong>tuitiv. Nachrechnen zeigt jedoch<br />
ρ 1 =<br />
1<br />
θ 1<br />
1 + 1<br />
θ 2 1<br />
=<br />
θ 2 1 ·<br />
θ1 2 · 1<br />
θ<br />
( 1<br />
) = θ 1<br />
1 + 1 θ 2<br />
θ1<br />
2 1 + 1 . (3.12)<br />
Das bedeutet, jeder nicht-<strong>in</strong>vertierbare MA(1)-Prozess mit |θ 1 | > 1 besitzt e<strong>in</strong><br />
Gegenstück oder e<strong>in</strong>en Zwill<strong>in</strong>gsprozess, der über dieselbe Autokorrelationsstruktur<br />
verfügt <strong>und</strong> <strong>in</strong>vertierbar ist.<br />
58
3.2. DER MA(1)-PROZESS<br />
Aufgabe 3.1<br />
Gegeben sei der MA(1)-Prozess<br />
mit<br />
y t = θ(B)ɛ t = (1 + θ 1 B)ɛ t ,<br />
|θ 1 | < 1 <strong>und</strong> ɛ t ∼ N(0, σ 2 ).<br />
Leiten Sie die AR-Representation des<br />
MA(1)-Prozesses her.<br />
3.2.1 Parameterschätzung<br />
Die Parameterschätzung wird für MA-Modelle <strong>in</strong> der Regel mit der<br />
Maximum-Likelihood-Methode durchgeführt. Genauer wird meist die logarithmierte<br />
bed<strong>in</strong>gte Likelihood Funktion maximiert. Wir werden hier das<br />
Pr<strong>in</strong>zip exemplarisch Schritt für Schritt am MA(1)-Modell<br />
y t = θ 0 + ɛ t + θ 1 ɛ t−1 (3.13)<br />
nachvollziehen. Die Konstante θ 0 stellt hier den Mittelwert dar. Sie wurde<br />
e<strong>in</strong>gefügt, um die Notation h<strong>in</strong>sichtlich der Parameterschätzung <strong>in</strong> AR-<br />
Modellen zu vere<strong>in</strong>heitlichen.<br />
Ausgangspunkt für die ML-Schätzung ist die bed<strong>in</strong>gte Dichte von y t , vgl.<br />
(2.45) auf Seite 30. Hier muss jedoch auf ɛ t−1 bed<strong>in</strong>gt werden, da e<strong>in</strong>e MA-<br />
Spezifikation vorliegt. Bei normalverteilten Fehlertermen ergibt sich die bed<strong>in</strong>gte<br />
Dichte<br />
1<br />
p(y t |ɛ t−1 ) = √ 1 (y t −θ 0 −θ 1 ɛ t−1 ) 2<br />
2πσ<br />
2 e− 2 σ 2 . (3.14)<br />
Die Frage lautet nun, wie kann ɛ t−1 ermittelt werden, wenn für gewöhnlich<br />
nur die Zeitreihe (y t ) t=1,...,T bekannt ist? Wir nehmen e<strong>in</strong>mal an, der nullte<br />
Fehlerterm sei bekannt <strong>und</strong> setzen ɛ 0 = 0. Wir erkennen sofort, dass daraus<br />
ɛ 1 = y 1 − θ 0 (3.15)<br />
folgt. Damit ist ɛ 1 ebenfalls bekannt, <strong>und</strong> das selbe Argument kann rekursiv<br />
e<strong>in</strong>gesetzt werden. Man erhält<br />
ɛ t = y t − θ 0 − θ 1 ɛ t−1 . (3.16)<br />
59
KAPITEL 3. MA-PROZESSE<br />
Iterieren von (3.16) <strong>und</strong> beachten der Anfangsbed<strong>in</strong>gung ɛ 0 = 0, führt zu<br />
e<strong>in</strong>er expliziten Formel für ɛ t ,<br />
∑t−1<br />
ɛ t = (−1) k θ1(y k t−k − θ 0 ). (3.17)<br />
k=0<br />
Theoretisch lassen sich die Fehlerterme ɛ t bequem rekursiv berechnen,<br />
was können wir also aus der expliziten Formel lernen? Rufen wir uns<br />
zunächst noch e<strong>in</strong>mal <strong>in</strong>s Gedächtnis, dass der MA(1)-Prozess <strong>in</strong> jedem Fall<br />
stationär ist, also auch für |θ 1 | > 1. Ist das der Fall, wirkt sich die Wahl<br />
der Anfangsbed<strong>in</strong>gung mit zunehmender Zeit immer stärker auf ɛ t aus. Um<br />
das zu erkennen machen wir uns klar, dass der letzte Term der Summe <strong>in</strong><br />
(3.17) den Fehler ɛ 1 enthält. E<strong>in</strong>setzen von (3.15) liefert für diesen f<strong>in</strong>alen<br />
Term (−1) t−1 θ1 t−1 ɛ 1 . Der Fehler ɛ 1 berechnet sich aber genaugenommen<br />
aus ɛ 1 = y 1 − θ 0 − θ 1 ɛ 0 . Zusammenfassend schließt man also, dass der<br />
Fehler, der aufgr<strong>und</strong> der willkürlichen Festsetzung von ɛ 0 <strong>in</strong> die Berechnung<br />
von ɛ t e<strong>in</strong>fließt, mit θ1 t potenziert wird. Ist |θ 1 | < 1, verliert dieser Fehler<br />
immer mehr an Gewicht <strong>und</strong> verschw<strong>in</strong>det für große t. Für |θ 1 | > 1 s<strong>in</strong>d<br />
die Folgen jedoch fatal. Die bed<strong>in</strong>gten Wahrsche<strong>in</strong>lichkeitsdichten werden<br />
zunehmend falsch <strong>und</strong> die vorgeschlagene ML-Schätzung ist nicht anwendbar.<br />
Wir gehen daher im Folgenden davon aus, dass der vorgelegte MA-Prozess<br />
<strong>in</strong>vertierbar ist, wodurch eben genau |θ 1 | < 1 sichergestellt wird. Die logarithmierte<br />
Likelihoodfunktion ergibt sich dann zu<br />
l(θ 0 , θ 1 , σ 2 ) =<br />
T∑<br />
t=1<br />
log p(y t |ɛ t−1 ) = − T 2 log[2πσ2 ] − 1<br />
2σ 2<br />
T∑<br />
ɛ 2 t , (3.18)<br />
t=1<br />
vgl. (2.46) auf Seite 30. Diese Funktion muss numerisch maximiert werden.<br />
Die dazu notwendigen Verfahren, wie Newton-Raphson-Algorithmus oder<br />
Scor<strong>in</strong>g-Verfahren s<strong>in</strong>d nicht Gegenstand dieser Vorlesung, sondern e<strong>in</strong> eigener<br />
Bereich der numerischen Mathematik.<br />
60
3.3. MA(Q)-PROZESSE<br />
Aufgabe 3.2<br />
Gegeben sei die stationäre Zeitreihe<br />
(y t ) t=1,...,6 = {2, 3, 0, −2, 1, −2}.<br />
Nehmen Sie an, dass die Zeitreihe von dem MA(1)-<br />
Prozess<br />
y t = ɛ t + θɛ t−1 ,<br />
mit ɛ 0 = 0 erzeugt wurde. Geben Sie die logarithmierte<br />
Likelihoodfunktion an für<br />
a) θ = σ 2 = 1 2 ,<br />
b) θ = 1 4 <strong>und</strong> σ2 = 1.<br />
3.3 MA(q)-Prozesse<br />
MA(q)-Prozesse s<strong>in</strong>d die natürliche Erweiterung des MA(1)-Prozesses, genau<br />
wie der AR(1)-Prozess im vorigen Kapitel auf AR(p)-Prozesse erweitert<br />
wurde. Sie notieren allgeme<strong>in</strong> <strong>in</strong> Operatorschreibweise<br />
mit dem MA-Operator<br />
y t = θ(B)ɛ t , (3.19)<br />
θ(B) = 1 +<br />
q∑<br />
θ k B k . (3.20)<br />
Dies ist völlig analog zum AR-Operator (2.67) auf Seite 38. Wir werden<br />
<strong>in</strong> diesem Abschnitt e<strong>in</strong>ige allgeme<strong>in</strong>e Eigenschaften von MA-Prozessen zusammentragen,<br />
die lediglich e<strong>in</strong>e Generalisierung der MA(1)-Eigenschaften<br />
darstellen. Da MA-Prozesse ihre Hauptwirkung als Bestandteil der zusammengesetzten<br />
ARMA-Klasse entfalten, wird an dieser Stelle auf detailierte<br />
Beweise verzichtet. Der <strong>in</strong>teressierte Leser sei auf das Hauptskript <strong>und</strong> die<br />
dar<strong>in</strong> zitierte Literatur verwiesen.<br />
k=1<br />
3.3.1 Autokovarianz <strong>und</strong> Autokorrelation<br />
Analog zur Argumentation im MA(1)-Fall lässt sich die Varianz, respektive<br />
die Autokovarianz, durch Auswertung der Gleichung<br />
γ k = Cov[y t , y t−k ] = E[y t y t−k ] (3.21)<br />
61
KAPITEL 3. MA-PROZESSE<br />
Abbildung 3.1: ACF <strong>und</strong> PACF des MA(2)-Prozesses mit θ 1 = 0.5 <strong>und</strong> θ 2 = 0.8<br />
bestimmen, vgl. (3.8) <strong>und</strong> (3.9) auf Seite 57. Beachten Sie, dass Cov[y t , y t ] =<br />
Var[y t ] gilt. Man erhält explizit<br />
⎧(<br />
⎪⎨<br />
1 + ∑ )<br />
q<br />
j=1 θ2 j σ 2 für k = 0<br />
(<br />
γ k = θ k + ∑ )<br />
q−k<br />
j=1<br />
⎪⎩<br />
θ k+jθ j σ 2 für 1 ≤ k ≤ q (3.22)<br />
0 für k > q.<br />
Man überprüft leicht, dass sich mit Hilfe von (3.22) für q = 1 wieder die<br />
Formeln aus (3.10) für das MA(1)-Modell ergeben. Die Autokorrelation ergibt<br />
sich e<strong>in</strong>fach durch Normierung mit γ 0<br />
⎧<br />
⎪⎨ 1 für k = 0<br />
θ<br />
ρ k =<br />
k +θ k+1 θ 1 +...+θ qθ q−k<br />
für 1 ≤ k ≤ q<br />
1+θ<br />
(3.23)<br />
1 ⎪⎩<br />
2+...+θ2 q<br />
0 für k > q.<br />
In (3.23) wurden lediglich die Summenzeichen aus (3.22) expandiert. Um<br />
die partielle Autokorrelation zu berechnen, müssen die Autokorrelationen<br />
nun wieder <strong>in</strong> das l<strong>in</strong>eare Gleichungssystem (2.25) auf Seite 18 e<strong>in</strong>gesetzt<br />
werden. Wir ersparen uns an dieser Stelle e<strong>in</strong>e formale Demonstration <strong>und</strong><br />
diskutieren stattdessen, welche Struktur die partielle Autokorrelationsfunktion<br />
e<strong>in</strong>es MA-Prozesses aufweist.<br />
Wir er<strong>in</strong>nern uns, dass der MA(1)-Prozess e<strong>in</strong>e äquivalente, exponentiell<br />
abkl<strong>in</strong>gende AR-Representation besitzt, siehe Aufgabe 3.1 auf Seite 59. E<strong>in</strong><br />
solcher Prozess hat e<strong>in</strong>e ebenfalls gegen unendlich abkl<strong>in</strong>gende partielle<br />
Autokorrelationsfunktion. Dies ist die schematische Struktur, die wir bei<br />
e<strong>in</strong>em re<strong>in</strong>en MA-Modell erwarten dürfen. Abbildung 3.1 zeigt exemplarisch<br />
die ACF <strong>und</strong> PACF für e<strong>in</strong>en MA(2)-Prozess. Es ist deutlich erkennbar,<br />
dass die Autokorrelation nach Lag 2 augenblicklich auf null abfällt, während<br />
62
3.3. MA(Q)-PROZESSE<br />
AR(p)<br />
MA(q)<br />
ACF Exponentiell abkl<strong>in</strong>gend 0 für Lags größer q<br />
PACF 0 für Lags größer p Exponentiell abkl<strong>in</strong>gend<br />
Überführbar Wenn stationär Wenn <strong>in</strong>vertierbar<br />
Tabelle 3.1: Eigenschaften von AR(p)- <strong>und</strong> MA(q)-Prozessen<br />
die partielle Autokorrelation exponentiell schw<strong>in</strong>gend abkl<strong>in</strong>gt. AR- <strong>und</strong><br />
MA-Prozesse besitzen h<strong>in</strong>sichtlich ihrer (partiellen) Autokorrelationsstruktur<br />
also genau entgegengesetzte Charakteristiken, die <strong>in</strong> Tabelle 3.1<br />
zusammengefasst s<strong>in</strong>d.<br />
Aufgabe 3.3<br />
Bestimmen Sie die Autokovarianzfunktionen<br />
des MA(2)-Modells<br />
y t = ɛ t + θ 1 ɛ t−1 + θ 2 ɛ t−2 .<br />
Nehmen Sie an, dass ɛ t unabhängig N(0, σ 2 )-<br />
verteilt ist.<br />
63
KAPITEL 3. MA-PROZESSE<br />
Aufgabe 3.4<br />
Die folgenden Ausdrucke enthalten mit der Software EViews geschätzte<br />
ACF <strong>und</strong> PACF Correlogram verschiedener of MA2 Prozesse. Ordnen Sie jeweils die Prozessklasse<br />
Date: 06/26/09 zu. Time: 15:59<br />
Sample: 0 1000<br />
Included observations: 1001<br />
a)<br />
Autocorrelation Partial Correlation AC PAC Q-Stat Prob<br />
1 -0.292 -0.292 85.593 0.000<br />
2 0.395 0.338 242.23 0.000<br />
3 -0.016 0.197 242.48 0.000<br />
4 0.015 -0.104 242.69 0.000<br />
5 -0.033 -0.156 243.78 0.000<br />
6 0.016 0.020 244.04 0.000<br />
7 -0.022 0.075 244.53 0.000<br />
8 0.052 0.071 247.26 0.000<br />
9 -0.003 -0.002 247.26 0.000<br />
10 0.057 0.010 250.59 0.000<br />
11 0.002 0.010 250.59 0.000<br />
12 0.060 0.052 254.22 0.000<br />
13 -0.073 -0.076 259.69 0.000<br />
14 0.053 -0.027 262.49 0.000<br />
15 -0.090 -0.035 270.74 0.000<br />
16 -0.011 -0.040 270.86 0.000<br />
17 -0.021 0.009 271.31 0.000<br />
18 -0.063 -0.049 275.38 0.000<br />
Autocorrelation Partial Correlation AC PAC Q-Stat Prob<br />
b)<br />
Autocorrelation Partial Correlation AC PAC Q-Stat Prob<br />
1 0.819 0.819 672.79 0.000<br />
2 0.662 -0.026 1113.2 0.000<br />
3 0.529 -0.018 1394.8 0.000<br />
4 0.420 -0.007 1572.5 0.000<br />
5 0.344 0.031 1691.4 0.000<br />
6 0.272 -0.028 1766.1 0.000<br />
7 0.222 0.021 1816.0 0.000<br />
8 0.196 0.042 1854.7 0.000<br />
9 0.187 0.047 1890.1 0.000<br />
10 0.189 0.037 1926.2 0.000<br />
11 0.178 -0.018 1958.1 0.000<br />
12 0.177 0.041 1989.7 0.000<br />
13 0.167 -0.008 2018.1 0.000<br />
14 0.159 0.015 2043.9 0.000<br />
15 0.144 -0.015 2064.9 0.000<br />
16 0.127 0.006 2081.4 0.000<br />
Correlogram of MA1<br />
17 0.116 0.012 2095.1 0.000<br />
18 0.104 -0.002 2106.2 0.000<br />
Date: 06/26/09 Time: 15:50<br />
Sample: 0 1000<br />
Included observations: 1001<br />
Autocorrelation Partial Correlation AC PAC Q-Stat Prob<br />
c)<br />
1 0.556 0.556 309.57 0.000<br />
2 -0.201 -0.738 350.30 0.000<br />
3 -0.608 -0.013 722.42 0.000<br />
4 -0.453 -0.031 928.54 0.000<br />
5 0.002 -0.001 928.55 0.000<br />
6 0.350 0.045 1051.9 0.000<br />
7 0.365 0.024 1186.6 0.000<br />
8 0.107 -0.015 1198.1 0.000<br />
9 -0.150 0.082 1220.9 0.000<br />
10 -0.215 0.007 1267.7 0.000<br />
11 -0.097 0.014 1277.2 0.000<br />
12 0.068 0.035 1281.9 0.000<br />
13 0.148 0.021 1304.3 0.000<br />
14 0.111 0.031 1316.9 0.000<br />
15 0.001 -0.018 1316.9 0.000<br />
16 -0.101 -0.037 1327.2 0.000<br />
Correlogram of MA3<br />
17 -0.116 0.005 1340.9 0.000<br />
18 -0.055 -0.049 1344.0 0.000<br />
Date: 06/26/09 Time: 16:10<br />
Sample: 0 1000<br />
Included observations: 1001<br />
Autocorrelation Partial Correlation AC PAC Q-Stat Prob<br />
d)<br />
1 0.447 0.447 200.95 0.000<br />
2 0.026 -0.218 201.62 0.000<br />
3 0.023 0.139 202.14 0.000<br />
4 -0.011 -0.105 202.25 0.000<br />
5 -0.043 0.017 204.13 0.000<br />
6 -0.029 -0.023 205.01 0.000<br />
7 0.012 0.041 205.17 0.000<br />
8 0.045 0.024 207.19 0.000<br />
9 0.043 0.016 209.09 0.000<br />
10 0.065 0.056 213.40 0.000<br />
11 0.077 0.027 219.48 0.000<br />
12 0.033 -0.011 220.58 0.000<br />
13 -0.028 -0.036 221.36 0.000<br />
14 -0.033 0.003 222.45 0.000<br />
15 -0.061 -0.068 226.27 0.000<br />
16 -0.063 0.002 230.35 0.000<br />
17 -0.064 -0.061 234.56 0.000<br />
18 -0.054 -0.006 237.49 0.000<br />
e)<br />
1 -0.200 -0.200 39.979 0.000<br />
2 -0.393 -0.450 194.84 0.000<br />
3 0.136 -0.088 213.40 0.000<br />
4 0.000 -0.210 213.40 0.000<br />
5 -0.035 -0.083 214.63 0.000<br />
6 -0.021 -0.161 215.06 0.000<br />
7 0.015 -0.081 215.30 0.000<br />
8 0.027 -0.078 216.04 0.000<br />
9 -0.026 -0.073 216.72 0.000<br />
10 -0.002 -0.060 216.72 0.000<br />
11 0.051 0.003 219.35 0.000<br />
12 0.011 0.024 219.48 0.000<br />
13 -0.054 -0.012 222.43 0.000<br />
14 0.032 0.050 223.49 0.000<br />
15 -0.023 -0.029 224.04 0.000<br />
16 0.004 0.040 224.06 0.000<br />
17 -0.002 -0.023 224.06 0.000<br />
18 -0.046 -0.044 226.23 0.000<br />
3.3.2 Invertierbarkeit<br />
Um zu ermitteln, ob e<strong>in</strong> vorgelegter MA(q)-Prozess <strong>in</strong>vertierbar ist, wird<br />
genau wie für AR(p)-Prozesse der zusammengesetzte Operator analysiert.<br />
Die Faktorisierung des charakteristischen Polynoms ergibt<br />
θ(z) = 1 + θ 1 z + . . . + θ q z q = (1 − λ 1 z) · . . . · (1 − λ q z), (3.24)<br />
64
3.3. MA(Q)-PROZESSE<br />
mit den Nullstellen („Inverted Roots“) λ 1 , . . . , λ q . Für z = λ −1 erhält man<br />
nach Multiplikation mit λ q die gewohnte Form<br />
λ q + θ 1 λ q−1 + . . . + θ q = (λ − λ 1 ) · . . . · (λ − λ q ). (3.25)<br />
In (3.25) wird deutlicher, dass die <strong>in</strong>versen Wurzeln λ 1 , . . . , λ q tatsächlich<br />
die Nullstellen der Gleichung s<strong>in</strong>d. Völlig analog zur Stationarität bei AR-<br />
Prozessen folgert man nun, dass der betreffende MA-Prozess <strong>in</strong>vertierbar<br />
ist, wenn gilt |λ k | < 1 für k = 1, . . . , q. Äquivalent lässt sich wieder für die<br />
Wurzeln z 1 , . . . , z q postulieren:<br />
E<strong>in</strong> MA(q)-Prozess ist <strong>in</strong>vertierbar, wenn alle Wurzeln z 1 , . . . , z q<br />
außerhalb des komplexen E<strong>in</strong>heitskreises liegen.<br />
Zur Äquivalenz der Darstellung mit Wurzeln <strong>und</strong> <strong>in</strong>versen Wurzeln vergleiche<br />
Abschnitt 2.5.1 auf Seite 51.<br />
Wir haben am Beispiel e<strong>in</strong>es nicht <strong>in</strong>vertierbaren MA(1)-Prozesses<br />
gesehen, dass es e<strong>in</strong>en zweiten („Zwill<strong>in</strong>gs-“) Prozess gibt, der dieselbe<br />
Autokorrelationsstruktur besitzt wie der ursprüngliche Prozess, aber <strong>in</strong>vertierbar<br />
ist. Dieses Ergebnis lässt sich auf MA(q)-Prozesse verallgeme<strong>in</strong>ern.<br />
Wir müssen dazu allerd<strong>in</strong>gs den MA-Operator unter Rückgriff auf die faktorisierte<br />
Darstellung (3.24) schreiben<br />
q∏<br />
θ(B) = (1 − λ k B). (3.26)<br />
k=1<br />
Nehmen wir nun an, die <strong>in</strong>versen Wurzeln λ 1 , . . . , λ q ′ −1 liegen <strong>in</strong>nerhalb des<br />
komplexen E<strong>in</strong>heitskreises <strong>und</strong> λ q ′, . . . , λ q liegen außerhalb. Dann lässt sich<br />
e<strong>in</strong> Prozess mit identischer Autokorrelationsstruktur def<strong>in</strong>ieren, der aber <strong>in</strong>vertierbar<br />
ist. Diesen Prozess f<strong>in</strong>det man, <strong>in</strong>dem man den Kehrwert der Wurzeln<br />
e<strong>in</strong>setzt, die die Invertierbarkeitsbed<strong>in</strong>gung verletzen. Man erhält also<br />
q ′ −1<br />
∏<br />
q∏ (<br />
y t = (1 − λ k B) · 1 − 1 )<br />
B ɛ t . (3.27)<br />
λ<br />
k=1<br />
k=q ′ k<br />
Der so def<strong>in</strong>ierte Prozess ist <strong>in</strong> jedem Fall <strong>in</strong>vertierbar, weil alle se<strong>in</strong>e<br />
Wurzeln <strong>in</strong>nerhalb des komplexen E<strong>in</strong>heitskreises liegen.<br />
Aufgabe 3.5<br />
Schreiben Sie Gleichung (3.24) <strong>in</strong> kompakter<br />
Form unter Rückgriff auf das Summen- <strong>und</strong><br />
Produktzeichen.<br />
65
KAPITEL 3. MA-PROZESSE<br />
Aufgabe 3.6<br />
Gegeben sei der MA(2)-Prozess<br />
y t = ɛ t + θ 1 ɛ t−1 + θ 2 ɛ t−2 .<br />
a) Berechnen Sie <strong>in</strong> allgeme<strong>in</strong>er Form die <strong>in</strong>versen Wurzeln<br />
λ 1 <strong>und</strong> λ 2 .<br />
Nehmen Sie die Parameterwerte θ 1 = −2 <strong>und</strong> θ 2 = 0.75 an.<br />
b) Bestimmen Sie die Wurzeln. Ist der Prozess <strong>in</strong>vertierbar?<br />
c) Ermitteln Sie die Parameter des Zwill<strong>in</strong>gsprozesses.<br />
3.3.3 Parameterschätzung<br />
Die Parameterschätzung im MA(q)-Modell funktioniert völlig analog zum<br />
MA(1)-Fall. Wir gehen wieder davon aus, dass die ɛ t unabhängig <strong>und</strong> identisch<br />
N(0, σ 2 )-verteilt s<strong>in</strong>d. Es ergibt sich daher genau wie <strong>in</strong> (3.18) die bed<strong>in</strong>gte<br />
logarithmierte Likelihoodfunktion<br />
l(θ 0 , . . . , θ q , σ 2 ) =<br />
T∑<br />
log p(y t |ɛ t−1 , . . . , ɛ t−q )<br />
t=1<br />
= − T 2 log[2πσ2 ] − 1<br />
2σ 2<br />
T∑<br />
ɛ 2 t .<br />
t=1<br />
(3.28)<br />
Zur Er<strong>in</strong>nerung, der Parameter θ 0 repräsentiert den zeitunabhängigen Mittelwert.<br />
Anders formuliert, die LogLikelihood-Funktion bezieht sich auf das<br />
allgeme<strong>in</strong>e Modell<br />
y t = θ 0 + θ(B)ɛ t . (3.29)<br />
Wir müssen wiederum e<strong>in</strong>e Annahme über die Fehlerterme vor t = 1 machen,<br />
um rekursiv die Zeitreihe (ɛ t ) t=1,...,T berechnen zu können. Die simpelste Annahme<br />
ist wieder<br />
ɛ 0 = ɛ −1 = . . . = ɛ −q+1 = 0. (3.30)<br />
Damit ergibt sich die Rekursion<br />
ɛ t = y t − θ 0 −<br />
q∑<br />
θ k ɛ t−k (3.31)<br />
für alle t = 1, . . . , T . Beachten Sie, dass analog zur Problematik im<br />
MA(1)-Prozess die Berechnung der bed<strong>in</strong>gten Likelihood lediglich S<strong>in</strong>n<br />
66<br />
k=1
3.3. MA(Q)-PROZESSE<br />
macht, wenn der vorgelegte Prozess <strong>in</strong>vertierbar ist. Ansonsten potenzieren<br />
sich die Fehler aus der willkürlichen Festsetzung der ɛ t für t ≤ 0 über die Zeit.<br />
Aufgabe 3.7<br />
Gegeben sei die stationäre Zeitreihe<br />
(y t ) t=1,...,6 = {2, 3, 0, −2, 1, −2}.<br />
Nehmen Sie an, dass die Zeitreihe vom MA(2)-<br />
Prozess<br />
y t = 1 + ɛ t − 2ɛ t−1 + ɛ t−2 ,<br />
mit ɛ t ∼ N(0, 1) erzeugt wurde. Berechnen Sie die<br />
bed<strong>in</strong>gte logarithmierte Likelihoodfunktion mit<br />
ɛ t = 0 für t ≤ 0.<br />
Aufgabe 3.8<br />
a) Ist der MA(2)-Prozess aus Aufgabe 3.7<br />
<strong>in</strong>vertierbar?<br />
b) Ist die bed<strong>in</strong>gte ML-Parameterschätzung <strong>in</strong><br />
diesem Fall s<strong>in</strong>nvoll?<br />
67
4<br />
ARMA-Prozesse <strong>und</strong> Erweiterungen<br />
Die Prozessklasse der ARMA-Modelle stellt e<strong>in</strong>e natürliche Erweiterung der<br />
AR- bzw. MA-Modelle dar. Sie fasst die Komponenten der beiden Klassen<br />
<strong>in</strong> e<strong>in</strong>em Modell zusammen. Das im Weiteren etwas genauer betrachtete<br />
ARMA(1,1)-Modell besitzt beispielsweise folgende Darstellung<br />
y t = φ 1 y t−1 + ɛ t + θ 1 ɛ t−1 . (4.1)<br />
Mit Hilfe der <strong>in</strong> Abschnitt 2.4.1 e<strong>in</strong>geführten Operatorschreibweise <strong>und</strong><br />
den entsprechenden AR- <strong>und</strong> MA-Operatoren (2.67) <strong>und</strong> (3.20) kann das<br />
ARMA(p, q)-Modell beliebiger Ordnung <strong>in</strong> ausgesprochen effizienter Weise<br />
notiert werden<br />
φ(B)y t = θ(B)ɛ t . (4.2)<br />
Die Schreibweise (4.2) ist zunächst re<strong>in</strong> formal <strong>und</strong> wird erst durch die Angabe<br />
der Modellordnung (p <strong>und</strong> q) konkret. Sie erweist sich jedoch bereits<br />
vorher als nützlich, da sie formal manipuliert werden kann. Um das zu sehen,<br />
überführen wir das ARMA(p, q)-Modell (4.2) formal <strong>in</strong> e<strong>in</strong> MA(∞)-Modell.<br />
Dies geschieht durch Invertieren des AR-Operators<br />
y t = φ(B) −1 θ(B)ɛ t =<br />
∞∑<br />
ψ k ɛ t−k . (4.3)<br />
k=0<br />
Das ist wieder die Form der Wold-Zerlegung (Theorem 3.1 auf Seite 55). Die<br />
Koeffizienten ψ k können aus dem zusammengesetzten Operator φ(B) −1 θ(B)<br />
berechnet werden. Dazu muss natürlich wiederum die Modellordnung bekannt<br />
se<strong>in</strong>. Durch Invertieren des MA-Operators hätte der ARMA-Prozess<br />
natürlich auch <strong>in</strong> e<strong>in</strong>en AR(∞)-Prozess überführt werden können, was den<br />
Nutzen solcher formaler Manipulationen verdeutlicht. Das bis hierher gesagte<br />
gilt natürlich nur unter der Prämisse, dass der betreffende Prozess stationär,<br />
respektive <strong>in</strong>vertierbar ist.<br />
69
KAPITEL 4. ARMA-PROZESSE UND ERWEITERUNGEN<br />
4.1 Der ARMA(1,1)-Prozess<br />
Der ARMA(1,1)-Prozess ist e<strong>in</strong>e der nützlichsten Modellvarianten <strong>in</strong> der<br />
<strong>Zeitreihenanalyse</strong>. Die Ursache hierfür ist die Sparsamkeit der Parametrisierung.<br />
Wir haben schon gesehen, dass e<strong>in</strong> ARMA-Modell <strong>in</strong> e<strong>in</strong> AR(∞)-<br />
oder auch <strong>in</strong> e<strong>in</strong> MA(∞)-Modell überführt werden kann, was die besondere<br />
Flexibilität dieser Mischprozesse unterstreicht. Der ARMA(1,1)-Prozess<br />
ist aber der sparsamste von allen, da er lediglich e<strong>in</strong>en AR- <strong>und</strong> e<strong>in</strong>en<br />
MA-Parameter benötigt. Wir werden im Folgenden e<strong>in</strong>ige Eigenschaften<br />
des ARMA(1,1)-Prozesses herausarbeiten. Die Verallgeme<strong>in</strong>erung auf den<br />
ARMA(p, q)-Fall ist <strong>in</strong> der Regel aufwendig <strong>und</strong> wird mit Computerunterstützung<br />
durchgeführt. Daher werden wir uns darauf beschränken, e<strong>in</strong>ige<br />
Parallelen zu dieser allgeme<strong>in</strong>en Prozessklasse aufzuzeigen.<br />
Unser Ausgangspunkt ist das ARMA(1,1)-Modell (4.2) auf der vorherigen<br />
Seite, mit den entsprechenden Operatoren<br />
φ(B) = 1 − φB <strong>und</strong> θ(B) = 1 + θB. (4.4)<br />
Wir überführen dieses Modell zunächst <strong>in</strong> die MA(∞)-Form, <strong>in</strong>dem wir den<br />
AR-Operator <strong>in</strong>vertieren<br />
y t = 1 + θB<br />
1 − φB ɛ t<br />
= (1 + φB + φ 2 B 2 + . . .)(1 + θB)ɛ t<br />
= ( 1 + (φ + θ)(B + φB 2 + φ 2 B 3 + . . .) ) ɛ t .<br />
(4.5)<br />
In der zweiten Zeile wurde wieder die Eigenschaft der geometrischen Reihe<br />
ausgenutzt, vgl. Seite 9. Wir gew<strong>in</strong>nen mit (4.5) also e<strong>in</strong>e Wold-Darstellung<br />
y t =<br />
∞∑<br />
ψ k ɛ t−k , (4.6)<br />
k=0<br />
bei der die Koeffizienten durch<br />
für k ≥ 1 gegeben s<strong>in</strong>d.<br />
ψ 0 = 1 <strong>und</strong> ψ k = (φ + θ)φ k−1 (4.7)<br />
70
4.1. DER ARMA(1,1)-PROZESS<br />
Wir berechnen nun die Autokovarianzen für den ARMA(1,1)-Prozess. Für<br />
Lag k = 0 erhalten wir aus (3.22) auf Seite 62 <strong>in</strong> Verb<strong>in</strong>dung mit den Wold-<br />
Koeffizienten (4.7)<br />
) (<br />
∞∑<br />
∞<br />
)<br />
∑<br />
γ 0 = σ<br />
(1 2 + = σ 2 1 + (φ + θ) 2 φ 2j<br />
j=1<br />
ψ 2 j<br />
j=0<br />
(<br />
)<br />
= σ 2 (φ + θ)2<br />
1 + = σ 2 1 − φ2 + (φ + θ) 2<br />
1 − φ 2 1 − φ 2<br />
2 1 + 2φθ + θ2<br />
= σ .<br />
1 − φ 2<br />
(4.8)<br />
Offensichtlich ist die Varianz des Prozesses bereits e<strong>in</strong>e nicht triviale Funktion<br />
der Parameter. Die Komplexität der Ausdrücke steigt mit höherer Modellordnung<br />
beträchtlich. Die Autokovarianz mit Lag k = 1 ist gegeben durch<br />
γ 1 = φγ 0 + θσ 2 . (4.9)<br />
Die Herleitung dieser Beziehung wird dem Leser als Übungsaufgabe am Ende<br />
dieses Abschnitts überlassen. E<strong>in</strong>e <strong>in</strong>teressante Eigenschaft der Kovarianzfunktion<br />
(4.9) ist, dass sie strukturell die Summe aus den Autokovarianzen<br />
des AR(1)-Prozesses <strong>und</strong> des MA(1)-Prozesses darstellt. Beachte: Diese<br />
Struktureigenschaft gilt nicht für γ 0 ! Für größere Lags k ≥ 2 überschneiden<br />
sich die Fehlerterme des MA-Teils nicht mehr, wodurch unmittelbar klar ist,<br />
dass der AR(1)-Teil den e<strong>in</strong>zigen Beitrag zur Autokovarianz liefern muss.<br />
Daher gilt <strong>in</strong>sgesamt<br />
⎧<br />
⎪⎨ σ 2 1+2φθ+θ2 für k = 0<br />
1−φ 2<br />
γ k = φγ 0 + θσ<br />
⎪⎩<br />
2 für k = 1<br />
(4.10)<br />
φγ k−1 für k ≥ 2.<br />
Ganz allgeme<strong>in</strong> gilt für ARMA(p, q)-Prozesse, dass die Autokovarianz<br />
für Lags k > q nur noch vom AR-Teil des Prozesses gespeist wird. Die<br />
Autokorrelation ergibt sich wieder aus γ k /γ 0 . ARMA-Modelle besitzen<br />
aber e<strong>in</strong>e zusätzliche Komplikation. Es stellt sich heraus, dass die partielle<br />
Autokorrelation ebenfalls (betragsmäßig) langsam abfällt, wodurch e<strong>in</strong>e<br />
Modellidentifikation anhand der ACF <strong>und</strong> PACF <strong>in</strong> der Regel nicht möglich<br />
ist. Abbildung 4.1 zeigt die ACF <strong>und</strong> PACF für den ARMA(1,1)-Prozess mit<br />
φ = 0.7 <strong>und</strong> θ = 0.8. Wir kommen zum Problem der Modellidentifikation<br />
zu e<strong>in</strong>em späteren Zeitpunkt zurück. Zunächst wollen wir die wichtige Frage<br />
nach Stationarität bzw. Invertierbarkeit diskutieren.<br />
71
KAPITEL 4. ARMA-PROZESSE UND ERWEITERUNGEN<br />
Abbildung 4.1: ACF <strong>und</strong> PACF des ARMA(1,1)-Prozesses mit φ = 0.7 <strong>und</strong> θ = 0.8<br />
Wir haben im Fall der MA-Prozesse bereits gesehen, dass jeder<br />
nicht-<strong>in</strong>vertierbare Prozess e<strong>in</strong> Gegenstück besitzt, das über dieselbe<br />
Autokorrelationsstruktur verfügt wie der ursprüngliche Prozess, aber die<br />
geforderten Bed<strong>in</strong>gungen für Invertierbarkeit erfüllt. Diese Eigenschaft<br />
erstreckt sich auch auf den MA-Teil des ARMA-Prozesses. Invertierbarkeit<br />
sche<strong>in</strong>t also e<strong>in</strong>e eher unproblematische Eigenschaft zu se<strong>in</strong>. Bezüglich<br />
der Stationarität erwartet uns e<strong>in</strong>e angenehme Überraschung. Wir wissen,<br />
dass e<strong>in</strong> MA-Prozess immer stationär ist. Wir haben weiterh<strong>in</strong> das<br />
ARMA(1,1)-Modell <strong>in</strong> (4.6) als MA(∞)-Modell dargestellt. Die Bed<strong>in</strong>gung<br />
für Stationarität ist also dieselbe, unter der der ARMA(1,1)-Prozess <strong>in</strong> MA-<br />
Form überführt werden kann. E<strong>in</strong>e kurze Inspektion von (4.5) zeigt, dass die<br />
kritische Bed<strong>in</strong>gung |φ| < 1 ist, da sonst die geometrische Reihenentwicklung<br />
unzulässig wäre. Das entspricht aber genau der Stationaritätsbed<strong>in</strong>gung<br />
des AR(1)-Modells. Es stellt sich heraus, dass diese Eigenschaft auch für<br />
ARMA(p, q)-Modelle gilt:<br />
E<strong>in</strong> ARMA(p, q)-Prozess ist genau dann stationär, wenn se<strong>in</strong><br />
AR-Teil die Stationaritätsbed<strong>in</strong>gung erfüllt.<br />
Das bedeutet konkret, die Wurzeln des AR-Teils müssen außerhalb des<br />
komplexen E<strong>in</strong>heitskreises liegen, oder anders herum, die <strong>in</strong>versen Wurzeln<br />
(<strong>in</strong>verted roots) müssen <strong>in</strong>nerhalb des komplexen E<strong>in</strong>heitskreises liegen.<br />
Aufgabe 4.1<br />
Zeigen Sie, dass die Autokovarianzfunktion<br />
mit Lag 1 im ARMA(1,1)-Modell durch<br />
gegeben ist.<br />
γ 1 = φγ 0 + θσ 2<br />
72
4.1. DER ARMA(1,1)-PROZESS<br />
Aufgabe 4.2<br />
Zeigen Sie, dass e<strong>in</strong> ARMA(1,1)-Prozess mit<br />
θ = −φ e<strong>in</strong> e<strong>in</strong>facher Rauschprozess ist. H<strong>in</strong>weis:<br />
Verwenden Sie die Operatorschreibweise<br />
<strong>und</strong> setzen Sie die korrekten Operatoren e<strong>in</strong>.<br />
4.1.1 Parameterschätzung<br />
Ähnlich wie im Fall von MA-Prozessen wird die Parameterschätzung <strong>in</strong><br />
ARMA-Modellen im e<strong>in</strong>fachsten Fall mit Hilfe der bed<strong>in</strong>gten Likelihood-<br />
Funktion abgewickelt 1 . Auch hier gilt, AR- <strong>und</strong> MA-Teile sollten stationär<br />
<strong>und</strong> <strong>in</strong>vertierbar se<strong>in</strong>, da sich sonst Fehler, die bei der Festsetzung der Anfangsbed<strong>in</strong>gungen<br />
gemacht werden, potenzieren. Angenommen, der Fehlerterm<br />
ɛ t sei N(0, σ 2 )-verteilt, dann kann die bed<strong>in</strong>gte logarithmierte Likelihoodfunktion<br />
als<br />
l(φ 1 , θ 0 , θ 1 , σ 2 ) =<br />
T∑<br />
t=1<br />
log p(y t |y t−1 , ɛ t−1 ) = − T 2 log[2πσ2 ] − 1<br />
2σ 2<br />
geschrieben werden, wobei der Fehlerterm durch<br />
T∑<br />
ɛ 2 t (4.11)<br />
t=1<br />
ɛ t = y t − φ 1 y t−1 − θ 0 − θ 1 ɛ t−1 (4.12)<br />
gegeben ist. (4.11) bzw. (4.12) ist wieder e<strong>in</strong>e allgeme<strong>in</strong>e Form, d.h. sie berücksichtigt<br />
e<strong>in</strong>en gegebenenfalls vorhandenen Intercept θ 0 . Die Anfangsbed<strong>in</strong>gungen<br />
y 0 <strong>und</strong> ɛ 0 s<strong>in</strong>d <strong>in</strong> der Regel nicht verfügbar <strong>und</strong> können durch ihre<br />
Erwartungswerte ersetzt werden. Zu Referenzzwecken soll auch die bed<strong>in</strong>gte<br />
LogLikelihood-Funktion für ARMA(p, q)-Modelle angegeben werden:<br />
l(φ 1 , . . . , φ p , θ 0 , . . . , θ q , σ 2 ) =<br />
T∑<br />
log p(y t |y t−1 , . . . , y t−p , ɛ t−1 , . . . , ɛ t−q )<br />
t=1<br />
= − T 2 log[2πσ2 ] − 1<br />
2σ 2<br />
T∑<br />
ɛ 2 t ,<br />
t=1<br />
(4.13)<br />
1 Moderne Programmpakete wie EViews wählen zunächst e<strong>in</strong>e AR(∞)-Darstellung.<br />
Diese Darstellung wird dann durch e<strong>in</strong> AR-Modell hoher Ordnung approximiert, dessen<br />
Parameter mit der Kle<strong>in</strong>ste-Quadrate-Methode geschätzt werden (Long-AR-Estimator).<br />
Anschließend werden die Residuen berechnet, die ihrerseits Schätzer für die Zufallsfehler<br />
s<strong>in</strong>d <strong>und</strong> so die Kle<strong>in</strong>ste-Quadrate-Schätzung der ursprünglichen ARMA-Parameter erlauben.<br />
Die resultierenden Schätzer werden dann als Startlösung für die iterative Maximum-<br />
Likelihood-Schätzung verwendet.<br />
73
KAPITEL 4. ARMA-PROZESSE UND ERWEITERUNGEN<br />
mit<br />
p∑<br />
q∑<br />
ɛ t = y t − φ j y t−j − θ 0 − θ k ɛ t−k . (4.14)<br />
j=1<br />
k=1<br />
Aufgabe 4.3<br />
Gegeben sei die stationäre Zeitreihe<br />
(y t ) t=1,...,6 = {2, 3, 1, −1, −2, 0.5}.<br />
Nehmen Sie an, dass die Zeitreihe von dem<br />
ARMA(1,1)-Prozess<br />
y t = 1 2 y t−1 + ɛ t + 1 2 ɛ t−1,<br />
mit ɛ t ∼ N(0, 1) erzeugt wurde. Verwenden Sie die<br />
Anfangsbed<strong>in</strong>gung y 0 = ɛ 0 = 0 <strong>und</strong> berechnen Sie die<br />
logarithmierte Likelihoodfunktion.<br />
4.2 ARIMA <strong>und</strong> SARIMA<br />
Wir werden <strong>in</strong> diesem Abschnitt e<strong>in</strong>ige Erweiterungen des ARMA-Modells<br />
kennenlernen, die e<strong>in</strong>e Anpassung an spezielle Eigenschaften von Zeitreihen<br />
erlauben. Das ARIMA-Modell ist so konzipiert, dass auch nicht stationäre<br />
Zeitreihen e<strong>in</strong>er Modellanalyse im ARMA-Kontext unterworfen werden können.<br />
SARIMA-Modelle adressieren zusätzlich noch zyklische Eigenschaften,<br />
wie sie im Bereich volkswirtschaftlicher Modelle häufig zu f<strong>in</strong>den s<strong>in</strong>d.<br />
4.2.1 ARIMA(p,d,q)-Modelle<br />
Die Idee, die h<strong>in</strong>ter ARIMA-Modellen steckt, ist sehr e<strong>in</strong>fach. Sollte<br />
e<strong>in</strong>e Zeitreihe vorliegen, die offensichtlich nicht stationär ist, bspw. das<br />
Brutto-Inlandsprodukt (BIP) seit dem 01.01.2000 (Abbildung 4.3 rechts<br />
auf Seite 78), so lässt sich diese Zeitreihe möglicherweise trotzdem mit den<br />
bekannten Mitteln der <strong>Zeitreihenanalyse</strong> behandeln. Der Schlüssel lautet<br />
hier: „Transformation des Prozesses“. Genauer gesagt bildet man die Differenz<br />
zwischen jeweils zwei aufe<strong>in</strong>ander folgenden Elementen der Zeitreihe.<br />
In unserem Beispiel hieße das, wir berechnen die BIP-Zuwächse. E<strong>in</strong> solcher<br />
Zuwachs-Prozess wird aller Wahrsche<strong>in</strong>lichkeit nach stationär se<strong>in</strong>, anderenfalls<br />
wären wir bereits unermesslich reich. Formal betrachtet heißt das nichts<br />
74
4.2. ARIMA UND SARIMA<br />
anderes, als dass wir e<strong>in</strong> Zeitreihenmodell für x t = y t − y t−1 = ∇y t bilden.<br />
Zur Def<strong>in</strong>ition des Nabla-Operators vgl. Abschnitt 2.4.1, <strong>in</strong>sbesondere (2.65)<br />
auf Seite 38.<br />
Ganz allgeme<strong>in</strong> ist diese Strategie natürlich nicht auf Differenzen erster<br />
Ordnung beschränkt, vielmehr können d-fache Differenzen gebildet werden,<br />
soviele wie nötig s<strong>in</strong>d, um den Prozess stationär zu machen. Im besten Fall<br />
resultiert e<strong>in</strong> e<strong>in</strong>facher Rauschprozess <strong>und</strong> das entsprechende Modell kann<br />
als<br />
x t = ∇ d y t = ɛ t (4.15)<br />
geschrieben werden. Der ursprüngliche Prozess kann durch Aufsummieren<br />
der gebildeten Differenzen zurückgewonnen werden. Der Summation im diskreten<br />
Fall entspricht die Integration im stetigen Fall, daher werden Prozesse<br />
wie (4.15) d-fach <strong>in</strong>tegrierte Prozesse genannt. Der nächste logische Schritt<br />
ist, e<strong>in</strong>en Differenzenprozess, der ja stationär ist, als ARMA-Prozess zu modellieren.<br />
Man gew<strong>in</strong>nt so die ARIMA(p, d, q)-Form<br />
φ(B)∇ d y t = θ(B)ɛ t . (4.16)<br />
Zwei Sätze zur Vertiefung s<strong>in</strong>d hier angebracht. Zunächst steht die Abkürzung<br />
ARIMA, wie zu vermuten war, für AutoRegressive Integrated Mov<strong>in</strong>g<br />
Average. Darüber h<strong>in</strong>aus ist die Anordnung dieser Abkürzungen, ebenso wie<br />
die Reihenfolge der Modellordnungsparameter (p, d, q) nicht zufällig. (4.16)<br />
zeigt, dass zuerst der AR-Operator, dann der Differenzen-Operator <strong>und</strong> am<br />
Ende der MA-Operator steht. Die Modellbezeichnung legt also e<strong>in</strong>deutig die<br />
Reihenfolge der Modellelemente fest.<br />
Abbildung 4.2 l<strong>in</strong>ks zeigt die Zeitreihe der logarithmierten DAX-Kurse<br />
vom 01.01.1991 bis zum 31.10.2009. Diese Zeitreihe ist augensche<strong>in</strong>lich<br />
9.0<br />
0.10<br />
8.5<br />
0.05<br />
8.0<br />
0.00<br />
7.5<br />
0.05<br />
1995 2000 2005 2010<br />
0.10<br />
1995 2000 2005 2010<br />
Abbildung 4.2: Logarithmierte DAX-Zeitreihe <strong>und</strong> Differenzen erster Ordnung<br />
75
KAPITEL 4. ARMA-PROZESSE UND ERWEITERUNGEN<br />
nicht stationär, woh<strong>in</strong>gegen die Differenzen erster Ordnung (rechts) e<strong>in</strong>en<br />
Rauschprozess bilden, dessen Streuung sich zwar offenbar über die Zeit<br />
ändert, der aber auf jeden Fall stationär ist. Wir werden zu e<strong>in</strong>em späteren<br />
Zeitpunkt im Rahmen von ARCH- <strong>und</strong> GARCH-Modellen lernen, wie solche<br />
zeitvariablen Streuungen zu behandeln s<strong>in</strong>d. Im Augenblick geht es darum,<br />
dass der ursprünglich <strong>in</strong>stationäre Prozess durch Differenzenbildung e<strong>in</strong>er<br />
<strong>Zeitreihenanalyse</strong> zugänglich gemacht wurde.<br />
Wir wollen e<strong>in</strong>en Augenblick beim Beispiel von Aktienkursen bleiben,<br />
um das bisher gesagte noch etwas genauer theoretisch zu untermauern. Entgegen<br />
gewöhnlichen AR-Prozessen hängt die Dynamik von Aktienkursen,<br />
bzw. deren Logarithmus, offenbar nicht vom Niveau des Kurses selbst ab.<br />
Nehmen wir im e<strong>in</strong>fachsten Fall an, dass e<strong>in</strong> AR(1)-Prozess vorliegt, mit<br />
φ(B) = 1 − φB, dann lässt sich diese Eigenschaft formal durch<br />
φ(B)(y t + c) = φ(B)y t (4.17)<br />
ausdrücken, mit e<strong>in</strong>er beliebigen Konstante c ≠ 0. Daraus folgt sofort für den<br />
<strong>in</strong>variablen Teil der Gleichung<br />
φ(B)c = φ(1)c = (1 − φ)c = 0. (4.18)<br />
Da c ≠ 0 muss φ = 1 gelten, damit (4.18) erfüllt ist. Folglich hat die<br />
charakteristische Gleichung φ(z) = 0 die Lösung z = 1, was zeigt, dass der<br />
Prozess e<strong>in</strong>e E<strong>in</strong>heitswurzel besitzt. Der Differenzenprozess x t = ∇y t muss<br />
daher e<strong>in</strong> stationärer Rauschprozess se<strong>in</strong>.<br />
Wir zeigen nun noch, dass die formale Rücktransformation den <strong>in</strong>tegrierten<br />
(aufsummierten) Prozess liefert<br />
wie gefordert.<br />
y t = ∇ −1 x t = (1 − B) −1 x t<br />
∞∑<br />
∞∑<br />
= B k x t = x t−k ,<br />
k=0<br />
k=0<br />
(4.19)<br />
Aufgabe 4.4<br />
Schreiben Sie folgende Modelle aus:<br />
a) ARIMA(1,1,0)<br />
b) ARIMA(0,1,2)<br />
c) ARIMA(1,2,1).<br />
76
4.2. ARIMA UND SARIMA<br />
Aufgabe 4.5<br />
Gegeben sei die Zeitreihe<br />
(y t ) t=1,...,6 = {1, 3, 2, 4, 2, 0}.<br />
Gehen Sie davon aus, dass die Zeitreihe durch das<br />
ARIMA(0,1,1)-Modell<br />
∇y t = ɛ t + ɛ t−1 ,<br />
mit θ 0 = 0 <strong>und</strong> ɛ t ∼ N(0, 1) beschrieben werden kann.<br />
Verwenden Sie die Anfangsbed<strong>in</strong>gung y 0 = ɛ 0 = 0 <strong>und</strong><br />
berechnen Sie die logarithmierte Likelihoodfunktion.<br />
4.2.2 Seasonal ARIMA-Modelle<br />
Seasonal ARIMA- oder SARIMA-Modelle s<strong>in</strong>d e<strong>in</strong>e natürliche Erweiterung<br />
der ARIMA-Modelle, um möglichst effizient saisonale E<strong>in</strong>flüsse behandeln<br />
zu können. Sie spielen <strong>in</strong> der Makroökonomie <strong>und</strong> der volkswirtschaftlichen<br />
Gesamtrechnung e<strong>in</strong>e große Rolle <strong>und</strong> sollen aus diesem Gr<strong>und</strong> hier besprochen<br />
werden. Da SARIMA-Modelle im Modul <strong>Zeitreihenanalyse</strong> nicht<br />
behandelt werden, enthält dieser Abschnitt auch ke<strong>in</strong>e prüfungsrelevante<br />
Information <strong>und</strong> kann übersprungen werden.<br />
Da ARIMA-Modelle ihrerseits e<strong>in</strong>e Erweiterung des ARMA-Konzepts<br />
darstellen, soll die Idee der saisonalen Modellierung zuerst anhand von<br />
ARMA-Modellen erklärt, <strong>und</strong> anschließend auf ARIMA erweitert werden.<br />
Man betrachte e<strong>in</strong>en Prozess, der nur von verzögerten Werten abhängt, deren<br />
Lag e<strong>in</strong> ganzzahliges Vielfaches s e<strong>in</strong>er Basisperiode ist. Abbildung 4.3<br />
zeigt zwei Zeitreihen mit saisonalen Effekten. L<strong>in</strong>ks abgebildet s<strong>in</strong>d monatliche<br />
Passagierdaten e<strong>in</strong>er Luftfahrtgesellschaft von Januar 1949 bis Dezember<br />
1960. Hier würde man von e<strong>in</strong>er monatlichen Basisperiode ausgehen <strong>und</strong> daher<br />
s = 12 wählen. Auf der rechten Seite ist das Brutto-Inlandsprodukt<br />
(BIP) der B<strong>und</strong>esrepublik Deutschland von 2000 bis 2008 gegeben. Da die<br />
BIP-Daten im Rahmen der volkswirtschaftlichen Gesamtrechnung quartalsmäßig<br />
erfasst werden, wäre hier s = 4 zu wählen. E<strong>in</strong> ARMA-Modell über<br />
diese saisonalen Effekte würde dann folgendermaßen spezifiziert werden<br />
Φ(B s )y t = Θ(B s )ɛ t , (4.20)<br />
77
KAPITEL 4. ARMA-PROZESSE UND ERWEITERUNGEN<br />
600<br />
620<br />
Airl<strong>in</strong>ePassagiere 1000<br />
500<br />
400<br />
300<br />
200<br />
BIP Deutschland <strong>in</strong> Milliarden €<br />
600<br />
580<br />
560<br />
540<br />
520<br />
500<br />
100<br />
1950 1952 1955 1958 1960<br />
480<br />
2000 2002 2004 2006 2008<br />
Abbildung 4.3: Airl<strong>in</strong>e Passagiere <strong>und</strong> Brutto-Inlandsprodukt<br />
mit den saisonalen AR- <strong>und</strong> MA-Operatoren<br />
Φ(B s ) = 1 −<br />
P∑<br />
Φ j B js <strong>und</strong> Θ(B s ) = 1 +<br />
j=1<br />
Q∑<br />
Θ k B ks . (4.21)<br />
E<strong>in</strong> solches Modell ist natürlich nicht besonders realistisch, da hier genaugenommen<br />
s verschiedene, entkoppelte Zeitreihen modelliert werden, die ke<strong>in</strong>e<br />
geme<strong>in</strong>same Korrelation aufweisen. Man würde aber erwarten, dass auch<br />
zwischen den e<strong>in</strong>zelnen Basisperioden zum<strong>in</strong>dest e<strong>in</strong>e schwache Abhängigkeit<br />
besteht. Diese Annahme lässt sich durch Komb<strong>in</strong>ation von saisonalen<br />
<strong>und</strong> regulären Operatoren <strong>in</strong> das Modell <strong>in</strong>tegrieren <strong>und</strong> man erhält<br />
k=1<br />
Φ(B s )φ(B)y t = Θ(B s )θ(B)ɛ t . (4.22)<br />
Die Zeitreihen <strong>in</strong> Abbildung 4.3 weisen weiterh<strong>in</strong> e<strong>in</strong>en e<strong>in</strong>deutigen Wachstumstrend<br />
auf. Es wird also notwendig, <strong>in</strong>tegrierte Prozesse x t = ∇ d y t zu betrachten.<br />
Da wir es aber zusätzlich mit saisonalen Operatoren zu tun haben,<br />
def<strong>in</strong>ieren wir zunächst den entsprechenden saisonalen Differenzenoperator<br />
∇ D s = (1 − B s ) D . (4.23)<br />
Damit kann das Konzept der Saisonalität e<strong>in</strong>fach auf se<strong>in</strong>e allgeme<strong>in</strong>ste Form<br />
erweitert werden <strong>und</strong> man erhält das SARIMA(p, d, q)(P, D, Q) s -Modell<br />
Φ(B s )∇ D s φ(B)∇ d y t = Θ(B s )θ(B)ɛ t . (4.24)<br />
4.3 ARMAX-Modelle<br />
Wie der Zusatz „X“ im Modelltyp signalisiert, gestatten ARMAX-Modelle<br />
die Berücksichtigung exogener E<strong>in</strong>flüsse oder Kontrollvariablen. Solche E<strong>in</strong>flüsse<br />
s<strong>in</strong>d <strong>in</strong> der Volkswirtschaftslehre, <strong>in</strong>sbesondere <strong>in</strong> der Makroökonomie,<br />
78
4.3. ARMAX-MODELLE<br />
von besonderem Interesse. Beispielsweise stellen E<strong>in</strong>flussgrößen wie nom<strong>in</strong>ale<br />
Geldmenge oder Staatsausgaben <strong>in</strong> traditionellen Makromodellen oft exogene<br />
Größen dar, die vorgegeben werden um die Gleichgewichtseigenschaften<br />
von Geld-, respektive Gütermarkt unter diesen Vorgaben zu untersuchen.<br />
ARMAX-Modelle übersetzen diesen Gedanken <strong>in</strong> e<strong>in</strong>e dynamische Umgebung.<br />
Wir werden sehen, dass diese Aufgabe sehr elegant <strong>und</strong> e<strong>in</strong>fach durch<br />
die ARMAX-Spezifikation gelöst wird, wodurch Mehrperiodenmodelle effizient<br />
formuliert werden können. Darüber h<strong>in</strong>aus besitzt die ARMAX-Klasse e<strong>in</strong>e<br />
enge Anb<strong>in</strong>dung zu Regressionsmodellen mit autokorrelierten Fehlern <strong>und</strong><br />
sogenannten Distributed-Lag-Modellen. An diesem Punkt soll jedoch die eigentliche<br />
Aufgabe von ARMAX-Modellen herausgearbeitet werden, nämlich<br />
die Behandlung von exogenen E<strong>in</strong>flüssen.<br />
4.3.1 Das ARMAX(1,0,1)-Modell<br />
Das ARMAX(1,0,1)-Modell ist das e<strong>in</strong>fachste ARMA-Modell, dass exogene<br />
E<strong>in</strong>flüsse abbilden kann. Es kann <strong>in</strong> ausgeschriebener Form wie folgt notiert<br />
werden<br />
y t = φ 1 y t−1 + χ 0 x t + ɛ t + θ 1 ɛ t−1 . (4.25)<br />
Im Gegensatz zum normalen ARMA(1,1)-Modell kommt hier noch der exogene<br />
E<strong>in</strong>fluss χ 0 x t h<strong>in</strong>zu, der ebenfalls e<strong>in</strong>en Zeit<strong>in</strong>dex trägt. Die Koeffizienten<br />
s<strong>in</strong>d hier etwas suggestiv mit Indizes versehen worden, um e<strong>in</strong>en wichtigen<br />
Punkt aufzuzeigen. Wir haben im vorangegangenen Abschnitt gesehen, dass<br />
e<strong>in</strong> ARIMA(1,0,1)-Modell e<strong>in</strong>em ARMA(1,1)-Modell entspricht. Das gilt für<br />
die ARMAX-Klasse nicht! Ganz allgeme<strong>in</strong> gilt:<br />
Die ARMAX-Ordnung (p,0,q) zeigt an, dass die exogene E<strong>in</strong>flussgröße<br />
unverzögert, das heißt mit Lag 0, <strong>in</strong> die Modellgleichung<br />
e<strong>in</strong>fließt.<br />
Um die Wichtigkeit von Modellen der ARMAX-Klasse zu verdeutlichen,<br />
s<strong>in</strong>d <strong>in</strong> Abbildung 4.4 verschiedene Anwendungsbeispiele gegeben, die <strong>in</strong><br />
den Wirtschaftswissenschaften besonders relevant s<strong>in</strong>d. Es wurde hier e<strong>in</strong><br />
ARMAX(1,0,0)- oder verkürzt ARX(1,0)-Modell verwendet, <strong>in</strong> dem der MA-<br />
Teil entfällt. Im ersten Fall, Abbildung 4.4 l<strong>in</strong>ks oben, wurde mit Hilfe des<br />
exogenen Modellteils e<strong>in</strong> Schock zum Zeitpunkt t = 100 herbeigeführt. Modelltechnisch<br />
bedeutet das für die exogene Variable<br />
{<br />
1 für t = 100<br />
x t =<br />
(4.26)<br />
0 sonst.<br />
79
KAPITEL 4. ARMA-PROZESSE UND ERWEITERUNGEN<br />
Damit wird zum Zeitpunkt t = 100 e<strong>in</strong> Schock <strong>in</strong> Höhe des Koeffizienten<br />
χ 0 <strong>in</strong>duziert, dessen Resorption im Rahmen des Modells untersucht werden<br />
kann. E<strong>in</strong>e weitere häufige Problemstellung wird durch Niveauverschiebungen<br />
gegeben. Solche Verschiebungen treten zumeist e<strong>in</strong>, wenn sich gewisse<br />
Rahmenbed<strong>in</strong>gungen geändert haben. In Abbildung 4.4 rechts oben ist e<strong>in</strong>e<br />
solche Niveauverschiebung dargestellt. Sie wurde durch die Vorschrift<br />
{<br />
0 für t < 100<br />
x t =<br />
(4.27)<br />
1 für t ≥ 100<br />
herbeigeführt. Als letztes Beispiel wurde e<strong>in</strong> determ<strong>in</strong>istischer Wachstumstrend<br />
<strong>in</strong> den Prozess e<strong>in</strong>geschleust. Dies geschieht e<strong>in</strong>fach durch die Beziehung<br />
x t = t. (4.28)<br />
Die Steigung des Wachstumstrends wird dann durch den ARMAX-<br />
Koeffizienten χ 0 kontrolliert. Das Ergebnis ist <strong>in</strong> Abbildung 4.4 l<strong>in</strong>ks unten<br />
zu sehen.<br />
Wir können bereits an dieser Stelle erkennen, wie extrem nützlich<br />
ARMAX-Modelle <strong>in</strong> Bereichen wie Makroökonomie, Fiskal- oder Stabilitäts-<br />
Abbildung 4.4: Verschiedene Applikationen des ARX(1,0)-Modells<br />
80
4.3. ARMAX-MODELLE<br />
politik se<strong>in</strong> können, kurzum überall, wo dynamische Reaktionen auf äußere<br />
E<strong>in</strong>flüsse abgebildet werden sollen.<br />
Aufgabe 4.6<br />
Nehmen Sie an, die Gleichungsfehler seien<br />
N(0, σ 2 )-verteilt. Schreiben Sie die<br />
bed<strong>in</strong>gte LogLikelihood-Funktion für<br />
das ARMAX(1,0,1)-Modell <strong>in</strong> allgeme<strong>in</strong>er<br />
Form (<strong>in</strong>klusive Intercept θ 0 ).<br />
4.3.2 ARMAX(p,s,q)-Modelle<br />
Natürlich lassen sich auch ARMAX-Modelle <strong>in</strong> allgeme<strong>in</strong>er <strong>und</strong> kompakter<br />
Form mit Hilfe von Operatoren schreiben. Man notiert<br />
mit dem neuen Operator<br />
φ(B)y t = χ(B)x t + θ(B)ɛ t , (4.29)<br />
χ(B) =<br />
s∑<br />
χ k B k (4.30)<br />
k=0<br />
für die exogenen Kontrollgrößen. Beachten Sie, dass der Summations<strong>in</strong>dex <strong>in</strong><br />
(4.30) bei null beg<strong>in</strong>nt, d.h. der erste äußere E<strong>in</strong>fluss wirkt unverzögert, also<br />
mit Lag 0. Die Generalisierung (4.29) ist nun ke<strong>in</strong>e Überraschung mehr, wir<br />
haben das Pr<strong>in</strong>zip bereits bei vorangegangenen Modellklassen gesehen. Wir<br />
werden den Rest des Abschnitts darauf verwenden, die Zusammenhänge der<br />
ARMAX-Klasse mit anderen etablierten <strong>und</strong> eventuell bereits bekannten<br />
Modelltypen aufzuzeigen, um e<strong>in</strong>en E<strong>in</strong>druck von der Vielseitigkeit der<br />
ARMAX-Modelle zu bekommen.<br />
Wir leiten zunächst den Zusammenhang mit Regressionsmodellen anhand<br />
e<strong>in</strong>es e<strong>in</strong>fachen Beispiels her. Nehmen Sie e<strong>in</strong> l<strong>in</strong>eares Regressionsmodell<br />
y t = β 0 + β 1 x t + u t (4.31)<br />
an, dessen Fehlerterm u t jedoch nicht wie üblich unabhängig <strong>und</strong> identisch<br />
verteilt ist, sondern mit sich selbst rückwärts <strong>in</strong> der Zeit korreliert ist. Präziser<br />
gesagt vere<strong>in</strong>baren wir e<strong>in</strong>e AR(1)-Struktur für den Fehlerterm<br />
u t = φu t−1 + ɛ t . (4.32)<br />
81
KAPITEL 4. ARMA-PROZESSE UND ERWEITERUNGEN<br />
Wir hätten (4.32) natürlich auch <strong>in</strong> Operatorschreibweise φ(B)u t = ɛ t formulieren<br />
können. Der Punkt ist folgender: Erweitern wir die ursprüngliche<br />
Regressionsgleichung mit dem entsprechenden AR-Operator, erhalten wir e<strong>in</strong><br />
ARX-Modell. Wir zeigen diese Behauptung Schritt für Schritt<br />
φ(B)y t = φ(B)β 0 + φ(B)β 1 x t + φ(B)u t<br />
= φ(1)β 0 + φ(B)β 1 x t + ɛ t<br />
= (1 − φ)β 0 + β 1 x t − φβ 1 x t−1 + ɛ t<br />
= θ 0 + χ 0 x t + χ 1 x t−1 + ɛ t .<br />
(4.33)<br />
Wir erhalten also präzise e<strong>in</strong> ARX(1,1)-Modell, mit den Parameterrestriktionen<br />
θ 0 = (1 − φ)β 0 , χ 0 = β 1 <strong>und</strong> χ 1 = −φβ 1 . (4.34)<br />
Betrachtet man e<strong>in</strong> ARMAX(0,∞,0)-Modell, erhält man def<strong>in</strong>itionsgemäß<br />
die allgeme<strong>in</strong>e Gleichung e<strong>in</strong>es Distributed-Lag-Modells<br />
∞∑<br />
y t = θ 0 + χ k x t−k + ɛ t . (4.35)<br />
k=0<br />
Unter bestimmten Restriktionen für die Koeffizienten χ k ergeben sich dann<br />
etablierte Modelltypen. Beispielsweise führt die Vorschrift χ k = λχ k−1 für<br />
0 < λ < 1 <strong>und</strong> k ≥ 1 auf das bekannte Koyck-Modell.<br />
Aufgabe 4.7<br />
Leiten Sie das ARMAX-Modell <strong>und</strong> die zugehörigen<br />
Parameterrestriktionen her, die e<strong>in</strong>em<br />
l<strong>in</strong>earen Regressionsmodell mit ARMA(2,1)-<br />
verteilten Fehlern entsprechen.<br />
4.4 Modellidentifikation<br />
Nachdem wir nun verschiedene Erweiterungen von ARMA-Modellen kennengelernt<br />
haben, wollen wir zur Ausgangsklasse zurückkehren <strong>und</strong> versuchen,<br />
e<strong>in</strong>e andere Frage zu beantworten, nämlich die der Modellidentifikation. In<br />
Kapitel 2 <strong>und</strong> 3 haben wir gesehen, dass sich AR- <strong>und</strong> MA-Prozesse entlang<br />
ihrer Autokorrelationsstruktur, respektive partiellen Autokorrelationsstruktur,<br />
unterscheiden lassen. Liegen solche Prozesse vor, lässt sich <strong>in</strong> der Regel<br />
sogar die Modellordnung relativ zuverlässig dem Autokorrelogramm entnehmen.<br />
Für die Mischprozesse der ARMA-Klasse gel<strong>in</strong>gt das im Allgeme<strong>in</strong>en<br />
82
4.4. MODELLIDENTIFIKATION<br />
nicht, da auch die Struktureigenschaften der (partiellen) Autokorrelation vermischt<br />
werden, vgl. Abbildung 4.1 auf Seite 72. Wir benötigen also höher<br />
entwickelte, formale Instrumente um e<strong>in</strong>e geeignete Modellklasse festzulegen.<br />
Diese Instrumente s<strong>in</strong>d Informationskriterien.<br />
4.4.1 Akaike-Informationskriterium<br />
Das historisch gesehen erste, <strong>und</strong> wohl auch am weitesten verbreitete Informationskriterium<br />
stammt von Hirotsugu Akaike. Der Begriff Informationskriterium<br />
bezieht sich dabei nicht <strong>in</strong> oberflächlicher Form auf den Bestimmungszweck,<br />
sondern verweist auf den Ursprung des Kriteriums <strong>in</strong> der Informationstheorie.<br />
Die große Leistung von Akaike war es, das führende Paradigma<br />
der Informationstheorie, die Kullback-Leibler-Entropie, <strong>und</strong> das führende<br />
Paradigma der Statistik, das Maximum-Likelihood-Pr<strong>in</strong>zip, zu vere<strong>in</strong>igen.<br />
Ohne auf die genaue Herleitung des Akaike-Informationskriteriums (AIC)<br />
e<strong>in</strong>zugehen sei angemerkt, dass mit Hilfe der Kullback-Leibler-Information<br />
die Abweichung zwischen dem wahren, unbekannten Modell <strong>und</strong> dem mittels<br />
Maximum-Likelihood geschätzten Modell berechnet werden kann. Für das<br />
Informationskriterium ergibt sich dadurch die verblüffend e<strong>in</strong>fache Form<br />
AIC = − 2 (l − u), (4.36)<br />
T<br />
wobei l der Wert der logarithmierten Likelihoodfunktion ist <strong>und</strong> u die<br />
Anzahl der geschätzten Parameter (<strong>in</strong>klusive ˆσ 2 ) angibt. Es ist hilfreich<br />
Formel (4.36) e<strong>in</strong> wenig zu analysieren.<br />
Der h<strong>in</strong>tere Term l − u wird oft als „kompensierte“ Likelihood beschrieben.<br />
Das ist folgendermaßen zu verstehen. E<strong>in</strong> Modell, das viele Parameter<br />
enthält, lässt sich genauer an e<strong>in</strong>e gegebene Zeitreihe anpassen. Daher wird<br />
der Wert der logarithmierten Likelihoodfunktion bei e<strong>in</strong>em solchen Modell<br />
auch größer se<strong>in</strong>. Zu stark angepasste Modelle besitzen jedoch zwei entscheidende<br />
Nachteile: Es muss e<strong>in</strong>e große Zahl von Parametern geschätzt werden,<br />
<strong>und</strong> sie versagen häufig bei Prognosen, da sie zu stark auf die vorhandenen<br />
Daten zugeschnitten s<strong>in</strong>d. Daher müsste e<strong>in</strong> im <strong>in</strong>formationstheoretischen<br />
S<strong>in</strong>ne optimales Modell e<strong>in</strong>en Kompromiss zwischen Anpassung an vorhandene<br />
Daten <strong>und</strong> Prognosefähigkeit darstellen. Im Fall des AIC wird<br />
dieser Kompromiss erreicht, <strong>in</strong>dem die Anzahl der geschätzten Parameter<br />
vom Wert der logarithmierten Likelihoodfunktion abgezogen wird. Daher<br />
auch der Begriff „Likelihood-Kompensator“. Die Modellanpassung wird also<br />
im Nachh<strong>in</strong>e<strong>in</strong> durch die Zahl der dafür notwendigen Parameter korrigiert,<br />
respektive bestraft. Der Term 2/T kann als e<strong>in</strong>e Art asymptotische<br />
83
KAPITEL 4. ARMA-PROZESSE UND ERWEITERUNGEN<br />
Korrektur verstanden werden. Da der Betrag von l mit der Länge der<br />
Zeitreihe unweigerlich steigt, vgl. Formel (4.13) auf Seite 73, muss dieser<br />
Effekt neutralisiert werden, um für jede beliebige Länge der Zeitreihe den<br />
richtigen Kompensator zu erhalten. Das M<strong>in</strong>uszeichen schließlich überführt<br />
das Likelihood-Maximierungsproblem <strong>in</strong> e<strong>in</strong> M<strong>in</strong>imierungsproblem. Das ist<br />
notwendig, da der <strong>in</strong>formationstheoretische Ansatz von der M<strong>in</strong>imierung<br />
von Modellabweichungen ausgeht. Das bedeutet, e<strong>in</strong> möglichst kle<strong>in</strong>er Wert<br />
des AIC ist erstrebenswert.<br />
Im Falle normalverteilter Fehler lässt sich noch e<strong>in</strong>e Vere<strong>in</strong>fachung vornehmen.<br />
In der Regel ist die Varianz σ 2 unbekannt <strong>und</strong> muss ebenfalls geschätzt<br />
werden. In diesem Fall wird das Informationskriterium oft <strong>in</strong> der<br />
Form<br />
AIC = log[ˆσ 2 ] + 2u<br />
(4.37)<br />
T<br />
geschrieben 2 . Dieser Ausdruck ist proportional zu (4.36). Wir wollen e<strong>in</strong>mal<br />
Schritt für Schritt überlegen, wieso das so ist. Unser Ausgangspunkt ist das<br />
AIC (4.36) <strong>und</strong> die bed<strong>in</strong>gte LogLikelihood-Funktion (4.13) auf Seite 73. Wir<br />
setzen überall Schätzer e<strong>in</strong> <strong>und</strong> erhalten<br />
AIC = − 2l<br />
T + 2u<br />
T<br />
= log[2πˆσ 2 ] + 1ˆσ · 1<br />
2 T<br />
T∑<br />
t=1<br />
ˆɛ 2 t<br />
} {{ }<br />
ˆσ 2<br />
= log[2π] + log[ˆσ 2 ] + 1 + 2u<br />
T<br />
∝ log[ˆσ 2 ] + 2u<br />
+ 2u<br />
T<br />
T . (4.38)<br />
Die Verknüpfung ∝ <strong>in</strong> der letzten Zeile bedeutet „ist proportional zu“. Da die<br />
vernachlässigten Summanden log[2π] + 1 weder von Parametern noch von T<br />
abhängen, liefern sie für das M<strong>in</strong>imierungsproblem ke<strong>in</strong>en relevanten Beitrag<br />
<strong>und</strong> können weggelassen werden.<br />
2 Oft f<strong>in</strong>det sich <strong>in</strong> der Literatur auch die Def<strong>in</strong>ition<br />
AIC = log[ˆσ 2 ] +<br />
2(p + q)<br />
.<br />
T<br />
Hier wird der Parameter σ 2 vernachlässigt, da er als Funktion der Daten <strong>und</strong> der übrigen<br />
Parametern ausgedrückt werden kann. Dies ist e<strong>in</strong>e spezielle Eigenschaft der Gaußschen<br />
Likelihoodfunktion (siehe die Diskussion zur konzentrierten LogLikelihood-Funktion auf<br />
Seite 31).<br />
84
4.4.2 Bayes-Informationskriterium<br />
4.4. MODELLIDENTIFIKATION<br />
Das Bayes-Kriterium nach Schwarz (BIC oder SIC) ist ke<strong>in</strong> Informationskriterium<br />
im eigentlichen S<strong>in</strong>ne, da es sich nicht aus der Informationstheorie<br />
ableitet. Es resultiert vielmehr aus der maximum a posteriori Selektion aus<br />
verschiedenen Alternativmodellen, unter der Bed<strong>in</strong>gung, dass alle Varianten<br />
a priori dieselbe E<strong>in</strong>trittswahrsche<strong>in</strong>lichkeit besitzen. Diese eher abstrakte<br />
Herleitungsskizze wird uns nicht weiter beschäftigen, wichtig s<strong>in</strong>d nur die<br />
Konsequenzen, die sich daraus für das BIC (SIC) ergeben:<br />
• BIC (SIC) erfordert nicht, dass das wahre Modell aus der Klasse der<br />
betrachteten Modelle stammt oder dass überhaupt e<strong>in</strong> wahres Modell<br />
existiert. Im Fall e<strong>in</strong>er fehlspezifizierten Modellklasse liefert AIC ke<strong>in</strong><br />
verlässliches Ergebnis.<br />
• BIC (SIC) ist asymptotisch konsistent, während AIC dazu tendiert <strong>in</strong><br />
großen Stichproben die Modellordnung zu überschätzen.<br />
• AIC besitzt die stärkere theoretische F<strong>und</strong>ierung, während BIC (SIC)<br />
lediglich das wahrsche<strong>in</strong>lichste Modell auswählt, wenn vorher ke<strong>in</strong>e Information<br />
vorliegt. Jedoch s<strong>in</strong>d an diese Auswahl auch weniger Voraussetzungen<br />
geknüpft.<br />
Als Essenz der Herleitung aus der Bayes-Formel ergibt sich für das BIC (SIC)<br />
BIC = − 2 (l − u )<br />
T 2 log[T ] . (4.39)<br />
Wie im Fall des Akaike-Informationskriteriums lässt sich auch hier für normalverteilte<br />
Fehlerterme die Vere<strong>in</strong>fachung<br />
BIC = log[ˆσ 2 ] + u log[T ]<br />
(4.40)<br />
T<br />
vornehmen, die proportional zum orig<strong>in</strong>alen Kriterium (4.39) ist. Der Beweis<br />
soll dem Studierenden als Aufgabe am Ende dieses Abschnitts überlassen<br />
werden.<br />
Der Vollständigkeit halber soll noch darauf h<strong>in</strong>gewiesen werden, dass e<strong>in</strong>e<br />
Zahl weiterer Informationskriterien existiert, die sich aus Endlichkeitskorrekturen<br />
der Stichprobe oder e<strong>in</strong>er alternativen Gewichtung des Abstands<br />
der wahren Verteilung zur geschätzten Verteilung, im Rahmen der Kullback-<br />
Leibler-Information, ergeben. E<strong>in</strong> weiteres im Hauptskript aufgeführtes Kriterium<br />
ist das Hannan-Qu<strong>in</strong>n-Informationskriterium<br />
HQ = − 2 ( )<br />
l − u log log[T ] . (4.41)<br />
T<br />
85
KAPITEL 4. ARMA-PROZESSE UND ERWEITERUNGEN<br />
Aufgabe 4.8<br />
Zeigen Sie, dass für normalverteilte Fehlerterme<br />
die Form<br />
BIC = log[ˆσ 2 ] + u log[T ]<br />
T<br />
proportional zum Info-Kriterium (4.39) ist. H<strong>in</strong>weis:<br />
Setzen Sie die Gaußsche LogLikelihood-<br />
Funktion (4.13) auf Seite 73 e<strong>in</strong>.<br />
4.4.3 Modellselektion<br />
Die Modellselektion mit Hilfe von Informationskriterien ist denkbar e<strong>in</strong>fach.<br />
Es werden zunächst alle <strong>in</strong> Frage kommenden Modellvarianten geschätzt.<br />
Anschließend werden die gewünschten Informationskriterien berechnet. Man<br />
entscheidet sich dann für die Modellvariante, bei der das Kriterium den<br />
ger<strong>in</strong>gsten Wert annimmt.<br />
Beispiel 4.1: Modellselektion<br />
Es liegt e<strong>in</strong>e Zeitreihe mit T = 100 Beobachtungen vor <strong>und</strong><br />
es stehen zwei Modellvarianten zur Disposition, e<strong>in</strong> re<strong>in</strong>er<br />
Rauschprozess <strong>und</strong> e<strong>in</strong> ARMA(0,0)-Modell. Die Werte der<br />
LogLikelihood-Funktion an den ML-Schätzern seien<br />
l(ˆσ 2 ) = −12.453 <strong>und</strong> l( ˆφ, ˆθ, ˆσ 2 ) = −10.887.<br />
Für die e<strong>in</strong>zelnen Informationskriterien berechnet man<br />
Info-Kriterium Rauschen ARMA(1,1)<br />
AIC 0.2691 0.2778<br />
BIC 0.2951 0.3559<br />
HQ 0.2796 0.3094<br />
Offensichtlich wird <strong>in</strong> Beispiel 4.1 unter jedem Informationskriterium der<br />
Rauschprozess als Modell bevorzugt, obwohl die LogLikelihood-Funktion<br />
für das angepasste ARMA(1,1)-Modell größer ist. Achtung: Verschiedene<br />
Informationskriterien müssen nicht immer dasselbe Modell präferieren! Es<br />
kann vorkommen, dass bei Verwendung unterschiedlicher Kriterien andere<br />
Modelle bevorzugt werden. Das liegt an der abweichenden Def<strong>in</strong>ition bzw.<br />
86
4.4. MODELLIDENTIFIKATION<br />
Herleitung der verschiedenen Informationskriterien.<br />
Aufgabe 4.9<br />
Aus e<strong>in</strong>er Zeitreihe mit T = 40 Beobachtungen wurden<br />
verschiedene ARMA(p,q)-Modelle geschätzt. Zusätzlich<br />
sei bekannt, dass der Fehlerterm normalverteilt<br />
ist. Es ergeben sich folgende Schätzer ˆσ 2 für die<br />
Varianz des Fehlerterms:<br />
(p,q) 0 1 2<br />
0 2.82 2.61 2.23<br />
1 2.12 1.99 1.91<br />
2 2.09 1.90 1.85<br />
3 1.88 1.82 1.77<br />
Berechnen Sie die zugehörigen Werte für AIC <strong>und</strong> BIC<br />
(SIC). Welche Modelle s<strong>in</strong>d zu bevorzugen?<br />
87
5<br />
Bed<strong>in</strong>gt heteroskedastische Prozesse<br />
Unter dem Begriff „bed<strong>in</strong>gt heteroskedastische“ Modelle werden <strong>in</strong> der Regel<br />
alle Variationen <strong>und</strong> Spezifikationen von ARCH- bzw. GARCH-Modellen<br />
zusammengefasst. Diese Modelle haben <strong>in</strong> den vergangenen zwanzig Jahren<br />
<strong>in</strong> den quantitativen Wirtschaftswissenschaften e<strong>in</strong>en immensen Stellenwert<br />
erlangt. In der F<strong>in</strong>anzwirtschaft basieren beispielsweise Verfahren zur<br />
Bewertung von Derivaten auf GARCH-Modellen. Obwohl bed<strong>in</strong>gt heteroskedastische<br />
Prozesse e<strong>in</strong>e zusätzliche Komplikation mit sich br<strong>in</strong>gen (sie s<strong>in</strong>d <strong>in</strong><br />
der Regel zwar unkorreliert, aber nicht unabhängig; wir werden später klären<br />
was das zu bedeuten hat), verfügen sie dennoch über e<strong>in</strong>ige sehr nützliche<br />
Eigenschaften. Wir werden aber zunächst die beiden offensichtlichen Fragen<br />
beantworten: Was bedeutet bed<strong>in</strong>gt heteroskedastisch <strong>und</strong> wozu braucht<br />
man e<strong>in</strong>e solche Modellklasse?<br />
Zur ersten Frage: der Begriff „Heteroskedastizität“ stammt aus dem Griechischen<br />
(skedastikós: zum Zerstreuen gehörend) <strong>und</strong> bezeichnet e<strong>in</strong>e Variabilität<br />
<strong>in</strong> der Streuung e<strong>in</strong>es Prozesses. Wir haben vorher ARMA-Modelle <strong>in</strong><br />
der Form<br />
φ(B)y t = θ(B)ɛ t (5.1)<br />
formuliert, wobei wir angenommen haben, dass für den Fehlerterm<br />
ɛ t ∼ N(0, σ 2 ) gilt. Das wäre e<strong>in</strong> Beispiel für e<strong>in</strong>en homoskedastischen<br />
Prozess, die Streuung bleibt immer gleich, egal welchen Wert t annimmt.<br />
Das heißt aber im Umkehrschluss, wir müssen uns auf e<strong>in</strong>en Ausdruck der<br />
Form σt 2 e<strong>in</strong>stellen, der sich im Zeitablauf ändern kann, das ist die Bedeutung<br />
von Heteroskedastizität. Das Adjektiv „bed<strong>in</strong>gt“ bedeutet hier nicht, dass<br />
der Prozess nur unter bestimmten Umständen heteroskedastisch ist, sondern<br />
dass die Verteilung im Bayesschen S<strong>in</strong>ne auf e<strong>in</strong>e gegebene Information<br />
bed<strong>in</strong>gt ist. Das heißt <strong>in</strong> diesem Zusammenhang, wenn auf den Fehler zum<br />
Zeitpunkt t − 1 bed<strong>in</strong>gt wird, dann ist die Kenntnis von ɛ t−1 erforderlich,<br />
um die Verteilung (speziell die Streuung) von ɛ t angeben zu können. Man<br />
würde dann schreiben: die Verteilung von ɛ t|t−1 (t|t − 1 bedeutet zur Zeit t,<br />
89
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
0.04<br />
0.02<br />
0.00<br />
0.02<br />
0.04<br />
0.06<br />
1995 2000 2005 2010<br />
0.10<br />
0.05<br />
0.00<br />
0.05<br />
1995 2000 2005 2010<br />
Abbildung 5.1: Homoskedastischer Rauschprozess <strong>und</strong> DAX-Rendite<br />
gegeben die Information von Zeitpunkt t − 1) ist N(0, σ 2 t ). Machen Sie sich<br />
Folgendes klar: Die Verteilung von ɛ t+1|t−1 ist nicht bekannt, weil σ 2 t+1 von<br />
der Realisation ɛ t abhängt, diese ist aber nicht <strong>in</strong> der Informationsmenge<br />
zum Zeitpunkt t − 1 enthalten. Daher hängt σ 2 t+1 selbst vom Zufall ab, ist<br />
also ke<strong>in</strong> bekannter Verteilungsparameter, zum<strong>in</strong>dest nicht bed<strong>in</strong>gt auf die<br />
Information, die zum Zeitpunkt t − 1 vorliegt. Diese Diskussion hat an dieser<br />
Stelle natürlich noch ke<strong>in</strong>en rigorosen Charakter, da wir die entsprechenden<br />
Modelle noch nicht <strong>in</strong> mathematischer Weise formuliert haben. Wenden wir<br />
uns deshalb zunächst der zweiten Frage zu.<br />
Betrachten Sie Abbildung 5.1. L<strong>in</strong>ks ist die Simulation e<strong>in</strong>es homoskedastischen<br />
Rauschprozesses abgebildet, wie er häufig als Modell für Renditen<br />
verwendet wird. Auf der rechten Seite bef<strong>in</strong>det sich die Renditezeitreihe des<br />
Deutschen Aktien Index (DAX). Es wird sofort klar, dass der e<strong>in</strong>fache homoskedastische<br />
Rauschprozess höchstwahrsche<strong>in</strong>lich ke<strong>in</strong> gutes Modell für Wertpapierrenditen<br />
ist. Es fallen zwei Charakteristika der DAX-Rendite Zeitreihe<br />
unmittelbar <strong>in</strong>s Auge. Zum e<strong>in</strong>en ist die Streuung offenbar tatsächlich nicht<br />
konstant, sondern variiert mit der Zeit. Zum anderen sche<strong>in</strong>t sie sich nicht<br />
willkürlich zu verändern, sondern <strong>in</strong> zusammenhängenden Gebieten (Zeiträumen).<br />
Dieses Phänomen wird als „Volatility Cluster<strong>in</strong>g“ bezeichnet <strong>und</strong> ist e<strong>in</strong><br />
starker H<strong>in</strong>weis auf ARCH-Effekte <strong>in</strong> e<strong>in</strong>er Zeitreihe. Es wird nun Zeit zu klären,<br />
wie bed<strong>in</strong>gt heteroskedastische Modelle formuliert werden <strong>und</strong> was die<br />
Bezeichnungen ARCH <strong>und</strong> GARCH bedeuten.<br />
90
5.1. ARCH-MODELLE<br />
5.1 ARCH-Modelle<br />
Der Begriff ARCH steht für AutoRegressive Conditional Heteroskedasticity,<br />
also autoregressive bed<strong>in</strong>gte Heteroskedastizität. Wir haben autoregressive<br />
Modelle bereits <strong>in</strong> Kapitel 2 behandelt <strong>und</strong> kennen e<strong>in</strong>ige ihrer Eigenschaften.<br />
E<strong>in</strong> ARCH-Modell ist ganz ähnlich, nur dass hier gewissermaßen die Varianz<br />
als AR-Modell formuliert wird. Bitte behalten Sie stets im H<strong>in</strong>terkopf:<br />
E<strong>in</strong> ARCH-Modell ist e<strong>in</strong> Modell für die Streuung e<strong>in</strong>es Prozesses.<br />
5.1.1 Das ARCH(1)-Modell<br />
Das ARCH(1)-Modell ist der e<strong>in</strong>fachste Vertreter der bed<strong>in</strong>gt heteroskedastischen<br />
Modellklasse. Es hat darüber h<strong>in</strong>aus den Vorzug, dass se<strong>in</strong>e Parameter<br />
alle<strong>in</strong> durch Momentenschätzer bestimmt werden können, aber dazu später<br />
mehr. Wir haben oben gesagt, dass e<strong>in</strong> ARCH-Modell e<strong>in</strong> Modell für die<br />
Streuung e<strong>in</strong>es Prozesses ist. Die Streuung ist ihrerseits e<strong>in</strong> Attribut des<br />
Fehlerterms, wir beg<strong>in</strong>nen unsere Diskussion deshalb mit der folgenden, im<br />
ARCH-Kontext üblichen Notationsvariante<br />
ɛ t = σ t z t . (5.2)<br />
Vere<strong>in</strong>barungsgemäß ist z t e<strong>in</strong> Zufallsfehler mit Erwartungswert null (Innovation)<br />
<strong>und</strong> Varianz e<strong>in</strong>s, also e<strong>in</strong> standardisierter, nicht notwendigerweise<br />
normalverteilter Fehlerterm. Wir werden jedoch im Weiteren annehmen,<br />
dass z t ∼ N(0, 1) gilt, wenn nicht explizit etwas anderes gilt.<br />
E<strong>in</strong>schub: L<strong>in</strong>eare Transformation<br />
Sei X e<strong>in</strong>e Zufallsvariable <strong>und</strong> Y = a + bX, mit beliebigen<br />
Konstanten a <strong>und</strong> b, dann wird Y e<strong>in</strong>e l<strong>in</strong>eare Transformation<br />
von X genannt. Y ist ebenfalls e<strong>in</strong>e Zufallsvariable <strong>und</strong> es gilt:<br />
1. E[Y ] = a + bE[X]<br />
2. Var[Y ] = b 2 Var[X]<br />
Weiterh<strong>in</strong> gilt <strong>in</strong>sbesondere: Ist X normalverteilt, dann ist Y<br />
ebenfalls normalverteilt.<br />
Wir sehen nun, dass ɛ t <strong>in</strong> (5.2) e<strong>in</strong>e l<strong>in</strong>eare Transformation von z t ist,<br />
mit a = 0 <strong>und</strong> b = σ t . Wenn z t standard-normalverteilt ist, wie ist dann<br />
ɛ t verteilt? Die Antwort ist e<strong>in</strong>fach, ɛ t ∼ N(0, σ 2 t ). Gleichung (5.2) ist<br />
gewissermaßen e<strong>in</strong>e Mikroskopierung des Fehlerterms, den wir bereits aus<br />
91
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
den vorangegangenen Kapiteln kennen. Das bedeutet aber auch, dass die<br />
Modelle, die wir noch untersuchen werden, nahtlos <strong>in</strong> die bereits bekannten<br />
Modelle e<strong>in</strong>gepasst werden können. Die folgende Modellierung von σ t stellt<br />
also e<strong>in</strong>e weitere, filigranere Modellebene dar.<br />
Nun genug der Vorarbeit. Das ARCH(1)-Modell wird allgeme<strong>in</strong> üblich <strong>in</strong><br />
folgender Form notiert<br />
y t = ɛ t = σ t z t (5.3)<br />
σ 2 t = ω + αɛ 2 t−1. (5.4)<br />
Der erste Teil von Gleichung (5.3) zeigt, dass e<strong>in</strong> re<strong>in</strong>es Rauschmodell<br />
angenommen wird, y t = ɛ t . Der zweite Teil von (5.3) ist die uns schon<br />
bekannte Transformation (Mikroskopierung) des Fehlerterms. Gleichung<br />
(5.4) stellt die eigentliche ARCH-Dynamik her. Demnach wird die Varianz<br />
σt 2 zum Zeitpunkt t erklärt durch e<strong>in</strong>e Art Basisstreuung ω (kle<strong>in</strong>es Omega)<br />
<strong>und</strong> e<strong>in</strong>e mit α gewichtete quadrierte Realisation des Fehlers zum vorherigen<br />
Zeitpunkt t−1. ɛ t−1 muss also bekannt se<strong>in</strong>, damit σt 2 berechnet werden, <strong>und</strong><br />
somit die Verteilung von y t angegeben werden kann. Man sagt, y t ist bed<strong>in</strong>gt<br />
N(0, σt 2 )-verteilt <strong>und</strong> die Bed<strong>in</strong>gung ist, dass die Information von Zeitpunkt<br />
t − 1 vorliegt (also ɛ t−1 bekannt ist). Mit Hilfe der bed<strong>in</strong>gten Notation aus<br />
dem vorherigen Abschnitt schreibt man formal 1 y t|t−1 ∼ N(0, σt 2 ).<br />
Wieso ausgerechnet e<strong>in</strong> Rauschprozess mit Erwartungswert null? ARCH-<br />
Modelle wurden entwickelt, um den Besonderheiten von Renditezeitreihen<br />
von F<strong>in</strong>anzanlagen Rechnung zu tragen, vgl. Abbildung 5.1 auf Seite 90. Angenommen<br />
e<strong>in</strong>e Wertpapieranlage hat e<strong>in</strong>e erwartete jährliche Rendite von<br />
10%, dann ist bei ca. 250 Handelstagen im Jahr die erwartete Tagesrendite etwa<br />
von der Größenordnung 10 −4 . Demgegenüber liegt im Schnitt die tägliche<br />
Volatilität σ t der meisten F<strong>in</strong>anzanlagen zwischen 2% <strong>und</strong> 5%. Der Erwartungswert<br />
wird also um zwei Größenordnungen von der Standardabweichung<br />
dom<strong>in</strong>iert <strong>und</strong> kann daher <strong>in</strong> erster Näherung vernachlässigt werden. S<strong>in</strong>d<br />
genauere Ergebnisse gewünscht, kann analog zum Vorgehen <strong>in</strong> Kapitel 2 die<br />
Substitution y t = x t −µ vorgenommen werden. Man erhält dann anstelle von<br />
(5.3)<br />
x t = µ + σ t z t . (5.5)<br />
Damit ist x t unter den üblichen Annahmen bed<strong>in</strong>gt N(µ, σt 2 )-verteilt.<br />
Bed<strong>in</strong>gt wird wiederum auf die Information zum Zeitpunkt t − 1 (also ɛ t−1 ),<br />
1 Beachten Sie, dass es viele unterschiedliche Variationen der bed<strong>in</strong>gten Schreibweise<br />
gibt. Wichtig ist, dass immer auf e<strong>in</strong>e bestimmte Information bed<strong>in</strong>gt werden muss, sobald<br />
Sie e<strong>in</strong> ‘|’ Zeichen sehen.<br />
92
5.1. ARCH-MODELLE<br />
da σ 2 t<br />
nur berechnet werden kann, wenn diese Information vorliegt.<br />
Gibt es Restriktionen für die Parameter? Allerd<strong>in</strong>gs. Die Varianz ist das<br />
Quadrat der Standardabweichung. Es wäre sehr pe<strong>in</strong>lich, wenn die Varianz<br />
negative Werte annehmen würde. Deshalb wird gefordert, dass ω > 0 <strong>und</strong> α ><br />
0 gilt. Durch diese E<strong>in</strong>schränkung bleibt σ 2 t immer positiv. Gibt es weitere<br />
E<strong>in</strong>schränkungen? Möglicherweise, es hängt davon ab, ob wir wünschen, dass<br />
der Prozess y t stationär se<strong>in</strong> soll. Rufen Sie sich noch e<strong>in</strong>mal die Def<strong>in</strong>itionen<br />
der starken <strong>und</strong> schwachen Stationarität <strong>in</strong>s Gedächtnis (Seite 10 <strong>und</strong> 14).<br />
Wir werden uns darauf beschränken, Bed<strong>in</strong>gungen für schwache Stationarität<br />
anzugeben.<br />
5.1.2 Stationarität des ARCH(1)-Prozesses<br />
Um herauszuf<strong>in</strong>den, unter welchen Bed<strong>in</strong>gungen der ARCH(1)-Prozess stationär<br />
ist, müssen wir die ersten beiden Momente <strong>und</strong> die Autokovarianz<br />
ausrechnen. Diese Berechnung birgt e<strong>in</strong>e gewisse Subtilität. Wir kennen nur<br />
die bed<strong>in</strong>gte Verteilung von y t , nämlich y t|t−1 ∼ N(0, σ 2 t ). Wir brauchen aber<br />
die Momente von y t , also die Momente der unbed<strong>in</strong>gten Verteilung. Lassen<br />
Sie uns sehen, ob wir diese berechnen können. Beg<strong>in</strong>nen wir mit dem Erwartungswert<br />
E[y t ] = E[σ t z t ] = E[σ t ]E[z t ] = 0. (5.6)<br />
E<strong>in</strong>schub: Produkterwartungswert<br />
Seien X <strong>und</strong> Y unabhängige Zufallsvariablen,<br />
dann gilt für das Produkt X · Y :<br />
E[X · Y ] = E[X] · E[Y ].<br />
Beachten Sie, dass diese Beziehung nur für<br />
unabhängige oder zum<strong>in</strong>dest unkorrelierte X<br />
<strong>und</strong> Y gilt!<br />
Der unbed<strong>in</strong>gte Erwartungswert ist also konstant, soweit so gut. Als nächstes<br />
berechnen wir die Autokovarianz mit Lag k = 1<br />
γ 1 = Cov[y t−1 , y t ] = E[y t−1 y t ]<br />
= E[σ t−1 z t−1 σ t z t ]<br />
= E[σ t−1 z t−1 σ t ]E[z t ] = 0.<br />
(5.7)<br />
93
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
Wieder wurde ausgenutzt, dass z t e<strong>in</strong> re<strong>in</strong>er Zufallsfehler ist, der auf ke<strong>in</strong>e<br />
Information bed<strong>in</strong>gt werden muss. Da z t N(0, 1)-verteilt ist, folgt natürlich<br />
wie <strong>in</strong> (5.6) sofort E[z t ] = 0. Die Lags k ≥ 2 müssen wir nicht abprüfen,<br />
da die Varianzgleichung (5.4) nur verzögerte E<strong>in</strong>flüsse bis k = 1 enthält. Es<br />
folgt also<br />
γ k = 0 für k ≥ 1. (5.8)<br />
Damit haben wir gleichzeitig gezeigt, dass der ARCH(1)-Prozess e<strong>in</strong> re<strong>in</strong>er<br />
Rauschprozess ist. Wir haben gezeigt, dass y t nicht autokorreliert ist,<br />
gleichzeitig wissen wir aber, dass die Verteilung von y t von der Information<br />
zur Zeit t − 1 abhängt. Dieser etwas seltsame Bef<strong>und</strong> wird oft so formuliert:<br />
„y t ist zwar unkorreliert, aber nicht unabhängig.“ Aus dieser Eigenschaft<br />
lässt sich (zum<strong>in</strong>dest heuristisch) wiederum folgender, noch seltsamerer<br />
Schluss ziehen: Da lediglich unter Normalverteilung gilt, dass unkorrelierte<br />
Zufallsvariablen auch unabhängig s<strong>in</strong>d, kann die stationäre Verteilung von y t<br />
ke<strong>in</strong>e Normalverteilung se<strong>in</strong>. Wir werden später zeigen, dass dieser Schluss<br />
<strong>in</strong> der Tat korrekt ist.<br />
Bisher verlief unsere Analyse völlig unproblematisch. Der Haken muss<br />
also <strong>in</strong> der letzten Bed<strong>in</strong>gung stecken. Berechnen wir nun die Varianz von y t<br />
γ 0 = Var[y t ] = E[σ 2 t z 2 t ] = E[σ 2 t ]E[z 2 t ] = E[σ 2 t ]<br />
= E[ω + ασ 2 t−1z 2 t−1] = ω + αE[σ 2 t−1]E[z 2 t−1]<br />
= ω + αE[σ 2 t−1].<br />
(5.9)<br />
In der ersten Zeile wurde wieder ausgenutzt, dass z t unabhängig von verzögerter<br />
Information ist. In der Tat ist zt<br />
2 e<strong>in</strong>e unabhängig χ 2 1-verteilte (Chi-<br />
Quadrat mit e<strong>in</strong>em Freiheitsgrad) Zufallsvariable 2 . Da z t ∼ N(0, 1) gilt,<br />
folgt unmittelbar E[zt 2 ] = 1. In Zeile zwei wurde wieder verwendet, dass<br />
ɛ t−1 = σ t−1 z t−1 gilt. Der wichtigste Ausdruck, der sich aus (5.9) ergibt, ist<br />
Var[y t ] = ω + αVar[y t−1 ]. (5.10)<br />
Das ist aber exakt dieselbe Representation wie im AR(1)-Modell, vgl. Gleichung<br />
(2.8) auf Seite 8, mit den Ersetzungen σ 2 → ω <strong>und</strong> φ 2 → α. Nun wird<br />
auch klar, dass ω <strong>und</strong> α beide größer null se<strong>in</strong> müssen. Um die stationäre<br />
Varianz zu berechnen, bzw. um die notwendige Bed<strong>in</strong>gung abzuleiten, geht<br />
2 Für die Summe von quadrierten standard-normalverteilten Zufallsvariablen<br />
Z 1 , . . . , Z N gilt<br />
N∑<br />
Zn 2 ∼ χ 2 N.<br />
n=1<br />
94
5.1. ARCH-MODELLE<br />
man nun völlig analog zu Abschnitt 2.1.2 vor. Am Ende dieses Abschnitts<br />
können Sie die Ableitungsschritte erneut im Rahmen e<strong>in</strong>er Übungsaufgabe<br />
nachvollziehen. Man erhält durch Vorwärtsiteration<br />
∑t−1<br />
Var[y t ] = ω α k . (5.11)<br />
Die stationäre Varianz ergibt sich im Grenzwert für t → ∞ unter Verwendung<br />
der geometrischen Reihe<br />
k=0<br />
∑t−1<br />
Var[y st. ] = lim ω α k =<br />
t→∞<br />
k=0<br />
ω<br />
1 − α<br />
für α < 1. (5.12)<br />
Die gesuchte Bed<strong>in</strong>gung für schwache Stationarität lautet also α < 1. Der<br />
Parameter α wird im ökonomischen Kontext auch als Volatilitätspersistenz<br />
bezeichnet. Er bestimmt, wie lange Volatilitätsschocks im System nachwirken,<br />
bspw. <strong>in</strong> makroökonomischen Modellen. Zusammengefasst lauten die<br />
Parameterrestriktionen für e<strong>in</strong> schwach stationäres ARCH(1)-Modell ω > 0<br />
<strong>und</strong> 0 < α < 1.<br />
Aufgabe 5.1<br />
Zeigen Sie, dass im ARCH(1)-Modell die<br />
unbed<strong>in</strong>gte Varianz von y t (gegeben y 0 )<br />
∑t−1<br />
Var[y t ] = ω<br />
k=0<br />
α k<br />
ist. Iterieren Sie die ersten drei Zeitpunkte<br />
vorwärts.<br />
5.1.3 Kurtosis im ARCH(1)-Modell<br />
In diesem Abschnitt werden wir bestimmte Aspekte der unbed<strong>in</strong>gten<br />
Verteilung e<strong>in</strong>es ARCH(1)-Prozesses untersuchen. Genauer gesagt, werden<br />
wir die Kurtosis (Wölbung) herleiten. In Abbildung 5.2 ist die Verteilung<br />
der DAX-Log-Renditen aus Abbildung 4.2 auf Seite 75 (rechts) dargestellt.<br />
95
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
E<strong>in</strong>schub: Rendite <strong>und</strong> Log-Rendite<br />
Sie werden sich w<strong>und</strong>ern, warum e<strong>in</strong>mal die Rendite <strong>und</strong> e<strong>in</strong> anderes<br />
mal die Log-Rendite (logarithmierte Rendite) betrachtet<br />
wird? Die erste Hälfte der Antwort lautet: Es besteht ke<strong>in</strong> großer<br />
Unterschied zwischen beiden. Angenommen die relative Änderung<br />
e<strong>in</strong>es Wertpapierkurses (Rendite) von e<strong>in</strong>em Tag zum nächsten ist<br />
nicht allzu groß, dann gilt folgende Näherung<br />
S t+1 − S t<br />
= S t+1<br />
− 1 ≈ log<br />
S t S t<br />
[<br />
St+1<br />
]<br />
= log S t+1 − log S t .<br />
S t<br />
L<strong>in</strong>ks steht die Rendite, rechts die Log-Rendite. Die zweite Hälfte<br />
der Antwort hängt damit zusammen, dass die Log-Rendite als<br />
Differenz geschrieben werden kann, was oft sehr praktisch ist.<br />
Die zugehörige Normalverteilung ist ebenfalls als Referenz e<strong>in</strong>gezeichnet. Es<br />
fällt sofort auf, dass die empirische Verteilung (Histogramm) deutlich mehr<br />
Wahrsche<strong>in</strong>lichkeitsmasse im Hauptbereich besitzt. Es kommt ebenfalls häufiger<br />
vor, dass extreme Werte auftreten. Das bedeutet, es bef<strong>in</strong>det sich im<br />
Vergleich zur Normalverteilung auch mehr Warsche<strong>in</strong>lichkeitsmasse <strong>in</strong> den<br />
Ausläufern der Verteilung. Dieser Bef<strong>und</strong> wird <strong>in</strong> der Praxis oft mit dem<br />
Begriff „Fat Tails“ beschrieben. Korrekterweise müsste man sagen, die unbed<strong>in</strong>gte<br />
Verteilung der DAX-Log-Renditen ist stärker gewölbt als e<strong>in</strong>e Normalverteilung.<br />
Die Wölbung e<strong>in</strong>er Verteilung wird als Kurtosis bezeichnet<br />
<strong>und</strong> e<strong>in</strong>e Überschusswölbung gegenüber der Normalverteilung heißt Leptokurtosis.<br />
Merke:<br />
Bei Leptokurtosis bef<strong>in</strong>det sich mehr Wahrsche<strong>in</strong>lichkeitsmasse im<br />
40<br />
30<br />
20<br />
10<br />
0<br />
0.06 0.04 0.02 0.00 0.02 0.04 0.06<br />
Abbildung 5.2: Histogramm (l<strong>in</strong>ks) <strong>und</strong> Statistiken der unbed<strong>in</strong>gten<br />
DAX-Log-Rendite Verteilung (rechts)<br />
96
5.1. ARCH-MODELLE<br />
Zentralbereich <strong>und</strong> <strong>in</strong> den Ausläufern als bei e<strong>in</strong>er Normalverteilung.<br />
Die Normalverteilung hat immer e<strong>in</strong>e Kurtosis von 3. Die exakte Def<strong>in</strong>ition<br />
der Kurtosis lautet<br />
[ ] 4 x − µ<br />
K = E = m 4<br />
, (5.13)<br />
σ m 2 2<br />
mit m k als k-tem zentralen Moment (Siehe E<strong>in</strong>schub <strong>in</strong> Abschnitt 2.1.2).<br />
Werte über 3 werden als Überschusskurtosis oder Kurtosis-Exzess bezeichnet.<br />
Wenn das ARCH(1)-Modell tatsächlich e<strong>in</strong>e bessere Beschreibung von<br />
Wertpapierrenditen (respektive Log-Renditen) liefern soll, sollte es besser e<strong>in</strong>e<br />
unbed<strong>in</strong>gte Verteilung mit Kurtosis-Exzess generieren können. Wir werden<br />
das nachprüfen. Die stationäre Varianz haben wir bereits berechnet. Damit<br />
steht uns der Term im Nenner von (5.13) bereits zur Verfügung (er<strong>in</strong>nern Sie<br />
sich, dass m 2 = σ 2 gilt). Bezüglich dem vierten Moment gehen wir analog<br />
vor<br />
E[y 4 t ] = E[ɛ 4 t ] = E[σ 4 t z 4 t ] = E[σ 4 t ]E[z 4 t ]<br />
= 3E [ (ω + αɛ 2 t−1) 2]<br />
= 3E[ω 2 + 2ωαɛ 2 t−1 + α 2 ɛ 4 t−1]<br />
= 3ω 2 + 6 ω2 α<br />
1 − α + 3α2 E[ɛ 4 t−1]<br />
= 3 ω2 (1 − α)<br />
1 − α + 6 ω2 α<br />
1 − α + 3α2 E[ɛ 4 t−1]<br />
= 3ω2 (1 + α)<br />
1 − α<br />
+ 3α 2 E[y 4 t−1].<br />
(5.14)<br />
In der ersten Zeile wurde wieder ausgenutzt, dass z t unabhängig von σ t<br />
ist (was auch für beliebige Potenzen gilt). In Zeile zwei wurde dann die<br />
Kurtosis der Normalverteilung e<strong>in</strong>gesetzt, E[zt 4 ] = 3. In der vierten Zeile<br />
wurde schließlich die stationäre Varianz (5.12) für E[ɛ 2 t−1] e<strong>in</strong>gesetzt.<br />
Erkennen Sie die endgültige Form von Gleichung (5.14) wieder? Es handelt<br />
sich um e<strong>in</strong>e rekursive Gleichung, die strukturell völlig identisch mit<br />
Gleichung (5.10) auf Seite 94 ist. Nur die Koeffizienten s<strong>in</strong>d hier etwas komplizierter.<br />
Wenn wir aber zusätzlich fordern, dass 3α 2 < 1 se<strong>in</strong> soll, so dass<br />
die entsprechende geometrische Reihe konvergiert, können wir die stationäre<br />
Lösung <strong>in</strong> vollkommen analoger Weise ablesen<br />
E[y 4 st.] =<br />
3ω 2 (1 + α)<br />
(1 − α)(1 − 3α 2 ) = ω 2 + α)(1 − α)<br />
· 3(1 . (5.15)<br />
(1 − α)<br />
2<br />
1 − 3α 2<br />
97
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
S<strong>in</strong>d wir damit am Ende? Noch nicht ganz. Wir müssen noch durch das<br />
Quadrat der stationären Varianz teilen. Die Terme s<strong>in</strong>d <strong>in</strong> (5.15) bereits sehr<br />
vorteilhaft gruppiert <strong>und</strong> die dritte b<strong>in</strong>omische Formel führt uns ans Ziel<br />
K =<br />
E[y4 st.]<br />
Var[y st. ] = 3 1 − α2<br />
> 3. (5.16)<br />
2 1 − 3α2 Das ARCH(1)-Modell generiert also tatsächlich e<strong>in</strong>e stationäre Überschusskurtosis.<br />
Es ist damit e<strong>in</strong> guter Kandidat zur Modellierung von<br />
Renditezeitreihen von Wertpapieren. Beachten Sie, dass die stationäre<br />
Kurtosis im Grenzwert für α → 0 gegen 3 geht. Das ARCH-Modell würde<br />
also <strong>in</strong> diesem Fall auf e<strong>in</strong> ganz gewöhnliches Rauschmodell mit konstanter<br />
Varianz ω reduziert.<br />
Aufgabe 5.2<br />
In Abschnitt 7.1 auf Seite 145 ist e<strong>in</strong> Schema für<br />
die Berechnung höherer Momente der Normalverteilung<br />
angegeben. Leiten Sie die stationäre Schiefe<br />
(Skewness)<br />
[ ] 3 x − µ<br />
S = E = m 3<br />
σ m 3/2<br />
2<br />
für das ARCH(1)-Modell her.<br />
Aufgabe 5.3<br />
Wie müssen die Parameter des ARCH(1)-Modells<br />
gewählt werden, wenn die unbed<strong>in</strong>gte Verteilung<br />
die Eigenschaften<br />
a) σ 2 = 3 2 <strong>und</strong> K = 4<br />
b) σ 2 = 4 <strong>und</strong> K = 9<br />
besitzt? H<strong>in</strong>weis: Berechnen Sie zuerst α, dann ω.<br />
5.1.4 Parameterschätzung im ARCH(1)-Modell<br />
Das ARCH(1)-Modell ist nicht nur h<strong>in</strong>sichtlich se<strong>in</strong>er Architektur das<br />
e<strong>in</strong>fachste se<strong>in</strong>er Klasse, es erlaubt darüberh<strong>in</strong>aus e<strong>in</strong>e sehr e<strong>in</strong>fache<br />
<strong>und</strong> elegante Schätzung se<strong>in</strong>er Parameter mit der Momentenmethode.<br />
98
5.1. ARCH-MODELLE<br />
Das Standardverfahren zur Parameterschätzung <strong>in</strong> ARCH- respektive<br />
GARCH-Modellen ist Maximum-Likelihood. Wir werden dieses Verfahren<br />
im Anschluss motivieren. Zunächst soll aber die Momentenmethode erörtert<br />
werden.<br />
E<strong>in</strong>e Bestimmung der Parameter mit Hilfe von empirisch geschätzten Momenten<br />
wird dadurch ermöglicht, dass die Kurtosis (5.16) e<strong>in</strong>e direkte Beziehung<br />
zu e<strong>in</strong>em der beiden zu schätzenden Parameter herstellt, nämlich zu<br />
α. Die Kurtosis kann aber wiederum aus geschätzten Momenten berechnet<br />
werden<br />
ˆK = ˆm 4<br />
. (5.17)<br />
ˆm 2 2<br />
Wird Formel (5.16) nun entsprechend umgestellt, vgl. Aufgabe 5.3, erhält<br />
man e<strong>in</strong>en Schätzer für den Parameter α<br />
ˆα =<br />
√<br />
ˆK − 3<br />
3( ˆK − 1) . (5.18)<br />
Genaugenommen erhält man sogar zwei Schätzer für α, da die negative Wurzel<br />
ebenfalls e<strong>in</strong>e Lösung der quadratischen Gleichung für α 2 darstellt. E<strong>in</strong>e<br />
Konstruktionsbed<strong>in</strong>gung des ARCH(1)-Modells war jedoch, dass α > 0 gilt.<br />
Somit können wir die negative Lösung außer Acht lassen. Aus der geschätzten<br />
Varianz lässt sich mit Hilfe von ˆα <strong>und</strong> Gleichung (5.12) sofort e<strong>in</strong> Schätzer<br />
für den zweiten Parameter ω angeben<br />
ˆω = ˆm 2 (1 − ˆα). (5.19)<br />
Die Momentenschätzer selbst werden analog zu den Schätzern für Erwartungswert<br />
<strong>und</strong> Varianz (2.29) <strong>und</strong> (2.30) auf Seite 21 def<strong>in</strong>iert<br />
ˆm k = 1 T<br />
T∑<br />
(y t − ˆµ) k . (5.20)<br />
t=1<br />
Damit steht e<strong>in</strong> sehr effizientes zweistufiges Verfahren zur Schätzung der<br />
Parameter zur Verfügung: Berechne im ersten Schritt ˆm 2 <strong>und</strong> ˆm 4 aus der<br />
beobachteten Zeitreihe <strong>und</strong> bestimme im zweiten Schritt ˆα <strong>und</strong> ˆω aus den<br />
Momentenschätzern. E<strong>in</strong>e numerische Maximierung, wie sie unter ML benötigt<br />
wird, entfällt hier. Leider ist e<strong>in</strong>e vergleichbar e<strong>in</strong>fache Schätzung mit<br />
der Momentenmethode <strong>in</strong> Modellen höherer Ordnung nicht möglich. Man<br />
greift daher auf das bewährte Arbeitspferd der modernen Statistik zurück:<br />
Maximum-Likelihood.<br />
99
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
Wir haben bereits <strong>in</strong> Kapitel 2 gesehen, dass auf verzögerte Realisierungen<br />
des Zufallsprozesses bed<strong>in</strong>gt wurde, damit die Likelihoodfunktion e<strong>in</strong>e<br />
faktorisierte Form annimmt, also als Produkt von (bed<strong>in</strong>gten) E<strong>in</strong>zeldichten<br />
geschrieben werden kann. Im Falle der bed<strong>in</strong>gt heteroskedastischen Prozesse<br />
funktioniert derselbe Trick, nur dass hier die Verteilung selbst, bzw. ihr Parameter<br />
σ t , auf die vergangene Information bed<strong>in</strong>gt werden muss. Wir gehen<br />
ganz analog vor. Zunächst wird angenommen, dass z t unabhängig <strong>und</strong> identisch<br />
standard-normalverteilt ist, <strong>und</strong> dass weiterh<strong>in</strong> ɛ 0 = 0 gilt. Dann lässt<br />
sich die geme<strong>in</strong>same Dichte von y 1 , . . . , y T wie folgt schreiben<br />
p(y T , y T −1 , . . . , y 1 ) =<br />
=<br />
=<br />
T∏<br />
p(y t |ɛ t−1 )<br />
t=1<br />
T∏ 1<br />
√ e − 1 yt<br />
2<br />
2 σ<br />
t<br />
2 (5.21)<br />
t=1 2πσ<br />
2<br />
t<br />
T∏ 1<br />
1 yt<br />
2<br />
√<br />
2π(ω + αɛ<br />
2<br />
t−1 ) e− 2 ω+αɛ 2 t−1 .<br />
t=1<br />
Von Schritt zwei nach drei wurde e<strong>in</strong>fach die ARCH-Gleichung (5.4) auf<br />
Seite 92 e<strong>in</strong>gesetzt. Die logarithmierte Likelihoodfunktion ist e<strong>in</strong>fach wieder<br />
der Logarithmus der geme<strong>in</strong>samen Dichte (5.21), aufgefasst als Funktion der<br />
Parameter ω <strong>und</strong> α<br />
l(ω, α) =<br />
T∑<br />
log p(y t |ɛ t−1 )<br />
t=1<br />
= − 1 2<br />
T∑<br />
t=1<br />
= − T 2 log[2π] − 1 2<br />
(<br />
log [ 2π(ω + αɛ 2 t−1) ] +<br />
T∑<br />
t=1<br />
y 2 t<br />
)<br />
ω + αɛ 2 t−1<br />
(<br />
log [ ]<br />
ω + αɛ 2 y 2<br />
t−1 +<br />
t<br />
ω + αɛ 2 t−1<br />
)<br />
.<br />
(5.22)<br />
Gleichung (5.22) muss wieder numerisch maximiert werden, um e<strong>in</strong>en<br />
ML-Schätzer für die beiden Parameter zu erhalten. Das überlassen wir<br />
getrost dem Computer, unsere Arbeit hier ist getan.<br />
100
5.1. ARCH-MODELLE<br />
Aufgabe 5.4<br />
Gegeben sei die Zeitreihe<br />
(y t ) t=1,...,8 = {0, 0, 2, 0, 0, −2, 0, 0}.<br />
Gehen Sie davon aus, dass e<strong>in</strong> ARCH(1)-Prozess<br />
zugr<strong>und</strong>e liegt <strong>und</strong> schätzen Sie die Parameter ω<br />
<strong>und</strong> α mit der Momentenmethode.<br />
Aufgabe 5.5<br />
Nehmen Sie an, dass der ARCH(1)-Prozess aus<br />
Aufgabe 5.4 e<strong>in</strong>e standard-normalverteilte Innovation<br />
z t besitzt. Geben Sie den Wert der logarithmierten<br />
Likelihoodfunktion für ɛ 0 = 0 <strong>und</strong> die<br />
Parameterwerte ω = 2 3 <strong>und</strong> α = 1 3 an.<br />
5.1.5 Das ARCH(p)-Modell<br />
Die Erweiterung der ARCH-Klasse auf ARCH(p)-Modelle 3 ist kaum e<strong>in</strong>e unerwartete<br />
Neuigkeit. Das bis hierher Gesagte besitzt mit den offensichtlichen<br />
Modifikationen weiterh<strong>in</strong> Gültigkeit. Wir werden diese Modifikationen<br />
dennoch Schritt für Schritt durchgehen. Zunächst soll das ARCH(p)-Modell<br />
formal notiert werden<br />
y t = σ t z t (5.23)<br />
p∑<br />
σt 2 = ω + α k ɛ 2 t−k. (5.24)<br />
k=1<br />
Die red<strong>und</strong>ante Def<strong>in</strong>ition ɛ t = σ t z t wird im Folgenden weggelassen, es ist<br />
völlig ausreichend im H<strong>in</strong>terkopf zu behalten, dass der Term auf der rechten<br />
Seite von (5.23) der Fehlerterm ist. Neu ist hier, dass jeder mit Lag<br />
k verzögerte Fehler e<strong>in</strong>en eigenen Parameter α k erhält. Dadurch wird das<br />
Modell natürlich anpassungsfähiger, da nun mehr „Stellschrauben“ zur Verfügung<br />
stehen. Andererseits wird die Parameterschätzung auch aufwendiger.<br />
Sie werden bereits ahnen, dass man <strong>in</strong> der Praxis nun auch wieder auf das<br />
alte Problem trifft, wie das geeignete Modell ausgesucht werden soll, das<br />
am besten zu e<strong>in</strong>er vorliegenden Zeitreihe passt. All diese Probleme haben<br />
wir pr<strong>in</strong>zipiell schon analysiert <strong>und</strong> gelöst <strong>und</strong> wir werden sehen, dass das<br />
3 Gelegentlich wird auch die Bezeichnung ARCH(q) verwendet.<br />
101
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
Vorgehen völlig analog zum Vorgehen bei AR-, MA- bzw. ARMA-Modellen<br />
ist. Zunächst kümmern wir uns aber um die unmittelbaren Fragen. Die erste<br />
Frage lautet: Welche E<strong>in</strong>schränkungen müssen die Parameter erfüllen, damit<br />
die Varianz für alle Zeitpunkte positiv bleibt? Die Antwort ist offensichtlich<br />
<strong>und</strong> völlig analog zum ARCH(1)-Fall, nämlich ω, α 1 , . . . , α k > 0. Die zweite<br />
Frage lautet: Unter welchen Bed<strong>in</strong>gungen erhalten wir e<strong>in</strong>en stationären<br />
Prozess? Dieser Frage könnten wir nun durch aufwendige Reihenentwicklung<br />
der verzögerten Terme nachgehen. Wir werden uns stattdessen e<strong>in</strong>es kle<strong>in</strong>en<br />
Tricks bedienen, der <strong>in</strong> Abschnitt 7.2 auf Seite 145 erläutert wird. Zunächst<br />
wird die Varianzgleichung (5.24) für die unendlich weit entfernte Zukunft<br />
geschrieben<br />
p∑<br />
p∑<br />
σ∞ 2 = ω + α k ɛ 2 ∞ = ω + σ∞z 2 ∞<br />
2 α k . (5.25)<br />
k=1<br />
Da Var[y t ] = E[σt 2 ] gilt, wird als nächstes der Erwartungswert auf beiden<br />
Seiten von (5.25) berechnet<br />
p∑<br />
E[σ∞] 2 = ω + E[σ∞]<br />
2 α k . (5.26)<br />
Weil die stationäre Varianz genau dem Erwartungswert von σt<br />
2 für t → ∞<br />
entspricht, erhält man den strukturell vertrauten Ausdruck<br />
ω<br />
p∑<br />
Var[y st. ] =<br />
1 − ∑ p<br />
k=1 α für α k < 1, (5.27)<br />
k<br />
vgl. mit der stationären ARCH(1)-Varianz auf Seite 95. Die Bed<strong>in</strong>gung ist<br />
also pr<strong>in</strong>zipiell dieselbe geblieben, die Parameter α 1 , . . . , α p müssen <strong>in</strong> der<br />
Summe (nicht e<strong>in</strong>zeln!) kle<strong>in</strong>er als e<strong>in</strong>s se<strong>in</strong>.<br />
Last but not least berechnen wir die LogLikelihood-Funktion, da im<br />
ARCH(p)-Modell e<strong>in</strong>e Schätzung mit der Momentenmethode nicht mehr ohne<br />
weiteres möglich ist. Wir führen hier e<strong>in</strong>e generische Schreibweise e<strong>in</strong>, die<br />
auch für die GARCH-Modelle <strong>in</strong> Abschnitt 5.2 Gültigkeit behält. Bezeichne<br />
ɛ t−1 die gesamte Information, die zum Zeitpunkt t vorliegt, dann gilt im<br />
ARCH(p)-Fall p(y t |ɛ t−1 ) = p(y t |ɛ t−1 , . . . , ɛ t−p ), <strong>und</strong> die logarithmierte Likelihoodfunktion<br />
besitzt die Form<br />
T∑<br />
l(ω, α 1 , . . . , α p ) = log p(y t |ɛ t−1 )<br />
102<br />
t=1<br />
= − T 2 log[2π] − 1 2<br />
T∑<br />
t=1<br />
k=1<br />
k=1<br />
k=1<br />
( )<br />
log σt 2 + y2 t<br />
,<br />
σt<br />
2<br />
(5.28)
5.2. GARCH-MODELLE<br />
mit dem zugehörigen Modell für die bed<strong>in</strong>gte Streuung<br />
σ 2 t = ω +<br />
p∑<br />
α k ɛ 2 t−k. (5.29)<br />
k=1<br />
Um die LogLikelihood-Funktion für beliebige Modelle anzugeben, muss<br />
abgesehen von den Funktionsargumenten <strong>in</strong> (5.28) nur die Varianzgleichung<br />
(5.29) modifiziert werden.<br />
Aufgabe 5.6<br />
Zeigen Sie, dass der ARCH(∞)-Prozess<br />
y t = σ t z t<br />
σ 2 t = ω +<br />
∞∑<br />
α k ɛ 2 t−k,<br />
k=1<br />
mit ω > 0, α k = α k <strong>und</strong> 0 < α < 1 2 e<strong>in</strong>e<br />
stationäre Varianz besitzt.<br />
5.2 GARCH-Modelle<br />
Wir wollen unsere Diskussion der GARCH-Modelle (Generalized AutoRegressive<br />
Conditional Heteroscedasticity) über e<strong>in</strong>en kle<strong>in</strong>en Umweg beg<strong>in</strong>nen.<br />
Betrachten Sie den Ausdruck 4 ν t = ɛ 2 t − σt<br />
2 („Ny“) <strong>und</strong> lassen Sie uns den<br />
bed<strong>in</strong>gten Erwartungswert ausrechnen<br />
E[ν t |ɛ t−1 ] = E[ɛ 2 t |ɛ t−1 ] − σ 2 t = σ 2 t E[z 2 t ] − σ 2 t = 0. (5.30)<br />
Die Differenz ν t besitzt e<strong>in</strong>e gewisse Ähnlichkeit mit e<strong>in</strong>em Fehlerterm. Sie<br />
ist darüber h<strong>in</strong>aus unkorreliert, aber nicht unabhängig! Lassen Sie uns nun<br />
folgendes ARMA(1,1)-Modell <strong>in</strong> y 2 t = ɛ 2 t = σ 2 t z 2 t anschreiben 5<br />
y 2 t = ω + (α + β)y 2 t−1 + ν t − βν t−1 . (5.31)<br />
Dieses Modell ist im Gr<strong>und</strong>e identisch mit dem typischen ARMA(1,1)-Modell<br />
(4.1) aus Kapitel 4 auf Seite 69. Es ist lediglich <strong>in</strong> y 2 t formuliert <strong>und</strong> enthält<br />
4 Die Differenz ν t wird auch als Mart<strong>in</strong>galdifferenz bezeichnet. Der Begriff Mart<strong>in</strong>gal<br />
stammt ursprünglich aus dem Glücksspiel. In der Wahrsche<strong>in</strong>lichkeitstheorie gilt er als<br />
Synonym für e<strong>in</strong> faires Spiel.<br />
5 E<strong>in</strong>e äquivalente Argumentationskette für das ARMA(p, q)-Modell kann im Hauptskript<br />
nachgelesen werden.<br />
103
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
speziell gewählte Koeffizienten. Lassen Sie uns sehen, woh<strong>in</strong> uns e<strong>in</strong> paar<br />
algebraische Manipulationen führen. Aufgr<strong>und</strong> der Def<strong>in</strong>ition ν t = ɛ 2 t − σ 2 t<br />
gilt y 2 t = ɛ 2 t = ν t + σ 2 t . Setzen wir diesen Ausdruck für y 2 t , respektive y 2 t−1 <strong>in</strong><br />
(5.31) e<strong>in</strong>, erhalten wir nach trivialen Umformungen<br />
σ 2 t = ω + αɛ 2 t−1 + βσ 2 t−1. (5.32)<br />
Gleichung (5.32) ist unsere erste generalisierte ARCH-Gleichung. Das<br />
Pr<strong>in</strong>zip lässt sich leicht auf höhere Ordnungen verallgeme<strong>in</strong>ern.<br />
Aufgabe 5.7<br />
Zeigen Sie, dass die Innovation ν t = ɛ 2 t −σ 2 t<br />
bed<strong>in</strong>gt unkorreliert ist, also dass<br />
Cov[ν t ν t−1 |ɛ t−1 ] = 0<br />
gilt. Tipp: Verwenden Sie die Vere<strong>in</strong>fachung<br />
aus Abschnitt 7.3 auf Seite 147.<br />
Aufgabe 5.8<br />
Zeigen Sie, dass die Innovation ν t = ɛ 2 t −σ 2 t<br />
sogar unbed<strong>in</strong>gt unkorreliert ist, also dass<br />
Cov[ν t ν t−1 ] = 0<br />
gilt. Tipp: Schreiben Sie die Innovation als<br />
ν t = (z 2 t − 1)σ 2 t .<br />
5.2.1 Das GARCH(1,1)-Modell<br />
Im Gr<strong>und</strong>e haben wir das GARCH(1,1)-Modell schon hergeleitet. Der Vollständigkeit<br />
halber wird es hier noch e<strong>in</strong>mal notiert<br />
y t = σ t z t (5.33)<br />
σ 2 t = ω + αɛ 2 t−1 + βσ 2 t−1, (5.34)<br />
mit ω, α, β > 0. Das GARCH(1,1)-Modell ist das <strong>in</strong> der Praxis wahrsche<strong>in</strong>lich<br />
am häufigsten verwendete bed<strong>in</strong>gt heteroskedastische Modell. Ähnlich wie im<br />
ARMA-Fall benötigt man <strong>in</strong> der Regel relativ viele verzögerte Fehlerterme,<br />
um e<strong>in</strong>e gute Modellanpassung mit e<strong>in</strong>em re<strong>in</strong>en ARCH-Modell zu erzielen.<br />
Die GARCH(1,1)-Variante schafft meistens e<strong>in</strong>e ausreichend gute Anpassung<br />
bei m<strong>in</strong>imaler Parametrisierung.<br />
104
5.2. GARCH-MODELLE<br />
Die Stationaritätsbed<strong>in</strong>gung resultiert wiederum lediglich aus der Anforderung<br />
an die stationäre Varianz. Am e<strong>in</strong>fachsten erkennt man die notwendigen<br />
Bed<strong>in</strong>gungen durch Umschreiben von (5.34) <strong>und</strong> anschließende Erwartungswertbildung<br />
E[σ 2 t ] = E[ω + ασ 2 t−1z 2 t−1 + βσ 2 t−1]<br />
= ω + (α + β)E[σ 2 t−1].<br />
(5.35)<br />
Vergleicht man diesen Ausdruck mit (5.10) auf Seite 94, wird sofort klar, dass<br />
die stationäre Varianz durch<br />
Var[y st. ] =<br />
ω<br />
1 − α − β<br />
(5.36)<br />
gegeben ist, <strong>und</strong> dass die e<strong>in</strong>gesetzte geometrische Reihe nur konvergiert,<br />
wenn α + β < 1 gilt. Letzteres ist die gesuchte Bed<strong>in</strong>gung für Stationarität<br />
e<strong>in</strong>es GARCH(1,1)-Prozesses.<br />
Bei der Formulierung der bed<strong>in</strong>gten Likelihoodfunktion können wir auf<br />
die generische Form (5.28) zurückgreifen <strong>und</strong> erhalten unmittelbar<br />
l(ω, α, β) = − T 2 log[2π] − 1 2<br />
T∑<br />
t=1<br />
( )<br />
log σt 2 + y2 t<br />
, (5.37)<br />
σt<br />
2<br />
mit<br />
σ 2 t = ω + αɛ 2 t−1 + βσ 2 t−1. (5.38)<br />
Auch beim GARCH(1,1)-Modell kann der Maximum-Likelihood-Schätzer<br />
für ω, α <strong>und</strong> β nur durch numerische Maximierung der logarithmierten<br />
Likelihoodfunktion (5.37) gef<strong>und</strong>en werden.<br />
Aufgabe 5.9<br />
Berechnen Sie die Kurtosis e<strong>in</strong>es GARCH(1,1)-<br />
Prozesses. Nehmen Sie wie gewöhnlich an, dass<br />
z t unabhängig <strong>und</strong> identisch standard-normalverteilt<br />
ist.<br />
5.2.2 Das GARCH(p, q)-Modell<br />
Die offensichtliche Erweiterung des GARCH(1,1)-Modells entsteht durch<br />
Lags höherer Ordnung, sowohl <strong>in</strong> den verzögerten Innovationen, als auch<br />
105
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
<strong>in</strong> den verzögerten Varianzen. Das GARCH(p, q)-Modell 6 notiert<br />
y t = σ t z t (5.39)<br />
p∑<br />
q∑<br />
σt 2 = ω + α j ɛ 2 t−j + β k σt−k. 2 (5.40)<br />
j=1<br />
Hier gilt ebenfalls die Bed<strong>in</strong>gung ω, α j , β k > 0, für j = 1, . . . , p <strong>und</strong><br />
k = 1, . . . , q. Zur Er<strong>in</strong>nerung, j <strong>und</strong> k s<strong>in</strong>d lediglich Laufvariablen, vgl.<br />
(5.40).<br />
Die Analyse der Stationaritätseigenschaften erfolgt nach dem altbekannten<br />
Schema <strong>und</strong> birgt ke<strong>in</strong>e Überraschungen. Der GARCH(p, q)-Prozess ist<br />
kovarianzstationär, wenn<br />
gilt.<br />
p∑<br />
α j +<br />
j=1<br />
k=1<br />
q∑<br />
β k < 1 (5.41)<br />
k=1<br />
Die Struktur der LogLikelihood-Funktion wird Sie nun sicher nicht<br />
mehr vor e<strong>in</strong> unlösbares Rätsel stellen. Daher bleibt dieses Highlight der<br />
anschließenden Aufgabe überlassen.<br />
Aufgabe 5.10<br />
Geben Sie die logarithmierte Likelihoodfunktion<br />
für das GARCH(p, q)-Modell an.<br />
Nehmen Sie wieder an, dass für die Innovation<br />
z t ∼ N(0, 1) gilt.<br />
5.3 ARMA-GARCH <strong>und</strong> asymmetrische Erweiterungen<br />
Wie e<strong>in</strong>gangs erwähnt, stellt die GARCH-Klasse elaborierte Modelle für den<br />
Fehlerterm bereit. Diese Fehlermodelle lassen sich auf natürliche Weise <strong>in</strong> die<br />
bereits bekannten, konventionellen Modellklassen e<strong>in</strong>passen. Man erhält auf<br />
diesem Wege die erste wichtige Erweiterung der GARCH-Modelle.<br />
6 Beachten Sie auch hier, dass e<strong>in</strong>e gebräuchliche alternative Schreibweise die Modellordnungen<br />
p <strong>und</strong> q vertauscht.<br />
106
5.3. ARMA-GARCH UND ASYMMETRISCHE ERWEITERUNGEN<br />
5.3.1 ARMA-GARCH<br />
Fassen wir die Ergebnisse aus Kapitel 4 <strong>und</strong> diesem zusammen <strong>und</strong> pressen<br />
sie <strong>in</strong> e<strong>in</strong> e<strong>in</strong>ziges, komprimiertes Modell, erhalten wir das ARMA-GARCH-<br />
Modell<br />
φ(B)y t = θ 0 + θ(B)ɛ t (5.42)<br />
ɛ t = σ t z t (5.43)<br />
p∑<br />
q∑<br />
σt 2 = ω + α j ɛ 2 t−j + β k σt−k. 2 (5.44)<br />
j=1<br />
Dieses Modell besitzt nun die Charakteristika sowohl von ARMA-, wie<br />
auch von GARCH-Modellen. E<strong>in</strong> Prozess, der (5.42) bis (5.44) genügt, ist<br />
beispielsweise nur stationär, wenn die Wurzeln se<strong>in</strong>es AR-Teils außerhalb<br />
des komplexen E<strong>in</strong>heitskreises liegen <strong>und</strong> wenn die Summe aller α’s <strong>und</strong> β’s<br />
kle<strong>in</strong>er als e<strong>in</strong>s ist.<br />
Die Likelihoodfunktion muss nun auf verzögerte Beobachtungen y t−1 , . . .<br />
<strong>und</strong> auf verzögerte Fehlerterme ɛ t−1 , . . . bed<strong>in</strong>gt werden. Wieviele Beobachtungen,<br />
respektive Fehler aus der Vergangenheit benötigt werden, hängt<br />
von der Modellordnung ab. Um e<strong>in</strong>e e<strong>in</strong>heitliche Notation zu schaffen vere<strong>in</strong>baren<br />
wir, dass für beliebige Ordnungen p <strong>und</strong> q gilt p(y t |Y t−1 ) =<br />
p(y t |y t−1 , . . . , y t−p , ɛ t−1 , . . . , ɛ t−q ). Y t−1 stellt also die Menge der gesamten<br />
zum Zeitpunkt t benötigten Information dar. Nun kann die bed<strong>in</strong>gte<br />
LogLikelihood-Funktion e<strong>in</strong>es ARMA(m, n)-GARCH(p, q)-Modells als<br />
k=1<br />
l(θ) = p(y t |Y t )<br />
= − T 2 log[2π] − 1 2<br />
T∑<br />
t=1<br />
( )<br />
log σt 2 + ɛ2 t<br />
,<br />
σt<br />
2<br />
(5.45)<br />
mit<br />
ɛ t = y t −<br />
σt 2 = ω +<br />
m∑<br />
n∑<br />
φ j y t−j − θ 0 − θ k ɛ t−k (5.46)<br />
j=1<br />
p∑<br />
α j ɛ 2 t−j +<br />
j=1<br />
k=1<br />
k=1<br />
q∑<br />
β k σt−k 2 (5.47)<br />
geschrieben werden. Alle Parameter des gemischten Modells wurden <strong>in</strong><br />
(5.45) <strong>in</strong> e<strong>in</strong>em Parametervektor θ = (φ 1 , φ 2 , . . . , β q ) ′ zusammengefasst.<br />
107
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
ARMA-GARCH-Modelle bilden die allgeme<strong>in</strong>ste konventionelle Modellklasse,<br />
die wir bisher kennengelernt haben. Konventionell bedeutet hier, dass<br />
e<strong>in</strong>ige „exotische“ Erweiterungen wie SARIMA oder ARMAX nicht explizit<br />
enthalten s<strong>in</strong>d. Die erforderlichen Modifikationen können aber problemlos<br />
vorgenommen werden. Wir werden <strong>in</strong> den nächsten Abschnitten noch weitere<br />
Exoten kennenlernen, jedoch handelt es sich dann um Erweiterungen des<br />
GARCH-Teils.<br />
Aufgabe 5.11<br />
Geben Sie die logarithmierte Likelihoodfunktion<br />
für das ARMA(1,2)-GARCH(2, 1)-<br />
Modell explizit an. Nehmen Sie wieder an,<br />
dass für die Innovation z t ∼ N(0, 1) gilt.<br />
Aufgabe 5.12<br />
Unter welchen Bed<strong>in</strong>gungen ist der zugehörige<br />
Prozess aus Aufgabe 5.11 stationär?<br />
5.3.2 Asymmetrische GARCH-Modelle allgeme<strong>in</strong><br />
Die Notwendigkeit asymmetrische Effekte zu implementieren steht wieder<br />
<strong>in</strong> engem Zusammenhang mit empirisch beobachteten Phänomenen <strong>in</strong> F<strong>in</strong>anzzeitreihen.<br />
Bei Aktienrenditen stellt man beispielsweise fest, dass durch<br />
e<strong>in</strong>e negative Realisation am Vortag (Kurssturz) e<strong>in</strong>e höhere Volatilität<br />
für den Folgetag <strong>in</strong>duziert wird, als bei e<strong>in</strong>er betragsmäßig gleichgroßen<br />
positiven Rendite. Dieses Phänomen wird „Leverage-Effekt“ genannt. Man<br />
geht davon aus, dass dieser Zusammenhang auf e<strong>in</strong> risikoaverses Verhalten<br />
von Anlegern zurückzuführen ist. Vere<strong>in</strong>facht ausgedrückt bedeutet das, dass<br />
e<strong>in</strong> Wirtschaftssubjekt e<strong>in</strong>en deutlichen Verlust überproportional schlimmer<br />
e<strong>in</strong>stuft als e<strong>in</strong>en Gew<strong>in</strong>n derselben Größenordnung. Solche Annahmen s<strong>in</strong>d<br />
<strong>in</strong> den Wirtschaftswissenschaften seit langem bekannt 7 <strong>und</strong> akzeptiert. Die<br />
Entwicklung asymmetrischer GARCH-Modelle trägt diesem Sachverhalt<br />
theoretisch wie empirisch Rechnung.<br />
Wir werden im Folgenden verschiedene Ansätze kennenlernen, die solche<br />
Asymmetrien abbilden können. Wir werden uns dabei auf e<strong>in</strong>ige Spezialfälle<br />
konzentrieren, die vom Standpunkt der Parameterschätzung e<strong>in</strong>fach zu<br />
7 Vgl. die klassische Nutzentheorie, speziell die Annahme, dass Nutzenfunktionen konkav<br />
s<strong>in</strong>d. Die Risikoaversion wird dann durch den Pratt-Arrow-Koeffizienten ausgedrückt.<br />
108
5.3. ARMA-GARCH UND ASYMMETRISCHE ERWEITERUNGEN<br />
handhaben s<strong>in</strong>d, aber dennoch die Idee der asymmetrischen Modellierung<br />
gut transportieren. Der E<strong>in</strong>fachheit halber soll die Darstellung auf den Fall<br />
der GARCH(1,1)-Erweiterung beschränkt werden, da zum e<strong>in</strong>en höhere Modellordnungen<br />
<strong>in</strong> der Praxis selten s<strong>in</strong>d, <strong>und</strong> zum anderen ke<strong>in</strong>e qualitativ<br />
neuen Erkenntnisse aus der Verallgeme<strong>in</strong>erung gewonnen werden. E<strong>in</strong>e formale<br />
Darstellung für GARCH(p, q)-Ordnungen bef<strong>in</strong>det sich im Hauptskript.<br />
5.3.3 Threshold ARCH<br />
Beim Threshold-ARCH oder TARCH Ansatz wird das wohl e<strong>in</strong>fachste Pr<strong>in</strong>zip<br />
zur Realisierung von Asymmetrien verfolgt. Zunächst wird e<strong>in</strong>e Indikatorvariable<br />
def<strong>in</strong>iert, die sozusagen anzeigt, ob die Rendite negativ oder positiv<br />
ist<br />
{<br />
0 für ɛ t ≥ 0<br />
d t =<br />
(5.48)<br />
1 für ɛ t < 0.<br />
Diese Indikatorvariable wird dann <strong>in</strong> die Varianzgleichung des GARCH-<br />
Modells e<strong>in</strong>geschleust, um die heutige Varianz um e<strong>in</strong>en zusätzlichen Faktor<br />
γ zu erhöhen, wenn die gestrige Innovation negativ war. Man erhält dann<br />
das folgende TARCH-Modell<br />
mit ω, α, β, γ > 0.<br />
y t = σ t z t (5.49)<br />
σ 2 t = ω + (α + γd t−1 )ɛ 2 t−1 + βσ t−1 , (5.50)<br />
E<strong>in</strong>e wichtige Eigenschaft, die wir im Folgenden zwar begründen, aber<br />
nicht mathematisch herleiten wollen, sorgt dafür, dass das TARCH-Modell<br />
e<strong>in</strong>fach zu handhaben <strong>und</strong> theoretisch gut beherrschbar bleibt. Die Indikatorvariable<br />
d t ist ihrerseits selbst e<strong>in</strong>e Zufallsvariable. Sie ist zwar vollständig<br />
von ɛ t abhängig, aber unter den üblichen Annahmen ebenfalls vollkommen<br />
unkorreliert mit ɛ 2 t<br />
Cov[d t , ɛ 2 t ] = E[d t ɛ 2 t ] − E[d t ]E[ɛ 2 t ] = 0. (5.51)<br />
Wird z t wieder standard-normalverteilt angenommen, ist ɛ t normalverteilt<br />
mit Erwartungswert null. Das bedeutet, die Wahrsche<strong>in</strong>lichkeit, dass ɛ t größer<br />
oder kle<strong>in</strong>er als null ist, ist jeweils 1. d 2 t ist also e<strong>in</strong>e Bernoulli-verteilte<br />
Zufallsvariable mit π = 1 . Damit ergibt sich aber für die Varianz des TARCH-<br />
2<br />
Prozesses<br />
E[σt 2 ] = ω + αE[ɛ 2 t−1] + γE[d t−1 ]E[ɛ 2 t−1] + βE[σt−1]<br />
2<br />
= ω +<br />
(α + γ )<br />
2 + β E[σt−1].<br />
2<br />
(5.52)<br />
109
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
Es wird sofort klar, auf welche Form die stationäre Varianz h<strong>in</strong>auslaufen wird<br />
<strong>und</strong> unter welchen Bed<strong>in</strong>gungen der TARCH-Prozess überhaupt stationär ist.<br />
Nach Abspulen der <strong>in</strong>zwischen etablierten Rout<strong>in</strong>e erhält man<br />
Var[y st. ] =<br />
unter der Bed<strong>in</strong>gung, dass α + β + γ 2 < 1 gilt.<br />
ω<br />
1 − α − β − γ , (5.53)<br />
2<br />
Die LogLikelihood-Funktion lässt sich ebenfalls sofort anschreiben. Sie ist<br />
durch die generische Form (5.28), respektive (5.37), <strong>in</strong> Verb<strong>in</strong>dung mit der<br />
Varianzgleichung (5.50) gegeben.<br />
5.3.4 Quadratic GARCH<br />
Quadratic GARCH oder QGARCH bietet möglicherweise e<strong>in</strong>en noch <strong>in</strong>tuitiveren<br />
Zugang zur Abbildung asymmetrisch bed<strong>in</strong>gter Volatilitäten. Dieser<br />
Ansatz hat im Zusammenhang mit der Bewertung von F<strong>in</strong>anzderivaten e<strong>in</strong>ige<br />
Prom<strong>in</strong>enz erlangt. Zu Anschauungszwecken soll hier nicht der allgeme<strong>in</strong>ste<br />
Fall diskutiert werden, sondern die spezielle Form<br />
y t = σ t z t (5.54)<br />
σ 2 t = ω + α(ɛ t−1 − γ) 2 + βσ 2 t−1. (5.55)<br />
Hier wird die Asymmetrie <strong>in</strong> Form des Modellparameters γ <strong>in</strong> unmittelbarer<br />
Nähe des Fehlerterms platziert, noch bevor das Quadrat gebildet wird.<br />
Dieses Vorgehen ist sowohl direkt wie auch effizient. Die formale Behandlung<br />
des Modells bleibt strukturell genauso e<strong>in</strong>fach wie die Idee selbst.<br />
Die Formulierung der Likelihoodfunktion folgt dem trivialen Schema der<br />
vorangegangenen Abschnitte.<br />
Aufgabe 5.13<br />
Berechnen Sie die stationäre Varianz im<br />
QGARCH-Modell <strong>und</strong> geben Sie die Stationaritätsbed<strong>in</strong>gung<br />
für den QGARCH-<br />
Prozess an.<br />
5.3.5 Exponential GARCH<br />
Exponential GARCH oder kurz EGARCH ist e<strong>in</strong>e Modellvariante mit<br />
wesentlich höherem Komplexitätsgrad als die bisher vorgestellten Modelle.<br />
110
5.3. ARMA-GARCH UND ASYMMETRISCHE ERWEITERUNGEN<br />
Se<strong>in</strong>e Attraktivität gew<strong>in</strong>nt das EGARCH-Modell vorwiegend durch se<strong>in</strong>e<br />
theoretischen Eigenschaften 8 . Wir werden Schritt für Schritt die wichtigsten<br />
Punkte herausarbeiten.<br />
Zunächst wird das EGARCH-Modell nicht <strong>in</strong> den Varianzen σt 2 formuliert,<br />
sondern <strong>in</strong> den logarithmierten Varianzen h t = log σt 2 . Dadurch entfallen die<br />
Positivitätsrestriktionen der Parameter, da e<strong>in</strong>e beliebige Größe, positiv wie<br />
negativ, durch Rücktransformation positiv wird, e ht > 0 für alle h t ∈ R.<br />
Die zweite Besonderheit besteht dar<strong>in</strong>, dass das EGARCH Modell als verzögerte<br />
Variable z t <strong>und</strong> nicht ɛ t verwendet. E<strong>in</strong>e Umrechnung ist natürlich<br />
immer möglich durch z t = ɛt<br />
σ t<br />
. Die dritte Modifikation betrifft den funktionalen<br />
Zusammenhang zwischen h t <strong>und</strong> z t . Wir werden diesen Zusammenhang<br />
diskutieren, nachdem wir das EGARCH-Modell formuliert haben<br />
y t = e h t<br />
2 zt (5.56)<br />
h t = ω + g(z t−1 ) + βh t−1 (5.57)<br />
g(z t ) = α ( |z t | − E[|z t |] ) + γz t . (5.58)<br />
Die Spezifikation der verzögerten Innovation g(z t−1 ) erlaubt e<strong>in</strong>e separate<br />
Modellierung der Wirkung der Größenordnung <strong>und</strong> des Vorzeichens von z t−1 .<br />
Beachten Sie, dass E[|z t |] ≠ 0 gilt. Für die<br />
√<br />
übliche Annahme der standardnormalverteilten<br />
Innovation gilt E[|z t |] = . 2<br />
π<br />
8 Insbesondere die asymptotischen Eigenschaften s<strong>in</strong>d theoretisch bedeutsam, da<br />
EGARCH-Prozesse für immer kle<strong>in</strong>ere Zeitschritte ∆t → 0 gegen bestimmte kont<strong>in</strong>uierliche<br />
Prozesse konvergieren, die <strong>in</strong> der quantitativen F<strong>in</strong>anzwirtschaft von außerordentlich<br />
großer Bedeutung s<strong>in</strong>d.<br />
111
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
E<strong>in</strong>schub: E[|Z|]<br />
Die Betragsfunktion |Z| kann formal geschrieben werden als<br />
{<br />
Z für Z ≥ 0<br />
|Z| =<br />
−Z für Z < 0.<br />
Für standard-normalverteiltes Z ergibt sich damit der Erwartungswert<br />
von |Z| als<br />
E[|Z|] =<br />
= −<br />
=<br />
∫ ∞<br />
−∞<br />
∫ 0<br />
−∞<br />
∫ ∞<br />
0<br />
1<br />
|z| √ e − z2 2 dz 2π<br />
z √ 1 ∫ ∞<br />
e − z2 2 dz + 2π<br />
z √ 1 ∫ ∞<br />
e − z2 2 dz + 2π<br />
= √ 2 ∫ ∞<br />
ze − z2 2 dz.<br />
2π<br />
0<br />
0<br />
0<br />
z 1 √<br />
2π<br />
e − z2 2 dz<br />
z 1 √<br />
2π<br />
e − z2 2 dz<br />
Von Schritt zwei auf drei wurden die Integrationsgrenzen unter<br />
Vorzeichenwechsel vertauscht <strong>und</strong> e<strong>in</strong>e Substitution y = −z<br />
mit anschließender Rückersetzung y → z der Integrationsvariable<br />
durchgeführt. Das verbleibende Integral <strong>in</strong> Schritt vier lässt sich<br />
leicht lösen <strong>und</strong> √ergibt e<strong>in</strong>s. Damit ist der gesuchte Erwartungswert<br />
E[|Z|] = . 2<br />
π<br />
Um die Likelihoodfunktion angeben zu können, wollen wir nun das<br />
EGARCH-Modell <strong>in</strong> e<strong>in</strong>e vertrautere Form br<strong>in</strong>gen. Die Def<strong>in</strong>ition h t =<br />
log σt 2 lässt sich durch algebraische Manipulation auf die Form σ t = e h t<br />
2<br />
br<strong>in</strong>gen. Wenn Ihnen diese Umstellung nicht klar ist, konsultieren Sie kurz<br />
die Rechenregeln für Logarithmen auf Seite 29. Damit reduziert sich Gleichung<br />
(5.56) wieder auf die bekannte Form y t = σ t z t . Setzen wir weiterh<strong>in</strong><br />
konsequent z t = ɛt<br />
σ t<br />
e<strong>in</strong>, erhalten wir für die Varianzgleichung<br />
[ ( )<br />
]<br />
σt 2 ɛt−1<br />
= exp ω + g + β log σt−1<br />
2 σ<br />
[ ( t−1<br />
∣∣∣∣ ∣ √ ) ]<br />
ɛ t−1 ∣∣∣ 2<br />
= exp ω + α − + γ ɛ (5.59)<br />
t−1<br />
σ 2β<br />
σ t−1 π σ<br />
t−1.<br />
t−1<br />
Damit s<strong>in</strong>d wir zum<strong>in</strong>dest <strong>in</strong> der Lage, die LogLikelihood-Funktion im<br />
112
5.3. ARMA-GARCH UND ASYMMETRISCHE ERWEITERUNGEN<br />
Rahmen des bewährten Schemas anzugeben. Gleichung (5.59) zeigt aber<br />
deutlich, dass bereits e<strong>in</strong>e Diskussion der Stationaritätseigenschaften beträchtliche<br />
mathematische Probleme verursacht.<br />
Wir werden an dieser Stelle auf tiefere Analysen verzichten <strong>und</strong> stattdessen<br />
noch e<strong>in</strong>e Beobachtung bezüglich der Modellierung des Leverage-Effekts<br />
im EGARCH-Modell machen. Gleichung (5.58) hat bereits gezeigt, dass die<br />
E<strong>in</strong>flüsse der Größenordnung <strong>und</strong> des Vorzeichens der Innovation vone<strong>in</strong>ander<br />
separiert werden. Die Varianzgleichung (5.59) offenbart aber noch e<strong>in</strong>e<br />
weitere Quelle von Asymmetrie, die durch den nichtl<strong>in</strong>earen Verlauf der Exponentialfunktion<br />
e<strong>in</strong>gebracht wird. Das EGARCH-Modell stellt also e<strong>in</strong>en<br />
hoch komplexen Leverage-Mechanismus bereit. Der Preis für diesen Mechanismus<br />
ist die analytisch schwierige Handhabbarkeit des Modells.<br />
5.3.6 Symmetrische vs. asymmetrische Modelle<br />
In Abbildung 5.3 s<strong>in</strong>d die bed<strong>in</strong>gten Varianzen verschiedener GARCH-<br />
Modelle als Funktionen des verzögerten Fehlers abgebildet. Für die<br />
1.8<br />
1.8<br />
1.6<br />
1.4<br />
GARCH<br />
1.6<br />
1.4<br />
QGARCH<br />
Σ t<br />
2<br />
1.2<br />
1.0<br />
Σ t<br />
2<br />
1.2<br />
1.0<br />
0.8<br />
0.8<br />
0.6<br />
0.6<br />
0.4<br />
2 1 0 1 2<br />
0.4<br />
2 1 0 1 2<br />
Ε t1<br />
Ε t1<br />
1.8<br />
1.8<br />
1.6<br />
1.4<br />
TARCH<br />
1.6<br />
1.4<br />
EGARCH<br />
Σ t<br />
2<br />
1.2<br />
1.0<br />
Σ t<br />
2<br />
1.2<br />
1.0<br />
0.8<br />
0.8<br />
0.6<br />
0.6<br />
0.4<br />
2 1 0 1 2<br />
0.4<br />
2 1 0 1 2<br />
Ε t1<br />
Ε t1<br />
Abbildung 5.3: Bed<strong>in</strong>gte Varianz symmetrischer <strong>und</strong> asymmetrischer<br />
GARCH-Modelle<br />
113
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
40 GARCH<br />
40 TARCH<br />
30<br />
30<br />
20<br />
20<br />
10<br />
10<br />
0<br />
0.06 0.04 0.02 0.00 0.02 0.04 0.06<br />
0<br />
0.06 0.04 0.02 0.00 0.02 0.04 0.06<br />
Abbildung 5.4: Unbed<strong>in</strong>gte GARCH- <strong>und</strong> TARCH-Verteilung mit identischer<br />
stationärer Varianz<br />
verzögerte Varianz wurde vere<strong>in</strong>fachend σ 2 t−1 = 1 angenommen. Die übrigen<br />
Parameter s<strong>in</strong>d für alle Modelle gleich gewählt 9 . Das e<strong>in</strong>zige symmetrische<br />
Modell ist das GARCH-Modell. Der Verlauf der bed<strong>in</strong>gten GARCH-Varianz<br />
ist <strong>in</strong> allen anderen Abbildungen als Referenz gestrichelt e<strong>in</strong>gezeichnet.<br />
Es ist gut erkennbar, dass die unterschiedlichen Modelle sehr <strong>in</strong>dividuelle<br />
Asymmetrien erzeugen. Während QGARCH lediglich die Varianzparabel<br />
verschiebt, wird im TARCH-Modell e<strong>in</strong> Ast aufgebogen. EGARCH erzeugt<br />
nicht e<strong>in</strong>mal e<strong>in</strong>e Parabel, sondern zwei unterschiedliche, exponentiell<br />
gekrümmte Äste.<br />
E<strong>in</strong> möglicher Leverage-Effekt drückt sich im Allgeme<strong>in</strong>en nicht <strong>in</strong> der<br />
unbed<strong>in</strong>gten Verteilung durch e<strong>in</strong>e Schiefe aus. Abbildung 5.4 zeigt e<strong>in</strong>e simulierte<br />
unbed<strong>in</strong>gte Verteilung für e<strong>in</strong> GARCH- <strong>und</strong> e<strong>in</strong> TARCH-Modell, die<br />
über e<strong>in</strong>e identische stationäre Varianz verfügen. Für die Simulation wurden<br />
<strong>in</strong> beiden Fällen dieselben Zufallszahlen verwendet. Obgleich beide Histogramme<br />
bei genauer Inspektion nicht vollkommen identisch s<strong>in</strong>d, gibt es <strong>in</strong><br />
ke<strong>in</strong>er Verteilung e<strong>in</strong> Anzeichen für e<strong>in</strong>e nennenswerte Schiefe.<br />
5.3.7 ARCH <strong>in</strong> Mean<br />
Wir kommen nun zu e<strong>in</strong>er besonderen Modellklasse, den ARCH <strong>in</strong> Mean<br />
oder kurz ARCH-M-Modellen. Diese Klasse ist aufgr<strong>und</strong> ihrer Eigenschaften<br />
überaus <strong>in</strong>teressant für theoretische ökonomische Fragestellungen. E<strong>in</strong><br />
über die quantitative F<strong>in</strong>anzwirtschaft h<strong>in</strong>aus verbreitetes Konzept ist das<br />
Prämien-Pr<strong>in</strong>zip. Vere<strong>in</strong>facht besagt dieses Pr<strong>in</strong>zip, dass e<strong>in</strong> Entscheider für<br />
9 Im EGARCH-Modell muss das Vorzeichen des Leverage-Parameters def<strong>in</strong>itionsbed<strong>in</strong>gt<br />
umgekehrt werden.<br />
114
5.3. ARMA-GARCH UND ASYMMETRISCHE ERWEITERUNGEN<br />
die Übernahme von Risiko durch e<strong>in</strong>e höhere erwartete Rendite entschädigt<br />
werden will. Die ARCH-M-Formulierung erfasst genau diese Überlegung<br />
y t = µ + λσ t + σ t z t (5.60)<br />
σ 2 t = ω + αɛ 2 t−1 + βσ 2 t−1. (5.61)<br />
Das Modell wurde hier wieder mit GARCH(1,1)-Varianz formuliert, also<br />
als GARCH-M. Der Term λσ t wird häufig als Risikoprämie bezeichnet.<br />
Die Risikoprämie hängt also von der Ungewissheit (Standardabweichung 10 )<br />
zum Zeitpunkt t ab. Der fixe Anteil des Erwartungswertes wird <strong>in</strong> f<strong>in</strong>anzwirtschaftlichen<br />
Anwendungen häufig mit dem risikolosen Z<strong>in</strong>ssatz µ = r<br />
identifiziert.<br />
Das (G)ARCH-M-Modell ist e<strong>in</strong>fach zu analysieren, hält aber trotzdem<br />
e<strong>in</strong>ige Überraschungen bereit. Zunächst e<strong>in</strong>ige Fakten. Die stationäre Varianz<br />
<strong>und</strong> damit auch die Bed<strong>in</strong>gung für Stationarität des zugehörigen Prozesses<br />
hängt nur von der Varianzspezifikation (5.61) ab 11 . Der stationäre Erwartungswert<br />
ist demzufolge<br />
E[y st. ] = µ + λ √ Var[y st. ]. (5.62)<br />
Ist z t wieder N(0, 1)-verteilt, können wir die bed<strong>in</strong>gte LogLikelihood-<br />
Funktion mit e<strong>in</strong>er kle<strong>in</strong>en Modifikation angeben<br />
l(θ) = − T 2 log[2π] − 1 2<br />
T∑<br />
(log σt 2 + (y )<br />
t − µ − λσ t ) 2<br />
t=1<br />
σ 2 t<br />
(5.63)<br />
Für σt<br />
2 wird e<strong>in</strong>fach wieder die entsprechende Varianzspezifikation, <strong>in</strong><br />
unserem Fall (5.61), e<strong>in</strong>gesetzt.<br />
Abschließend soll noch e<strong>in</strong>e Besonderheit analysiert werden. Wir haben <strong>in</strong><br />
Abschnitt 5.1.2 gezeigt, dass e<strong>in</strong> ARCH(1)-Prozess e<strong>in</strong> re<strong>in</strong>er Rauschprozess<br />
ist. Diese Eigenschaft hat sich auf alle bisher diskutierten Prozesse erstreckt.<br />
Im ARCH-M Kontext hängt aber der Erwartungswert selbst von der realisierten<br />
Streuung ab. Das bedeutet, wenn unter Leverage-Wirkung e<strong>in</strong>e höhere<br />
Varianz durch e<strong>in</strong>e negative Innovation heute <strong>in</strong>duziert wird, sollte morgen<br />
e<strong>in</strong>e höhere Risikoprämie, sprich e<strong>in</strong> höherer Erwartungswert realisiert wer-<br />
10 Häufig wird auch die bed<strong>in</strong>gte Varianz σ 2 t verwendet.<br />
11 Das lässt sich e<strong>in</strong>fach überprüfen, <strong>in</strong>dem man die Gleichung Var[y t ] = E [( σ t (λ + z t ) −<br />
λE[σ t ] ) 2]<br />
= E[σ<br />
2<br />
t ] beweist.<br />
115
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
den. Um diesen Sachverhalt zu belegen, analysieren wir das quadratische<br />
QGARCH-M-Modell<br />
y t = µ + λσ 2 t + σ t z t (5.64)<br />
σ 2 t = ω + α(ɛ t−1 − γ) 2 + βσ 2 t−1. (5.65)<br />
Um die gesuchte Eigenschaft nachzuweisen zeigen wir, dass y t+1 <strong>und</strong> ɛ t korreliert<br />
s<strong>in</strong>d. Wir erhalten<br />
Cov[y t+1 , ɛ t ] = E[y t+1 ɛ t ]<br />
= E[(µ + λσ 2 t+1 + ɛ t+1 )ɛ t ]<br />
= λE[ωɛ t + α(ɛ t − γ) 2 ɛ t + βσ 2 t ɛ t ]<br />
= −2λαγE[σ 2 t ].<br />
(5.66)<br />
Da E[σ 2 t ] immer positiv ist, folgt die Behauptung für λ > 0. Die Struktur<br />
von (5.66) zeigt deutlich, dass ohne asymmetrische Varianzspezifikation ke<strong>in</strong>e<br />
solche Korrelation zustande kommen würde, da ɛ t bed<strong>in</strong>gt normalverteilt ist<br />
<strong>und</strong> ungerade Momente verschw<strong>in</strong>den.<br />
5.4 Modellidentifikation <strong>und</strong> Selektion<br />
Für die Identifikation <strong>und</strong> Selektion s<strong>in</strong>d zwei Fragestellungen von großer<br />
Bedeutung. Erstens, wie kann e<strong>in</strong> GARCH-Prozess von e<strong>in</strong>em gewöhnlichen<br />
ARMA-Prozess unterschieden werden <strong>und</strong> zweitens, wie kann e<strong>in</strong>e adäquate<br />
Modellordnung festgelegt werden?<br />
5.4.1 ARMA vs. GARCH<br />
Bezüglich der ersten Frage ist es hilfreich Abbildung 5.5 zu betrachten. Dort<br />
ist e<strong>in</strong> typischer AR(2)-Prozess mit dem dazugehörigen Autokorrelogramm<br />
gegeben. Dieser Prozess kann e<strong>in</strong>fach anhand der Eigenschaften se<strong>in</strong>er ACF<br />
<strong>und</strong> PACF identifiziert werden. In der unteren Zeile <strong>in</strong> Abbildung 5.5 ist e<strong>in</strong><br />
GARCH(1,1)-Prozess illustriert. Aus se<strong>in</strong>er ACF <strong>und</strong> PACF lässt sich ke<strong>in</strong>e<br />
Information gew<strong>in</strong>nen. Beachten Sie, dass sche<strong>in</strong>bar signifikante Autokorrelationen<br />
mit Lag 7 <strong>und</strong> 8 ausgewiesen werden. Diese Information ist nicht<br />
verlässlich, da wir bereits analytisch nachgewiesen haben, dass e<strong>in</strong> GARCH-<br />
Prozess e<strong>in</strong> unkorrelierter Rauschprozess ist. Der Sachverhalt bezüglich der<br />
(P)ACF-Überschreitungen ist im H<strong>in</strong>blick auf zwei wichtige Punkte zu würdigen.<br />
Zum e<strong>in</strong>en s<strong>in</strong>d die Überschreitungen betragsmäßig kle<strong>in</strong>, zum anderen<br />
werden die Konfidenzgrenzen unter der Annahme e<strong>in</strong>es weißen Rauschens mit<br />
fixer Varianz berechnet. Diese Voraussetzung ist aber gerade bei GARCH-<br />
Prozessen verletzt.<br />
116
5.4. MODELLIDENTIFIKATION UND SELEKTION<br />
3<br />
2<br />
1<br />
0<br />
1<br />
2<br />
3<br />
ACF<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
9<br />
10<br />
11<br />
12<br />
13<br />
14<br />
15<br />
PACF<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
9<br />
10<br />
11<br />
12<br />
13<br />
14<br />
15<br />
0 200 400 600 800 1000<br />
0.4 0.2 0.2 0.4<br />
0.4 0.2 0.2 0.4<br />
6<br />
4<br />
2<br />
0<br />
2<br />
4<br />
ACF<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
9<br />
10<br />
11<br />
12<br />
13<br />
14<br />
15<br />
PACF<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
7<br />
8<br />
9<br />
10<br />
11<br />
12<br />
13<br />
14<br />
15<br />
0 200 400 600 800 1000<br />
0.10 0.05 0.05 0.10<br />
0.10 0.05 0.05 0.10<br />
Abbildung 5.5: Simulierter AR(2)-Prozess (oben) <strong>und</strong> GARCH(1,1)-Prozess<br />
(unten) – ACF <strong>und</strong> PACF rechts<br />
Stattdessen lässt sich der GARCH-Prozess durch optische Inspektion<br />
klar von e<strong>in</strong>em gewöhnlichen Rauschprozess oder e<strong>in</strong>er re<strong>in</strong>en ARMA-<br />
Spezifikation unterscheiden. Das Rauschspektrum des AR(2)-Prozesses ist<br />
gut erkennbar konstant. Diese Eigenschaft ist typisch für alle ARMA-<br />
Prozesse. Der GARCH-Prozess h<strong>in</strong>gegen zeigt deutlich andere Charakteristika.<br />
Se<strong>in</strong>e Varianz schwankt <strong>und</strong> bildet Gebiete mit größerer Rauschbreite<br />
aus (Volatility-Cluster<strong>in</strong>g). Diese beiden Eigenschaften, zusammen mit der<br />
deutlichen Leptokurtosis (Kurtosis > 3) der unbed<strong>in</strong>gten Verteilung, s<strong>in</strong>d die<br />
primären Identifikationsmerkmale e<strong>in</strong>es GARCH-Prozesses.<br />
Bei der Herleitung des GARCH(1,1)-Modells <strong>in</strong> Abschnitt 5.2 haben wir<br />
gesehen, dass e<strong>in</strong> GARCH-Modell als ARMA-Form <strong>in</strong> yt<br />
2 repräsentiert werden<br />
kann. Infolgedessen s<strong>in</strong>d Autokorrelationen <strong>in</strong> den quadrierten Residuen<br />
e<strong>in</strong> H<strong>in</strong>weis auf GARCH-Effekte <strong>in</strong> den Fehlern. Solche quadratische Restkorrelationen<br />
können auch formal abgetestet werden (siehe Hauptskript). Darüber<br />
h<strong>in</strong>aus kann detaillierte Information über die Modellordnung genau wie<br />
bei gemischten ARMA-Modellen nur mit Hilfe von Informationskriterien gewonnen<br />
werden. Auch e<strong>in</strong> re<strong>in</strong>er ARCH-Prozess kann nicht anhand se<strong>in</strong>er<br />
Autokorrelationsstruktur identifiziert werden!<br />
117
KAPITEL 5. BEDINGT HETEROSKEDASTISCHE PROZESSE<br />
5.4.2 Modellordnung <strong>und</strong> Selektion<br />
Die Identifikation <strong>und</strong> Selektion e<strong>in</strong>er geeigneten Modellvariante verläuft im<br />
Fall von GARCH-Modellen oder Mischformen völlig analog zur Selektion<br />
bei ARMA-Modellen, vgl. Abschnitt 4.4. Das heißt, man stützt sich wieder<br />
auf Informationskriterien bzw. auf die Beurteilung durch e<strong>in</strong>e kompensierte<br />
Likelihoodfunktion. Der Übersicht halber s<strong>in</strong>d die wichtigsten Informationskriterien<br />
nachfolgend noch e<strong>in</strong>mal zusammengefasst:<br />
AIC = − 2 (l − u) (Akaike) (5.67)<br />
T<br />
BIC = − 2 (l − u )<br />
T 2 log T (Schwarz) (5.68)<br />
HQ = − 2 ( )<br />
l − u log[log T ] (Hannan-Qu<strong>in</strong>n) (5.69)<br />
T<br />
Dabei bezeichnet l den Wert der logarithmierten Likelihoodfunktion am<br />
Maximum ˆθ ML , <strong>und</strong> u die Anzahl der geschätzten Parameter, also die<br />
Anzahl der Elemente <strong>in</strong> θ. Vergleicht man mehrere alternative Modelle, wird<br />
wieder jenes bevorzugt, dessen Informationskriterium am kle<strong>in</strong>sten ist.<br />
Aufgabe 5.14<br />
An e<strong>in</strong>e Zeitreihe mit T = 60 Beobachtungen wurden drei verschiedene<br />
Modelle angepasst, e<strong>in</strong> ARMA(2,1)-GARCH(1,1)-<br />
(<strong>in</strong>klusive Intercept), e<strong>in</strong> ARCH(7)- <strong>und</strong> e<strong>in</strong> TARCH-M-<br />
Modell. Nach Maximieren der LogLikelihood-Funktion ergaben<br />
sich jeweils die Werte l = −10.4, l = −9.1 <strong>und</strong> l = −12.3.<br />
Beurteilen Sie die drei Varianten unter AIC, BIC <strong>und</strong> HQ.<br />
Welche Modelle sollten jeweils bevorzugt werden?<br />
118
6<br />
Zustandsraummodelle <strong>und</strong><br />
Kalman-Filter<br />
In diesem Kapitel werden wir zwei neue Konzepte kennenlernen, Zustandsraummodelle<br />
<strong>und</strong> Filter. Insbesondere werden wir uns mit e<strong>in</strong>em der<br />
leistungsfähigsten Instrumente der <strong>Zeitreihenanalyse</strong> ause<strong>in</strong>andersetzen,<br />
dem Kalman-Filter. Obwohl die bloße Erwähnung des Kalman-Filters so<br />
manchen gestandenen Ökonomen <strong>in</strong> Angst <strong>und</strong> Schrecken versetzt, soll<br />
hier e<strong>in</strong>e Herangehensweise gewählt werden, die es Ihnen erlaubt, Schritt<br />
für Schritt alle wichtigen <strong>und</strong> notwendigen Konzepte zu erlernen <strong>und</strong> zu<br />
verstehen. Wir werden unterwegs e<strong>in</strong>e ganze Reihe offener Enden verknüpfen,<br />
sodass Sie nicht nur Theorie <strong>und</strong> Umgang mit Zustandsraummodellen<br />
<strong>und</strong> Filtern erlernen, sondern auch e<strong>in</strong> tieferes Verständnis für viele bereits<br />
besprochene Sachverhalte entwickeln können.<br />
Alles was wir an Handwerkszeug benötigen ist e<strong>in</strong> wenig gr<strong>und</strong>legende<br />
Matrix/Vektor-Rechnung. Wir werden daher e<strong>in</strong>en kle<strong>in</strong>en Umweg über das<br />
Konzept des im Hauptskript kurz erwähnten l<strong>in</strong>earen Filters machen, bevor<br />
wir zum Zustandsraummodell kommen. Dieser kle<strong>in</strong>e Umweg erlaubt es uns<br />
bereits, e<strong>in</strong> <strong>in</strong>tuitives <strong>und</strong> formales Verständnis des Filterpr<strong>in</strong>zips zu entwickeln,<br />
während wir die notwendigen Rechentechniken wiederholen <strong>und</strong> üben.<br />
6.1 Das l<strong>in</strong>eare Filterproblem<br />
Lassen Sie uns unsere Diskussion des optimalen l<strong>in</strong>earen Filters mit e<strong>in</strong>er<br />
Def<strong>in</strong>ition beg<strong>in</strong>nen:<br />
E<strong>in</strong> Filter ist e<strong>in</strong>e Masch<strong>in</strong>e, die e<strong>in</strong> (möglicherweise verrauschtes)<br />
E<strong>in</strong>gangssignal verarbeitet <strong>und</strong> e<strong>in</strong> Ausgangssignal ausgibt. Die<br />
Signalverarbeitung erfolgt <strong>in</strong> optimaler Weise bezüglich e<strong>in</strong>es<br />
bestimmten Kriteriums.<br />
119
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
E<strong>in</strong> Filter wird als l<strong>in</strong>ear bezeichnet, wenn se<strong>in</strong> Ausgangssignal e<strong>in</strong>e L<strong>in</strong>earkomb<strong>in</strong>ation<br />
se<strong>in</strong>er E<strong>in</strong>gangssignal- <strong>und</strong> Rauschkomponenten ist. Sie sehen<br />
an dieser Stelle bereits, warum wir e<strong>in</strong> wenig l<strong>in</strong>eare Algebra benötigen<br />
werden.<br />
Wir beschränken uns im Weiteren auf kausale Filter, also solche, die ke<strong>in</strong>e<br />
Signal<strong>in</strong>formation aus der Zukunft benötigen. Bezeichnen wir das E<strong>in</strong>gangssignal<br />
mit x <strong>und</strong> das Ausgangssignal mit y, können wir das l<strong>in</strong>eare Filterproblem<br />
<strong>in</strong> der Form<br />
p∑<br />
y t = w k x t−k + ɛ t , (6.1)<br />
k=0<br />
mit p ∈ N 0 schreiben. Die Koeffizienten w k s<strong>in</strong>d die Filtergewichte. Sie müssen<br />
<strong>in</strong> e<strong>in</strong>er optimalen Weise h<strong>in</strong>sichtlich e<strong>in</strong>es noch zu bestimmenden Kriteriums<br />
gewählt werden. Es ist an dieser Stelle auch nicht notwendig, irgende<strong>in</strong>e<br />
Annahme über die Verteilung des Fehlers ɛ t zu machen, außer natürlich, dass<br />
der Erwartungswert null ist. Was könnten wir als E<strong>in</strong>gangssignal verwenden?<br />
Im Rahmen der <strong>Zeitreihenanalyse</strong> ist es sicher naheliegend, verzögerte Ausgangssignalwerte<br />
x t = y t−1 zu verwenden. Wir erhalten damit den Wiener-<br />
Lev<strong>in</strong>son-Filter<br />
p∑<br />
y t = w k y t−k + ɛ t . (6.2)<br />
k=1<br />
Im Folgenden wird wieder angenommen, dass E[y t ] = 0 gilt. E<strong>in</strong>e transformation<br />
ist auch hier immer durch die Substitution y t = x t − µ möglich.<br />
Wir werden uns jetzt um e<strong>in</strong> Optimalitätskriterium bemühen, um die Filtergewichte<br />
w k berechnen zu können. Lassen Sie uns dazu Gleichung (6.2)<br />
umstellen, quadrieren <strong>und</strong> den Erwartungswert bilden<br />
E [ ɛ 2 t<br />
]<br />
= E<br />
[ (<br />
y t −<br />
= γ 0 − 2<br />
p∑ ) ] 2<br />
w k y t−k<br />
k=1<br />
p∑<br />
w k γ k +<br />
k=1<br />
p∑<br />
j=1 k=1<br />
p∑<br />
w j w k γ j−k .<br />
(6.3)<br />
Zur Er<strong>in</strong>nerung: γ k ist die Autokovarianz E[y t y t−k ], <strong>und</strong> es gilt weiterh<strong>in</strong><br />
γ k = γ −k . Damit kann das Problem wesentlich kompakter <strong>in</strong> Matrix/Vektor-<br />
Form geschrieben werden<br />
E [ ɛ 2 t<br />
]<br />
= γ0 − 2w ′ γ + w ′ Γw (6.4)<br />
120
6.1. DAS LINEARE FILTERPROBLEM<br />
mit<br />
⎛<br />
⎞<br />
γ 0 γ 1 . . . γ p−1<br />
w = (w 1 , . . . , w p ) ′ , γ = (γ 1 , . . . , γ p ) ′ γ 1 γ 0 . . . γ p−2<br />
, Γ = ⎜<br />
⎝<br />
.<br />
. .. . ..<br />
⎟ . ⎠ . (6.5)<br />
γ p−1 . . . γ 1 γ 0<br />
Wenn Ihnen die Schreibweise (6.4) <strong>und</strong> (6.5) nicht klar ist, wiederholen Sie<br />
bitte an dieser Stelle die Auffrischungen zur Matrixrechnung auf Seite 18 f.<br />
<strong>und</strong> gegebenenfalls die <strong>Aufgaben</strong> am Ende des Abschnitts. Als Optimalitätskriterium<br />
soll jetzt gefordert werden, dass die Fehlervarianz E[ɛ 2 t ] möglichst<br />
kle<strong>in</strong> wird. Sie erkennen hier deutlich das Kle<strong>in</strong>ste-Quadrate-Pr<strong>in</strong>zip (KQ).<br />
Wir müssen also den gesamten Vektor w so bestimmen, dass das Optimalitätskriterium<br />
erfüllt ist. Die klassische Vorgehensweise ist Bilden der ersten<br />
Ableitung <strong>und</strong> Nullsetzen.<br />
E<strong>in</strong>schub: Ableitung nach e<strong>in</strong>em Vektor<br />
Für die passend dimensionierten Vektoren a, x <strong>und</strong> die<br />
quadratische Matrix B gelten folgende Ableitungsregeln<br />
d<br />
dx ′ x′ a = a<br />
d<br />
dx ′ x′ Bx = (B + B ′ )x<br />
d<br />
dx ′ (a + Bx)′ (a + Bx) = 2B ′ (a + Bx).<br />
Für symmetrisches B ergibt sich die Vere<strong>in</strong>fachung<br />
d<br />
dx ′ x′ Bx = 2Bx.<br />
In diesem Fall s<strong>in</strong>d die Ableitungsregeln völlig analog zum<br />
skalaren Kalkül.<br />
Wir erhalten also aus (6.4) e<strong>in</strong>e Gleichung für die optimale Wahl der Filtergewichte<br />
− 2γ + 2Γw = 0. (6.6)<br />
Lassen Sie uns die Filtergewichte umbenennen w k → φ k , um den Zusammenhang<br />
mit der <strong>Zeitreihenanalyse</strong> zu verdeutlichen. Umstellen von (6.6) führt<br />
dann zu folgender Lösung<br />
γ = Γφ ⇔ φ = Γ −1 γ. (6.7)<br />
121
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
Erkennen Sie die erste Gleichung wieder? Lassen Sie sich nicht von der<br />
Matrix-Schreibweise <strong>in</strong> die Irre führen. Komponentenweise erhält man<br />
γ k =<br />
p∑<br />
φ j γ k−j ⇔ φ(B)γ k = 0. (6.8)<br />
j=1<br />
Das s<strong>in</strong>d die Yule-Walker-Gleichungen für e<strong>in</strong>en AR(p)-Prozess, vgl. (2.111)<br />
auf Seite 51, nur <strong>in</strong> Matrix/Vektor-Form notiert. Die Koeffizienten φ 1 , . . . , φ p<br />
des AR(p)-Prozesses gehen also aus der optimalen Lösung des l<strong>in</strong>earen<br />
Filterproblems hervor, wenn das KQ-Pr<strong>in</strong>zip als Optimalitätskriterium<br />
zugr<strong>und</strong>egelegt wird. Genaugenommen müssten wir noch zeigen, dass die<br />
Lösung (6.7) tatsächlich e<strong>in</strong> M<strong>in</strong>imum ist. Aufgr<strong>und</strong> der Problemstellung<br />
kommt aber nur e<strong>in</strong> M<strong>in</strong>imum als Extremum <strong>in</strong> Frage, weshalb der formale<br />
Nachweis entfallen kann. Stattdessen halten wir fest, dass wir e<strong>in</strong>en ersten<br />
Zusammenhang zwischen AR-Prozessen <strong>und</strong> l<strong>in</strong>earen Filtern hergestellt<br />
haben, unser erstes verknüpftes Ende.<br />
E<strong>in</strong> weiterer, vor allem für explorative Anwendungen <strong>in</strong> der Ökonomie<br />
sehr wichtiger Filter ist der Hodrick-Prescott-Filter, der ebenfalls auf dem<br />
KQ-Pr<strong>in</strong>zip basiert. Dieser Filter wird im Hauptskript nicht besprochen,<br />
weil er ke<strong>in</strong>en unmittelbaren Zusammenhang mit der Theorie der <strong>Zeitreihenanalyse</strong><br />
aufweist. Er ist jedoch <strong>in</strong> Standard-Softwarepaketen wie EViews<br />
implementiert. Der neugierige Leser kann ihn <strong>in</strong> Abschnitt 7.4 unter die<br />
Lupe nehmen.<br />
Aufgabe 6.1<br />
Leiten Sie den KQ-Schätzer ˆθ im l<strong>in</strong>earen Modell<br />
y = Xθ + ɛ<br />
aus Abschnitt 2.3 her. H<strong>in</strong>weis: Verwenden Sie die<br />
Optimalitätsbed<strong>in</strong>gung (2.40) auf Seite 27.<br />
6.2 Zustandsraummodelle<br />
Das Zustandsraummodell ist e<strong>in</strong>e Erweiterung des bisher diskutierten Konzepts<br />
der Zeitreihen. Es ist gleichsam e<strong>in</strong>e generellere <strong>und</strong> sehr viel flexiblere<br />
Modellklasse.<br />
122
6.2. ZUSTANDSRAUMMODELLE<br />
6.2.1 Architektur des Zustandsraummodells<br />
Lassen Sie uns noche<strong>in</strong>mal zurückblicken an den Anfang unserer Reise, zum<br />
AR(1)-Prozess<br />
y t = θ 0 + φy t−1 + ɛ t . (6.9)<br />
Wir s<strong>in</strong>d bisher immer davon ausgegangen, dass die Zeitreihe, die von Prozessen<br />
wie (6.9) erzeugt wird, direkt beobachtet werden kann. Das muss<br />
nicht zwangsläufig der Fall se<strong>in</strong>, denken Sie beispielsweise an das Brutto-<br />
Inlandsprodukt, das quartalsmäßig erfasst wird <strong>und</strong> später nachkorrigiert<br />
werden muss, um Rückstellungen <strong>und</strong> Rechnungsabgrenzungsposten zu korrigieren.<br />
Hier treten zwei Probleme im Zusammenhang mit der Beobachtung<br />
der Zeitreihe auf. Zum E<strong>in</strong>en kann die zeitliche Auflösung des eigentlichen<br />
Prozesses fe<strong>in</strong>er se<strong>in</strong> als die Beobachtung, <strong>und</strong> zum Anderen kann die Messung<br />
mit e<strong>in</strong>er gewissen Beobachtungsunschärfe belastet se<strong>in</strong>. Das Zustandsraummodell<br />
trägt diesem Sachverhalt Rechnung, <strong>in</strong>dem es e<strong>in</strong> zweites Modell,<br />
das Messmodell, <strong>in</strong>tegriert<br />
z t = Hy t + d + δ t . (6.10)<br />
Der beobachtbare Prozess ist nun z t , der Messprozess. Der Systemprozess y t<br />
ist latent. z t ist e<strong>in</strong>e l<strong>in</strong>eare Funktion (im e<strong>in</strong>fachsten Fall) von y t , wird aber<br />
von e<strong>in</strong>er weiteren Zufallsfluktuation, dem Messfehler δ t , überlagert. Man<br />
nimmt üblicherweise an, dass System- <strong>und</strong> Messrauschen nicht mite<strong>in</strong>ander<br />
korrelieren <strong>und</strong> re<strong>in</strong>e Zufallsfluktuationen s<strong>in</strong>d.<br />
Es ist üblich, im Rahmen des Zustandsraummodells e<strong>in</strong>e leicht von der<br />
Zeitreihenkonvention abweichende Notation zu verwenden. Man schreibt allgeme<strong>in</strong><br />
1 y t = Ay t−1 + b + ɛ t (6.11)<br />
z t = Hy t + d + δ t . (6.12)<br />
Für die Zufallsfehler wird weiterh<strong>in</strong> ɛ t ∼ N(0, Ω), δ t ∼ N(0, R) <strong>und</strong><br />
Cov[ɛ t , δ t ] = 0 angenommen. Sie werden sich w<strong>und</strong>ern, warum manche Parameter<br />
groß geschrieben wurden <strong>und</strong> andere nicht. Die Antwort mag Ihre<br />
schlimmsten Befürchtungen bestätigen; die Formulierung des Zustandsraummodells<br />
erstreckt sich auch auf vektorielle System- <strong>und</strong> Messmodelle. In diesem<br />
Fall wären A, H, Ω <strong>und</strong> R Matrizen. Aber ke<strong>in</strong>e Sorge, Sie werden sehen,<br />
1 E<strong>in</strong>e noch allgeme<strong>in</strong>ere Formulierung lässt auch e<strong>in</strong>e Zeitabhängigkeit der Parameter<br />
zu: A → A t , b → b t usw. (siehe Hauptskript). Wir werden diese Komplikation im Folgenden<br />
ignorieren, da sie qualitativ nicht zu neuen Erkenntnissen führt <strong>und</strong> später durch die<br />
offensichtlichen Modifikationen berücksichtigt werden kann.<br />
123
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
dass sich diese Komplikation fast von selbst behandelt, wenn es soweit ist. Wir<br />
wollen uns zunächst etwas genauer anschauen, wie das Zustandsraummodell<br />
arbeitet. Abbildung 6.1 zeigt e<strong>in</strong>en Workflow des gesamten Zustandsraummodells.<br />
Das Systemmodell (6.11) ist <strong>in</strong> der oberen Hälfte repräsentiert, das<br />
Messmodell (6.12) <strong>in</strong> der unteren. Die beobachtbaren Größen s<strong>in</strong>d grau unterlegt.<br />
Behalten Sie stets im H<strong>in</strong>terkopf, dass der eigentlich <strong>in</strong>teressierende<br />
Systemprozess nun nicht mehr direkt beobachtet werden kann.<br />
Der Systemprozesszustand oder kurz Systemzustand y t entwickelt sich<br />
jeweils <strong>in</strong> Abhängigkeit von der Realisation des vorangegangenen Zeitpunktes<br />
y t−1 , überlagert von e<strong>in</strong>em aktuellen Zufallsfehler ɛ t . Diese Dynamik hat<br />
klar e<strong>in</strong>e AR(1)-Struktur <strong>und</strong> besitzt daher die Markov-Eigenschaft. Zur<br />
Er<strong>in</strong>nerung: Die Markov-Eigenschaft besagt, dass die gesamte Information<br />
der Vergangenheit <strong>in</strong> der letzten Realisation des Prozesses gespeichert ist.<br />
Daher muss die fernere Vergangenheit nicht mehr betrachtet werden, weil<br />
ke<strong>in</strong>e zusätzliche Information aus ihr gewonnen werden kann. Da hier der<br />
Systemzustand nicht mehr direkt beobachtet werden kann, spricht man auch<br />
von „Hidden Markov-Models“.<br />
Der Systemprozess liefert durch se<strong>in</strong>e Realisationen (nicht zwangsläufig<br />
durch jede Realisation) e<strong>in</strong> E<strong>in</strong>gangssignal für den Messprozess z t . Dieses<br />
p(y t |y t−1 )<br />
ɛ t−1<br />
ɛ t<br />
ɛ t+1<br />
· · · y t−1<br />
<br />
y t<br />
y t+1<br />
· · ·<br />
z t−1 z t z t+1<br />
δ t−1<br />
δ t<br />
δ t+1<br />
p(z t |y t )<br />
Abbildung 6.1: Zustandsraummodell – Systemmodell <strong>und</strong> Messmodell (grau)<br />
124
6.2. ZUSTANDSRAUMMODELLE<br />
Signal wird im Rahmen der Messung verarbeitet <strong>und</strong> e<strong>in</strong>em Messfehler unterworfen,<br />
der die Beobachtungsunschärfe modelliert. Der Signalausgang des<br />
Messprozesses generiert schließlich die Zeitreihe, die wir beobachten können.<br />
Machen Sie sich anhand von Abbildung 6.1 klar, dass das Messmodell selbst<br />
ke<strong>in</strong>e Markov-Struktur aufweist. Dennoch s<strong>in</strong>d die e<strong>in</strong>zelnen Messungen<br />
nicht vone<strong>in</strong>ander unabhängig, weil sie über die verborgene Markov-Kette<br />
des Systemmodells <strong>in</strong>duziert werden.<br />
Wir haben Prozess- <strong>und</strong> Messfehler als normalverteilte Zufallsvariablen<br />
def<strong>in</strong>iert. Damit s<strong>in</strong>d die beiden bed<strong>in</strong>gten Wahrsche<strong>in</strong>lichkeitsdichten <strong>in</strong> Abbildung<br />
6.1 ebenfalls Gauß-Dichten. Man bezeichnet<br />
p(y t |y t−1 ) = √ 1 e − 1 (y t −Ay t−1 −b) 2<br />
2 Ω (6.13)<br />
2πΩ<br />
als Übergangsdichte oder Markov-Kern. Die bed<strong>in</strong>gte Messdichte ist durch<br />
p(z t |y t ) = √ 1 e − 1 (z t −Hy t −d) 2<br />
2 R (6.14)<br />
2πR<br />
gegeben. Ω <strong>und</strong> R s<strong>in</strong>d bereits Varianzen! Handelt es sich bei System<strong>und</strong>/oder<br />
Messmodell um vektorielle Modelle, ergibt sich jeweils e<strong>in</strong>e<br />
bed<strong>in</strong>gte multivariate Normalverteilung.<br />
E<strong>in</strong>schub: Multivariate Normalverteilung<br />
E<strong>in</strong>e vektorielle Zufallsvariable X ist multivariat normalverteilt,<br />
mit Erwartungswertvektor µ <strong>und</strong> Kovarianzmatrix<br />
Σ, wenn die zugehörige Wahrsche<strong>in</strong>lichkeitsdichte<br />
durch<br />
1<br />
p(x) = √ e − 1 2 (x−µ)′ Σ −1 (x−µ)<br />
det[2πΣ]<br />
gegeben ist. Im bivariaten Fall X = (X 1 , X 2 ) ′ kann die<br />
Kovarianz σ 12 = ρσ 1 σ 2 mit Hilfe der Korrelation dargestellt<br />
werden <strong>und</strong> man erhält<br />
(<br />
X1<br />
)<br />
∼ N<br />
X 2<br />
((<br />
µ1<br />
µ 2<br />
)<br />
,<br />
( σ<br />
2<br />
1 ρσ 1 σ 2<br />
ρσ 1 σ 2 σ 2 2<br />
))<br />
.<br />
125
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
6.2.2 AR(p)-Modelle <strong>und</strong> VAR(1)-Darstellung<br />
Wir haben im vorangegangenen Abschnitt festgestellt, dass das Systemmodell<br />
e<strong>in</strong>e Markov-Struktur besitzt. Bedeutet das nun, dass nur AR(1)-Modelle<br />
im Rahmen der Zustandsraumbetrachtung analysiert werden können? Ne<strong>in</strong>.<br />
Hier kommt die Matrix/Vektor-Erweiterung <strong>in</strong>s Spiel. Betrachten Sie folgendes<br />
Zustandsraummodell:<br />
( )<br />
yt<br />
=<br />
y t−1<br />
z t = ( 1<br />
( ) ( ) (<br />
φ1 φ 2 yt−1 1<br />
+ ɛ<br />
1 0 y t−2 0)<br />
t (6.15)<br />
0 ) ( y t<br />
y t−1<br />
)<br />
. (6.16)<br />
Lassen Sie uns zunächst die Komponenten analysieren. Vergleichen wir (6.15)<br />
<strong>und</strong> (6.16) mit (6.11) <strong>und</strong> (6.12) auf Seite 123, erhalten wir die Komponenten<br />
( ) ( ) ( ( ) ( )<br />
yt φ1 φ<br />
y t = , A =<br />
2 0 ɛt Ω 0<br />
, b = , ɛ<br />
y t−1 1 0 0)<br />
t = , Ω = ,<br />
0 0 0<br />
H = ( 1 0 ) , d = 0 <strong>und</strong> R = 0.<br />
(6.17)<br />
(6.15) <strong>und</strong> (6.16) bilden also e<strong>in</strong> gültiges Zustandsraummodell. Lösen wir die<br />
e<strong>in</strong>zelnen Gleichungen auf<br />
y t = φ 1 y t−1 + φ 2 y t−2 + ɛ t (6.18)<br />
y t−1 = y t−1 (6.19)<br />
z t = y t . (6.20)<br />
Gleichung (6.19) ist lediglich e<strong>in</strong>e Identität <strong>und</strong> (6.20) sagt uns, dass der<br />
latente Systemzustand y t direkt beobachtet werden kann, die Messfehlervarianz<br />
R war schließlich null. Wir erhalten also kurzgesagt das AR(2)-Modell<br />
<strong>in</strong> z t<br />
φ(B)z t = ɛ t mit φ(B) = 1 − φ 1 B − φ 2 B 2 . (6.21)<br />
Man bezeichnet die Darstellung <strong>in</strong> (6.15) als VAR(1)-Darstellung (Vector<br />
Auto Regressive). Wir s<strong>in</strong>d dieser Darstellung bereits <strong>in</strong> Abschnitt 2.4.2 begegnet,<br />
wo es um die Stationarität des AR(2)-Prozesses g<strong>in</strong>g. Wir haben dort<br />
gesehen, dass alle benötigten Informationen <strong>in</strong> der Systemmatrix A stecken.<br />
Berechnet man das charakteristische Polynom aus der Eigenwertgleichung<br />
det[A − λI] = −λ(φ 1 − λ) − φ 2 = λ 2 − φ 1 λ − φ 2 , (6.22)<br />
126
6.2. ZUSTANDSRAUMMODELLE<br />
erhält man als Lösung von (6.22) die <strong>in</strong>versen Wurzeln (<strong>in</strong>verted roots).<br />
Wenn Ihnen das Eigenwertproblem oder das Lösen quadratischer Gleichungen<br />
nicht mehr im Gedächtnis ist, wiederholen Sie kurz die E<strong>in</strong>schübe auf<br />
Seite 40 <strong>und</strong> 41 <strong>und</strong> den Text dazwischen. Mit der Herkunft der <strong>in</strong>verted<br />
roots haben wir nun e<strong>in</strong> weiteres offenes Ende Verknüpft.<br />
Jeder beliebige AR(p)-Prozess kann als VAR(1)-Prozess dargestellt werden.<br />
Die allgeme<strong>in</strong>e Form des Zustandsraummodells für AR(p)-Prozesse ist<br />
⎛ ⎞ ⎛<br />
⎞ ⎛ ⎞ ⎛ ⎞<br />
y t φ 1 φ 2 . . . φ p y t−1 1<br />
y t−1<br />
⎜ ⎟<br />
⎝ . ⎠ = 1 0 . . . 0<br />
y t−2<br />
⎜<br />
⎝<br />
.<br />
. .. . ..<br />
⎟ ⎜ ⎟<br />
. ⎠ ⎝ . ⎠ + ⎜ ⎟<br />
⎝<br />
0. ⎠ ɛ t (6.23)<br />
y t−(p−1) 0 . . . 1 0 y t−p 0<br />
⎛ ⎞<br />
y t<br />
z t = ( 1 0 . . . 0 ) y t−1<br />
⎜ ⎟<br />
⎝ . ⎠ . (6.24)<br />
y t−(p−1)<br />
Die Darstellung <strong>in</strong> Zustandsraumform ist jedoch nicht e<strong>in</strong>deutig, beispielsweise<br />
hätte die AR(2)-Spezifikation (6.15) <strong>und</strong> (6.16) auch folgendermaßen<br />
geschrieben werden können<br />
( ) ( ) ( ) (<br />
yt−1 0 1 yt−2 0<br />
=<br />
+ ɛ<br />
y t φ 2 φ 1 y t−1 1)<br />
t (6.25)<br />
vgl. Hauptskript.<br />
Aufgabe 6.2<br />
z t = ( 0<br />
1 ) ( )<br />
y t−1<br />
, (6.26)<br />
y t<br />
Schreiben Sie beide Varianten des Zustandsraummodells<br />
für den AR(3)-Prozess.<br />
Aufgabe 6.3<br />
Formulieren Sie das zu (6.23) <strong>und</strong> (6.24) alternative<br />
Zustandsraummodell für den AR(p)-Prozess.<br />
6.2.3 ARMA-Modelle <strong>in</strong> Zustandsraumform<br />
ARMA(p, q)-Modelle können ebenfalls vollständig im Rahmen der Zustandsraumformulierung<br />
dargestellt werden. Wir beg<strong>in</strong>nen wieder mit e<strong>in</strong>em kon-<br />
127
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
kreten Beispiel. Betrachten Sie folgendes Zustandsraummodell<br />
( ) ( ) ( )<br />
yt φ1 φ<br />
=<br />
2 yt−1<br />
+<br />
y t−1 1 0 y t−2<br />
z t = ( 1<br />
( 1<br />
0)<br />
ɛ t (6.27)<br />
θ 1<br />
) ( y t<br />
y t−1<br />
)<br />
. (6.28)<br />
Lassen Sie uns die Terme e<strong>in</strong>zeln analysieren. In (6.27) liefert lediglich die<br />
erste Gleichung das AR(2)-Modell, die zweite Gleichung ist nur e<strong>in</strong>e Identität,<br />
vgl. (6.15) <strong>und</strong> (6.16). Lassen Sie uns diese Gleichung mit Backshift-<br />
Operatoren schreiben <strong>und</strong> nach y t auflösen<br />
y t = (φ 1 B + φ 2 B 2 )y t + ɛ t<br />
1<br />
=<br />
1 − φ 1 B − φ 2 B ɛ t.<br />
2<br />
(6.29)<br />
Gleichung (6.28) kann ebenfalls mit Hilfe des Backshift-Operators geschrieben<br />
werden. Man erhält<br />
z t = (1 + θ 1 B)y t<br />
1 + θ 1 B<br />
=<br />
1 − φ 1 B − φ 2 B ɛ t,<br />
2<br />
(6.30)<br />
nach E<strong>in</strong>setzen von (6.29). Multiplikation mit dem AR-Polynom 1 − φ 1 B −<br />
φ 2 B 2 führt zu e<strong>in</strong>em überraschenden aber bekannten Ergebnis<br />
z t − φ 1 z t−1 − φ 2 z t−2 = ɛ t + θ 1 ɛ t−1 , (6.31)<br />
dem ARMA(2,1)-Modell <strong>in</strong> z t . Beachten Sie: Damit alle Restriktionen<br />
richtig verknüpft werden können, muss der Systemzustand die Dimension<br />
d = max [p, q + 1] aufweisen! Die eventuell nicht vorhandenen AR- oder<br />
MA-Parameter müssen null gesetzt werden.<br />
128<br />
Beispiel 6.1: ARMA(2,2)-Zustandsraumform<br />
Die benötigte Dimension des Zustandsraums ergibt sich aus<br />
d = max [2, 2 + 1] = 3. Man formuliert<br />
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞<br />
y t φ 1 φ 2 0 y t−1 1<br />
⎝y t−1<br />
⎠ = ⎝ 1 0 0⎠<br />
⎝y t−2<br />
⎠ + ⎝0⎠ ɛ t<br />
y t−2 0 1 0 y t−3 0<br />
⎛ ⎞<br />
z t = ( )<br />
y t<br />
1 θ 1 θ 2<br />
⎝y t−1<br />
⎠ .<br />
y t−2<br />
Der nicht vorhandene AR-Parameter φ 3 wurde null gesetzt.
6.3. KALMAN-FILTER<br />
Diese äußerst elegante Form wird als „phase canonical form“ bezeichnet 2 . Sie<br />
können am Ende des Abschnitts im Rahmen e<strong>in</strong>er Übungsaufgabe überprüfen,<br />
dass die Formulierung des ARMA(2,2)-Modells <strong>in</strong> Beispiel 6.1 <strong>in</strong> der<br />
Tat korrekt ist. Die allgeme<strong>in</strong>e „phase canonical form“ für das ARMA(p, q)-<br />
Modell lautet<br />
⎛ ⎞ ⎛<br />
⎞ ⎛ ⎞ ⎛ ⎞<br />
y t φ 1 φ 2 . . . φ d y t−1 1<br />
y t−1<br />
⎜ ⎟<br />
⎝ . ⎠ = 1 0 . . . 0<br />
y t−2<br />
⎜<br />
⎝<br />
.<br />
. .. . ..<br />
⎟ ⎜ ⎟<br />
. ⎠ ⎝ . ⎠ + ⎜ ⎟<br />
⎝<br />
0. ⎠ ɛ t (6.32)<br />
y t−(d−1) 0 . . . 1 0 y t−d 0<br />
⎛ ⎞<br />
y t<br />
z t = ( )<br />
y t−1<br />
1 θ 1 θ 2 . . . θ d−1 ⎜ ⎟<br />
⎝ . ⎠ . (6.33)<br />
y t−(d−1)<br />
Aufgabe 6.4<br />
Zeigen Sie durch Explizieren der Gleichungen, dass das<br />
Zustandsraummodell <strong>in</strong> Beispiel 6.1 auf der vorherigen<br />
Seite e<strong>in</strong>em ARMA(2,2)-Modell <strong>in</strong> z t entspricht.<br />
Aufgabe 6.5<br />
Formulieren Sie folgende Modelle <strong>in</strong> Zustandsraumform:<br />
a) MA(2)<br />
b) ARMA(3,1).<br />
6.3 Kalman-Filter<br />
Bisher haben wir uns darauf beschränkt, bekannte Modellklassen <strong>in</strong><br />
Zustandsraumform umzuschreiben. Wir haben gesehen, dass e<strong>in</strong>e solche<br />
äquivalente Formulierung immer dann möglich ist, wenn der Messfehler<br />
verschw<strong>in</strong>det. Ist jedoch e<strong>in</strong> Messfehler <strong>in</strong>volviert, gilt nicht mehr z t = y t .<br />
Der Systemzustand ist nun latent <strong>und</strong> kann nicht mehr direkt beobachtet<br />
werden. An dieser Stelle wird e<strong>in</strong> Mechanismus, oder besser e<strong>in</strong> Algorithmus<br />
benötigt, der aus der Beobachtung z t die maximale Information über den<br />
Zustand y t herausfiltert. Dieser Algorithmus ist der Kalman-Filter.<br />
2 Es gibt auch alternative Formulierungen des ARMA-Modells, siehe Haupskript.<br />
129
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
Bevor wir beg<strong>in</strong>nen, lassen Sie uns noch e<strong>in</strong> paar nützliche Konventionen<br />
zur Notation besprechen. Das Zustandsraummodell (6.11) <strong>und</strong> (6.12) auf<br />
auf Seite 123 wurde <strong>in</strong> skalarer Notation geschrieben. Die Parameter s<strong>in</strong>d<br />
aber bereits durch Groß- <strong>und</strong> Kle<strong>in</strong>buchstaben so repräsentiert, dass e<strong>in</strong>e<br />
Erweiterung <strong>in</strong> Matrix/Vektor-Form <strong>in</strong>tuitiv klar ist. Wir wollen diese<br />
hybride Notation von nun an nutzen, um alle folgenden Aussagen <strong>in</strong> e<strong>in</strong>er<br />
Weise zu formulieren, die gleichsam für skalare wie vektorielle Problemstellungen<br />
Gültigkeit besitzt. Folgende Übersicht fasst die wichtigsten<br />
Unterscheidungen zusammen.<br />
Hybrid Skalar Matrix/Vektor<br />
Inneres Produkt a ′ b ab = c a ′ b = c<br />
Äußeres Produkt ab ′ ab = c ab ′ = C<br />
Matrix-Produkt AB ab = ba AB ≠ BA<br />
Inverse Matrix A −1 A<br />
1<br />
a a = 1<br />
A−1 A = I<br />
Transposition (AB) ′ ab = ba (AB) ′ = B ′ A ′<br />
Tabelle 6.1: Übersicht zur Hybridnotation<br />
Beachten Sie stets, dass Matrizen bzw. Vektoren die passenden Dimensionen<br />
aufweisen müssen, damit e<strong>in</strong> Produkt def<strong>in</strong>iert ist. Weiterh<strong>in</strong> kann nur e<strong>in</strong>e<br />
quadratische, nicht s<strong>in</strong>guläre Matrix <strong>in</strong>vertiert werden. Diese Bed<strong>in</strong>gung ist<br />
das Pendant zum Verbot des Teilens durch Null.<br />
Als erste Anwendung der Hybridnotation werden wir das Konzept der<br />
l<strong>in</strong>earen Transformation von Seite 91 präzisieren.<br />
Theorem 6.1: Aff<strong>in</strong>e Transformation<br />
Sei X e<strong>in</strong>e (vektorielle) Zufallsvariable <strong>und</strong> Y = a + BX,<br />
mit beliebigen Konstanten a <strong>und</strong> B, dann wird Y e<strong>in</strong>e aff<strong>in</strong>e<br />
Transformation von X genannt. Y ist ebenfalls e<strong>in</strong>e Zufallsvariable<br />
<strong>und</strong> es gilt:<br />
1. E[Y ] = a + BE[X]<br />
2. Var[Y ] = BVar[X]B ′<br />
Weiterh<strong>in</strong> gilt <strong>in</strong>sbesondere: Ist X (multivariat) normalverteilt,<br />
dann ist Y ebenfalls (multivariat) normalverteilt.<br />
130
6.3. KALMAN-FILTER<br />
Für skalare Zufallsvariablen reduziert die aff<strong>in</strong>e Transformation sich wieder<br />
auf die Def<strong>in</strong>ition der l<strong>in</strong>earen Transformation von Seite 91. Im Fall von<br />
vektorwertigen Zufallsvariablen s<strong>in</strong>d a <strong>und</strong> B passende Vektoren respektive<br />
Matrizen.<br />
6.3.1 Die Bayes-Formel<br />
Wir haben uns <strong>in</strong> den vergangenen Kapiteln schon oft mit bed<strong>in</strong>gten Größen<br />
ause<strong>in</strong>andergesetzt, dabei aber e<strong>in</strong>e rigorose Def<strong>in</strong>ition umgangen, <strong>in</strong>dem<br />
wir die entsprechende Bed<strong>in</strong>gung formuliert haben (meistens wurde auf<br />
Information aus vergangenen Perioden bed<strong>in</strong>gt). Die Bayes-Formel wird<br />
uns e<strong>in</strong>en E<strong>in</strong>blick <strong>in</strong> bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeiten <strong>und</strong> Verteilungen auf<br />
wesentlich elementarerer Ebene gewähren. Wir werden als erstes die Bayes-<br />
Formel anschreiben <strong>und</strong> dann anhand von Beispielen <strong>und</strong> Erweiterungen<br />
aufdecken, wie weitreichend ihre Konsequenzen s<strong>in</strong>d.<br />
Angenommen A <strong>und</strong> B bezeichnen zwei Ereignisse, <strong>und</strong> A|B (A gegeben<br />
B) sei der E<strong>in</strong>tritt von Ereignis A, unter der Bed<strong>in</strong>gung, dass auch Ereignis<br />
B e<strong>in</strong>tritt oder bereits e<strong>in</strong>getreten ist. Die Bayes-Formel macht nun folgende<br />
Aussage über die E<strong>in</strong>trittswahrsche<strong>in</strong>lichkeit des bed<strong>in</strong>gten Ereignisses<br />
P (A|B) =<br />
P (B|A)P (A)<br />
. (6.34)<br />
P (B)<br />
Lassen Sie uns an e<strong>in</strong>em Beispiel beleuchten, was diese Formel leisten kann.<br />
Beispiel 6.2: Bayes-Formel<br />
Jeder Student der FernUni besucht zum<strong>in</strong>dest e<strong>in</strong>mal im Rahmen<br />
e<strong>in</strong>es Sem<strong>in</strong>ars die schöne Stadt <strong>Hagen</strong>. Die W<strong>in</strong>ter im Sauerland<br />
können sich sehen lassen. Insbesondere kommt es im Schnitt an<br />
60 Tagen zu Verkehrsbeh<strong>in</strong>derungen durch Schneefall. Insgesamt<br />
entfallen 95% der Schneefälle auf die W<strong>in</strong>termonate November bis<br />
Februar. Wie hoch ist die Wahrsche<strong>in</strong>lichkeit bei e<strong>in</strong>em Sem<strong>in</strong>ar<br />
im Januar von Schneeglätte überrascht zu werden?<br />
P (Schnee|W<strong>in</strong>ter) =<br />
=<br />
P (W<strong>in</strong>ter|Schnee)P (Schnee)<br />
P (W<strong>in</strong>ter)<br />
95 · 60<br />
100 365<br />
120<br />
365<br />
= 19<br />
40 < 1 2 .<br />
Der risikoneutrale Student würde also auf den<br />
Kauf von W<strong>in</strong>terreifen verzichten.<br />
131
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
Die Bayes-Formel erstreckt sich <strong>in</strong> analoger Form auf Wahrsche<strong>in</strong>lichkeitsdichten.<br />
Seien Y <strong>und</strong> Z Zufallsvariablen, dann gilt für die bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeitsdichte<br />
p(y|z) = p(z|y)p(y) . (6.35)<br />
p(z)<br />
Die Variablennamen wurden hier natürlich schon <strong>in</strong> suggestiver Weise gewählt,<br />
um den Zusammenhang mit dem Zustandsraummodell herzustellen.<br />
Normalerweise nimmt der Ausdruck auf der rechten Seite von (6.35) e<strong>in</strong>e<br />
komplizierte Form an, da hier verschiedene Dichten mite<strong>in</strong>ander multipliziert<br />
bzw. dividiert werden. S<strong>in</strong>d jedoch alle <strong>in</strong>volvierten Wahrsche<strong>in</strong>lichkeitsdichten<br />
Gaußsch, ist auch die resultierende bed<strong>in</strong>gte Dichte e<strong>in</strong>e Gauß-Dichte,<br />
die sich durch Erwartungswert(vektor) <strong>und</strong> Kovarianz(matrix) repräsentieren<br />
lässt. Das folgende, äußerst wichtige Theorem gibt die Momente der<br />
bed<strong>in</strong>gten Verteilung an:<br />
Theorem 6.2: Normal-Korrelation<br />
Für multivariat normalverteilte Zufallsvariablen Y <strong>und</strong> Z,<br />
( (( ) ( ))<br />
Y E[Y ] Var[Y ] Cov[Y, Z]<br />
∼ N ,<br />
,<br />
Z)<br />
E[Z] Cov[Z, Y ] Var[Z]<br />
ist auch die bed<strong>in</strong>gte Verteilung von Y |Z e<strong>in</strong>e Normalverteilung<br />
mit den bed<strong>in</strong>gten Momenten<br />
E[Y |Z] = E[Y ] + Cov[Y, Z]Var[Z] −1 (Z − E[Z])<br />
Var[Y |Z] = Var[Y ] − Cov[Y, Z]Var[Z] −1 Cov[Z, Y ].<br />
Die Normal-Korrelation liefert also die Momente der bed<strong>in</strong>gten Dichte auf<br />
der l<strong>in</strong>ken Seite von (6.35), für den Fall, dass alle <strong>in</strong>volvierten Verteilungen<br />
normal s<strong>in</strong>d. Beachten Sie, dass allgeme<strong>in</strong> Cov[Y, Z] = Cov[Z, Y ] ′ gilt, da die<br />
Kovarianz möglicherweise e<strong>in</strong>e (rechteckige) Matrix ist!<br />
6.3.2 Mess-Update<br />
Wir s<strong>in</strong>d nun schon fast <strong>in</strong> der Lage das Kalman- oder Mess-Update zu formulieren.<br />
Rufen wir uns noch e<strong>in</strong>mal das Zustandsraummodell <strong>in</strong>s Gedächtnis<br />
y t = Ay t−1 + b + ɛ t (6.36)<br />
z t = Hy t + d + δ t . (6.37)<br />
132
6.3. KALMAN-FILTER<br />
Im Augenblick nehmen wir an, dass y t N(µ t , Σ t )-verteilt ist. Wir werden später<br />
die notwendige Bed<strong>in</strong>gung dafür angeben. Dann müssen wir laut Theorem<br />
6.2 auf der vorherigen Seite lediglich E[z t ], Cov[y t , z t ] <strong>und</strong> Var[z t ] berechnen.<br />
Die Erwartungswert- <strong>und</strong> Varianzterme s<strong>in</strong>d trivial, da Hy t +d e<strong>in</strong>e<br />
aff<strong>in</strong>e Transformation ist (E<strong>in</strong>schub auf Seite 130). Man erhält<br />
E[z t ] = HE[y t ] + d + E[δ t ] = Hµ t + d. (6.38)<br />
Beim Varianzterm wird ausgenutzt, dass der Fehler δ t unkorreliert ist. Daher<br />
ergibt sich<br />
Var[z t ] = HVar[y t ]H ′ + Var[δ t ] = HΣ t H ′ + R. (6.39)<br />
Der Kovarianzterm ist e<strong>in</strong> bisschen widerspenstiger. Wir können aber erneut<br />
ausnutzen, dass der Messfehler mit ke<strong>in</strong>er anderen Modellkomponente korreliert<br />
<strong>und</strong> erhalten<br />
Cov[y t , z t ] = Cov[y t , Hy t + d + δ t ]<br />
= Cov[y t , Hy t + d] + Cov[y t , δ t ]<br />
} {{ }<br />
=0<br />
= E [ (y t − E[y t ])(Hy t + d − HE[y t ] − d) ′]<br />
= E [ (y t − E[y t ])(y t − E[y t ]) ′ H ′]<br />
= Var[y t ]H ′<br />
= Σ t H ′ .<br />
(6.40)<br />
Um das gesamte Kalman-Update algorithmisch <strong>in</strong> e<strong>in</strong>facherer Form schreiben<br />
zu können wird der Term Cov[y t , z t ]Var[z t ] −1 zu<br />
K t = Σ t H ′ (HΣ t H ′ + R) −1 (6.41)<br />
zusammengefasst. K t bezeichnet man als Kalman-Ga<strong>in</strong>. Vere<strong>in</strong>facht gesprochen<br />
wird die Information der Messung im Kalman-Ga<strong>in</strong> kumuliert. Es fungiert<br />
dann gewissermaßen als Filtergewicht, mit dem die Momente des latenten<br />
Zustands y t korrigiert werden, bed<strong>in</strong>gt auf die Messung. Lassen Sie uns<br />
das Mess-Update <strong>in</strong> se<strong>in</strong>er endgültigen Form resümieren<br />
µ t|t = µ t + K t (z t − Hµ t − d) (6.42)<br />
Σ t|t = Σ t − K t HΣ t (6.43)<br />
Die Schreibweise µ t|t bzw. Σ t|t ist e<strong>in</strong>e Kurzform für E[y t |z t ] <strong>und</strong> Var[y t |z t ].<br />
Bemerkung: Er<strong>in</strong>nern Sie sich, dass für symmetrische Matrizen A = A ′ gilt.<br />
Varianzen s<strong>in</strong>d generell symmetrisch, weil sie aus äußeren Produkten bestehen.<br />
Daher folgt für den Kovarianzterm <strong>in</strong> (6.43) Cov[z t , y t ] = Cov[y t , z t ] ′ =<br />
HΣ ′ t = HΣ t .<br />
133
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
Lassen Sie uns hier kurz verweilen <strong>und</strong> zusammenfassen, was wir bisher<br />
erreicht haben:<br />
• Wir haben gesehen, dass das Kalman-Update die a priori Momente<br />
(Momente vor der Messung) µ t <strong>und</strong> Σ t als E<strong>in</strong>gangssignal verwendet<br />
<strong>und</strong> sie e<strong>in</strong>em l<strong>in</strong>earen Messprozess unterwirft. Das Ausgangssignal s<strong>in</strong>d<br />
die a posteriori Momente (Momente nach der Messung) µ t|t <strong>und</strong> Σ t|t ,<br />
die entlang der Bayes-Formel generiert werden.<br />
• Als Filtergewicht fungiert der Kalman-Ga<strong>in</strong> (6.41). Dieses Gewicht liefert<br />
die optimale l<strong>in</strong>eare Schätzung für y t im H<strong>in</strong>blick auf e<strong>in</strong>en m<strong>in</strong>imalen<br />
Fehler im Quadratmittel (siehe Hauptskript). Der Kalman-Ga<strong>in</strong><br />
enthält die Kovarianz zwischen y t <strong>und</strong> z t . S<strong>in</strong>d Systemzustand <strong>und</strong> Messung<br />
unkorreliert, folgt K t = 0 <strong>und</strong> die a priori Momente werden nicht<br />
korrigiert, da ke<strong>in</strong>e Information aus der Messung gewonnen werden<br />
kann.<br />
• Der Filter wirkt bei der Korrektur des Erwartungswertes <strong>in</strong> (6.42) nur<br />
auf den nicht antizipierten Teil z t − E[z t ]. Dieser Teil bildet die sog.<br />
Innovation. Wir werden an späterer Stelle noch e<strong>in</strong>mal auf diesen Punkt<br />
zu sprechen kommen.<br />
• Der Filterprozess wirkt varianzreduzierend, vgl. (6.43). Durch die Information,<br />
die aus der Messung gewonnen wird, wird nicht nur die<br />
Schätzung des latenten Systemzustands verbessert, sondern auch die<br />
Ungewissheit reduziert. Ist der Messfehler R = 0, kollabiert Σ t|t sogar<br />
vollständig; der Systemzustand y t wird beobachtbar.<br />
Aufgabe 6.6<br />
Gegeben seien folgende Parameter des Messmodells<br />
H = ( 1 0 ) , d = 1 <strong>und</strong> R = 1.<br />
Weiterh<strong>in</strong> seien a priori Momente <strong>und</strong> Messung durch<br />
( ( )<br />
2 1 2<br />
µ t = , Σ<br />
1)<br />
t = <strong>und</strong> z<br />
2 4<br />
t = 2<br />
gegeben. Berechnen Sie den Kalman-Ga<strong>in</strong> K t , sowie<br />
die a posteriori Momente µ t|t <strong>und</strong> Σ t|t .<br />
134
6.3. KALMAN-FILTER<br />
Wenn Sie e<strong>in</strong> korrektes Ergebnis für Aufgabe 6.6 berechnet haben werden Sie<br />
feststellen, dass zwar nur die erste Komponente des Systemzustands gemessen<br />
wurde (zweidimensionaler latenter Prozess), aber trotzdem beide Komponenten<br />
durch die Information der Messung korrigiert wurden. Mehr noch,<br />
die a posteriori Varianz der gemessenen Komponente ist sogar kle<strong>in</strong>er als die<br />
Messfehlervarianz. Verblüffend, nicht wahr?<br />
6.3.3 Innovation <strong>und</strong> effizientes Kalman-Update<br />
In diesem kurzen Abschnitt soll die Berechnung des Mess-Updates optimiert<br />
werden. Die resultierende Schreibweise wird sich zu e<strong>in</strong>em späteren Zeitpunkt<br />
als überaus nützlich erweisen. Zusätzlich kann Rechenaufwand e<strong>in</strong>gespart<br />
werden. Wir haben gesehen, dass der Kalman-Ga<strong>in</strong> <strong>in</strong> Gleichung (6.42)<br />
lediglich auf die Innovation z t − E[z t ] wirkt. Deshalb def<strong>in</strong>ieren wir formal<br />
ν t = z t − Hµ t − d. (6.44)<br />
Die Innovation hat Erwartungswert null, E [ z t − E[z t ] ] = 0, <strong>und</strong> Varianz<br />
Var [ z t − E[z t ] ] = Var[z t ]. Beachten Sie, dass E[z t ] e<strong>in</strong>e fixe Größe ist, ke<strong>in</strong>e<br />
Zufallsvariable, <strong>und</strong> damit für die Varianz ke<strong>in</strong>e Rolle spielt. Man schreibt<br />
für die Varianz von ν t formal<br />
Γ t = HΣ t H ′ + R. (6.45)<br />
Lassen Sie uns nun sehen, welche Update-Gleichungen wir mit diesen Def<strong>in</strong>itionen<br />
erhalten<br />
K t = Σ t H ′ Γ −1<br />
t (6.46)<br />
µ t|t = µ t + K t ν t (6.47)<br />
Σ t|t = Σ t − K t Γ t K ′ t. (6.48)<br />
Die letzte Gleichung wurde durch Erweitern mit Γ t Γ −1<br />
t gewonnen. Warum<br />
ist die Form (6.44) bis (6.48) effizienter? In der Regel besitzt das Messmodell<br />
weniger Dimensionen als das Systemmodell. Wird beispielsweise nur e<strong>in</strong>e<br />
Systemkomponente beobachtet, s<strong>in</strong>d ν t <strong>und</strong> Γ t sogar Skalare. Dadurch wird<br />
die Berechnung des Filter-Ga<strong>in</strong>s <strong>und</strong> der a posteriori Momente natürlich<br />
deutlich vere<strong>in</strong>facht.<br />
Aufgabe 6.7<br />
Betrachten Sie noch e<strong>in</strong>mal das Modell aus Aufgabe<br />
6.6 auf der vorherigen Seite. Berechnen Sie ν t , Γ t<br />
<strong>und</strong> K t , sowie die a posteriori Momente µ t|t <strong>und</strong> Σ t|t<br />
entlang (6.44) bis (6.48).<br />
135
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
6.3.4 Time-Update <strong>und</strong> Kalman-Filter-Algorithmus<br />
Wir haben beim Kalman-Update angenommen, dass die a priori Verteilung<br />
von y t e<strong>in</strong>e Normalverteilung ist. Diese Annahme steckt implizit <strong>in</strong> der Verwendung<br />
der Normal-Korrelation. Was ist aber notwendig, damit diese Annahme<br />
auch richtig ist? Nehmen wir e<strong>in</strong>mal an, dass der Initialzustand y 0<br />
normalverteilt ist. Die Zustandsgleichung<br />
y 1 = Ay 0 + b + ɛ 1 (6.49)<br />
besteht aus e<strong>in</strong>er aff<strong>in</strong>en Transformation von y 0 <strong>und</strong> e<strong>in</strong>er weiteren unkorreliert<br />
normalverteilten Zufallsvariable ɛ 1 . Damit ist y 1 ebenfalls normalverteilt,<br />
mit den a priori Momenten<br />
µ 1 = Aµ 0 + b (6.50)<br />
Σ 1 = AΣ 0 A ′ + Ω. (6.51)<br />
Damit habe wir den Kreis schon geschlossen. Wird zum Zeitpunkt t = 1<br />
e<strong>in</strong> Mess-Update durchgeführt, ist y 1|1 ebenfalls wieder normalverteilt <strong>und</strong><br />
nimmt den Platz von y 0 <strong>in</strong> der Zustandsgleichung (6.49) e<strong>in</strong>. Es ist also<br />
lediglich notwendig zu fordern, dass der Anfangszustand y 0 normalverteilt<br />
ist. Algorithmus 6.1 fasst den gesamten Kalman-Filter zusammen.<br />
Algorithmus 6.1: Kalman-Filter<br />
Anfangsbed<strong>in</strong>gung µ 0 , Σ 0<br />
for t = 1, . . . , T do<br />
Time-Update<br />
µ t|t−1 = Aµ t−1|t−1 + b<br />
Σ t|t−1 = AΣ t−1|t−1 A ′ + Ω<br />
Mess-Update<br />
ν t = z t − Hµ t|t−1 − d<br />
Γ t = HΣ t|t−1 H ′ + R<br />
K t = Σ t|t−1 H ′ Γ −1<br />
t<br />
⊲ Initialisierung<br />
⊲ Innovation<br />
⊲ Kalman-Ga<strong>in</strong><br />
end for<br />
µ t|t = µ t|t−1 + K t ν t<br />
Σ t|t = Σ t|t−1 − K t Γ t K ′ t<br />
136
6.3. KALMAN-FILTER<br />
Lassen Sie uns etwas genauer beleuchten, welche Möglichkeiten wir beim<br />
Festlegen der Anfangsbed<strong>in</strong>gungen haben. Ist y 0 tatsächlich normalverteilt<br />
wird der Filter e<strong>in</strong>fach mit µ 0 <strong>und</strong> Σ 0 <strong>in</strong>itialisiert. Was passiert aber, wenn<br />
y 0 = c bekannt ist, also ke<strong>in</strong>e Zufallsvariable mehr ist? In diesem Fall liegt<br />
e<strong>in</strong>e determ<strong>in</strong>istische Anfangsbed<strong>in</strong>gung vor <strong>und</strong> man setzt<br />
µ 0 = c <strong>und</strong> Σ 0 = 0. (6.52)<br />
Vere<strong>in</strong>facht gesprochen verwendet man e<strong>in</strong>e degenerierte Normalverteilung,<br />
deren Varianz null ist. Der umgekehrte Fall ist ebenfalls denkbar. Angenommen<br />
wir haben ke<strong>in</strong>erlei Information über die Anfangsverteilung, dann ist<br />
es möglich, e<strong>in</strong>e Normalverteilung mit sehr großer Streuung (bspw. 10 16 ) zu<br />
wählen, die de facto so flach ist, dass sie völlig nicht-<strong>in</strong>formativ ist. E<strong>in</strong>e<br />
solche Bed<strong>in</strong>gung wird als diffuse Anfangsbed<strong>in</strong>gung bezeichnet,<br />
µ 0 = 0 <strong>und</strong> Σ 0 = 10 16 I. (6.53)<br />
Ist der Systemprozess stationär, kann der Kalman-Filter beispielsweise auch<br />
mit den stationären Momenten <strong>in</strong>itialisiert werden 3 . Es wird nun Zeit e<strong>in</strong><br />
wenig Praxis im Handl<strong>in</strong>g des Kalman-Filters zu bekommen.<br />
Aufgabe 6.8<br />
Gegeben Sei der latente ARMA(2,1)-Prozess<br />
y t = y t−1 − 2y t−2 + ɛ t + 1 2 ɛ t−1.<br />
Nehmen Sie an, dass ɛ t normalverteilt ist, mit Varianz Ω = 2.<br />
Weiterh<strong>in</strong> ist y t nicht direkt beobachtbar, sondern wird von<br />
e<strong>in</strong>em standard-normalverteilten Messfehler überlagert. Zwei<br />
Messwerte liegen vor:<br />
z 1 = 3 2<br />
<strong>und</strong> z 2 = 1 2 .<br />
Formulieren Sie das zugehörige Zustandsraummodell <strong>in</strong> „phase<br />
canonical form“ <strong>und</strong> berechnen Sie die bed<strong>in</strong>gten Momente µ 2|2<br />
<strong>und</strong> Σ 2|2 . Initialisieren Sie den Kalman-Filter mit der determ<strong>in</strong>istischen<br />
Anfangsbed<strong>in</strong>gung µ 0 = (1, 0) ′ .<br />
3 Zur Berechnung der stationären Momente werden Vektorisierungsoperatoren <strong>und</strong> die<br />
Spektraldarstellung benötigt. Die explizite Vorgehensweise ist im Hauptskript erläutert.<br />
137
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
6.3.5 Zustandsschätzung <strong>und</strong> Prognose<br />
Wenn Sie bis hierher durchgehalten haben, ist der Rest e<strong>in</strong> Klacks. Wir<br />
werden nun lediglich noch e<strong>in</strong>ige Aspekte des Kalman-Filters genauer<br />
beleuchten, um e<strong>in</strong> geordnetes Verständnis se<strong>in</strong>er Eigenschaften zu erzeugen.<br />
Was war der gravierende Unterschied zur Diskussion von Zeitreihen <strong>in</strong><br />
den vorangegangenen Kapiteln? Wir haben die Annahme aufgegeben, dass<br />
der Systemprozess, der die relevante Zeitreihe erzeugt, direkt beobachtbar<br />
ist. Infolge dessen konnten wir ke<strong>in</strong>e präzisen Aussagen mehr über den<br />
Zustand des Prozesses zu e<strong>in</strong>em bestimmten Zeitpunkt machen, sondern nur<br />
noch über se<strong>in</strong>e Verteilung (genauer se<strong>in</strong>e Momente). Der Kalman-Filter<br />
hat uns e<strong>in</strong>e optimale Schätzung des Systemzustands ermöglicht. Diese<br />
Zustandsschätzung muss von der Parameterschätzung, mit der wir vorher<br />
schon zu tun hatten, scharf abgegrenzt werden. E<strong>in</strong>e Parameterschätzung<br />
kann auch mit dem Kalman-Filter durchgeführt werden, wir werden aber<br />
auf diesen Punkt erst später zu sprechen kommen.<br />
Abbildung 6.2 zeigt e<strong>in</strong>e solche Zustandsschätzung per Kalman-Filter für<br />
e<strong>in</strong> ARMA(2,1)-Modell, ähnlich dem aus Aufgabe 6.8. Die e<strong>in</strong>zelnen Aspekte<br />
sollen im Folgenden erläutert werden:<br />
• Der bed<strong>in</strong>gte Erwartungswert µ t|t bzw. µ t|t−1 ist grün e<strong>in</strong>gezeichnet.<br />
An den Stellen, an denen neue Mess<strong>in</strong>formation verfügbar ist, wird die<br />
Zustandsschätzung <strong>in</strong> unstetiger Weise korrigiert. Sie erkennen kle<strong>in</strong>ere<br />
4<br />
Zustandsschätzung yt<br />
<br />
2<br />
0<br />
2<br />
<br />
<br />
<br />
4<br />
0 5 10 15<br />
Zeit t<br />
Abbildung 6.2: Kalman-Filter Zustandsschätzung <strong>und</strong> 95% HPD-Intervall<br />
138
6.3. KALMAN-FILTER<br />
oder auch größere Sprünge <strong>in</strong> der Kurve, je nach dem, ob die Messung<br />
nahe am prognostizierten Messwert liegt oder weit davon entfernt.<br />
• Die Messungen selbst s<strong>in</strong>d durch Dreiecke repräsentiert. Der Prozess<br />
wurde mit e<strong>in</strong>er determ<strong>in</strong>istischen Anfangsbed<strong>in</strong>gung <strong>in</strong>itialisiert, daher<br />
ist der Anfangswert gewissermaßen e<strong>in</strong>e Messung ohne Messfehler.<br />
Die Messungen liegen unter Umständen weit ab von der Zustandsschätzung,<br />
da sie von e<strong>in</strong>em Messfehler überlagert s<strong>in</strong>d. Genaugenommen<br />
hängt die Zustandsschätzung von allen vorangegangenen Messungen<br />
Z t = z 1 , . . . , z t ab. Der Kalman-Filter generiert also für s ≥ t die bed<strong>in</strong>gten<br />
Momente E[y s |Z t ] <strong>und</strong> Var[y s |Z t ]. Die Notation µ s|t <strong>und</strong> Σ s|t<br />
ist also <strong>in</strong> diesem S<strong>in</strong>ne zu lesen.<br />
• Für s > t generiert der Kalman-Filter e<strong>in</strong>e Prognose. Innerhalb des<br />
„normalen“ Durchlaufs der Filteriterationen handelt es sich dabei immer<br />
um e<strong>in</strong>e E<strong>in</strong>schritt-Prognose, die anschließend durch e<strong>in</strong> Mess-<br />
Update korrigiert wird. Für s > T s<strong>in</strong>d aber ke<strong>in</strong>e Messungen mehr<br />
verfügbar. In diesem Fall liefern die nicht vorhandenen Messungen auch<br />
ke<strong>in</strong>e Information <strong>und</strong> der Kalman-Ga<strong>in</strong> ist K s = 0. E<strong>in</strong> kurzer Blick<br />
<strong>in</strong> Algorithmus 6.1 auf Seite 136 zeigt, dass die bed<strong>in</strong>gten Momente <strong>in</strong><br />
diesem Fall im Mess-Update nicht korrigiert werden. Dasselbe gilt für<br />
fehlende Messungen (Miss<strong>in</strong>g Data). In Abbildung 6.2 fehlt bspw. die<br />
Messung zum Zeitpunkt t = 3. Das bedeutet K 3 = 0 <strong>und</strong> die a priori<br />
Momente s<strong>in</strong>d gleichzeitig die neuen a posteriori Momente.<br />
• Die grau unterlegten Bereiche s<strong>in</strong>d 95% HPD-Bereiche (Highest Posterior<br />
Density). Das HPD-Intervall ist dem Konfidenz<strong>in</strong>tervall ähnlich,<br />
es besteht jedoch e<strong>in</strong> subtiler Unterschied zwischen beiden. Das Konfidenz<strong>in</strong>tervall<br />
wird gebildet, wenn e<strong>in</strong> fixer aber unbekannter Parameter<br />
geschätzt wird. Hier wurde e<strong>in</strong>e Zufallsvariable geschätzt, die ihrerseits<br />
e<strong>in</strong>e Verteilung besitzt. Daher muss das HPD-Intervall verwendet werden.<br />
Die Berechnung ist <strong>in</strong> diesem Fall analog zum Konfidenz<strong>in</strong>tervall<br />
bei Normalverteilung, nur dass für die Varianz des Schätzers die entsprechende<br />
Komponente von Σ s|t verwendet wird 4 . Beachten Sie, dass<br />
die Breite der HPD-Bereiche <strong>in</strong> Abbildung 6.2 beim E<strong>in</strong>treffen neuer<br />
Mess<strong>in</strong>formation deutlich reduziert wird.<br />
4 In e<strong>in</strong>em zweidimensionalen Zustandsraum wird y s durch ŷ s|t ∼ N(µ s|t , Σ s|t ), mit<br />
µ s|t =<br />
(<br />
µ1<br />
µ 2<br />
)<br />
<strong>und</strong> Σ s|t =<br />
( )<br />
σ11 σ 12<br />
σ 21 σ 22<br />
geschätzt. Damit gilt für die erste Komponente von y s das 95% HPD-Intervall µ 1 ±<br />
1.96 √ σ 11 . Das HPD-Intervall für die zweite Komponente ergibt sich analog.<br />
139
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
6.3.6 Parameterschätzung<br />
Die Parameterschätzung mit Maximum-Likelihood kann im Rahmen von<br />
Zustandsraummodellen über die sog. Prognose-Fehler-Zerlegung abgewickelt<br />
werden. Im Gr<strong>und</strong>e wird dort ausgenutzt, dass die Innovationen unkorreliert<br />
<strong>und</strong> (multivariat) normalverteilt s<strong>in</strong>d 5 . Die Likelihoodfunktion ist wieder e<strong>in</strong>e<br />
Funktion der Parameter, <strong>und</strong> zwar aller Parameter des System- <strong>und</strong> Messmodells<br />
T∏ 1<br />
L(A, b, Ω, H, d, R) = √ 1 det[2πΓt ] e− 2 ν′ t Γ−1 t ν t<br />
. (6.54)<br />
t=1<br />
In der Praxis werden so gut wie nie die kompletten, unrestr<strong>in</strong>gierten Matrizen<br />
bzw. Vektoren geschätzt. Beispielsweise gilt für e<strong>in</strong> AR(2)-Systemmodell<br />
( )<br />
φ1 φ<br />
A =<br />
2<br />
. (6.55)<br />
1 0<br />
Die unrestr<strong>in</strong>gierte Matrix A hat vier zu bestimmende Komponenten,<br />
während die restr<strong>in</strong>gierte Form (6.55) lediglich zwei unbekannte Parameter<br />
enthält, φ 1 <strong>und</strong> φ 2 .<br />
Wird die Likelihoodfunktion (6.54) wieder <strong>in</strong> ihrer logarithmierten Form<br />
maximiert, ergibt sich e<strong>in</strong>e besonders vorteilhafte Situation, da über die e<strong>in</strong>zelnen<br />
Likelihoodbeiträge summiert wird<br />
l(A, b, Ω, H, d, R) =<br />
=<br />
T∑<br />
t=1<br />
t=1<br />
l t<br />
(6.56)<br />
T∑<br />
− 1 ( )<br />
log det[2πΓt ] + ν ′<br />
2<br />
tΓ −1<br />
t ν t .<br />
Die Inkredenzien ν t <strong>und</strong> Γ t des LogLikelihood-Beitrags l t werden aber vom<br />
Kalman-Filter bei jedem Mess-Update quasi als Nebenprodukt berechnet,<br />
vgl. Algorithmus 6.1 auf Seite 136. Jetzt ist auch klar, warum diese algorithmische<br />
Form so effizient ist. Man erhält die zur Parameterschätzung benötigten<br />
Terme sozusagen kostenlos.<br />
5 Wir werden <strong>in</strong> Abschnitt 6.4 e<strong>in</strong>en Fall kennenlernen, <strong>in</strong> dem die Innovationen nicht<br />
normalverteilt s<strong>in</strong>d, da der Messfehler zwar normalverteilt angenommen wird, <strong>in</strong> Wirklichkeit<br />
aber e<strong>in</strong>e andere Verteilung besitzt. Das resultierende Schätzverfahren nennt man<br />
Quasi-Maximum-Likelihood. Es liefert trotz falscher Verteilungsannahmen asymptotisch<br />
erwartungstreue Schätzer.<br />
140
6.4. ARV-MODELLE<br />
Aufgabe 6.9<br />
Betrachten Sie noch e<strong>in</strong>mal Aufgabe 6.8 auf Seite 137.<br />
Berechnen Sie den Wert der logarithmierten Likelihoodfunktion<br />
l = l 1 +l 2 . H<strong>in</strong>weis: Für Skalare gilt det A = a.<br />
6.4 ARV-Modelle<br />
Wir kommen nun zu e<strong>in</strong>er Modellklasse, die für gewöhnlich extreme Probleme<br />
h<strong>in</strong>sichtlich der Parameterschätzung verursacht. Diese Probleme lassen sich<br />
aber erheblich durch den E<strong>in</strong>satz des Kalman-Filters vere<strong>in</strong>fachen. Es handelt<br />
sich um die Klasse der ARV-Modelle 6 (Autoregressive Random Volatility).<br />
Lassen Sie uns zunächst das Modell formulieren <strong>und</strong> dann se<strong>in</strong>e Komponenten<br />
analysieren<br />
y t = µ + e h t<br />
2 zt (6.57)<br />
h t − ¯h = λ(h t−1 − ¯h) + γν t . (6.58)<br />
Die erste Gleichung besitzt enorme Ähnlichkeit mit dem EGARCH-Modell<br />
(5.56) aus Abschnitt 5.3.5, lediglich ergänzt um e<strong>in</strong>en Erwartungswert µ. z t<br />
ist hier wieder e<strong>in</strong>e standard-normalverteilte Innovation 7 . Es liegt mit (6.57)<br />
also e<strong>in</strong> bed<strong>in</strong>gt heteroskedastischer Prozess vor. Die Varianzgleichung (6.58)<br />
ist e<strong>in</strong>e Überraschung. Es handelt sich strukturell um e<strong>in</strong>en AR(1)-Prozess<br />
<strong>in</strong> h t , mit Mittelwert ¯h, AR-Parameter λ <strong>und</strong> Zufallsfehler ν t ∼ N(0, 1). Es<br />
wird im Allgeme<strong>in</strong>en angenommen, dass z t <strong>und</strong> ν t unkorreliert s<strong>in</strong>d.<br />
Wir haben vorher ke<strong>in</strong>e Zufallsfehler <strong>in</strong> der Varianzgleichung gesehen<br />
<strong>und</strong> die Komplikationen, die dieser Fehler mit sich br<strong>in</strong>gt, s<strong>in</strong>d enorm (siehe<br />
Hauptskript). Die Verteilung von y t muss nun nicht nur auf verzögerte Varianzen<br />
bed<strong>in</strong>gt werden, sondern auch auf die verzögerten Realisationen des<br />
zweiten Zufallsfehlers. Per Def<strong>in</strong>ition ist der Varianzprozess aber gar nicht<br />
beobachtbar, wir stehen also vor e<strong>in</strong>em Dilemma.<br />
6.4.1 Zustandsraumform des ARV-Modells<br />
Wir haben bereits gesehen, dass unbeobachtbare Prozesse <strong>in</strong> Zustandsraumform<br />
mit Hilfe des Kalman-Filters geschätzt werden konnten. Daher lautet<br />
die relevante Frage: Können wir das ARV-Modell <strong>in</strong> Zustandsraumform<br />
6 Gelegentlich f<strong>in</strong>det man auch die Bezeichnung SVola-Modell (Stochastic Volatility).<br />
7 Die Notation ist etwas unglücklich, da z t im Zustandsraummodell für die Messung<br />
steht. Diese Notation ist jedoch etabliert <strong>und</strong> wird deshalb beibehalten.<br />
141
KAPITEL 6. ZUSTANDSRAUMMODELLE UND KALMAN-FILTER<br />
transformieren? Lassen Sie es uns versuchen. Beg<strong>in</strong>nen wir mit dem latenten<br />
Prozess (6.58), der unseren Systemzustand beschreibt. Hier erhalten wir<br />
bereits nach trivialen algebraischen Manipulationen<br />
h t = λh t−1 + (1 − λ)¯h + ɛ t , (6.59)<br />
mit ɛ t ∼ N(0, γ 2 ). Das war leicht, wir können sofort die Zustandsparameter<br />
identifizieren: A = λ, b = (1−λ)¯h <strong>und</strong> Ω = γ 2 . Jetzt kommt der schwere Teil.<br />
Br<strong>in</strong>gen wir zunächst den Erwartungswert µ auf die l<strong>in</strong>ke Seite von Gleichung<br />
(6.57). Anschließend quadrieren wir beide Seiten, um e<strong>in</strong>en Term <strong>in</strong> e ht zu<br />
bekommen, <strong>und</strong> bilden den Logarithmus. Wir erhalten<br />
log [ (y t − µ) 2] = h t + log z 2 t . (6.60)<br />
Das sieht schon relativ brauchbar aus. Wir können e<strong>in</strong>e modifizierte Messung<br />
zt ∗ = log [ (y t − µ) 2] def<strong>in</strong>ieren, dazu muss lediglich die ursprünglich beobachtete<br />
Zeitreihe mittelwertbere<strong>in</strong>igt, quadriert <strong>und</strong> anschließend logarithmiert<br />
werden. Allerd<strong>in</strong>gs haben wir e<strong>in</strong>en äußerst seltsamen Zufallsfehler erhalten,<br />
log zt 2 . z t war ursprünglich standard-normalverteilt, daher gilt zt<br />
2 ∼ χ 2 1. Wir<br />
können schon erahnen, dass der Logarithmus von zt<br />
2 e<strong>in</strong>e sehr unerfreuliche<br />
Verteilung haben wird. Diese Verteilung kann berechnet werden, jedoch wollen<br />
wir uns nicht damit ause<strong>in</strong>andersetzen <strong>und</strong> beschränken uns darauf, ihren<br />
Erwartungswert 8 , E[log zt 2 ] ≈ −1.27, <strong>und</strong> ihre Varianz, Var[log zt 2 ] = 1 2 π2 , anzugeben.<br />
Wir ignorieren nun e<strong>in</strong>fach die Tatsache, dass die Verteilung von<br />
log zt 2 ke<strong>in</strong>e Normalverteilung ist <strong>und</strong> arbeiten e<strong>in</strong>fach mit diesen beiden Momenten,<br />
sprich wir def<strong>in</strong>ieren d = −1.27 <strong>und</strong> δ t = log zt 2 − d. Die verbleibenden<br />
Identifikationen s<strong>in</strong>d H = 1 <strong>und</strong> R = 1 2 π2 . Das komplette approximierte<br />
Zustandsraummodell ist dann durch<br />
gegeben, mit ɛ t ∼ N(0, γ 2 ) <strong>und</strong> δ t ∼ N(0, 1 2 π2 ).<br />
h t = λh t−1 + (1 − λ)¯h + ɛ t (6.61)<br />
z ∗ t = h t − 1.27 + δ t (6.62)<br />
Der Kalman-Filter berechnet nun mit jedem Mess-Update den jeweiligen<br />
LogLikelihood-Beitrag. E<strong>in</strong> kompletter Filterdurchlauf generiert also die<br />
8 Der exakte Erwartungswert lautet E[log zt 2 ] = −γ − log 2. Dabei bezeichnet γ die<br />
Euler-Mascheroni-Konstante, die über die Reihenentwicklung<br />
( n<br />
)<br />
∑ 1<br />
γ = lim<br />
n→∞ k − log n ≈ 0.5772<br />
dargestellt werden kann.<br />
142<br />
k=1
6.4. ARV-MODELLE<br />
vollständige LogLikelihood-Funktion, die dann maximiert werden kann.<br />
Es gibt e<strong>in</strong>en kle<strong>in</strong>en Haken: die berechnete LogLikelihood-Funktion ist<br />
falsch. Er<strong>in</strong>nern Sie sich, dass die Verteilung von δ t gar nicht wirklich<br />
e<strong>in</strong>e Normalverteilung ist, wir haben das nur angenommen, um das ARV-<br />
Modell <strong>in</strong> die Zustandsraumform zu pressen. Nichtsdestotrotz liefert die<br />
ML-Schätzung erwartungstreue Parameterschätzer. Diese Art der eigentlich<br />
falschen ML-Schätzung wird Quasi-Maximum-Likelihood Methode genannt.<br />
Die resultierenden Schätzer s<strong>in</strong>d zwar noch asymptotisch erwartungstreu,<br />
besitzen aber nicht mehr die kle<strong>in</strong>stmögliche Streuung. Dieser Defekt kann<br />
jedoch korrigiert werden, siehe Hauptskript.<br />
Aufgabe 6.10<br />
Schreiben Sie den Kalman-Filter Algorithmus<br />
speziell mit den Parametern <strong>und</strong> Werten des<br />
ARV-Modells (6.61) <strong>und</strong> (6.62).<br />
143
7<br />
Tipps <strong>und</strong> Tricks<br />
7.1 Zentrale Momente e<strong>in</strong>er Normalverteilung<br />
Die höheren Momente e<strong>in</strong>er Normalverteilung können sehr e<strong>in</strong>fach durch folgende<br />
Formel berechnet werden<br />
{<br />
m k/2<br />
2 (k − 1)!! für k gerade<br />
m k =<br />
0 für k ungerade.<br />
Der Ausdruck für gerade k enthält e<strong>in</strong> doppeltes Fakultätszeichen ‘!!’. Die<br />
e<strong>in</strong>fache Fakultät wird <strong>in</strong> der Regel rekursiv durch k! = k · (k − 1)! <strong>und</strong> die<br />
Festsetzung 0! = 1 def<strong>in</strong>iert. Man erhält also k! = k · (k − 1) · . . . · 2 · 1.<br />
Die formale Schreibweise der Doppelfakultät ist so zu <strong>in</strong>terpretieren, dass<br />
die rekursive Def<strong>in</strong>ition mit Lag 2 erfolgt, k!! = k · (k − 2) · . . . · 3 · 1. Der<br />
Ausdruck 7!! wird also durch 7!! = 7 · 5 · 3 · 1 = 105 berechnet.<br />
Beispiel 7.1:<br />
Angenommen z t sei standard-normalverteilt. Welchen<br />
Wert erhält man für das sechste zentrale Moment?<br />
Zunächst gilt m 2 = σ 2 = 1, <strong>und</strong> damit<br />
m 6 = 1 3 · 5!! = 5 · 3 · 1 = 15.<br />
Alle ungeraden Momente verschw<strong>in</strong>den def<strong>in</strong>itionsgemäß.<br />
7.2 E<strong>in</strong>fache Berechnung stationärer Momente<br />
Bei der Berechnung stationärer Momente wird häufig folgende Strategie<br />
angewendet. Zunächst wird die betreffende Momentengleichung so umgeschrieben,<br />
dass e<strong>in</strong>e rekursive Form entsteht. Diese wird dann rückwärts<br />
145
KAPITEL 7. TIPPS UND TRICKS<br />
vom Zeitpunkt t an bis zu e<strong>in</strong>em bekannten Startwert oder e<strong>in</strong>er bekannten<br />
Anfangsbed<strong>in</strong>gung iteriert. Als letzter Schritt wird dann der Grenzwert für<br />
t → ∞ gebildet <strong>und</strong> e<strong>in</strong>e Reihenentwicklung, bspw. die geometrische Reihe,<br />
e<strong>in</strong>gesetzt, um e<strong>in</strong>en expliziten Ausdruck zu erhalten.<br />
Liegen Modelle vor, die nur endliche Lags k < ∞ berücksichtigen, kommt<br />
man mit e<strong>in</strong>em kle<strong>in</strong>en „dirty trick“ schnell <strong>und</strong> bequem zum Ziel. Zuerst<br />
werden alle Zeitargumente formal durch ihren Grenzwert ersetzt, das heißt<br />
y t → y ∞ usw. Beachten Sie, dass bei verzögerten Werten <strong>in</strong> unendlich ferner<br />
Zukunft das Lag ke<strong>in</strong>e Rolle mehr spielt. Das bedeutet formal y t−k → y ∞ .<br />
Im zweiten Schritt wird nun das entsprechende Moment, Erwartungswert<br />
oder Varianz etc., gebildet. Auflösen der Gleichung liefert dann unmittelbar<br />
das gesuchte stationäre Moment. Dieses Vorgehen lässt sich am besten am<br />
Beispiel verdeutlichen.<br />
Beispiel 7.2:<br />
Für den nicht zentrierten AR(1)-Prozesses (2.3) auf Seite 6<br />
mit |φ| < 1 erhält man <strong>in</strong> unendlicher Zukunft<br />
x ∞ = (1 − φ)µ + φx ∞ + ɛ ∞ .<br />
Für Erwartungswert <strong>und</strong> Varianz erhält man folgende Gleichungen<br />
E[x ∞ ] = (1 − φ)µ + φE[x ∞ ]<br />
Var[x ∞ ] = φ 2 Var[x ∞ ] + σ 2 .<br />
Auflösen dieser Gleichungen führt auf die bereits bekannten<br />
Ergebnisse E[x st. ] = µ <strong>und</strong> Var[x st. ] =<br />
σ2 , mit x<br />
1−φ 2 st. = x ∞ .<br />
Beispiel 7.3:<br />
Für die stationäre Varianz des GARCH(1,1)-Prozesses, mit<br />
Var[y t ] = E[σ 2 t ], erhält man <strong>in</strong> unendlicher Zukunft<br />
E[σ 2 ∞] = ω + αE[σ 2 ∞] + βE[σ 2 ∞].<br />
Auflösen führt auf Var[y st. ] =<br />
ω , mit y 1−α−β st. = σ ∞ z ∞ .<br />
146
7.3. VEREINFACHTE KOVARIANZFORMEL<br />
7.3 Vere<strong>in</strong>fachte Kovarianzformel<br />
Bei der Berechnung von Kovarianzen können oft Vere<strong>in</strong>fachungen erzielt werden,<br />
wenn der Erwartungswert e<strong>in</strong>er Zufallsvariable null ist. E<strong>in</strong>e erste Vere<strong>in</strong>fachung<br />
ergibt sich bereits durch umstellen der Kovarianzformel. Für zwei<br />
beliebige Zufallsvariablen X <strong>und</strong> Y gilt<br />
Cov[X, Y ] = E [ (X − E[X])(Y − E[Y ]) ]<br />
= E[XY ] − 2E[X]E[Y ] + E[X]E[Y ]<br />
= E[XY ] − E[X]E[Y ].<br />
Insbesondere ergibt sich damit für Die Varianz e<strong>in</strong>er Zufallsvariable<br />
Var[X] = Cov[X, X] = E[X 2 ] − E[X] 2 .<br />
Ist nun weiterh<strong>in</strong> bekannt, dass der Erwartungswert m<strong>in</strong>destens e<strong>in</strong>er der<br />
beiden Zufallsvariablen null ist, also E[X] = 0 oder E[Y ] = 0, erhält man<br />
unmittelbar<br />
Cov[X, Y ] = E[XY ].<br />
7.4 Hodrick-Prescott-Filter<br />
Die Idee des Hodrick-Prescott-Filters basiert auf der Zerlegung e<strong>in</strong>er Zeitreihe<br />
y t <strong>in</strong> e<strong>in</strong>e Summe aus zwei Zeitreihen<br />
y t = g t + c t , t = 1, . . . , T,<br />
wobei g t nur den Wachstums- oder Trendanteil enthält (growth) <strong>und</strong> c t den<br />
periodischen (cyclic) Anteil. Die Separation zwischen Trend <strong>und</strong> Zyklus wird<br />
durch die Lösung des M<strong>in</strong>imierungsproblems<br />
m<strong>in</strong><br />
{g t} T t=1<br />
[ T∑<br />
t=1<br />
]<br />
∑T −1<br />
(y t − g t ) 2 + λ (∇ 2 g t+1 ) 2<br />
ermöglicht. Der Parameter λ gewichtet dabei e<strong>in</strong>en „Strafterm“, ∇ ist wieder<br />
der Rückwärts-Differenzenoperator, vgl. (2.65) auf Seite auf Seite 38. Der<br />
zweimal angewendete ∇-Operator ist e<strong>in</strong> Maß für die Abweichung von<br />
der L<strong>in</strong>earität. Im Falle e<strong>in</strong>er stetig differenzierbaren Funktion würde der<br />
Differenzenoperator dem Differentialoperator entsprechen, wobei die zweite<br />
Ableitung bekanntlich e<strong>in</strong> Maß für die Krümmung e<strong>in</strong>er Funktion ist.<br />
t=2<br />
147
KAPITEL 7. TIPPS UND TRICKS<br />
Aufgr<strong>und</strong> der Struktur des Differenzenoperators kann das M<strong>in</strong>imierungsproblem<br />
<strong>in</strong> Matrixschreibweise notiert werden<br />
mit der Tridiagonalmatrix<br />
z(g) = (y − g) ′ (y − g) + λ(Fg) ′ (Fg) → m<strong>in</strong>!<br />
⎛<br />
⎞<br />
1 −2 1 0 · · · 0<br />
0 1 −2 1 · · · 0<br />
F = ⎜<br />
⎝<br />
.<br />
. .. . .. . ..<br />
⎟ . ⎠ .<br />
0 . . . 0 1 −2 1<br />
Die übliche notwendige Bed<strong>in</strong>gung für die Existenz e<strong>in</strong>es M<strong>in</strong>imums ist das<br />
Verschw<strong>in</strong>den der ersten Ableitung der Zielfunktion<br />
∂<br />
∂g ′ z(g) = −2(y − g) + 2λF′ Fg ! = 0,<br />
woraus nach elementaren Umformungen die Zerlegung des Vektors y folgt<br />
g = (λF ′ F + I) −1 y<br />
c = y − g.<br />
Aufgr<strong>und</strong> der Struktur des Problems kommt als Extremum <strong>in</strong> der Tat nur<br />
e<strong>in</strong> M<strong>in</strong>imum <strong>in</strong> Frage. Hodrick <strong>und</strong> Prescott empfehlen für Quartalsdaten<br />
den Glätterwert λ = 1600.<br />
148
8<br />
Lösungen<br />
Lösungen zu Kapitel 2<br />
Lösung 2.1<br />
a)<br />
b)<br />
c)<br />
d)<br />
e)<br />
f)<br />
g)<br />
5∑<br />
k = 1 + 2 + 3 + 4 + 5 = 15<br />
k=1<br />
3∑<br />
k=1<br />
1<br />
2k = 1 2 + 1 4 + 1 6 = 6 12 + 3 12 + 2 12 = 11<br />
12<br />
4∑<br />
2 k = 1 + 2 + 4 + 8 + 16 = 31<br />
k=0<br />
2∑<br />
i=1<br />
3∑<br />
i=1<br />
3∑<br />
(i + j) 2 = (1 + 1) 2 + (1 + 2) 2 + (1 + 3) 2 + (2 + 1) 2 + (2 + 2) 2<br />
j=1<br />
+ (2 + 3) 2 = 4 + 9 + 16 + 9 + 16 + 25 = 79<br />
i∑<br />
i · j = 1 · 0 + 1 · 1 + 2 · 0 + 2 · 1 + 2 · 2 + 3 · 0 + 3 · 1 + 3 · 2<br />
j=0<br />
+ 3 · 3 = 1 + 2 + 4 + 3 + 6 + 9 = 25<br />
∞∑<br />
( ) k 3<br />
= 1<br />
4 1 − 3 = 4<br />
4<br />
∞∑ 1<br />
2 = ∑ ∞ ( ) k 1<br />
− 1 = 1<br />
k 2 1 − 1 − 1 = 2 − 1 = 1<br />
2<br />
k=0<br />
k=1<br />
k=0<br />
Index <strong>in</strong> <strong>Aufgaben</strong>teil g) beachten!<br />
149
KAPITEL 8. LÖSUNGEN<br />
Lösung 2.2<br />
a) 2 + 4 + 6 + . . . + 16 =<br />
8∑<br />
2k<br />
k=1<br />
b) − 1 + 1 2 − 1 3 + 1 4 − 1 5 + 1 6∑<br />
6 = (−1) k<br />
k=1<br />
c) 0 + 1 2 + 2 3 + 3 4 + . . . + 45<br />
45<br />
46 = ∑ k<br />
k + 1<br />
d) 1 + 4 + 27 + 256 =<br />
4∑<br />
k=1<br />
k k<br />
2 1<br />
∞∑ 1<br />
e)<br />
1 − 1 = 2 ·<br />
1 − 1 = 2<br />
2<br />
2<br />
2<br />
k<br />
k=0<br />
k=0<br />
k<br />
Lösung 2.3<br />
γ 3 = Cov[y t , y t−3 ] = E[y t y t−3 ]<br />
= E [ ]<br />
(φy t−1 + ɛ t )y t−3 = E[φyt−1 y t−3 ] + E[ɛ t y t−3 ]<br />
= φCov[y t−1 , y t−3 ] + Cov[ɛ t , y t−3 ]<br />
= φγ 2 = φ 2 γ 1 = φ 3 γ 0<br />
150<br />
Lösung 2.4<br />
( )<br />
x1<br />
a) det A = 2, = 1 ( ) ( 2 −2 3<br />
=<br />
x 2 2 −1 2 6)<br />
1 ( ) ( )<br />
6 − 12 −3<br />
=<br />
2 −3 + 12 4.5<br />
( )<br />
x1<br />
b) det A = 10, = 1 ( ) ( )<br />
3 −1 −2<br />
= 1 ( ) ( )<br />
−6 − 8 −1.4<br />
=<br />
x 2 10 −2 4 8 10 4 + 32 3.6<br />
c) det A = 0, A ist nicht <strong>in</strong>vertierbar!<br />
( )<br />
x1<br />
d) det A = −10, = − 1 ( ) ( 4 −3 0<br />
= −<br />
x 2 10 −6 2 2)<br />
1 ( ) ( )<br />
−6 0.6<br />
=<br />
10 4 −0.4<br />
( )<br />
x1<br />
e) det A = 4, = 1 ( ) ( )<br />
−4 −12 −3<br />
= 1 ( ) ( )<br />
108 27<br />
=<br />
x 2 4 −0 −1 −8 4 8 2
Lösung 2.5<br />
ˆµ = 1 10<br />
ˆγ k = 1 10<br />
∑10<br />
t=1<br />
10<br />
y t = 2.5<br />
∑ (<br />
yt − ˆµ )( y t−k − ˆµ ) ⇒ ˆγ 0 = 2.25, ˆγ 1 = 1.225, ˆγ 2 = −0.3<br />
t=k+1<br />
ˆρ k = ˆγ k<br />
ˆγ 0<br />
⇒ ˆρ 1 = 0.5¯4, ˆρ 2 = −0.1¯3<br />
ˆφ 21 = ˆρ 1 − ˆρ 1 ˆρ 2<br />
1 − ˆρ 2 1<br />
= 0.877<br />
ˆφ 22 = ˆρ 2 − ˆρ 2 1<br />
= −0.611<br />
1 − ˆρ 2 1<br />
ˆσ 2 = ˆγ 0 (1 − ˆρ 2 1) = 1.583<br />
Lösung 2.6<br />
( ) ( )<br />
1 1 1 1<br />
4 4<br />
y = (1, 0, 1, 2) ′ , X ′ =<br />
, X ′ X =<br />
0 1 2 1<br />
4 6<br />
(X ′ X) −1 = 1 ( ) ( ( ) ( 6 −4<br />
4<br />
, X ′ 1 8 1<br />
y = , ˆθ = =<br />
8 −4 4<br />
4)<br />
8 0 0)<br />
Lösung 2.7<br />
a) log[ab] = log[a] + log[b]<br />
[ a<br />
]<br />
b) log = log [ ab −1] = log[a] − log[b]<br />
b<br />
c) log [ 2a b] = log[2] + b log[a]<br />
d) log [√ a ] = log [ ]<br />
a 1 1<br />
2 =<br />
2 log[a]<br />
e) log [ a 3 4√ b ] = 3 log[a] + 1 4 log[b] 151
KAPITEL 8. LÖSUNGEN<br />
Lösung 2.8<br />
ˆµ = 1 9<br />
8∑<br />
y t = 2<br />
t=0<br />
8∑<br />
ˆγ 0 = 1 9<br />
ˆγ 1 = 1 9<br />
t=0<br />
(y t − 2) 2 = 4 3<br />
8∑<br />
(y t − 2)(y t−1 − 2) = 1 3<br />
t=1<br />
F ( ˆφ) = 9<br />
1 − 1<br />
16<br />
= 144<br />
15<br />
c o/u = 1 4 ± 1.96 √<br />
15<br />
144<br />
⇒ ˆφ = ˆγ 1<br />
ˆγ 0<br />
= 1 4<br />
⇒ φ ∈ [−0.383, 0.883]<br />
Lösung 2.9<br />
a) ∇ 3 y t = (1 − B) 3 y t = (1 − 3B + 3B 2 − B 3 )y t = y t − 3y t−1 + 3y t−2 − y t−3<br />
b) B∇y t = B(1 − B)y t = (B − B 2 )y t = y t−1 − y t−2<br />
c) B −1 ∇y t = (B −1 − B −1 B)y t = (B −1 − 1)y t = y t+1 − y t<br />
d) B −2 y t = B −1 B −1 y t = B −1 y t+1 = y t+2<br />
e) ∇ 2 B −1 y t = (1 − 2B + B 2 )B −1 y t = (B −1 − 2 + B)y t = y t+1 − 2y t + y t−1<br />
f) B −2 ∇ 2 y t = B −2 (1 − 2B − B 2 )y t = (B −2 − 2B −1 + 1)y t<br />
= y t+2 − 2y t+1 + y t<br />
Lösung 2.10<br />
a) λ 1/2 = φ √<br />
1 φ<br />
2<br />
2 ± 1<br />
4 + φ 2 = 1 √<br />
1<br />
2 ± 4 − 1 2 = 1 √<br />
1<br />
2 ± i 4 = 1 2 ± i1 2<br />
b) ω = arctan<br />
b<br />
∣a∣ = arctan 1 = π ⇒ T = 2π 4<br />
ω = 8π π = 8<br />
152
Lösung 2.10 (Fortsetzung)<br />
c) r τ = r<br />
log 10<br />
⇔ τ log r = log r − log 10 ⇔ τ = 1 −<br />
10<br />
log r<br />
√<br />
1<br />
r =<br />
4 + 1 4 = √ 1<br />
log 10<br />
10<br />
⇒ τ = 1 − = 1 + 2log 2 log 2 log 2 = 7.644<br />
− 1 2<br />
Lösung 2.11<br />
λ 1/2 = φ √<br />
1 φ<br />
2<br />
2 ± 1<br />
4 + φ 2 = 0.1 ± √ 0.36 ⇒ λ 1 = 0.7 , λ 2 = −0.5<br />
⇒ Prozess ist stationär!<br />
ρ 1 = φ 1 + φ 2 ρ 1 ⇒ ρ 1 = φ 1<br />
= 0.2<br />
1 − φ 2 0.65 = 0.3077<br />
( ) ( ) −1 ( )<br />
A1 1 1 ρ0<br />
=<br />
= − 5 ( ) ( ) ( )<br />
−0.5 −1 1 0.6731<br />
=<br />
A 2 λ 1 λ 2 ρ 1 6 −0.7 1 0.3077 0.3269<br />
⇒<br />
ρ k = 0.6731 · 0.7 k + 0.3269 · (−0.5) k<br />
Lösung 2.12<br />
r = √ √<br />
1<br />
a 2 + b 2 =<br />
4 + 1 4 = √ 1<br />
, ω = arctan<br />
b<br />
2<br />
∣a∣ = arctan 1 = π 4<br />
[ ]<br />
ρ k = r k cos[ωk] = 2 − k πk<br />
2 cos ⇒ ρ 2 = 0 , ρ 4 = − 1 4<br />
4<br />
153
KAPITEL 8. LÖSUNGEN<br />
Lösungen zu Kapitel 3<br />
Lösung 3.1<br />
1<br />
(<br />
1 + θ 1 B y t = (1 − θ 1 B + θ1B 2 2 − . . .)y t = 1 −<br />
⇒ φ(B)y t =<br />
⇒<br />
(<br />
1 −<br />
∞∑<br />
(−1) k−1 θ1B )y k k t = ɛ t<br />
k=1<br />
∞∑<br />
φ k B<br />
)y k t = ɛ t mit φ k = (−1) k−1 θ1<br />
k<br />
k=1<br />
MA(1)-Prozess besitzt AR(∞)-Darstellung<br />
Lösung 3.2<br />
a) (ɛ t ) t=0,...,6 = {0, 2, 2, −1, −1.5, 1.75, −2.875}<br />
⇒ l(0.5, 0.5) = −3.434 − 22.578 = −26.012<br />
b) (ɛ t ) t=0,...,6 = {0, 2, 2.5, −0.625, −1.844, 1.461, −2.365}<br />
⇒ l(0.25, 1) = −5.514 − 10.884 = −16.398<br />
Lösung 3.3<br />
γ 0 = (1 + θ1 2 + θ2)σ 2 2<br />
γ 1 = (θ 1 + θ 2 θ 1 )σ 2<br />
γ 2 = θ 2 σ 2<br />
γ 3 = γ 4 = . . . = 0<br />
Lösung 3.4<br />
a) MA(2)-Prozess b) AR(1)-Prozess<br />
c) AR(2)-Prozess d) MA(1)-Prozess<br />
e) MA(3)-Prozess<br />
154
Lösung 3.5<br />
q∑<br />
q∏<br />
θ(z) = 1 + θ k z k = (1 − λ k z)<br />
k=1<br />
k=1<br />
Lösung 3.6<br />
a) λ 1/2 = − θ 1<br />
2 ± √<br />
θ<br />
2<br />
1<br />
4 − θ 2 (pq-Formel)<br />
b) λ 1/2 = 1 ± 1 ⇒ λ 1 = 3 2<br />
2 , λ 2 = 1 2<br />
⇒ Prozess ist nicht <strong>in</strong>vertierbar!<br />
c) y t =<br />
(1 − 2 )(1<br />
3 B − 1 )<br />
2 B ɛ t = ɛ t − 2 3 ɛ t−1 − 1 2 ɛ t−1 + 1 3 ɛ t−2<br />
= ɛ t − 7 6 ɛ t−1 + 1 3 ɛ t−2 ⇒ θ 1 = −1.17 , θ 2 = 0.33<br />
Lösung 3.7<br />
(ɛ t ) t=−1,...,6 = {0, 0, 1, 4, 6, 5, 4, 0}<br />
⇒ l(1, −2, 1, 1) = −5.514 − 47 = −52.514<br />
Lösung 3.8<br />
a) λ 1/2 = − θ √<br />
1 θ<br />
2<br />
2 ± 1<br />
4 − θ 2 = 1 ± √ 1 − 1 = 1<br />
⇒ Prozess ist nicht <strong>in</strong>vertierbar!<br />
b) Bed<strong>in</strong>gte ML-Schätzung ist hier nicht s<strong>in</strong>nvoll, da sich Fehler <strong>in</strong> den<br />
Anfangsbed<strong>in</strong>gungen potenzieren.<br />
155
KAPITEL 8. LÖSUNGEN<br />
Lösungen zu Kapitel 4<br />
Lösung 4.1<br />
γ 1 = σ 2 (ψ 1 +<br />
) (<br />
∞∑<br />
ψ j+1 ψ j = σ 2 φ + θ + (φ + θ) 2<br />
j=1<br />
∞<br />
∑<br />
j=1<br />
φ 2k−1 )<br />
(<br />
∞<br />
)<br />
∑<br />
(<br />
)<br />
= σ 2 φ + θ + φ(φ + θ) 2 φ 2k = σ 2 φ(φ + θ)2<br />
φ + θ +<br />
1 − φ 2 k=0<br />
(<br />
)<br />
= φσ 2 (φ + θ)2<br />
1 + + θσ 2 = φγ<br />
1 − φ 2 0 + θσ 2<br />
Lösung 4.2<br />
⇒<br />
⇒<br />
φ(B)y t = θ(B)ɛ t<br />
(1 − φB)y t = (1 + θB)ɛ t = (1 − φB)ɛ t<br />
y t = ɛ t<br />
Lösung 4.3<br />
(ɛ t ) t=0,...,6 = {0, 2, 1, −1, −1, −1, 2}<br />
⇒ l(0.5, 0, 0.5, 1) = −5.514 − 6 = −11.514<br />
Lösung 4.4<br />
a) (1 − φB)∇y t = ɛ t<br />
⇔ (1 − φB)(1 − B)y t = ɛ t<br />
⇔ (1 − B − φB + φB 2 )y t = ɛ t<br />
⇒ y t = (1 + φ)y t−1 − φy t−2 + ɛ t<br />
156
Lösung 4.4 (Fortsetzung)<br />
b) ∇y t = (1 + θ 1 B + θ 2 B 2 )ɛ t<br />
⇔ (1 − B)y t = (1 + θ 1 B + θ 2 B 2 )ɛ t<br />
⇒ y t = y t−1 + ɛ t + θ 1 ɛ t−1 + θ 2 ɛ t−2<br />
c) (1 − φB)∇ 2 y t = (1 + θB)ɛ t<br />
⇔ (1 − φB)(1 − 2B + B 2 )y t = (1 + θB)ɛ t<br />
⇔<br />
⇒<br />
(1 − 2B + B 2 − φB + 2φB 2 − φB 3 )y t = (1 + θB)ɛ t<br />
y t = (2 + φ)y t−1 − (1 + 2φ)y t−2 + φy t−3 + ɛ t + θɛ t−1<br />
Lösung 4.5<br />
(∇y t ) t=1,...,6 = {1, 2, −1, 2, −2, −2}<br />
(ɛ t ) t=0,...,6 = {0, 1, 1, −2, 4, −6, 4}<br />
Bed<strong>in</strong>gte LogLikelihood-Funktion:<br />
l(θ 0 , θ 1 , σ 2 ) = − T 2 log[2πσ2 ] − 1<br />
2σ 2<br />
T∑<br />
ɛ 2 t mit ɛ t = ∇y t − θ 0 − θ 1 ɛ t−1<br />
t=1<br />
⇒ l(0, 1, 1) = −5.514 − 37 = −42.514<br />
Lösung 4.6<br />
l(φ 1 , χ 0 , θ 0 , θ 1 , σ 2 ) = − T 2 log[2πσ2 ] − 1<br />
2σ 2<br />
T∑<br />
t=1<br />
ɛ 2 t<br />
mit<br />
ɛ t = y t − φ 1 y t−1 − χ 0 x t − θ 0 − θ 1 ɛ t−1<br />
Lösung 4.7<br />
y t = β 0 + β 1 x t + u t<br />
φ(B)u t = θ(B)ɛ t<br />
157
KAPITEL 8. LÖSUNGEN<br />
Lösung 4.7 (Fortsetzung)<br />
⇒<br />
φ(B)y t = φ(1)β 0 + φ(B)β 1 x t + θ(B)ɛ t<br />
= (1 − φ 1 − φ 2 )β 0 + β 1 x t − φ 1 β 1 x t−1 − φ 2 β 1 x t−2 + ɛ t + θ 1 ɛ t−1<br />
= θ 0 + χ 0 x t + χ 1 x t−1 + χ 2 x t−2 + ɛ t + θ 1 ɛ t−1<br />
⇒ θ 0 = (1−φ 1 −φ 2 )β 0 , χ 0 = β 1 , χ 1 = −φ 1 β 1 , χ 2 = −φ 2 β 1<br />
Lösung 4.8<br />
BIC = − 2l<br />
T + u log[T ]<br />
T<br />
= log[2πˆσ 2 ] + 1<br />
ˆσ 2 T<br />
T∑<br />
t=1<br />
ˆɛ 2 t + u log[T ]<br />
T<br />
= log[2π] + log[ˆσ 2 ] + 1 + u log[T ]<br />
T<br />
∝ log[ˆσ 2 ] + u log[T ] .<br />
T<br />
Lösung 4.9<br />
AIC 0 1 2<br />
0 1.087 1.059 0.952<br />
1 0.851 0.838 0.847<br />
2 0.887 0.842 0.865<br />
3 0.831 0.849 0.871<br />
BIC 0 1 2<br />
0 1.129 1.144 1.079<br />
1 0.936 0.965 1.016<br />
2 1.014 1.011 1.076<br />
3 1.000 1.060 1.124<br />
Das Modell mit jeweils kle<strong>in</strong>stem Info-Kriterium sollte gewählt werden.<br />
⇒<br />
⇒<br />
Unter AIC: AR(3)<br />
Unter BIC: AR(1)<br />
158
Lösungen zu Kapitel 5<br />
Lösung 5.1<br />
Var[y 1 ] = ω + αVar[y 0 ] = ω<br />
Var[y 2 ] = ω + αVar[y 1 ] = ω + αω = ω(1 + α)<br />
Var[y 3 ] = ω + αVar[y 2 ] = ω + αω + α 2 ω = ω(1 + α + α 2 )<br />
⇒<br />
∑t−1<br />
Var[y t ] = ω<br />
k=0<br />
α k<br />
Lösung 5.2<br />
E[y 3 t ] = E[σ 3 t z 3 t ] = E[σ 3 t ]E[z 3 t ] = 0<br />
⇒ S = E[y3 t ]<br />
Var[y t ] 3/2 = 0<br />
Lösung 5.3<br />
K = 3 − 3α2<br />
1 − 3α 2<br />
⇔ K(1 − 3α 2 ) = 3 − 3α 2<br />
⇔ K = 3 + 3(K − 1)α 2<br />
√<br />
⇔ α 2 = K − 3<br />
K − 3<br />
⇐ α =<br />
3(K − 1)<br />
3(K − 1)<br />
σ 2 =<br />
ω<br />
1 − α<br />
⇔ ω = σ 2 (1 − α)<br />
a) α = 1 3 , ω = 1<br />
b) α = 1 2 , ω = 2 159
KAPITEL 8. LÖSUNGEN<br />
Lösung 5.4<br />
ˆµ = 1 8<br />
ˆm 2 = 1 8<br />
ˆm 4 = 1 8<br />
8∑<br />
t=1<br />
y t = 2 − 2<br />
8<br />
8∑<br />
t=1<br />
= 0<br />
(y t − ˆµ) 2 = 4 + 4<br />
8<br />
8∑<br />
(y t − ˆµ) 4 =<br />
t=1<br />
⇒ ˆK = ˆm 4<br />
⇒ ˆα =<br />
ˆm 2 2<br />
= 4<br />
√<br />
ˆK − 3<br />
16 + 16<br />
8<br />
= 1<br />
= 4<br />
3( ˆK − 1) = √<br />
1<br />
9 = 1 3 , ˆω = ˆm 2(1 − ˆα) = 2 3<br />
Lösung 5.5<br />
l(ω, α) = − T 2 log[2π] − 1 T∑<br />
(<br />
log [ )<br />
]<br />
ω + αɛ 2 y<br />
t−1 +<br />
t<br />
2<br />
2<br />
ω + αɛ 2 t=1<br />
t−1<br />
= −4 log[2π] − 1 (6 log 2 )<br />
2 3 + 2 log 2 + 2 · 6<br />
= −4 log 2 − 4 log π − 1 ( )<br />
8 log 2 − 6 log 3 + 12<br />
2<br />
= −8 log 2 + 3 log 3 − 4 log π − 6 ≈ −12.828<br />
Lösung 5.6<br />
Bed<strong>in</strong>gung:<br />
⇒<br />
⇒<br />
∞∑<br />
α k =<br />
k=1<br />
∞∑<br />
α k < 1<br />
k=1<br />
∞∑<br />
k=0<br />
α k − 1 = 1<br />
1 − α − 1 = α<br />
1 − α<br />
α<br />
1 − α < 1 ⇔ α < 1 − α ⇔ 2α < 1 ⇔ α < 1 2<br />
√<br />
160
Lösung 5.7<br />
E[ν t |ɛ t−1 ] = 0<br />
⇒ Cov[ν t , ν t−1 |ɛ t−1 ] = E[ν t ν t−1 |ɛ t−1 ] = E[ν t |ɛ t−1 ]ν t−1 = 0<br />
Lösung 5.8<br />
E[ν t ] = E[(zt 2 − 1)σt 2 ] = E[zt 2 − 1]E[σt 2 ] = 0<br />
⇒ Cov[ν t , ν t−1 ] = E[(zt 2 − 1)(zt−1 2 − 1)σt 2 σt−1]<br />
2<br />
= E[zt 2 − 1]E[(zt−1 2 − 1)σt 2 σt−1] 2 = 0<br />
Lösung 5.9<br />
E[yt 4 ] = 3E[σt 4 ] = 3E[(ω + αɛ 2 t−1 + βσt−1) 2 2 ]<br />
= 3E [( )<br />
ω + (αzt−1 2 + β)σt−1<br />
2 2 ]<br />
= 3ω 2 + 6ωE[αzt−1 2 + β]E[σt−1] 2 + 3E[(αzt−1 2 + β) 2 ]E[σt−1]<br />
4<br />
= 3ω 2 + 6ω(α + β)E[σt−1] 2 + (3α 2 + 2αβ + β 2 )E[ɛ 4 t−1]<br />
= 3ω 2 + 6ω 2 α + β<br />
1 − α − β + (3α2 + 2αβ + β 2 )E[yt−1]<br />
4<br />
( )<br />
3ω 2 1 + 2(α+β)<br />
⇒ E[yst.] 4 1−α−β<br />
=<br />
1 − 3α 2 − 2αβ − β 2<br />
ω 2 − α − β)(1 + α + β)<br />
=<br />
· 3(1<br />
(1 − α − β)<br />
2<br />
1 − 2α 2 − (α + β) 2<br />
⇒ K = E[y4 st.]<br />
Var[y st. ] 2 = 3 1 − (α + β) 2<br />
1 − 2α 2 − (α + β) 2 161
KAPITEL 8. LÖSUNGEN<br />
Lösung 5.10<br />
l(ω, α 1 , . . . , α p , β 1 , . . . , β q ) = − T 2 log[2π] − 1 2<br />
p∑<br />
q∑<br />
mit σt 2 = ω + α j ɛ 2 t−j + β k σt−k<br />
2<br />
j=1<br />
k=1<br />
T∑<br />
t=1<br />
( )<br />
log σt 2 + y2 t<br />
σt<br />
2<br />
Lösung 5.11<br />
l(φ, θ 0 , θ 1 , θ 2 , ω, α 1 , α 2 , β) = − T 2 log[2π] − 1 2<br />
mit ɛ t = y t − φy t−1 − θ 0 − θ 1 ɛ t−1 − θ 2 ɛ t−2<br />
T∑<br />
t=1<br />
( )<br />
log σt 2 + ɛ2 t<br />
σt<br />
2<br />
σ 2 t = ω + α 1 ɛ 2 t−1 + α 2 ɛ 2 t−2 + βσ 2 t−1<br />
Lösung 5.12<br />
ARMA-Teil: |φ| < 1 <strong>und</strong> GARCH-Teil: α 1 + α 2 + β < 1<br />
Lösung 5.13<br />
E[σ 2 t ] = ω + αE[ɛ 2 t−1] − 2αγE[ɛ t−1 ] + αγ 2 + βE[σ 2 t−1]<br />
= ω + αγ 2 + (α + β)E[σ 2 t−1]<br />
⇒ Var[y st. ] = ω + αγ2<br />
1 − α − β<br />
⇒ Stationaritätsbed<strong>in</strong>gung: α + β < 1<br />
162
Lösung 5.14<br />
ARMA(2,1)-GARCH(1,1) : θ = (φ 1 , φ 2 , θ 0 , θ 1 , ω, α, β) ′ ⇒ u = 7<br />
ARCH(7) : θ = (ω, α 1 , . . . , α 7 ) ′ ⇒ u = 8<br />
TARCH-M : θ = (µ, λ, ω, α, β, γ) ′ ⇒ u = 6<br />
AIC BIC HQ<br />
ARMA-GARCH 0.58 0.824 0.676<br />
ARCH 0.57 0.849 0.679<br />
TARCH-M 0.61 0.819 0.692<br />
Das Modell mit jeweils kle<strong>in</strong>stem Info-Kriterium sollte gewählt werden.<br />
⇒ Unter AIC: ARCH(7)<br />
⇒ Unter BIC: TARCH-M<br />
⇒ Unter HQ: ARMA(2,1)-GARCH(1,1)<br />
163
KAPITEL 8. LÖSUNGEN<br />
Lösungen zu Kapitel 6<br />
Lösung 6.1<br />
∂<br />
∂θ ′ Q(θ) =<br />
∂<br />
∂θ ′ (y − Xθ)′ (y − Xθ)<br />
= −2X ′ y + 2X ′ Xθ ! = 0<br />
⇒<br />
ˆθ = (X ′ X) −1 X ′ y<br />
Lösung 6.2<br />
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞<br />
y t φ 1 φ 2 φ 3 y t−1 1<br />
a) ⎝y t−1<br />
⎠ = ⎝ 1 0 0 ⎠ ⎝y t−2<br />
⎠ + ⎝0⎠ ɛ t<br />
y t−2 0 1 0 y t−3 0<br />
⎛ ⎞<br />
z t = ( 1 0 0 ) y t<br />
⎝y t−1<br />
⎠<br />
y t−2<br />
b)<br />
⎛<br />
⎝<br />
⎞ ⎛<br />
⎠ = ⎝<br />
y t<br />
y t−2<br />
y t−1<br />
⎞<br />
0 1 0<br />
0 0 1 ⎠<br />
φ 3 φ 2 φ 1<br />
⎛<br />
z t = ( 0 0 1 ) ⎝<br />
⎛ ⎞ ⎛ ⎞<br />
y t−3 0<br />
⎝y t−2<br />
⎠ + ⎝0⎠ ɛ t<br />
y t−1 1<br />
⎞<br />
y t−2<br />
y t−1<br />
⎠<br />
y t<br />
Lösung 6.3<br />
⎛ ⎞ ⎛<br />
⎞ ⎛ ⎞ ⎛ ⎞<br />
y t−(p−1) 0 1 . . . 0 y t−p<br />
⎜<br />
.<br />
⎟<br />
⎝ y t−1 ⎠ = ⎜<br />
.<br />
.. .<br />
.. . .<br />
⎟ ⎜<br />
.<br />
⎟<br />
⎝ 0 . . . 0 1 ⎠ ⎝y t−2 ⎠ + ⎜<br />
0.<br />
⎟<br />
⎝0⎠ ɛ t<br />
y t φ p . . . φ 2 φ 1 y t−1 1<br />
⎛ ⎞<br />
y t−(p−1)<br />
z t = ( 0 . . . 0 1 ) ⎜<br />
.<br />
⎟<br />
⎝ y t−1 ⎠<br />
y t<br />
164
Lösung 6.4<br />
y t = (φ 1 B + φ 2 B 2 )y t + ɛ t =<br />
1<br />
1 − φ 1 B − φ 2 B 2 ɛ t<br />
z t = (1 + θ 1 B + θ 2 B 2 )y t = 1 + θ 1B + θ 2 B 2<br />
1 − φ 1 B − φ 2 B 2 ɛ t<br />
⇒ z t − φ 1 z t−1 − φ 2 z t−2 = ɛ t + θ 1 ɛ t−1 + θ 2 ɛ t−2<br />
√<br />
Lösung 6.5<br />
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞<br />
y t 0 0 0 y t−1 1<br />
a) ⎝y t−1<br />
⎠ = ⎝1 0 0⎠<br />
⎝y t−2<br />
⎠ + ⎝0⎠ ɛ t<br />
y t−2 0 1 0 y t−3 0<br />
⎛ ⎞<br />
z t = ( )<br />
y t<br />
1 θ 1 θ 2<br />
⎝y t−1<br />
⎠<br />
y t−2<br />
b)<br />
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞<br />
y t φ 1 φ 2 φ 3 y t−1 1<br />
⎝y t−1<br />
⎠ = ⎝ 1 0 0 ⎠ ⎝y t−2<br />
⎠ + ⎝0⎠ ɛ t<br />
y t−2 0 1 0 y t−3 0<br />
⎛ ⎞<br />
z t = ( 1 θ 1 0 ) y t<br />
⎝y t−1<br />
⎠<br />
y t−2<br />
165
KAPITEL 8. LÖSUNGEN<br />
Lösung 6.6<br />
( ( ) ( 1 2 1 (1 )<br />
K t =<br />
0<br />
2 4) ( ( )<br />
1 2 1<br />
0<br />
2 4)<br />
0<br />
( ( 1 1<br />
)<br />
= (1 + 1)<br />
2)<br />
−1 =<br />
2<br />
1<br />
( ( 2 1<br />
) (<br />
µ t|t = +<br />
2<br />
2 −<br />
1)<br />
( 1 0 ) ( )<br />
2<br />
1 1<br />
( ( 2 1<br />
) ( 3<br />
)<br />
= −<br />
2<br />
=<br />
2<br />
1)<br />
1 0<br />
)<br />
− 1<br />
( ) ( 1 2 1<br />
) (1 ) ( )<br />
1 2<br />
Σ t|t = −<br />
2 0 =<br />
2 4 1 2 4<br />
( ) ( 1 2 1<br />
) (<br />
1 1<br />
)<br />
1<br />
= −<br />
2<br />
=<br />
2<br />
2 4 1 2 1 2<br />
) −1<br />
+ 1<br />
( ) 1 2<br />
−<br />
2 4<br />
( 1<br />
2<br />
0<br />
1 0<br />
) ( ) 1 2<br />
2 4<br />
Lösung 6.7<br />
ν t = 2 − ( 1 0 ) ( )<br />
2<br />
− 1 = −1<br />
1<br />
Γ t = ( 1 0 ) ( ( )<br />
1 2 1<br />
+ 1 = 1 + 1 = 2<br />
2 4)<br />
0<br />
K t = 1 ( ( ) 1 2 1<br />
=<br />
2 2 4) 1 ( ( 1 1<br />
)<br />
=<br />
2<br />
0 2 2)<br />
1<br />
( ( 2 1<br />
) ( 3<br />
)<br />
µ t|t = −<br />
2<br />
=<br />
2<br />
1)<br />
1 0<br />
( ) ( 1 2<br />
1<br />
) (<br />
Σ t|t = − 2<br />
2 1<br />
1 ) ( ) ( 1 2<br />
1<br />
= − 2<br />
4<br />
2 4 1 2 1<br />
2 4<br />
( ) ( 1 2 1<br />
) (<br />
1 1<br />
)<br />
1<br />
= −<br />
2<br />
=<br />
2<br />
2 4 1 2 1 2<br />
1<br />
2<br />
1<br />
2<br />
)<br />
166
Lösung 6.8<br />
( ) (<br />
yt 1 −2<br />
=<br />
y t−1 1 0<br />
z t = ( 1 1 2<br />
) ( )<br />
yt−1<br />
+<br />
y t−2<br />
( 1<br />
0)<br />
ɛ t ⇒ Ω =<br />
) ( y t<br />
y t−1<br />
)<br />
+ δ t ⇒ R = 1<br />
( ) 2 0<br />
0 0<br />
Initialisierung:<br />
µ 0 =<br />
( 1<br />
0)<br />
, Σ 0 =<br />
( ) 0 0<br />
0 0<br />
Time-Update 1:<br />
( ) ( ( 1 −2 1 1<br />
µ 1|0 = Aµ 0 =<br />
=<br />
1 0 0)<br />
1)<br />
( ) ( ) ( )<br />
1 −2 0 0 1 1<br />
Σ 1|0 = AΣ 0 A ′ + Ω =<br />
+<br />
1 0 0 0 −2 0<br />
Mess-Update 1:<br />
ν 1 = z 1 − Hµ 1|0 = 3 2 − ( ) ( )<br />
1 1 1<br />
= 0<br />
2 1<br />
Γ 1 = HΣ 1|0 H ′ + R = ( ) ( ( )<br />
1 1 2 0 1<br />
2<br />
1 + 1 = 3<br />
0 0)<br />
2<br />
K 1 = Σ 1|0 H ′ Γ −1<br />
1 = 1 ( ( ) ( 2 0 1 2<br />
)<br />
1 =<br />
3<br />
3 0 0)<br />
2 0<br />
( ( 1 2<br />
) (<br />
µ 1|1 = µ 1|0 + K 1 ν 1 = + 0<br />
3 1<br />
=<br />
1)<br />
0 1)<br />
( ) ( 2 0<br />
2<br />
) (<br />
Σ 1|1 = Σ 1|0 − K 1 Γ 1 K 1 ′ = − 3<br />
3 2<br />
0 ) =<br />
0 0 0 3<br />
( ) 2 0<br />
=<br />
0 0<br />
( 2<br />
)<br />
0<br />
3<br />
0 0<br />
( ) 2 0<br />
0 0<br />
167
KAPITEL 8. LÖSUNGEN<br />
Lösung 6.8 (Fortsetzung)<br />
Time-Update 2:<br />
( ) ( ( )<br />
1 −2 1 −1<br />
µ 2|1 = Aµ 1|1 =<br />
=<br />
1 0 1)<br />
1<br />
( ) ( 1 −2 2<br />
) ( )<br />
Σ 2|1 = AΣ 1|1 A ′ 0<br />
+ Ω =<br />
3 1 1<br />
+<br />
1 0 0 0 −2 0<br />
( ) 2 0<br />
0 0<br />
=<br />
( 8<br />
3<br />
2<br />
3<br />
2<br />
3<br />
2<br />
3<br />
)<br />
Mess-Update 2:<br />
ν 2 = z 2 − Hµ 2|1 = 1 2 − ( ) ( )<br />
1 1 −1<br />
= 1<br />
2 1<br />
Γ 2 = HΣ 2|1 H ′ + R = ( ) ( ) ( )<br />
1 1 8 2<br />
3 3 1<br />
2 2 2 1 + 1 = 9<br />
3 3 2 2<br />
K 2 = Σ 2|1 H ′ Γ −1<br />
2 = 2 ( 8<br />
) ( ) (<br />
2<br />
3 3 1 2<br />
2 2 1 =<br />
3<br />
9<br />
2<br />
3 3 2<br />
( ) ( 9)<br />
−1<br />
2<br />
( )<br />
µ 2|2 = µ 2|1 + K 2 ν 2 = +<br />
3 −<br />
1<br />
1 2 =<br />
3<br />
11<br />
9)<br />
9<br />
( 8<br />
)<br />
Σ 2|2 = Σ 2|1 − K 2 Γ 2 K 2 ′ 2<br />
=<br />
3 3<br />
2 − 9 ) ( 2 2<br />
3 9<br />
2<br />
3<br />
2<br />
3<br />
( 2<br />
3 2<br />
9<br />
(<br />
) 2<br />
)<br />
0 =<br />
3<br />
0 4 9<br />
Lösung 6.9<br />
l = l 1 + l 2 = − log[6π]<br />
2<br />
− log[9π] + 2 9<br />
2<br />
≈ −3.25<br />
168
Lösung 6.10<br />
ARV-Kalman-Filter<br />
Anfangsbed<strong>in</strong>gung µ 0 , Σ 0<br />
for t = 1, . . . , T do<br />
Time-Update<br />
µ t|t−1 = λµ t−1|t−1 + (1 − λ)¯h<br />
Σ t|t−1 = λ 2 Σ t−1|t−1 + γ 2<br />
Mess-Update<br />
ν t = z ∗ t − µ t|t−1 + 1.27<br />
Γ t = Σ t|t−1 + π2<br />
2<br />
K t = Σ t|t−1<br />
Γ t<br />
⊲ Initialisierung<br />
⊲ Innovation<br />
⊲ Kalman-Ga<strong>in</strong><br />
end for<br />
µ t|t = µ t|t−1 + K t ν t<br />
Σ t|t = Σ t|t−1 − K 2 t Γ t<br />
169