20.01.2015 Aufrufe

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Optimierte</strong> <strong>lokale</strong> <strong>Modelle</strong> <strong>in</strong> <strong>der</strong><br />

nichtl<strong>in</strong>earen <strong>Zeitreihenanalyse</strong><br />

Diplomarbeit<br />

vorgelegt von<br />

David Engster<br />

aus<br />

Gött<strong>in</strong>gen<br />

angefertigt im<br />

Dritten Physikalischen Institut<br />

<strong>der</strong> Georg–August–Universität zu Gött<strong>in</strong>gen<br />

2002


Inhaltsverzeichnis<br />

E<strong>in</strong>leitung 5<br />

1 Grundlagen 8<br />

1.1 Dynamische Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

1.1.1 Lyapunov Exponenten . . . . . . . . . . . . . . . . . . . . . . 10<br />

1.1.2 Berechnung von Lyapunov-Exponenten über<br />

QR-Zerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

1.1.3 Attraktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

1.1.4 Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

1.1.5 Rekonstruktion des Attraktors . . . . . . . . . . . . . . . . . . 18<br />

2 Lokale <strong>Modelle</strong> 21<br />

2.1 Das Modellierungsproblem . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

2.1.1 Lokale <strong>Modelle</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

2.1.2 Vorhersage von Zeitreihen . . . . . . . . . . . . . . . . . . . . 24<br />

2.2 Der Fluch <strong>der</strong> Dimensionen . . . . . . . . . . . . . . . . . . . . . . . 26<br />

2.3 Bias, Varianz und Overfitt<strong>in</strong>g . . . . . . . . . . . . . . . . . . . . . . 28<br />

2.4 Validierung <strong>lokale</strong>r <strong>Modelle</strong> . . . . . . . . . . . . . . . . . . . . . . . 32<br />

2.4.1 Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

2.4.2 Leave-one-out Cross-Validation . . . . . . . . . . . . . . . . . 33<br />

2.4.3 Fehlermaße bei Leave-one-out Cross-Validation . . . . . . . . . 33<br />

2


Inhaltsverzeichnis Seite 3<br />

3 Lokal polynomiale Modellierung 36<br />

3.1 Lokal konstantes und lokal l<strong>in</strong>eares Modell . . . . . . . . . . . . . . . 38<br />

3.2 Vergleich von lokal konstantem und lokal l<strong>in</strong>earem Modell . . . . . . . 39<br />

3.3 Parameter bei <strong>der</strong> <strong>lokale</strong>n Modellbildung . . . . . . . . . . . . . . . . 41<br />

3.3.1 Zahl nächster Nachbarn . . . . . . . . . . . . . . . . . . . . . 41<br />

3.3.2 Wichtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

3.3.3 Metrik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45<br />

3.4 Regularisierung polynomialer <strong>Modelle</strong> . . . . . . . . . . . . . . . . . . 47<br />

3.4.1 Pr<strong>in</strong>cipal Component Regression . . . . . . . . . . . . . . . . 47<br />

3.4.2 Ridge Regression . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

3.4.3 Wahl <strong>der</strong> Regularisierung . . . . . . . . . . . . . . . . . . . . . 51<br />

3.5 Lokale Variation von Parametern . . . . . . . . . . . . . . . . . . . . 52<br />

3.6 Approximation durch Gitterpunkte . . . . . . . . . . . . . . . . . . . 56<br />

3.6.1 Beispiel Hénon-Abbildung . . . . . . . . . . . . . . . . . . . . 57<br />

3.7 Lokale radiale Basisfunktionen . . . . . . . . . . . . . . . . . . . . . . 61<br />

3.8 Optimierung <strong>der</strong> Modellparameter . . . . . . . . . . . . . . . . . . . . 62<br />

3.9 Zeitliche Variation <strong>der</strong> Parameter . . . . . . . . . . . . . . . . . . . . 65<br />

3.10 Suche nach nächsten Nachbarn . . . . . . . . . . . . . . . . . . . . . 67<br />

3.11 Vergleich <strong>lokale</strong>r <strong>Modelle</strong> mit globalen <strong>Modelle</strong>n . . . . . . . . . . . . 72<br />

4 Support-Vektor-Regression 76<br />

4.1 L<strong>in</strong>eare Support-Vektor-Regression . . . . . . . . . . . . . . . . . . . 77<br />

4.1.1 Berechnung von b . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />

4.1.2 Nichtl<strong>in</strong>eare Support-Vektor-Regression . . . . . . . . . . . . . 82<br />

5 Anwendungen <strong>der</strong> <strong>Modelle</strong> 87<br />

5.1 Modellierung künstlich generierter Systeme . . . . . . . . . . . . . . . 87<br />

5.1.1 Ergebnisse <strong>der</strong> Modellierung . . . . . . . . . . . . . . . . . . . 87<br />

5.1.2 H<strong>in</strong>dmarsh-Rose-System . . . . . . . . . . . . . . . . . . . . . 90


Seite 4<br />

Inhaltsverzeichnis<br />

5.2 Modellierung experimenteller Daten . . . . . . . . . . . . . . . . . . . 92<br />

5.2.1 Experimentelle Neuron-Daten . . . . . . . . . . . . . . . . . . 92<br />

5.3 Lyapunov-Exponenten . . . . . . . . . . . . . . . . . . . . . . . . . . 93<br />

5.3.1 Ergebnisse für Lyapunov-Exponenten . . . . . . . . . . . . . . 93<br />

6 Zusammenfassung und Ausblick 99<br />

A Berechnung <strong>der</strong> Modellkoeffizienten 101<br />

B Nichtl<strong>in</strong>eare Optimierung 103<br />

B.1 Die Karush-Kuhn-Tucker-Bed<strong>in</strong>gungen . . . . . . . . . . . . . . . . . 103<br />

B.2 Duale Formulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />

Literaturverzeichnis 107


E<strong>in</strong>leitung<br />

In <strong>der</strong> Physik hat man meist den Anspruch, analytische <strong>Modelle</strong> auf Basis physikalischer<br />

Betrachtung zu gew<strong>in</strong>nen, die im Idealfall e<strong>in</strong> mathematisches Abbild <strong>der</strong><br />

physikalischen “Realität” darstellen und somit verallgeme<strong>in</strong>erungsfähig s<strong>in</strong>d. Was<br />

jedoch, wenn <strong>der</strong> physikalische Vorgang gänzlich unbekannt o<strong>der</strong> zum<strong>in</strong>dest so komplex<br />

ist, dass e<strong>in</strong>e Modellierung auf Basis physikalischer Betrachtungen unmöglich<br />

ist Häufig ist nicht e<strong>in</strong>mal bekannt, ob die gewonnenen Daten e<strong>in</strong>em determ<strong>in</strong>istischen<br />

o<strong>der</strong> stochastischen Prozess zuzuordnen s<strong>in</strong>d. Gerade bei Zeitreihen chaotischer<br />

Systeme kann mit herkömmlichen Analyse-Methoden wie <strong>der</strong> Berechnung des<br />

Frequenz-Spektrums o<strong>der</strong> <strong>der</strong> Autokorrelation häufig nicht zwischen diesen beiden<br />

Fällen unterschieden werden.<br />

Es s<strong>in</strong>d daher <strong>Modelle</strong> nötig, die möglichst ke<strong>in</strong>erlei Voraussetzungen an das betrachtete<br />

System stellen und die so viel Information wie möglich aus den Daten selbst<br />

ermitteln. E<strong>in</strong> solches Modell betrachtet das zu modellierende System als “Black<br />

Box” mit verän<strong>der</strong>lichen Parametern, welches gewisse E<strong>in</strong>gaben entgegennimmt und<br />

Ausgaben liefert. Die Modellierung geschieht anhand e<strong>in</strong>es genügend großen Datensatzes<br />

von beobachteten E<strong>in</strong>- und Ausgaben. Falls das System nicht re<strong>in</strong> zufällige<br />

Ausgaben liefert, sollte das Modell <strong>in</strong> <strong>der</strong> Lage se<strong>in</strong>, auch für neue, bislang nicht beobachtete<br />

E<strong>in</strong>gaben e<strong>in</strong>e Schätzung für die Ausgabe zu berechnen. Das Modell sollte<br />

genau dann versagen, wenn die Ausgabe des Systems gänzlich unabhängig von den<br />

E<strong>in</strong>gabedaten ist. Diese Form von Modellierung trachtet somit nicht danach, physikalische<br />

Gesetzmäßigkeiten wie<strong>der</strong>zugeben. Aber alle<strong>in</strong> die Information, dass e<strong>in</strong><br />

System überhaupt vorhersagbar ist, lässt bereits wichtige Rückschlüsse auf die Art<br />

<strong>der</strong> Daten zu. So kann z.B. durch Modellierung von DNA zwischen <strong>in</strong>formationstragenden<br />

und “überflüssigen” Sequenzen unterschieden werden [28]. In <strong>der</strong> Physik<br />

kann durch Modellbildung zwischen stochastischen und chaotischen Systemen unterschieden<br />

werden und bei letzteren lassen sich zum<strong>in</strong>dest kurzfristige Vorhersagen<br />

ermitteln. Auch lässt sich die Dimensionalität des Systems abschätzen und durch<br />

Berechnung <strong>der</strong> Jacobi-Matrix charakteristische Größen <strong>der</strong> Dynamik bestimmen.<br />

Der Schwerpunkt dieser Arbeit liegt auf <strong>der</strong> sog. <strong>lokale</strong>n Modellbildung. Ihr Pr<strong>in</strong>zip<br />

besteht dar<strong>in</strong>, nur <strong>in</strong> e<strong>in</strong>er Umgebung e<strong>in</strong>es konkreten Anfragepunktes das Modell<br />

zu bilden und den restlichen Bereich des Datensatzes unberücksichtigt zu lassen.<br />

Direkte Konsequenz dieses Ansatzes ist, dass <strong>der</strong> Datensatz von Beobachtungen<br />

5


Seite 6<br />

Inhaltsverzeichnis<br />

immer untrennbarer Teil des Modells ist und mit <strong>der</strong> Modellierung immer erst bei<br />

Vorliegen e<strong>in</strong>es konkreten Anfragepunktes begonnen wird. Lokale <strong>Modelle</strong> zeichnen<br />

sich durch hohe Flexibilität, e<strong>in</strong>fachen Aufbau und ger<strong>in</strong>ge Rechenzeiten aus. Im<br />

Gegensatz zu den <strong>lokale</strong>n stehen die globalen <strong>Modelle</strong>, die immer den gesamten<br />

vorhandenen Datensatz zur Modellierung verwenden, z.B. durch L<strong>in</strong>earkomb<strong>in</strong>ation<br />

von Polynomen o<strong>der</strong> radialen Basisfunktionen. Die Parameter dieser <strong>Modelle</strong> müssen<br />

allerd<strong>in</strong>gs zuerst auf diesen Datensatz h<strong>in</strong> tra<strong>in</strong>iert werden, was e<strong>in</strong> zeitaufwändiges<br />

Präprozess<strong>in</strong>g erfor<strong>der</strong>t. Sie s<strong>in</strong>d weniger flexibel als <strong>lokale</strong> <strong>Modelle</strong>, jedoch lassen<br />

sie sich <strong>in</strong> kompakter geschlossener Form angeben und vom Datensatz trennen.<br />

Natürlich existieren auch bei <strong>lokale</strong>n <strong>Modelle</strong>n verschiedene Parameter, die gut<br />

gewählt werden müssen. Diese Parameter def<strong>in</strong>ieren <strong>in</strong>sbeson<strong>der</strong>e die Umgebung<br />

e<strong>in</strong>es Anfragepunktes, <strong>in</strong> <strong>der</strong> das eigentliche Modell gebildet wird. Wesentliches Ziel<br />

dieser Arbeit ist es, diese Parameter zu erläutern und Verfahren vorzustellen, die<br />

diese automatisch bestimmen. Weiterh<strong>in</strong> soll erläutert werden, welche unterschiedlichen<br />

Typen von <strong>Modelle</strong>n <strong>in</strong> den Umgebungen verwendet werden können und welche<br />

Auswirkungen diese auf die Vorhersage nichtl<strong>in</strong>earer Zeitreihen haben. Hierbei soll<br />

auch auf die <strong>in</strong> den letzten Jahren zunehmend populäre Support-Vektor-Regression<br />

e<strong>in</strong>gegangen werden. Auch soll untersucht werden, wie gut sich <strong>lokale</strong> <strong>Modelle</strong> zur<br />

Bestimmung von Lyapunov-Exponenten eignen, die charakteristische Größen für die<br />

Dynamik e<strong>in</strong>es Systems s<strong>in</strong>d.<br />

Die Arbeit glie<strong>der</strong>t sich wie folgt:<br />

Das erste Kapitel beschäftigt sich mit den Grundlagen dynamischer Systeme und<br />

chaotischer Dynamik. Hierzu wird zunächst <strong>der</strong> mathematische Rahmen erläutert<br />

und die wesentlichen Begriffe <strong>der</strong> nichtl<strong>in</strong>earen Dynamik vorgestellt. Das zweite Kapitel<br />

beschäftigt sich allgeme<strong>in</strong> mit <strong>der</strong> Theorie <strong>der</strong> nichtl<strong>in</strong>earen Modellbildung und<br />

speziell mit dem bereits erwähnten <strong>lokale</strong>n Ansatz. Anhand des sog. Bias-Varianz-<br />

Dilemmas werden pr<strong>in</strong>zipielle E<strong>in</strong>schränkungen bei <strong>der</strong> Modellierung erläutert und<br />

Methoden zur Validierung <strong>lokale</strong>r <strong>Modelle</strong> vorgestellt.<br />

Im dritten Kapitel wird die lokal polynomiale Modellbildung erläutert, die <strong>in</strong> den <strong>lokale</strong>n<br />

Umgebungen e<strong>in</strong> Polynom mit beliebigem Grad als Modell verwendet. Es werden<br />

Algorithmen zur Suche nach nächsten Nachbarn beschrieben, da sie e<strong>in</strong> Hauptbestandteil<br />

von <strong>lokale</strong>n <strong>Modelle</strong>n s<strong>in</strong>d. Die verschiedenen Arten von Parametern<br />

bei <strong>der</strong> lokal polynomialen Modellbildung werden erläutert und es wird untersucht,<br />

<strong>in</strong>wieweit diese lokal variiert werden können. Weiterh<strong>in</strong> wird e<strong>in</strong> Verfahren vorgestellt,<br />

welches e<strong>in</strong>e Reduktion des Datensatzes <strong>der</strong> Beobachtungen ermöglicht und<br />

hierdurch die Parameterwahl vere<strong>in</strong>facht. Anschließend wird e<strong>in</strong> Algorithmus zur<br />

automatischen Optimierung <strong>der</strong> Parameter vorgestellt und die Möglichkeit zur zeitlichen<br />

Variation <strong>der</strong> Parameter bei <strong>der</strong> Mehrschritt-Vorhersage untersucht. Das Kapitel<br />

schließt mit e<strong>in</strong>em Vergleich des <strong>lokale</strong>n und globalen Modellierungs-Ansatzes.<br />

Das vierte Kapitel stellt die sog. Support-Vektor-Regression vor, e<strong>in</strong> Ansatz aus <strong>der</strong><br />

statistischen Lerntheorie und ursprünglich für das Problem <strong>der</strong> Klassifikation ent-


Inhaltsverzeichnis Seite 7<br />

worfen. Inwieweit diese Algorithmen <strong>in</strong> <strong>der</strong> <strong>lokale</strong>n Modellierung s<strong>in</strong>nvoll s<strong>in</strong>d wird<br />

zusammen mit den lokal polynomialen Algorithmen im fünften Kapitel an künstlich<br />

generierten und an gemessenen Zeitreihen untersucht. Anhand des lokal l<strong>in</strong>earen<br />

Modells werden die Lyapunov-Exponenten verschiedener Zeitreihen berechnet und<br />

die Abhängigkeit von <strong>der</strong> Schrittweite <strong>der</strong> Vorhersage untersucht.<br />

Die Arbeit schließt mit e<strong>in</strong>er Zusammenfassung <strong>der</strong> Ergebnisse und e<strong>in</strong>em Ausblick<br />

auf die mögliche weitere Entwicklung <strong>der</strong> <strong>lokale</strong>n <strong>Modelle</strong>. Im Anhang wird auf die<br />

S<strong>in</strong>gulärwertzerlegung und die nichtl<strong>in</strong>eare Optimierung e<strong>in</strong>gegangen.


Kapitel 1<br />

Grundlagen<br />

Ende des 19. Jahrhun<strong>der</strong>ts, als die klassische analytische Mechanik mit <strong>der</strong> Theorie<br />

von Hamilton auf ihrem Höhepunkt war und praktisch als “vollendet” galt, stellte<br />

König Oscar von Schweden die Preisaufgabe, die Stabilität des Sonnensystems<br />

zu beweisen. Den Preis erhielt <strong>der</strong> französische Mathematiker Henri Po<strong>in</strong>caré,<br />

allerd<strong>in</strong>gs für den Nachweis <strong>der</strong> Unmöglichkeit e<strong>in</strong>es solchen Beweises. Er konnte zeigen,<br />

dass beim Dreikörperproblem <strong>der</strong> Himmelsmechanik die nichtl<strong>in</strong>earen höheren<br />

Terme das Ergebnis bereits bei w<strong>in</strong>zigen Än<strong>der</strong>ungen <strong>der</strong> Anfangsbed<strong>in</strong>gungen auf<br />

nicht vorhersagbare Weise bee<strong>in</strong>flussen, und das obwohl das System als solches streng<br />

determ<strong>in</strong>istisch ist. Dieses Ergebnis zeigte die Grenzen des sog. erweiterten l<strong>in</strong>earen<br />

Superpositionspr<strong>in</strong>zips, wonach sich die Anwesenheit e<strong>in</strong>er Nichtl<strong>in</strong>earität nur<br />

durch e<strong>in</strong>e verglichen mit dem l<strong>in</strong>earen Anteil kle<strong>in</strong>e Störung im Ergebnis bemerkbar<br />

macht. Po<strong>in</strong>caré stellte fest, dass dies beim Dreikörperproblem nicht gegeben<br />

war, son<strong>der</strong>n e<strong>in</strong>e sensitive Abhängigkeit von den Anfangsbed<strong>in</strong>gungen vorliegt, die<br />

durch die nichtl<strong>in</strong>earen Therme verursacht wird. Dieses Phänomen ist charakteristisch<br />

für chaotische Systeme und ist als Quasi-Def<strong>in</strong>ition des Chaos zu betrachten:<br />

w<strong>in</strong>zige Än<strong>der</strong>ungen <strong>in</strong> den Anfangsbed<strong>in</strong>gungen führen zu völlig unterschiedlichem<br />

Verhalten des Systems mit <strong>der</strong> Konsequenz, dass die zeitliche Entwicklung chaotischer<br />

Systeme sich praktisch nicht über längere Zeiträume vorhersagen lässt. Der<br />

Begriff des “Chaos” ist hierbei irreführend, da dieser <strong>in</strong> <strong>der</strong> Umgangssprache eher<br />

mit “Zufall”, also stochastischen Systemen <strong>in</strong> Zusammenhang gebracht wird. Die<br />

hier betrachteten Systeme s<strong>in</strong>d aber streng determ<strong>in</strong>istisch; um diesen Aspekt zu<br />

betonen, wird meist von determ<strong>in</strong>istischem Chaos gesprochen.<br />

Im Folgenden werden die wesentlichen Begriffe zur Charakterisierung und Beschreibung<br />

chaotischer Systeme erläutert. Diese bauen auf <strong>der</strong> mathematischen Theorie<br />

<strong>der</strong> dynamischen Systeme auf, welche als erste erläutert werden sollen.<br />

8


Kapitel 1. Grundlagen Seite 9<br />

1.1 Dynamische Systeme<br />

Unter e<strong>in</strong>em dynamischen System versteht man ganz allgeme<strong>in</strong> kont<strong>in</strong>uierlich o<strong>der</strong><br />

diskret beobachtbare Objekte mit messbaren Eigenschaften, die sich nach bestimmten<br />

Regeln zeitlich än<strong>der</strong>n. Die Objekte werden durch Zustandsvektoren <strong>in</strong> e<strong>in</strong>em<br />

endlich-dimensionalen Zustandsraum x ∈ M ⊂ R d beschrieben. Das dynamische<br />

System ist def<strong>in</strong>iert durch e<strong>in</strong>e stetige Abbildung<br />

die folgende Eigenschaften erfüllt:<br />

Φ : K × M → M (1.1)<br />

Φ(0, x) = x für alle x ∈ M (1.2)<br />

Φ(d, Φ(t, x)) = Φ(t + d, x) für alle d, t ∈ R, x ∈ M . (1.3)<br />

Wie man an diesen Eigenschaften abliest, def<strong>in</strong>iert die Abbildung Φ die zeitliche<br />

Entwicklung e<strong>in</strong>es Zustandes x, wobei <strong>der</strong> Parameter t die Zeit darstellt. Dieser ist<br />

entwe<strong>der</strong> e<strong>in</strong>e ganze Zahl (K = Z) o<strong>der</strong> reell (K = R), wobei man von zeitdiskreten<br />

bzw. zeitkont<strong>in</strong>uierlichen Systemen spricht. Falls Φ nicht <strong>in</strong>vertierbar ist, muss <strong>der</strong><br />

Parameter t auf positive Werte e<strong>in</strong>geschränkt werden. Bei kont<strong>in</strong>uierlichen Systemen<br />

wird die Abbildung Φ auch als Fluss bezeichnet.<br />

Betrachtet man die zeitliche Entwicklung e<strong>in</strong>es bestimmten Zustandes x ∈ M, so<br />

erhält man e<strong>in</strong>e Bahnkurve (Trajektorie o<strong>der</strong> auch Orbit) im Zustandsraum, die<br />

durch die aus dem Fluss abgeleitete Abbildung<br />

α x : R → M<br />

t ↦→ Φ(t, x) (1.4)<br />

gegeben ist. Da die Trajektorie durch e<strong>in</strong>en Zustandsvektor bereits e<strong>in</strong>deutig bestimmt<br />

ist, können sich Trajektorien im Zustandsraum nicht schneiden, o<strong>der</strong> an<strong>der</strong>s<br />

gesagt: haben zwei Trajektorien e<strong>in</strong>en Punkt geme<strong>in</strong>sam, so s<strong>in</strong>d sie identisch.<br />

Es soll nun e<strong>in</strong> sog. autonomes System betrachtet werden, wo die zeitliche Ableitung<br />

durch e<strong>in</strong> stetig differenzierbares Vektorfeld F : M → R d gegeben ist, d.h. es gilt<br />

dx<br />

dt<br />

= F(x) . (1.5)


Seite 10<br />

1.1. Dynamische Systeme<br />

Dies ist e<strong>in</strong> autonomes Differentialgleichungssystem erster Ordnung. Es ist <strong>in</strong>sofern<br />

allgeme<strong>in</strong> gültig, als das jedes System gewöhnlicher Differentialgleichungen höherer<br />

Ordnung durch E<strong>in</strong>führung zusätzlicher Variablen <strong>in</strong> e<strong>in</strong> System erster Ordnung<br />

überführt werden kann. Ebenso kann jedes nichtautonome System durch E<strong>in</strong>führung<br />

e<strong>in</strong>er zusätzlichen Variablen x d+1 = t und <strong>der</strong> trivialen Differentialgleichung ẋ d+1 = 1<br />

auf e<strong>in</strong> System autonomer Differentialgleichungen transformiert werden. E<strong>in</strong>e Trajektorie<br />

<strong>der</strong> Form (1.4) ist Lösung dieses DGL-Systems. Diese Darstellung ist aus<br />

<strong>der</strong> klassischen Mechanik vertraut, wo <strong>der</strong> Zustandsraum M = R d durch die verallgeme<strong>in</strong>erten<br />

Koord<strong>in</strong>aten und Impulse e<strong>in</strong>es idealisierten Massepunktes aufgespannt<br />

wird, dessen zeitliche Entwicklung ebenfalls durch die Lösung e<strong>in</strong>es autonomen DGL-<br />

Systems erster Ordnung gegeben ist (Hamiltonsche harmonische Gleichungen).<br />

Im Falle stetig differenzierbarer Vektorfel<strong>der</strong> 1 ist die Lösung des autonomen Systems<br />

durch die Anfangswerte e<strong>in</strong>deutig bestimmt. Daher stellt (1.5) tatsächlich e<strong>in</strong><br />

dynamisches System dar, selbst wenn das Vektorfeld lokal begrenzt ist (vgl. [19]).<br />

Den Fluss Φ erhält man durch Integration <strong>der</strong> Differentialgleichungen über die Zeit<br />

t. Daraus folgt, dass e<strong>in</strong> so def<strong>in</strong>ierter Fluss immer <strong>in</strong>vertierbar ist, denn die Integration<br />

kann natürlich <strong>in</strong> beide Zeitrichtungen erfolgen.<br />

Im Falle von zeitdiskreten Systemen wird das dynamische System durch e<strong>in</strong>e Differenzengleichung<br />

x n = f(x n−1 ) (1.6)<br />

beschrieben. Hierbei ist x n <strong>der</strong> Zustand des Systems zu e<strong>in</strong>er diskreten Zeit n ∈ Z.<br />

Die zeitliche Entwicklung ist auch hier durch den Anfangswert e<strong>in</strong>deutig bestimmt,<br />

weshalb auch (1.6) e<strong>in</strong> dynamisches System ist, wobei hier <strong>der</strong> Fluss durch die Abbildung<br />

selbst gegeben ist.<br />

1.1.1 Lyapunov Exponenten<br />

Es werden zwei Trajektorien im Phasenraum mit Anfangswerten x 0 und x 0 +δx 0 betrachtet,<br />

wobei die Differenz <strong>der</strong> Anfangswerte δx 0 e<strong>in</strong>e <strong>in</strong>f<strong>in</strong>itesimal kle<strong>in</strong>e Störung<br />

ist. Ist das System <strong>in</strong> Richtung dieser Störung sensitiv gegenüber den Anfangsbed<strong>in</strong>gungen,<br />

so vergrößert sich <strong>der</strong> Betrag <strong>der</strong> Störung exponentiell mit <strong>der</strong> Zeit. Dieses<br />

exponentielle Wachstum wird durch die Lyapunov-Exponenten charakterisiert, die<br />

somit e<strong>in</strong>e quantitative Beschreibung des chaotischen Verhaltens liefern.<br />

1 Diese Bed<strong>in</strong>gung kann noch auf die sog. Lipschitz-Bed<strong>in</strong>gung reduziert werden, die e<strong>in</strong>e<br />

schwächere Voraussetzung ist als die stetige Differenzierbarkeit.


Kapitel 1. Grundlagen Seite 11<br />

Das dynamische System sei zunächst durch e<strong>in</strong> DGL-System <strong>der</strong> Form (1.5) gegeben.<br />

Die zeitliche Ableitung <strong>der</strong> gestörten Trajektorie ist gegeben durch<br />

d(x + δx)<br />

dt<br />

= F(x + δx) . (1.7)<br />

L<strong>in</strong>earisierung <strong>in</strong> <strong>der</strong> Umgebung von x ergibt<br />

dx<br />

dt + δx dF<br />

= F(x) +<br />

dt dx · δx<br />

⇒ δẋ = J(x) · δx ,<br />

(1.8)<br />

wobei J(x) = dF/dx die Jacobi-Matrix des DGL-Systems ist. Die Zeitentwicklung<br />

<strong>der</strong> Störung ergibt sich durch die Transfermatrix U t , die die Differentialgleichung<br />

˙U = JU mit U 0 = I löst. Man erhält somit<br />

δx t = U t δx 0 (1.9)<br />

und <strong>der</strong> Lyapunov-Exponent <strong>in</strong> Richtung des E<strong>in</strong>heitsvektors u 0 = δx 0 /‖δx 0 ‖ ist<br />

gegeben durch<br />

1<br />

λ(x 0 , δx 0 ) = lim<br />

t→∞ t ln ‖δx t‖<br />

‖δx 0 ‖ = lim 1<br />

t→∞ t ln ‖Ut (x 0 )u 0 ‖ . (1.10)<br />

Bei zeitdiskreten Abbildungen <strong>der</strong> Form (1.6) ist <strong>der</strong> Fluss des Systems direkt durch<br />

die Abbildung gegeben. Die zeitliche Entwicklung <strong>der</strong> Störung erhält man daher<br />

direkt durch die Jacobi-Matrix <strong>der</strong> Abbildung, d.h. es gilt<br />

δx t+1 = J(x t ) · δx t (1.11)<br />

mit J(x) = df/dx und <strong>der</strong> Lyapunov Exponent <strong>in</strong> Richtung von u 0 ist gegeben<br />

durch<br />

1<br />

λ(x 0 , δx 0 ) = lim<br />

n→∞ n ln ‖δx n‖<br />

‖δx 0 ‖ = lim ln n→∞ ‖Jn (x 0 )u 0 ‖ (1.12)<br />

wobei J n (x 0 ) = J(x n−1 ) · J(x n−2 ) · . . . · J(x 0 ).<br />

Für e<strong>in</strong>en d-dimensionalen Phasenraum gibt es entsprechend d im Allgeme<strong>in</strong>en verschiedene<br />

Lyapunov-Exponenten, die das zeitliche Verhalten <strong>der</strong> Störung <strong>in</strong> den<br />

verschiedenen Richtungen des Raums beschreiben. Für ergodische Systeme s<strong>in</strong>d sie


Seite 12<br />

1.1. Dynamische Systeme<br />

<strong>in</strong>variant bezüglich <strong>der</strong> Wahl <strong>der</strong> Anfangswerte x 0 und <strong>der</strong> Störungen (Tangentialvektoren)<br />

δx 0 .<br />

Die Lyapunov-Exponenten beschreiben somit die exponentielle Divergenz o<strong>der</strong> auch<br />

Konvergenz eng benachbarter Trajektorien e<strong>in</strong>es dynamischen Systems. Periodische<br />

Bewegungen werden durch e<strong>in</strong>en Satz von Null- o<strong>der</strong> negativen Exponenten beschrieben.<br />

Kont<strong>in</strong>uierliche Systeme besitzen immer e<strong>in</strong>en Null-Exponenten, da <strong>in</strong><br />

Tangentialrichtung <strong>der</strong> Trajektorie we<strong>der</strong> Streckung noch Kompression stattf<strong>in</strong>det.<br />

Das Lyapunov-Spektrum ist gegeben durch die <strong>in</strong> absteigen<strong>der</strong> Reihenfolge sortierten<br />

Exponenten<br />

λ 1 ≥ λ 2 ≥ . . . ≥ λ d . (1.13)<br />

Bislang wurde als Quasi-Def<strong>in</strong>ition chaotischer Bewegung die “sensitive Abhängigkeit<br />

von den Anfangswerten” verwendet, die nun mit Hilfe <strong>der</strong> Lyapunov-Exponenten<br />

auf e<strong>in</strong>e mathematische Basis gestellt werden kann: Chaotische Bewegung ist dadurch<br />

ausgezeichnet, dass m<strong>in</strong>destens e<strong>in</strong> Lyapunov-Exponent positiv ist. Durch Berechnung<br />

des größten Lyapunov-Exponenten e<strong>in</strong>es dynamischen Systems lässt sich<br />

somit e<strong>in</strong>deutig aussagen, ob das System chaotisches Verhalten zeigt o<strong>der</strong> nicht.<br />

1.1.2 Berechnung von Lyapunov-Exponenten über<br />

QR-Zerlegung<br />

Betrachtet man e<strong>in</strong> Volumen um e<strong>in</strong>en beliebigen Punkt des Attraktors x 0 , so verformt<br />

sich dieses unter Wirkung des Flusses: es streckt sich <strong>in</strong> Richtung positiver<br />

Lyapunov-Exponenten und schrumpft o<strong>der</strong> stagniert <strong>in</strong> den restlichen Richtungen.<br />

Durch Betrachtung <strong>der</strong> Volumenän<strong>der</strong>ung <strong>in</strong> den verschiedenen Richtungen können<br />

somit die Lyapunov-Exponenten berechnet werden. Da jedoch nach e<strong>in</strong>er gewissen<br />

Menge an Iterationen praktisch alle das Volumen def<strong>in</strong>ierenden Vektoren <strong>in</strong> Richtung<br />

des größten Lyapunov-Exponenten zeigen, ist e<strong>in</strong>e Reorthonormalisierung <strong>der</strong><br />

betrachteten Vektoren nötig. Hierzu gibt es zwei verschiedene Ansätze: <strong>der</strong> e<strong>in</strong>e basiert<br />

auf <strong>der</strong> S<strong>in</strong>gulärwertzerlegung, <strong>der</strong> an<strong>der</strong>e, <strong>der</strong> im Folgenden betrachtet werden<br />

soll, auf <strong>der</strong> QR-Zerlegung [13].<br />

Zunächst wählt man an e<strong>in</strong>em Punkt x 0 e<strong>in</strong>e beliebige Orthonormalbasis mit Vektoren<br />

b 1 , . . . , b d . Die ersten k Basisvektoren mit k ≤ d spannen e<strong>in</strong> Volumen<br />

V k (t) = ‖U t (x 0 )b 1 × . . . × U t (x 0 )b k ‖ (1.14)<br />

auf, dessen zeitliche Än<strong>der</strong>ung ausgedrückt werden kann durch die Summe <strong>der</strong> ersten


Kapitel 1. Grundlagen Seite 13<br />

k Lyapunov-Exponenten, <strong>in</strong>sofern diese <strong>der</strong> Größe nach sortiert s<strong>in</strong>d:<br />

1<br />

lim<br />

t→∞ t ln[V k(t)] =<br />

k∑<br />

λ i . (1.15)<br />

Die Matrix P(t) sei def<strong>in</strong>iert durch die zeitliche Än<strong>der</strong>ung <strong>der</strong> Basisvektoren<br />

i=1<br />

P(t) ≡ (U t (x 0 )b 1 , . . . , U t (x 0 )b d ) . (1.16)<br />

Dieses Volumen kann mit Hilfe <strong>der</strong> QR−Zerlegung [45, S. 53] <strong>der</strong> Matrix P erhalten<br />

werden. Hierfür bildet man<br />

⎛<br />

⎞<br />

R 11 R 12 · · · R 1d<br />

0 R 22 · · · R 2d<br />

P = QR = (Q 1 , . . . , Q d ) · ⎜<br />

⎝<br />

.<br />

. . ..<br />

⎟ . ⎠ . (1.17)<br />

0 0 · · · R dd<br />

Die Matrix Q ist orthogonal und die obere Dreiecksmatrix R besitzt positive Diagonalelemente,<br />

<strong>der</strong>en Produkt das Volumen (1.14) ergeben, d.h.<br />

V k (t) =<br />

k∏<br />

R ii . (1.18)<br />

i=1<br />

Für den i-ten Lyapunov-Exponent ergibt sich somit mit Hilfe von (1.15)<br />

1<br />

λ i = lim<br />

t→∞ t ln(R ii) . (1.19)<br />

Anschaulich lässt sich dies folgen<strong>der</strong>maßen darstellen: Unter <strong>der</strong> Wirkung des Flusses<br />

wird <strong>der</strong> anfängliche E<strong>in</strong>heitswürfel aus den Vektoren b i mit i = 1, . . . , d <strong>in</strong> den Spat<br />

P verformt. Durch QR-Zerlegung entsteht <strong>der</strong> Qua<strong>der</strong> R ii Q i , dessen Kantenlängen<br />

gegenüber dem E<strong>in</strong>heitswürfel exponentiell mit den Lyapunov-Exponenten gewachsen<br />

o<strong>der</strong> geschrumpft s<strong>in</strong>d, <strong>der</strong> jedoch das gleiche Volumen wie <strong>der</strong> Spat P besitzt.<br />

Üblicherweise beg<strong>in</strong>nt man mit <strong>der</strong> Basis b i = I, i = 1, . . . , d, die von <strong>der</strong> Transfermatrix<br />

U t auf die Matrix P abgebildet wird. Diese wird <strong>in</strong> diskreten Schritten mit<br />

Abstand ∆t <strong>der</strong> QR-Zerlegung unterworfen, wobei man über die dabei entstehende


Seite 14<br />

1.1. Dynamische Systeme<br />

Matrix Q e<strong>in</strong>e neue orthogonale Basis für den nächsten Iterationsschritt erhält. Man<br />

erhält also folgendes Schema:<br />

Q 0 = I ↦−→ U0<br />

P 0 ↦−→ Q 1 R 0<br />

Q 1<br />

U 1<br />

↦−→ P 1 ↦−→ Q 2 R 1<br />

usw.<br />

(1.20)<br />

Die Iterationsvorschrift lautet somit<br />

Q j R j−1 = U j−1 Q j−1 , j = 1, . . . , d (1.21)<br />

und wird nach Eckmann und Ruelle auch als Treppen-Iteration Algorithmus bezeichnet<br />

[13]. Die Diagonalelemente ergeben sich multiplikativ aus den diskreten<br />

Schritten<br />

n−1<br />

∏<br />

R ii = R j ii . (1.22)<br />

j=0<br />

Somit setzt sich auch die Ausdehnungsrate <strong>der</strong> Tangentialvektoren aus den diskreten<br />

Schritten zusammen. Mit (1.19) ergibt sich somit für den i-ten Lyapunov-<br />

Exponenten<br />

1 ∑n−1<br />

λ i = lim ln(R j ii n→∞ n ∆t<br />

) . (1.23)<br />

j=0<br />

1.1.3 Attraktoren<br />

Bei den durch (1.4) def<strong>in</strong>ierten Trajektorien <strong>in</strong>teressiert man sich beson<strong>der</strong>s für das<br />

asymptotisches Verhalten für t → ∞. In konservativen dynamischen Systemen, wie<br />

sie z.B. <strong>in</strong> <strong>der</strong> Newtonschen Mechanik bei Vernachlässigung <strong>der</strong> Reibung betrachtet<br />

werden, bleibt das Volumen e<strong>in</strong>er Menge von Punkten im Phasenraums <strong>in</strong> <strong>der</strong> zeitlichen<br />

Entwicklung dieser Punkte erhalten, d.h. es ist <strong>in</strong>variant gegenüber dem Fluss<br />

(1.1). In dissipativen Systemen bleibt das Volumen nicht erhalten, son<strong>der</strong>n verr<strong>in</strong>gert<br />

sich unter E<strong>in</strong>wirkung des Flusses. Mathematisch bedeutet dies, dass ausgehend von<br />

(1.5) die Divergenz des Vektorfeldes F kle<strong>in</strong>er Null ist:<br />

∇ · F < 0 . (1.24)


Kapitel 1. Grundlagen Seite 15<br />

Im Falle von zeitdiskreten Systemen ist bei dissipativen Systemen <strong>der</strong> Betrag <strong>der</strong><br />

Determ<strong>in</strong>anten <strong>der</strong> Jacobi-Matrix von f kle<strong>in</strong>er E<strong>in</strong>s. Weiterh<strong>in</strong> gilt, dass die Summe<br />

aller Lyapunov-Exponenten negativ se<strong>in</strong> muss, da sonst Volum<strong>in</strong>a des Phasenraums<br />

unter E<strong>in</strong>wirkung des Flusses nicht kontrahieren würden.<br />

Typisch für dissipative Systeme ist, dass im asymptotischen Verhalten e<strong>in</strong> Volumen<br />

des Phasenraums asymptotisch auf e<strong>in</strong>e kompakte Untermenge A ⊂ R n zustrebt,<br />

die aufgrund ihrer “anziehenden” Eigenschaften als Attraktor bezeichnet wird. Für<br />

e<strong>in</strong>en Attraktor A gelten die folgenden Eigenschaften [38]:<br />

• Attraktivität: Es gibt e<strong>in</strong>e offene Umgebung U von A (A ⊂ U), sodass Φ(U, t) ⊂<br />

U für t > 0 und die sich unter <strong>der</strong> Wirkung des Flusses auf A zusammenzieht,<br />

d.h.<br />

A = ⋂ t>0<br />

Φ(U, t) . (1.25)<br />

• Invarianz: Der Attraktor A ist <strong>in</strong>variant unter <strong>der</strong> Wirkung des Flusses, d.h.<br />

aus x ∈ A folgt Φ(x, t) ∈ A.<br />

• Nichtzerlegbarkeit: Mit wachsendem t und für fast alle x 0 gilt: Φ(x 0 , t) ∈ U a<br />

für beliebige Umgebungen U a aller Attraktorpunkte a ∈ A.<br />

Die letzte Eigenschaft bedeutet, dass <strong>der</strong> Attraktor A nicht <strong>in</strong> zwei abgeschlossene,<br />

nichtüberlappende, <strong>in</strong>variante Mengen zerlegt werden kann. Die Menge aller Anfangszustände,<br />

von denen aus Trajektorien dem Attraktor A zustreben, wird als<br />

E<strong>in</strong>zugsgebiet o<strong>der</strong> auch Bass<strong>in</strong> des Attraktors bezeichnet. Liegt <strong>der</strong> Startpunkt e<strong>in</strong>er<br />

Trajektorie im E<strong>in</strong>zugsgebiet e<strong>in</strong>es Attraktors, so verläuft sie nach Ablauf e<strong>in</strong>er<br />

gewissen Zeit, die als Transiente bezeichnet wird, ausschließlich auf diesem Attraktor<br />

(wobei es aufgrund <strong>der</strong> asymptotischen Annäherung von <strong>der</strong> betrachteten Längenskala<br />

abhängt, wann von e<strong>in</strong>er Bewegung “auf dem Attraktor” gesprochen werden<br />

kann). Im Falle des gedämpften frei schw<strong>in</strong>genden Pendels laufen z.B. alle Trajektorien<br />

<strong>in</strong> den Ursprung, <strong>der</strong> somit als Fixpunkt e<strong>in</strong>en Attraktor darstellt. Im Falle von<br />

periodischen und quasiperiodischen Bewegungen s<strong>in</strong>d die Attraktoren Grenzzyklen<br />

bzw. Tori.<br />

Auch im Falle von chaotischer Bewegung, d.h. wenn m<strong>in</strong>destens e<strong>in</strong> Lyapunov-<br />

Exponent größer Null ist, existiert e<strong>in</strong> Attraktor. Betrachtet man e<strong>in</strong> Volumenelement<br />

auf e<strong>in</strong>em solchen Attraktor, so wächst dieses exponentiell <strong>in</strong> Richtung positiver<br />

Lyapunov-Exponenten und schrumpft o<strong>der</strong> stagniert <strong>in</strong> den restlichen Richtungen.<br />

Durch diese Streckung entsteht somit e<strong>in</strong> Ellipsoid, <strong>der</strong> allerd<strong>in</strong>gs aufgrund <strong>der</strong><br />

Beschränktheit des Attraktors nicht <strong>in</strong>s Unendliche weiterwachsen kann. Spätestens<br />

wenn <strong>der</strong> Ellipsoid an den Rand des Attraktors stößt, wird er verbogen und zurückgefaltet.<br />

Der durch dieses Strecken und Falten charakterisierte Attraktor zeigt auf


Seite 16<br />

1.1. Dynamische Systeme<br />

verschiedenen Längenskalen Selbstähnlichkeit, er ist e<strong>in</strong> sog. Fraktal. Charakteristisch<br />

für Fraktale ist, dass ihnen ke<strong>in</strong>e ganzzahlige Dimension zugeordnet werden<br />

kann (siehe nächsten Abschnitt). Man spricht deshalb von e<strong>in</strong>em seltsamen Attraktor.<br />

Seltsame Attraktoren s<strong>in</strong>d somit ke<strong>in</strong>e glatten Mannigfaltigkeiten wie die regulären<br />

Attraktoren, son<strong>der</strong>n fraktale Teilmengen des Phasenraums. In <strong>der</strong> Regel ist e<strong>in</strong> solcher<br />

Attraktor jedoch <strong>in</strong> e<strong>in</strong>e glatte Mannigfaltigkeit e<strong>in</strong>gebettet, die e<strong>in</strong>e niedrigere<br />

Dimension als <strong>der</strong> Phasenraum aufweist und die wie<strong>der</strong>um <strong>in</strong> e<strong>in</strong>en Rekonstruktionsraum<br />

e<strong>in</strong>gebettet werden kann (siehe Abschnitt 1.1.5). Die fraktale Struktur des<br />

seltsamen Attraktors ist e<strong>in</strong>e notwendige Bed<strong>in</strong>gung für chaotische Bewegung, sie ist<br />

allerd<strong>in</strong>gs nicht h<strong>in</strong>reichend. So f<strong>in</strong>det man vor allem <strong>in</strong> quasi-periodischen getriebenen<br />

Systemen auch seltsame Attraktoren, wo die Bewegung jedoch ke<strong>in</strong> chaotisches<br />

Verhalten zeigt (<strong>der</strong> größte Lyapunov-Exponent ist Null).<br />

1.1.4 Dimension<br />

Allgeme<strong>in</strong> kann die Dimension e<strong>in</strong>es Attraktors aufgefasst werden als <strong>der</strong>jenige Informationsgehalt,<br />

<strong>der</strong> nötig ist, um die Position e<strong>in</strong>es Punktes auf dem Attraktor<br />

mit e<strong>in</strong>er bestimmten Genauigkeit zu lokalisieren. Sie ist e<strong>in</strong> Maß für die Zahl <strong>der</strong><br />

Freiheitsgrade und somit e<strong>in</strong> Maß für die Komplexität <strong>der</strong> Bewegung auf dem Attraktor.<br />

Der Begriff <strong>der</strong> Dimension ist allerd<strong>in</strong>gs nicht e<strong>in</strong>deutig; es gibt unendlich<br />

viele Möglichkeiten, e<strong>in</strong>er Menge von Punkten e<strong>in</strong>e Dimension zuzuordnen. E<strong>in</strong>e<br />

Bed<strong>in</strong>gung, die man aber an jeden Dimensionbegriff stellt ist, dass für die “üblichen”<br />

Mengen wie Punkte, L<strong>in</strong>ien und Ebenen sich die bekannten Werte ergeben<br />

(also 0, 1 bzw. 2). Bei Fraktalen wie seltsamen Attraktoren hat man es aber nicht<br />

mehr mit e<strong>in</strong>er geschlossenen Punktmenge zu tun. Die fraktale Struktur lässt sich<br />

nur durch die statistische Verteilung <strong>der</strong> Punkte charakterisieren, die Dimension<br />

liegt hier zwischen den ganzzahligen Werten und ist e<strong>in</strong> statistisches Maß im Gegensatz<br />

zu den Lyapunov-Exponenten, die e<strong>in</strong> dynamisches Maß darstellen. Beide fallen<br />

jedoch unter die <strong>in</strong>varianten Maße, d.h. sie bleiben unter e<strong>in</strong>er Koord<strong>in</strong>atentransformation<br />

unverän<strong>der</strong>t, <strong>in</strong>sofern diese umkehrbar und die Inverse stetig-differenzierbar<br />

ist (d.h. e<strong>in</strong> Diffeomorphismus ist). Diese Eigenschaft ist wesentlich für die Berechnung<br />

dieser Werte anhand <strong>der</strong> Rekonstruktion e<strong>in</strong>es Attraktors, die im nächsten<br />

Abschnitt besprochen wird.<br />

E<strong>in</strong>e anschauliche Form <strong>der</strong> Dimensionsbestimmung ist die Box-Count<strong>in</strong>g Methode.<br />

Hierbei unterteilt man den Phasenraum <strong>in</strong> Zellen mit Volumen ε d und bestimmt die<br />

Anzahl <strong>der</strong> Zellen N(ε), <strong>in</strong> denen sich Punkte des Attraktors bef<strong>in</strong>den. Im Idealfall<br />

erhält man e<strong>in</strong>en Zusammenhang <strong>der</strong> Form<br />

N(ε) ∼ ε −D 0<br />

, (1.26)


Kapitel 1. Grundlagen Seite 17<br />

mit dem Exponenten D 0 als die Dimension des Attraktors, o<strong>der</strong> an<strong>der</strong>s formuliert<br />

D 0 = lim<br />

ε→0<br />

ln(N(ε))<br />

ln(1/ε) . (1.27)<br />

Diese Dimension bezeichnet man als Box-Count<strong>in</strong>g- o<strong>der</strong> auch Kapazitäts-Dimension.<br />

Sie basiert auf den metrischen Eigenschaften des Attraktors. Gerade für chaotische<br />

Attraktoren ist es jedoch typisch, dass bestimmte Bereiche von e<strong>in</strong>er Trajektorie<br />

weit häufiger aufgesucht werden als an<strong>der</strong>e, was durch die Box-Count<strong>in</strong>g-Dimension<br />

nicht berücksichtigt wird. Mathematisch lässt sich dies durch das natürliche Maß<br />

η(N i , T )<br />

µ(N i ) = lim<br />

T →∞ T<br />

(1.28)<br />

beschreiben, wobei η(N i , T ) die Zeitdauer ist, die e<strong>in</strong>e Trajektorie im Zeit<strong>in</strong>tervall<br />

0 ≤ t ≤ T <strong>in</strong> <strong>der</strong> Zelle N i verweilt. Dies kann auch <strong>in</strong>terpretiert werden als die<br />

Wahrsche<strong>in</strong>lichkeit, dass e<strong>in</strong> Punkt <strong>in</strong> <strong>der</strong> Zelle N i liegt. Diese Größe ist fast immer 2<br />

unabhängig vom Startpunkt x 0 . Die Box-Count<strong>in</strong>g-Dimension ist <strong>der</strong> Spezialfall,<br />

wenn alle Zellen <strong>in</strong> etwa das gleiche natürliche Maß besitzen, d.h. wenn für alle i =<br />

1, . . . , N(ε) gilt µ(N i ) ≈ 1/N(ε). Bei chaotischen Attraktoren variiert das natürliche<br />

Maß aber meist stark mit <strong>der</strong> betrachteten Zelle N i , weshalb man bei genügend<br />

kle<strong>in</strong>em ε e<strong>in</strong>en Großteil des natürlichen Maßes <strong>der</strong> Punktmenge mit e<strong>in</strong>em Bruchteil<br />

<strong>der</strong> Zellen N(ε) abdecken kann. Man def<strong>in</strong>iert daher die Informationsdimension<br />

∑ N(ε)<br />

i=1<br />

D 1 = lim<br />

µ(N i) ln µ(N i )<br />

ε→0 ln(ε)<br />

I(ε)<br />

= lim<br />

ε→0 ln(1/ε) , (1.29)<br />

wobei I(ε) = − ∑ N(ε)<br />

i=1 µ(N i) ln µ(N i ) die auf Shannon zurückgehende Information<br />

(auch Informationsentropie) darstellt. Diese ist hier e<strong>in</strong> Maß für die Menge an<br />

Information, die gewonnen wird, wenn die Unterteilung des Systems mit <strong>der</strong> Kantenlänge<br />

ε vorgenommen wird. Die Informationsdimension ergibt sich somit durch<br />

Betrachtung des Verhältnisses von gewonnener Information zur Kantenlänge <strong>der</strong><br />

Unterteilung.<br />

Beide Dimensionsbegriffe können auf die generalisierte Dimension D q von Renyi<br />

zurückgeführt werden die def<strong>in</strong>iert ist durch<br />

( ∑N(ε)<br />

1 ln<br />

D q = lim<br />

ε→0 q − 1 ·<br />

i=1 (µ(N i)) q)<br />

, (1.30)<br />

ln(ε)<br />

2 Dies ist im maßtheoretischen S<strong>in</strong>n zu verstehen: die Menge von Startpunkten von denen das<br />

natürliche Maß abhängt hat Lebesgue-Maß Null.


Seite 18<br />

1.1. Dynamische Systeme<br />

wobei q ∈ R frei gewählt werden kann. Es gibt somit unendlich viele generalisierte<br />

Dimensionen, wobei D q ≤ D p für q ≥ p gilt. Für q = 0 ergibt sich die Box-Count<strong>in</strong>g-<br />

Dimension, für q → 1 ergibt sich mit <strong>der</strong> Regel von L’Hôspital die Informationsdimension.<br />

Es sei noch erwähnt, dass sich für q = 2 die Dimension D 2 ergibt, die<br />

durch die sog. Korrelationsdimension approximiert werden kann. Diese beschreibt<br />

die räumliche Korrelation von Punktepaaren auf dem Attraktor (für Details siehe<br />

z.B. [1]). Sie ist <strong>in</strong> <strong>der</strong> Praxis beson<strong>der</strong>s beliebt, da sie sich recht e<strong>in</strong>fach berechnen<br />

lässt.<br />

1.1.5 Rekonstruktion des Attraktors<br />

Der bisher vorgestellte mathematische Formalismus operiert ausschließlich im Phasenraum,<br />

<strong>der</strong> jedoch im Experiment nicht explizit erfasst werden kann. Es stellt sich<br />

daher die Frage, <strong>in</strong>wieweit man überhaupt <strong>in</strong> <strong>der</strong> Lage ist, auf Basis von Messungen<br />

Größen wie Lyapunov-Exponenten o<strong>der</strong> die Dimension e<strong>in</strong>es Attraktors zu bestimmen.<br />

Um diese zu berechnen benötigt man e<strong>in</strong>e Abbildung, die das Langzeitverhalten<br />

<strong>der</strong> Dynamik im Phasenraum rekonstruiert.<br />

Es werden zunächst kont<strong>in</strong>uierliche Flüsse <strong>der</strong> Form (1.5) betrachtet, wobei die Dynamik<br />

<strong>in</strong>nerhalb e<strong>in</strong>er Mannigfaltigkeit S ⊂ R k mit Dimension d < k verläuft.<br />

Werden zu e<strong>in</strong>em bestimmten Zeitpunkt an dem System n unabhängige Messungen<br />

u 1 , . . . , u n gleichzeitig vorgenommen, so kann dies beschrieben werden durch e<strong>in</strong>e<br />

Abbildung des Zustandes x ∈ S <strong>in</strong> e<strong>in</strong>en Rekonstruktionsraum durch e<strong>in</strong>e Messfunktion<br />

h :<br />

S ⊂ R k → R n<br />

x ↦→ h(x) = (u 1 , . . . , u n ) .<br />

(1.31)<br />

Diese Messfunktion bildet somit Trajektorien aus S im Phasenraum <strong>in</strong> den R n ab.<br />

Um e<strong>in</strong>e Rekonstruktion <strong>der</strong> Langzeitdynamik im Rekonstruktionsraum zu erreichen,<br />

muss <strong>der</strong> Attraktor A ⊂ S unter <strong>der</strong> Messfunktion h erhalten bleiben. Dazu<br />

muss diese zunächst kont<strong>in</strong>uierlich und umkehrbar jeden Zustand auf dem Attraktor<br />

e<strong>in</strong>-e<strong>in</strong>deutig abbilden, d.h. zwei Messungen h(x i ) und h(x j ) mit i ≠ j dürfen nur<br />

dann identisch se<strong>in</strong>, falls auch x i = x j gilt. Ansonsten könnten sich im Rekonstruktionsraum<br />

Trajektorien schneiden und die rekonstruierte Dynamik wäre nicht mehr<br />

determ<strong>in</strong>istisch. Von e<strong>in</strong>er E<strong>in</strong>bettung spricht man, wenn auch die differenzierbaren<br />

Anteile des Attraktors unter h erhalten bleiben (<strong>in</strong> <strong>der</strong> mathematischen Sprache<br />

bezeichnet man e<strong>in</strong>e Abbildung mit dieser Eigenschaft als Immersion). Dies stellt<br />

sicher, dass auch Stabilitätseigenschaften des Attraktors erhalten bleiben, d.h. auch<br />

Fix-, Knoten- und Sattelpunkte <strong>in</strong> die Rekonstruktion übertragen werden. E<strong>in</strong>e solche<br />

E<strong>in</strong>bettung kann auch als nichtl<strong>in</strong>eare Koord<strong>in</strong>atentransformation verstanden


Kapitel 1. Grundlagen Seite 19<br />

werden, wobei Größen wie Dimension und Lyapunov-Exponenten unter dieser <strong>in</strong>variant<br />

s<strong>in</strong>d und somit anhand des Bildes h(A) des Attraktors berechnet werden<br />

können.<br />

Die Frage, unter welchen Voraussetzungen h e<strong>in</strong>e E<strong>in</strong>bettung ist, wurde zuerst 1936<br />

mit dem E<strong>in</strong>bettungstheorem von Whitney für glatte Mannigfaltigkeiten beantwortet<br />

und 1991 von Sauer et al. für kompakte Untermengen mit fraktaler Struktur<br />

erweitert [32]. Es besagt, dass falls A kompakt <strong>in</strong> R k mit Box-Count<strong>in</strong>g-Dimension<br />

d liegt, sowie Φ e<strong>in</strong> Fluss auf R k und n e<strong>in</strong>e ganze Zahl mit n > 2d ist, dann<br />

s<strong>in</strong>d fast alle stetig differenzierbaren Abbildungen h e<strong>in</strong>e E<strong>in</strong>bettung von A <strong>in</strong> den<br />

Rekonstruktionsraum R n .<br />

Hierbei ist “fast jede” im maßtheoretischen S<strong>in</strong>n zu verstehen, d.h. dass es auch mit<br />

n > 2d passieren kann, dass e<strong>in</strong>e Messfunktion ke<strong>in</strong>e E<strong>in</strong>bettung darstellt, jedoch<br />

e<strong>in</strong>e kle<strong>in</strong>e Störung dieser Messfunktion ausreicht, um mit Wahrsche<strong>in</strong>lichkeit E<strong>in</strong>s<br />

e<strong>in</strong>e E<strong>in</strong>bettung zu erhalten [32].<br />

Delay E<strong>in</strong>bettung<br />

Nun ist es bei vielen Experimenten praktisch nicht möglich so viele Messungen<br />

gleichzeitig am System vorzunehmen, dass n > 2d erfüllt ist. Nach dem Theorem<br />

von Takens [40] ist dies ist aber auch nicht nötig: es ist e<strong>in</strong> verblüffendes Ergebnis<br />

<strong>der</strong> Theorie dynamischer Systeme, dass bereits die kont<strong>in</strong>uierliche Messung e<strong>in</strong>er e<strong>in</strong>zigen<br />

Größe ausreicht, um e<strong>in</strong>e Rekonstruktion des Attraktors durchzuführen. Diese<br />

betrachtete Messgröße sei <strong>in</strong> Form e<strong>in</strong>er kont<strong>in</strong>uierlichen Messfunktion h gegeben,<br />

die jedem Punkt x t des Phasenraums zur Zeit t e<strong>in</strong>e skalare Größe s t = h(x t ) ∈ R zuordnet.<br />

Mit dem Fluss Φ t ist dann die Delay-Koord<strong>in</strong>aten-Abbildung def<strong>in</strong>iert durch<br />

F(h, Φ, τ)(x) = ( h(x), h(Φ τ (x)), h(Φ 2τ (x)), . . . , h(Φ (n−1)τ (x)) ) , (1.32)<br />

wobei τ die sog. Delay-Zeit ist. Das Theorem von Takens [40] und e<strong>in</strong>e Erweiterung<br />

dieses Theorems von Sauer et al. [32] besagt nun, dass auch die Delay-Koord<strong>in</strong>aten-<br />

Abbildung F für n > 2d und fast alle (h, τ) e<strong>in</strong>e E<strong>in</strong>bettung darstellt, <strong>in</strong>sofern auf<br />

dem Attraktor A ke<strong>in</strong>e periodischen Orbits mit Periode τ o<strong>der</strong> 2τ existieren, sowie<br />

nur endlich viele Gleichgewichtszustände und endlich viele Orbits mit Periode pτ<br />

mit 3 ≤ p < n, wobei die L<strong>in</strong>earisierungen dieser Orbits unterschiedliche Eigenwerte<br />

besitzen müssen.<br />

Allerd<strong>in</strong>gs gilt dieses Theorem nur für e<strong>in</strong>e kont<strong>in</strong>uierliche Messfunktion mit unendlich<br />

vielen Messwerten, die zudem rauschfrei se<strong>in</strong> müssen. Beides ist im Experiment<br />

praktisch nicht möglich. Bei Verwendung e<strong>in</strong>es A/D-Wandlers erhält man diskrete<br />

Werte s t , <strong>der</strong>en zeitlicher Abstand durch die Sampl<strong>in</strong>g-Periode T gegeben ist und<br />

die wenigstens durch Quantisierungsrauschen verfälscht s<strong>in</strong>d. Auch wenn <strong>in</strong> diesem


Seite 20<br />

1.1. Dynamische Systeme<br />

Fall das Theorem von Takens nicht mehr gilt, kann auch mit endlich vielen diskreten<br />

Werten meist e<strong>in</strong>e E<strong>in</strong>bettung erreicht werden, <strong>in</strong>sofern die Sampl<strong>in</strong>g-Periode kle<strong>in</strong><br />

genug ist und die Delay-Zeit richtig gewählt wird. Die Delay-Koord<strong>in</strong>aten-Abbildung<br />

reduziert sich hierbei auf die Bildung von Delay-Vektoren<br />

x t−τ(d−1) = (s t , s t−τ , . . . , s n−(d−1)τ ) , t = τ(d − 1) + 1, . . . , n (1.33)<br />

wobei τ e<strong>in</strong> Vielfaches <strong>der</strong> Sampl<strong>in</strong>g-Periode ist.


Kapitel 2<br />

Lokale <strong>Modelle</strong><br />

2.1 Das Modellierungsproblem<br />

Gegeben sei e<strong>in</strong>e Menge von Punktpaaren<br />

Ω = {(x 1 , y 1 ), (x 2 , y 2 ), . . . , (x N , y N )} (2.1)<br />

wobei x i ∈ K d die E<strong>in</strong>gabevektoren und y i ∈ K die zugehörigen beobachteten skalaren<br />

Ausgangsgrößen e<strong>in</strong>es unbekannten Systems s<strong>in</strong>d. Das nichtl<strong>in</strong>eare Modellierungsproblem<br />

besteht dar<strong>in</strong>, für e<strong>in</strong>en neuen E<strong>in</strong>gabevektor q /∈ Ω (Query) e<strong>in</strong>en<br />

Schätzer ŷ für die Ausgabe des Systems zu f<strong>in</strong>den.<br />

Falls die Ausgangsgrößen ke<strong>in</strong>e Skalare s<strong>in</strong>d son<strong>der</strong>n <strong>in</strong> e<strong>in</strong>em höherdimensionalen<br />

Raum liegen, kann durch Betrachtung <strong>der</strong> e<strong>in</strong>zelnen Komponenten dieser Fall auf die<br />

obige Formulierung zurückgeführt werden. In dieser Arbeit wird nur <strong>der</strong> Fall K = R<br />

betrachtet, aber natürlich gibt es zahlreiche Modellierungsprobleme, <strong>in</strong> denen dies<br />

nicht <strong>der</strong> Fall ist. E<strong>in</strong> populäres Beispiel ist die Modellierung von DNA-Sequenzen<br />

[28]. Die obige Formulierung des Modellierungsproblems f<strong>in</strong>det <strong>in</strong>sb. <strong>in</strong> <strong>der</strong> statistischen<br />

Lerntheorie Verwendung. Da <strong>der</strong>en anfängliche Anwendungen im Bereich<br />

<strong>der</strong> Klassifikation und Mustererkennung lagen, wird hier Ω auch als Menge von<br />

Beobachtungen bezeichnet und die E<strong>in</strong>gabevektoren als Muster [16].<br />

Ebenso kann das Modellierungsproblem unter dem für den Physiker sicherlich vertrauteren<br />

statistischen Gesichtspunkt <strong>der</strong> Regression formuliert werden. Man betrachtet<br />

hierbei die Paare (x i , y i ) als Realisierung von Zufallsvariablen X bzw. Y ,<br />

wobei Y über e<strong>in</strong>e unbekannte bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeitsverteilung P (Y | X) von<br />

<strong>der</strong> Zufallsvariablen X abhängt [41]. Hierbei ist es natürlich auch möglich, dass die<br />

y i e<strong>in</strong>deutig von den x i abhängen (<strong>der</strong> sog. degenerierte Fall). Die Regression (o<strong>der</strong><br />

synonym: bed<strong>in</strong>gte Erwartung) E[Y | X] ist diejenige Zufallsvariable, <strong>der</strong>en Werte<br />

21


Seite 22<br />

2.1. Das Modellierungsproblem<br />

die bed<strong>in</strong>gten Erwartungswerte m(x) ≡ E[Y | X = x] s<strong>in</strong>d. Sie ist somit e<strong>in</strong> determ<strong>in</strong>istischer<br />

funktionaler Zusammenhang zwischen den x i und den y i und ist im<br />

degenerierten Fall identisch mit <strong>der</strong> Wahrsche<strong>in</strong>lichkeitsverteilung P (Y | X). Wie <strong>in</strong><br />

Abschnitt 2.3 erläutert wird, ist die Regression im S<strong>in</strong>ne <strong>der</strong> Least-Squares-Methode<br />

e<strong>in</strong> optimaler Schätzer für die y i .<br />

Parametrische und nichtparametrische Regression<br />

Gesucht ist somit e<strong>in</strong>e Funktion y i = f(x i ) zwischen unabhängigen und abhängigen<br />

Variablen, die die Regression E[Y | X] möglichst gut approximiert. Dies be<strong>in</strong>haltet<br />

<strong>in</strong>sbeson<strong>der</strong>e auch, dass diese Funktion nicht nur die gegebene Realisierung Ω zu<br />

beschreiben vermag, son<strong>der</strong>n auch die Fähigkeit zur Generalisierung besitzt. Die<br />

Formulierung y i = f(x i ) legt allerd<strong>in</strong>gs die Vermutung nahe, dass nach e<strong>in</strong>em geschlossenen<br />

Ausdruck für diese Funktion gesucht ist, z.B. e<strong>in</strong>e Geradengleichung<br />

(l<strong>in</strong>eare Regression), e<strong>in</strong> Polynom höheren Grades o<strong>der</strong> e<strong>in</strong>e an<strong>der</strong>e L<strong>in</strong>earkomb<strong>in</strong>ation<br />

von Basisfunktionen, wobei die Koeffizienten die Parameter des Modells s<strong>in</strong>d,<br />

für die e<strong>in</strong>e gute Schätzung gefunden werden muss. Dieser Ansatz, <strong>der</strong> e<strong>in</strong>e bestimmte<br />

funktionale Form voraussetzt, wird als parametrische Regression bezeichnet.<br />

E<strong>in</strong>e nichtparametrische Regression h<strong>in</strong>gegen arbeitet ohne solche Voraussetzungen,<br />

<strong>der</strong> funktionale Zusammenhang wird “durch die Daten selbst” generiert, was dazu<br />

führt, dass Daten und Modell nicht mehr getrennt betrachtet werden können und die<br />

Genauigkeit des Modells eng mit <strong>der</strong> Zahl <strong>der</strong> vorliegenden Datenpunkte verknüpft<br />

ist. Es ist bei nichtparametrischen Regressionen daher nicht möglich, den funktionalen<br />

Zusammenhang mit e<strong>in</strong>em geschlossenen mathematischen Ausdruck anzugeben.<br />

Auch die Parameter des Modells hängen vom verwendeten Ansatz ab und können<br />

nicht allgeme<strong>in</strong> beschrieben werden. Unter die nichtparametrische Regression fallen<br />

auch <strong>lokale</strong> <strong>Modelle</strong>, wie sie <strong>in</strong> dieser Arbeit verwendet werden. E<strong>in</strong>e Übersicht zu<br />

nichtparametrischen Ansätzen <strong>in</strong>sb. zur Analyse von Zeitreihen f<strong>in</strong>det sich <strong>in</strong> [18].<br />

Parametrische wie nichtparametrische Regression haben ihre Vor- und Nachteile,<br />

und es hängt vor allem vom gegebenen Problem ab, welcher Ansatz sich besser eignet.<br />

Die parametrische Regression ist natürlich dann zu verwenden, wenn e<strong>in</strong> funktionaler<br />

Zusammenhang zwischen E<strong>in</strong>- und Ausgabedaten schon vorher bekannt ist<br />

o<strong>der</strong> zum<strong>in</strong>dest vermutet wird. Ist diese Vermutung jedoch falsch, so wird den Daten<br />

e<strong>in</strong> funktionaler Zusammenhang unterstellt, den diese möglicherweise nicht haben.<br />

Man spricht dann von e<strong>in</strong>em Bias des Modells gegenüber den Daten. Nichtparametrische<br />

Regression kann gerade <strong>in</strong> solchen Fällen bessere Ergebnisse liefern, wobei<br />

die Zahl <strong>der</strong> vorliegenden Datenpunkte allerd<strong>in</strong>gs groß genug se<strong>in</strong> muss.


Kapitel 2. Lokale <strong>Modelle</strong> Seite 23<br />

2.1.1 Lokale <strong>Modelle</strong><br />

Grundlegendes Pr<strong>in</strong>zip <strong>lokale</strong>r <strong>Modelle</strong> ist, dass zur Modellierung nur e<strong>in</strong>e gewisse<br />

Umgebung (Nachbarschaft) e<strong>in</strong>es Anfragepunktes q verwendet wird, während die<br />

restlichen Punkte des Datensatzes unberücksichtigt bleiben. Diese Nachbarschaft<br />

kann z.B. e<strong>in</strong>e ε-Umgebung U ε (q) se<strong>in</strong>, aber auch e<strong>in</strong>e bestimmte Anzahl k von<br />

Punkten (fixed mass) x nn(1) , . . . , x nn(k) , die bezüglich e<strong>in</strong>er Metrik ‖ · ‖ die ger<strong>in</strong>gste<br />

Distanz zu q haben (nächste Nachbarn), wobei nn(1), . . . , nn(k) die Indizes dieser<br />

Punkte im Datensatz seien. In dieser Umgebung des Anfragepunktes f<strong>in</strong>det die eigentliche<br />

Berechnung e<strong>in</strong>es Modells statt, z.B. <strong>in</strong> Form e<strong>in</strong>er l<strong>in</strong>earen Regression o<strong>der</strong><br />

noch e<strong>in</strong>facher durch Bildung e<strong>in</strong>es gewichteten Mittelwerts <strong>der</strong> Bil<strong>der</strong> <strong>der</strong> nächsten<br />

Nachbarn. Voraussetzung ist, dass die Umgebung so kle<strong>in</strong> gewählt wird, dass<br />

sich die zeitliche Entwicklung <strong>der</strong> nächsten Nachbarn von <strong>der</strong> gesuchten zeitlichen<br />

Entwicklung des Anfragepunktes nicht wesentlich unterscheidet. Ausschlaggebend<br />

hierfür s<strong>in</strong>d die Nachbarn, die <strong>in</strong> Richtungen mit positiven Lyapunov-Exponenten<br />

liegen, da <strong>der</strong>en Trajektorien sich <strong>in</strong> <strong>der</strong> zeitlichen Entwicklung exponentiell vom<br />

Anfragepunkt entfernen.<br />

Lokale <strong>Modelle</strong> fallen unter die Klasse <strong>der</strong> nichtparametrischen Regression, da sie an<br />

die Gesamtheit des Datensatzes Ω ke<strong>in</strong>e funktionale Form voraussetzen. In den Umgebungen<br />

<strong>der</strong> Anfragepunkte wird aber meist e<strong>in</strong>e e<strong>in</strong>fache parametrische Regression<br />

durchgeführt.<br />

Im Gegensatz hierzu stehen parametrische globale <strong>Modelle</strong>, wo stets <strong>der</strong> gesamte<br />

Datensatz zur Berechnung e<strong>in</strong>er parametrischen Regression herangezogen wird. Sie<br />

versuchen somit, den gesamten Datensatz durch e<strong>in</strong>en geschlossenen funktionalen<br />

Ausdruck zu beschreiben, während <strong>lokale</strong> <strong>Modelle</strong> dies nur für gewisse Umgebungen<br />

von Punkten des Datensatzes tun. Um den gesamten Datensatz zu beschreiben ist<br />

somit e<strong>in</strong>e Vielzahl von unabhängigen <strong>lokale</strong>n <strong>Modelle</strong>n nötig.<br />

E<strong>in</strong>e wichtige Konsequenz des <strong>lokale</strong>n Ansatzes ist, dass die Berechnung des Modells<br />

erst dann stattf<strong>in</strong>det, wenn e<strong>in</strong> konkreter Anfragepunkt vorliegt, für den e<strong>in</strong>e<br />

Schätzung <strong>der</strong> Ausgabe berechnet werden soll 1 . Somit werden nur die Bereiche<br />

des gegebenen Datensatzes modelliert, die Umgebungen von Anfragepunkten s<strong>in</strong>d -<br />

alle an<strong>der</strong>en Punkte s<strong>in</strong>d für die <strong>lokale</strong> Modellbildung ohne Bedeutung. Es ist sofort<br />

e<strong>in</strong>leuchtend, dass die Eigenschaften des Modells wesentlich von <strong>der</strong> Größe <strong>der</strong><br />

gewählten Umgebung abhängen. Kle<strong>in</strong>e Umgebungen führen zu e<strong>in</strong>em sehr variablen<br />

Modell, im Extremfall zur Interpolation <strong>der</strong> Datenpunkte. Große Umgebungen<br />

h<strong>in</strong>gegen führen im Extremfall zu e<strong>in</strong>em globalen Modell (siehe Abschnitt 3.3.1).<br />

Ohne die Kenntnis e<strong>in</strong>es Anfragepunktes ist somit die Berechnung e<strong>in</strong>es <strong>lokale</strong>n Modells<br />

nicht möglich. Die e<strong>in</strong>zigen Berechnungen, die vor den eigentlichen Anfragen<br />

1 Man f<strong>in</strong>det <strong>in</strong> <strong>der</strong> Literatur hierfür auch manchmal den aus <strong>der</strong> Lerntheorie entnommenen<br />

Begriff “Lazy Learn<strong>in</strong>g”.


Seite 24<br />

2.1. Das Modellierungsproblem<br />

stattf<strong>in</strong>den, beschränken sich zumeist auf den Aufbau e<strong>in</strong>er geeigneten Datenstruktur<br />

zur Suche nächster Nachbarn (siehe Abschnitt 3.10).<br />

Das Pr<strong>in</strong>zip <strong>der</strong> <strong>lokale</strong>n Modellierung birgt Vor- wie Nachteile. E<strong>in</strong>e Gegenüberstellung<br />

des <strong>lokale</strong>n und globalen Ansatzes <strong>in</strong> <strong>der</strong> Modellierung soll <strong>in</strong> Kapitel 3.11<br />

gegeben werden.<br />

2.1.2 Vorhersage von Zeitreihen<br />

Die <strong>lokale</strong> Modellbildung kann für jedes Modellierungsproblem angewandt werden.<br />

E<strong>in</strong> wichtiger Spezialfall und Hauptthema dieser Arbeit ist die Vorhersage von<br />

Zeitreihen nichtl<strong>in</strong>earer dynamischer Systeme. Gegeben ist hier e<strong>in</strong>e Zeitreihe<br />

(s 1 , . . . , s n ) mit s i ∈ R und das Modellierungsproblem ist gegeben durch die Berechnung<br />

e<strong>in</strong>es Schätzers für e<strong>in</strong>en späteren Wert <strong>der</strong> Zeitreihe s n+l mit l ∈ N.<br />

Es ist e<strong>in</strong>e <strong>in</strong>härente Eigenschaft chaotischer Systeme, dass ihre Dynamik aufgrund<br />

m<strong>in</strong>destens e<strong>in</strong>es positiven Lyapunov-Exponenten nur für kurze Zeiträume vorhergesagt<br />

werden kann. Insbeson<strong>der</strong>e die Vorhersage e<strong>in</strong>er chaotischen Zeitreihe über<br />

mehrere iterative Schritte stellt e<strong>in</strong> schwieriges Problem dar, da selbst kle<strong>in</strong>ste Fehler<br />

zu e<strong>in</strong>em exponentiellen Ause<strong>in</strong>an<strong>der</strong>streben <strong>der</strong> geschätzten von <strong>der</strong> “wahren”<br />

Trajektorie führen. Die Strategie, <strong>lokale</strong> <strong>Modelle</strong> für diese Aufgabe zu verwenden,<br />

wurde erstmals von Farmer und Sidorowich formuliert [11].<br />

Wie <strong>in</strong> Kapitel 1.1.5 besprochen ist es nicht möglich, direkt im Phasenraum die Dynamik<br />

zu modellieren. Stattdessen muss aus <strong>der</strong> Zeitreihe zunächst über die Methode<br />

<strong>der</strong> Delay-E<strong>in</strong>bettung <strong>der</strong> Attraktor des dynamischen Systems rekonstruiert werden.<br />

Die Vorhersage <strong>der</strong> Zeitreihe kann dann anhand des rekonstruierten Attraktors erfolgen.<br />

Bei <strong>der</strong> Delay-E<strong>in</strong>bettung e<strong>in</strong>er Zeitreihe bestehend aus n Samples erhält<br />

man n − τ(d − 1) Delay-Vektoren, wobei τ <strong>der</strong> Delay und d die Dimension <strong>der</strong> E<strong>in</strong>bettung<br />

ist. Zur Vere<strong>in</strong>fachung <strong>der</strong> Notation sei im Folgenden ñ = n − τ(d − 1) und<br />

˜t = t − τ(d − 1).<br />

Das Vorgehen für e<strong>in</strong>e Vorhersage über l Zeitschritte ist wie folgt:<br />

1. E<strong>in</strong>bettung <strong>der</strong> Zeitreihe durch Bildung von Delay-Vektoren<br />

x˜t = (s t , s t−τ , . . . , s t−(d−1)τ ) ∈ R d , i = τ(d − 1) + 1, . . . , n (2.2)<br />

2. Suche <strong>in</strong> den Delay-Vektoren x 1 , . . . , xñ−1 nach k nächsten Nachbarn<br />

x nn(1) , . . . , x nn(k) des letzten Delay-Vektors xñ. Hierbei seien nn(1), . . . , nn(k)<br />

die Indizes dieser nächsten Nachbarn. Alternativ kann anstelle e<strong>in</strong>es festen<br />

Wertes k auch die Größe ε e<strong>in</strong>er Umgebung des letzten Delay-Vektors vorgegeben<br />

werden (range search). Die nächsten Nachbarn s<strong>in</strong>d die E<strong>in</strong>gabevektoren<br />

des Modellierungsproblems.


Kapitel 2. Lokale <strong>Modelle</strong> Seite 25<br />

3. Betrachte nun jeweils die letzte (d-te) Komponente <strong>der</strong> zeitliche Entwicklung<br />

<strong>der</strong> nächsten Nachbarn, d.h. x d nn(1)+l , . . . , xd nn(k)+l<br />

. Diese können als Ausgabe<br />

des Systems betrachtet werden.<br />

4. Bilde nun e<strong>in</strong> Modell anhand <strong>der</strong> Menge<br />

Ω = {( x nn(1) , x d nn(1)+l)<br />

, . . . ,<br />

(<br />

xnn(k) , x d nn(k)+l<br />

)}<br />

(2.3)<br />

und wende dieses auf den letzten Delay-Vektor xñ an. Die Ausgabe des Modells<br />

ist e<strong>in</strong> Schätzer für s n+l .<br />

Manchmal kann es s<strong>in</strong>nvoll se<strong>in</strong>, anstelle <strong>der</strong> x d nn(i)+l die Differenz xd nn(i)+l − xd nn(i) zu<br />

verwenden. Gerade bei den sog. lokal konstanten <strong>Modelle</strong>n (siehe Abschnitt 3.1) kann<br />

dies zur e<strong>in</strong>er besseren Modellierung <strong>der</strong> Dynamik führen (<strong>in</strong>tegrierte Mittelung) [24].<br />

Direkte und iterierte Vorhersage<br />

Der eben vorgestellte Algorithmus ist die sog. direkte Vorhersage über l Zeitschritte,<br />

d.h. wir erhalten e<strong>in</strong> Modell<br />

ŝ n+l = f l (xñ) , (2.4)<br />

welches die Dynamik des Systems für l Zeitschritte direkt approximiert. Alternativ<br />

kann auch e<strong>in</strong> Modell f 1 (xñ) für nur e<strong>in</strong>en Zeitschritt berechnet und dieses mehrfach<br />

h<strong>in</strong>tere<strong>in</strong>an<strong>der</strong> angewandt werden. Da die Ausgabe des Modells skalar ist, muss für<br />

die ersten l − 1 iterierten Vorhersagen jeweils e<strong>in</strong> neuer Delay-Vektor konstruiert<br />

werden, <strong>in</strong> den nach und nach die vorhergesagten Werte e<strong>in</strong>fließen und <strong>der</strong> somit<br />

auch mit wachsen<strong>der</strong> Schrittweite immer ungenauer wird.<br />

Der Vorteil <strong>der</strong> iterierten Vorhersage ist, dass die Dynamik des Systems für nur<br />

e<strong>in</strong>en Zeitschritt meist weniger komplex se<strong>in</strong> wird und somit die Qualität des Modells<br />

höher ist als für die direkte Vorhersage. Allerd<strong>in</strong>gs geht dieser kle<strong>in</strong>ere Fehler<br />

<strong>in</strong> die Vorhersage des nächsten Zeitschrittes mit e<strong>in</strong>, d.h. die Fehler akkumulieren<br />

im Laufe <strong>der</strong> iterierten Vorhersage und können letztlich e<strong>in</strong>en größeren Fehler<br />

produzieren als bei <strong>der</strong> direkten Vorhersage. Dies ist jedoch bei <strong>der</strong> Vorhersage chaotischer<br />

Zeitreihen mit <strong>lokale</strong>n <strong>Modelle</strong>n üblicherweise nicht <strong>der</strong> Fall (vgl. [11],[22]).<br />

Die kle<strong>in</strong>en Umgebungen des Anfragepunktes reichen zur Modellierung komplexer<br />

Dynamik über mehrere Zeitschritte im Allgeme<strong>in</strong>en nicht aus. Die iterierte Vorhersage<br />

ist nahezu immer genauer, da <strong>der</strong> Vorteil <strong>der</strong> e<strong>in</strong>facheren Dynamik für e<strong>in</strong>en<br />

Zeitschritt den Nachteil <strong>der</strong> Fehlerakkumulation überwiegt. Nur wenn die Zeitreihe<br />

durch Abtastung mit relativ hoher Frequenz gewonnen wurde, kann die direkte<br />

Vorhersage Vorteile bieten. Allerd<strong>in</strong>gs gibt es für die iterierte Vorhersage e<strong>in</strong>e ganz


Seite 26<br />

2.2. Der Fluch <strong>der</strong> Dimensionen<br />

entscheidende Bed<strong>in</strong>gung: die Modellparameter (Anzahl nächster Nachbarn, Metrik,<br />

etc.) müssen auch tatsächlich für die iterierte Vorhersage über mehrere Zeitschritte<br />

optimiert werden. Die Modellparameter, die für die E<strong>in</strong>schritt-Vorhersage optimal<br />

s<strong>in</strong>d, s<strong>in</strong>d dies meist nicht für die Mehrschritt-Vorhersage, da die Akkumulation des<br />

Fehlers nicht berücksichtigt wird. Entscheidend für die Optimierung <strong>der</strong> Parameter<br />

ist somit e<strong>in</strong>e Fehlergröße, die die Akkumulation des Fehlers berücksichtigt (siehe<br />

Kapitel 2.4).<br />

2.2 Der Fluch <strong>der</strong> Dimensionen<br />

Der stehende Begriff “Fluch <strong>der</strong> Dimensionen” (Curse of dimensionality) wurde<br />

von Bellman [5] geprägt und etwas dramatisch als “(...) Verwünschung, die seit<br />

Urzeiten auf <strong>der</strong> Wissenschaft lastet” beschrieben. Die Bezeichnung beschreibt allgeme<strong>in</strong><br />

das Problem, hochdimensionale Räume dicht mit Datenpunkten zu füllen.<br />

Schon e<strong>in</strong>fache Überlegungen verdeutlichen dies: möchte man e<strong>in</strong>en n-dimensionalen<br />

Raum so mit Datenpunkten füllen, dass diese auf e<strong>in</strong>em Gitter liegen wobei auf jede<br />

Koord<strong>in</strong>atenachse zehn Datenpunkte entfallen, so s<strong>in</strong>d hierfür 10 n Datenpunkte<br />

nötig. Schon für kle<strong>in</strong>e Werte von n wird somit die nötige Anzahl an Datenpunkten<br />

extrem groß.<br />

Das eigentliche Problem hochdimensionaler Räume ist jedoch, dass die Oberfläche<br />

<strong>der</strong> Punktemenge so groß wird, dass die konvexe Hülle nahezu alle Punkte enthält,<br />

o<strong>der</strong> e<strong>in</strong>facher ausgedrückt: Es gibt so viele unterschiedliche Richtungen, dass fast<br />

alle Punkte “außen” und kaum Punkte “<strong>in</strong>nen” liegen. Im Falle von gleichverteilten<br />

Datenpunkten ist beim E<strong>in</strong>heitswürfel [0, 1] n die Wahrsche<strong>in</strong>lichkeit p n (ε), mit <strong>der</strong><br />

e<strong>in</strong> Datenpunkt höchstens um ε vom Rand des Datenraums abweicht gegeben durch<br />

p n (ε) = 1 − (1 − 2ε) n . (2.5)<br />

Der Plot dieser Funktion (Abbildung 2.1) zeigt, dass schon für mo<strong>der</strong>ate n die<br />

Funktion sich asymptotisch dem Wert E<strong>in</strong>s nähert, d.h. es ist sehr unwahrsche<strong>in</strong>lich,<br />

Punkte im Innern des Volumens zu f<strong>in</strong>den. Daraus ergibt sich das Problem, dass die<br />

typischen Entfernungen zu den nächsten Nachbarn e<strong>in</strong>es Datenpunktes nicht mehr<br />

kle<strong>in</strong> s<strong>in</strong>d im Vergleich zur Kantenlänge des betrachteten Raumes. Dies ist <strong>in</strong>sb. dann<br />

zu beachten, wenn man nicht e<strong>in</strong>e feste Anzahl nächster Nachbarn sucht, son<strong>der</strong>n<br />

<strong>in</strong> e<strong>in</strong>er festen Umgebung e<strong>in</strong>es Datenpunktes (range search). In hochdimensionalen<br />

Datenräumen muss diese Umgebung so groß gewählt werden, dass diese i.A. denn<br />

Rand des Datenraumes überschreitet.<br />

Nun gelten alle obigen Aussagen für gleichverteilte Datenpunkte; dies ist für Daten,<br />

die von determ<strong>in</strong>istischen Systemen generiert werden, jedoch nicht unbed<strong>in</strong>gt <strong>der</strong><br />

Fall. Hier liegen die Punkte häufig auf e<strong>in</strong>er niedrigdimensionalen Mannigfaltigkeit


Kapitel 2. Lokale <strong>Modelle</strong> Seite 27<br />

1<br />

0.8<br />

p n<br />

(0.1)<br />

0.6<br />

0.4<br />

0.2<br />

0 5 10 15 20 25 30<br />

Dimension n<br />

Abbildung 2.1: Wahrsche<strong>in</strong>lichkeit, dass sich Punkt im Abstand 0.1 vom Rand des<br />

E<strong>in</strong>heitswürfels [0, 1] n bef<strong>in</strong>det<br />

des E<strong>in</strong>bettungsraumes. Als Beispiel wurden Punkte des Lorenz-Systems generiert,<br />

das durch das Differentialgleichungssystem<br />

ẋ 1 = σ(x 1 − x 2 )<br />

ẋ 1 = rx 1 − x 2 − x 1 x 3<br />

ẋ 3 = x 1 x 2 − bx 3<br />

(2.6)<br />

gegeben ist, wobei σ = −10, b = 8/3 und r = 28 gesetzt wurde. Mit diesen Parametern<br />

ergibt sich e<strong>in</strong> chaotischer Attraktor mit Korrelationsdimension 2.055 [37].<br />

Die Variable x 1 wurde als Zeitreihe aufgefasst, auf das Intervall [0, 1] normiert und<br />

schrittweise <strong>in</strong> Räume immer höherer Dimension e<strong>in</strong>gebettet (von d = 5 bis d = 100,<br />

Delay τ = 1). Hierbei wurde auch die Länge <strong>der</strong> Zeitreihe so erhöht, dass immer<br />

konstant 5000 Delay-Vektoren im Datenraum zur Verfügung standen. Es wurde nun<br />

für jeden Punkt die 100 nächsten Nachbarn berechnet und die Distanzen als Histogramm<br />

aufgetragen.<br />

Wie man an Abbildung 2.2(a) sieht, wird mit wachsen<strong>der</strong> Dimension das Histogramm<br />

breiter und flacher, das Maximum verschiebt sich aber zu höheren Distanzen.<br />

Zum Vergleich wurden für verschiedene Dimensionen (von d = 3 bis d = 300)<br />

zufällig und gleichverteilt wie<strong>der</strong> 5000 Punkte gewählt, die somit nicht auf e<strong>in</strong>er<br />

niedrigdimensionalen Untermannigfaltigkeit liegen. Auch hier wurden jeweils die 100<br />

nächsten Nachbarn berechnet und als Histogramm aufgetragen (Abbildung 2.2(b)).<br />

Man sieht deutlich, dass das Histogramm ab ca. d = 30 kaum noch abflacht und<br />

sich auch <strong>in</strong> <strong>der</strong> Breite praktisch nicht verän<strong>der</strong>t, sich jedoch sehr stark zu größeren<br />

Distanzen verschiebt. Dies führt dazu, dass sich die Distanzen relativ gesehen<br />

annähern: das Verhältnis vom nächsten und dem am weitesten entfernten Nachbar<br />

geht gegen E<strong>in</strong>s. Dies führt dazu, dass es zunehmend schwerer wird, mit <strong>lokale</strong>n<br />

Umgebungen zu arbeiten, weil es “Lokalität” <strong>in</strong> dem S<strong>in</strong>ne nicht mehr gibt [16].


Seite 28<br />

2.3. Bias, Varianz und Overfitt<strong>in</strong>g<br />

25<br />

25<br />

20<br />

d=10<br />

20<br />

d=3<br />

15<br />

15<br />

d=5<br />

10<br />

d=30<br />

10<br />

d=10<br />

d=50<br />

d=100<br />

d=200<br />

d=300<br />

5<br />

d=50<br />

5<br />

d=100<br />

0<br />

0 0.5 1 1.5 2 2.5<br />

Distanz<br />

(a) Delay-Vektoren von Lorenz-Datensatz<br />

0<br />

0 1 2 3 4 5 6 7 8<br />

Distanz<br />

(b) Gleichverteilte Punkte<br />

Abbildung 2.2: Histogramm <strong>der</strong> mittleren Distanzen <strong>der</strong> 100 nächsten Nachbarn für<br />

Lorenz-Daten (a) und gleichverteilte Datenpunkte (b) für unterschiedliche Dimensionen<br />

d.<br />

Es ist jedoch im wesentlichen die Dimension <strong>der</strong> Punktmenge, die entscheidend ist.<br />

Dies zeigt sich beispielsweise auch bei <strong>der</strong> Laufzeit effizienter Algorithmen zur Suche<br />

nach nächsten Nachbarn (siehe Abschnitt 3.10): auch diese hängen wesentlich von<br />

<strong>der</strong> Dimension <strong>der</strong> Punktmenge ab.<br />

2.3 Bias, Varianz und Overfitt<strong>in</strong>g<br />

Im Abschnitt 2.1 wurde die Betrachtung des Modellierungsproblems als Schätzung<br />

e<strong>in</strong>er Regression E [y | x] vorgestellt. In diesem Abschnitt soll dies nochmals vertieft<br />

werden, um pr<strong>in</strong>zipielle Grenzen <strong>der</strong> Modellierung aufzuzeigen, die sowohl für den<br />

parametrischen wie den nichtparametrischen Ansatz gelten.<br />

Im Folgenden wird e<strong>in</strong>e beliebige Funktion f(x) betrachtet, die die Ausgabe y für<br />

den E<strong>in</strong>gabevektor x modelliert. Der Erwartungswert des quadratischen Fehlers bei


Kapitel 2. Lokale <strong>Modelle</strong> Seite 29<br />

gegebenem x lässt sich dann schreiben als<br />

E [ (y − f(x)) 2 | x ] = E [ ((y − E [y | x]) + (E [y | x] − f(x))) 2 |x ]<br />

= E [ (y − E[y | x]) 2] + (E [y | x] − f(x)) 2<br />

+ 2E [(y − E [y | x])| x] · (E [y | x] − f(x)) 2<br />

= E [ (y − E[y | x]) 2] + (E [y | x] − f(x)) 2<br />

+ 2 (E [y | x] − E [y | x]) · (E [y | x] − f(x)) 2<br />

= E [ (y − E [y | x]) 2 | x ] + (E [y | x] − f(x)) 2<br />

≥ E [ (y − E[y | x]) 2 | x ] ,<br />

(2.7)<br />

d.h. die Regression E [y | x] ist die beste Schätzung des Ausgabewertes y bei gegebenem<br />

x <strong>in</strong> dem S<strong>in</strong>ne, dass sie den mittleren quadratischen Fehler m<strong>in</strong>imiert.<br />

Ziel <strong>der</strong> Modellierung muss es also se<strong>in</strong>, dass die Funktion f(x) möglichst gut die<br />

Regression approximiert. Doch selbst wenn man erreicht, dass f(x) = E [y | x] ist,<br />

heißt das nicht, dass je<strong>der</strong> Datensatz des Systems perfekt beschrieben werden kann,<br />

da evtl. stochastische E<strong>in</strong>flüsse vorliegen, die aufgrund ihrer Unkorelliertheit nicht<br />

modelliert werden können.<br />

Um dies zu verdeutlichen, betrachtet man zunächst die Funktion f(x) zur Schätzung<br />

<strong>der</strong> Regression an e<strong>in</strong>er konkreten Realisierung Ω = {(x 1 , y 1 ), . . . , (x n , y n )} des Systems;<br />

dies soll im Folgenden durch die Notation f(x; Ω) dargestellt werden. Es wird<br />

nun <strong>der</strong> Erwartungswert des quadratischen Fehlers für diese Realisierung Ω betrachtet.<br />

Dieser lässt sich wie bei (2.7) <strong>in</strong> zwei Terme aufspalten:<br />

E [(y − f(x; Ω)) 2 | x, Ω] = E [(y − E [y | x]) 2 | x, Ω] + (f(x; Ω) − E [y | x]) 2<br />

} {{ } } {{ }<br />

Varianz y Modellierungsfehler<br />

. (2.8)<br />

Der Term E [(y − E [y | x]) 2 | x, Ω] ist die Varianz von y bei gegebenem x und ist<br />

unabhängig von <strong>der</strong> Realisierung Ω und ebenso von <strong>der</strong> Funktion f(x). Als Beispiel<br />

denke man sich e<strong>in</strong>e Zeitreihe, die jedoch durch um Null verteiltes weißes Rauschen<br />

mit Varianz σ 2 gestört wird:<br />

˜s t = s t + ε t , ε ∼ WN(0, σ 2 ) . (2.9)<br />

Die Varianz <strong>in</strong> (2.8) entspricht hierbei genau <strong>der</strong> Varianz des weißen Rauschens. Sie<br />

stellt somit e<strong>in</strong>e untere Schranke für den Erwartungswert des quadratischen Fehlers<br />

dar, auch wenn es natürlich trotzdem möglich ist, bei e<strong>in</strong>em konkreten Datensatz


Seite 30<br />

2.3. Bias, Varianz und Overfitt<strong>in</strong>g<br />

durch Interpolation <strong>der</strong> Daten den Fehler auf Null zu br<strong>in</strong>gen. E<strong>in</strong>e solches Modell<br />

würde jedoch für an<strong>der</strong>e Datensätze schlechtere Ergebnisse br<strong>in</strong>gen als die Regression<br />

E [y | x], da hierbei neben den eigentlichen Strukturen auch Rauschen modelliert<br />

wird. Man bezeichnet dies als e<strong>in</strong> Overfitt<strong>in</strong>g des Modells an den gegebenen Datensatz.<br />

Dieser Effekt soll nun näher erläutert werden.<br />

Der Bias/Varianz-Kompromiss<br />

Da die Varianz aus (2.8) unabhängig von <strong>der</strong> Funktion f(x) ist, muss für die Optimierung<br />

e<strong>in</strong>es Modells <strong>der</strong> zweite Term (f(x; Ω) − E [y | x]) 2 betrachtet werden,<br />

<strong>der</strong> den eigentlichen Modellierungsfehler darstellt. Im Idealfall ist dieser Null und<br />

somit f(x) identisch mit <strong>der</strong> Regression E [y | x]. Es ist jedoch nicht ausreichend,<br />

dies für e<strong>in</strong>e konkrete Realisierung Ω zu erreichen, vielmehr muss dies im Mittel<br />

über alle möglichen Realisierungen erfüllt se<strong>in</strong>; dies entspricht <strong>der</strong> For<strong>der</strong>ung, dass<br />

das Modell die Fähigkeit zur Generalisierung besitzen muss. Man bildet daher den<br />

Erwartungswert dieses Terms über alle möglichen Realisierungen und zerlegt diesen<br />

wie <strong>in</strong> (2.7). Dann ergibt sich<br />

E Ω [(f(x; Ω) − E [y | x]) 2 ]<br />

= E Ω<br />

[<br />

((f(x; Ω) − EΩ [f(x; Ω)]) + (E Ω [f(x; Ω)] − E [y | x])) 2]<br />

= E Ω<br />

[<br />

(f(x; Ω) − EΩ [f(x; Ω)]) 2] + E Ω<br />

[<br />

(EΩ [f(x; Ω)] − E [y | x]) 2]<br />

+ 2E Ω [(f(x; Ω) − E Ω [f(x; Ω)]) · (E Ω [f(x; Ω)] − E [y | x])]<br />

= E Ω<br />

[<br />

(f(x; Ω) − EΩ [f(x; Ω)]) 2] + (E Ω [f(x; Ω)] − E [y | x]) 2<br />

+ 2E Ω [f(x; Ω) − E Ω [f(x; Ω)]] · (E Ω [f(x; Ω)] − E [y | x])<br />

= (E Ω [f(x; Ω)] − E [y | x]) 2 [<br />

+ E<br />

} {{ } Ω (f(x; Ω) − EΩ [f(x; Ω)]) 2] .<br />

} {{ }<br />

Bias 2 Varianz f<br />

(2.10)<br />

Der Bias beschreibt den Erwartungswert <strong>der</strong> Abweichung <strong>der</strong> Funktion f(x) von<br />

<strong>der</strong> Regression über alle möglichen Realisierungen. E<strong>in</strong>e Funktion mit hohem Bias<br />

liefert somit für jede Realisierung e<strong>in</strong> ähnliches Ergebnis, das jedoch im Mittel stark<br />

von <strong>der</strong> Regression abweicht. Man spricht hierbei von e<strong>in</strong>em Un<strong>der</strong>fitt<strong>in</strong>g, da das<br />

Modell nicht flexibel genug ist. E<strong>in</strong> Funktion mit niedrigem Bias h<strong>in</strong>gegen liegt im<br />

Mittel über alle Realisierungen nahe bei <strong>der</strong> Regression. Im Extremfall verschw<strong>in</strong>det<br />

<strong>der</strong> Bias, d.h. es gilt E Ω [f(x; Ω)] = E [y | x]. Dies heißt jedoch nicht, dass dann auch<br />

<strong>der</strong> Modellierungsfehler beson<strong>der</strong>s kle<strong>in</strong> wird. Dies liegt daran, dass selbst wenn <strong>der</strong><br />

Bias Null ist daraus nicht folgt, dass auch f(x; Ω) für e<strong>in</strong>e gegebene Realisierung e<strong>in</strong><br />

guter Schätzer für die Regression E [y | x] ist. E<strong>in</strong>e Funktion ohne o<strong>der</strong> mit niedrigem<br />

Bias kann für verschiedene Realisierungen ganz unterschiedliche Ausgaben liefern,


Kapitel 2. Lokale <strong>Modelle</strong> Seite 31<br />

was die Varianz vergrößert, die die Streuung <strong>der</strong> Funktion f(x) <strong>in</strong> Abhängigkeit<br />

von den unterschiedlichen Realisierungen beschreibt und additiv <strong>in</strong> den Modellierungsfehler<br />

e<strong>in</strong>geht. Dies entspricht dem oben erwähnten Overfitt<strong>in</strong>g, wo spezifische<br />

Eigenarten e<strong>in</strong>es bestimmten Datensatzes modelliert werden, die jedoch nicht verallgeme<strong>in</strong>erungsfähig<br />

s<strong>in</strong>d. Allerd<strong>in</strong>gs führt e<strong>in</strong> niedriger Bias nicht zwangsläufig zu<br />

e<strong>in</strong>er hohen Varianz; gerade bei h<strong>in</strong>reichend komplexen Datensätzen sollte auch e<strong>in</strong><br />

entsprechend komplexes Modell e<strong>in</strong>gesetzt werden, da die Verr<strong>in</strong>gerung des Bias hier<br />

den Anstieg <strong>der</strong> Varianz überwiegt.<br />

Man beachte den Unterschied zwischen den Varianzen <strong>in</strong> (2.8) und (2.10): während<br />

die e<strong>in</strong>e unabhängig von f(x) und Ω ist, ist die an<strong>der</strong>e direkt vom gegebenen Modell<br />

abhängig und somit kontrollierbar. Die Tatsache, dass i.A. niedriger Bias zu hoher<br />

Varianz führt und umgekehrt, wird von Geman et al. <strong>in</strong> [14] als das Bias-Varianz-<br />

Dilemma bezeichnet, wobei die Bezeichnung “Kompromiss” (trade-off) das Problem<br />

aber besser erfasst: bei <strong>der</strong> Berechnung e<strong>in</strong>es Schätzers für die Regression muss e<strong>in</strong><br />

Kompromiss zwischen Bias und Varianz o<strong>der</strong> etwas freier ausgedrückt: zwischen Robustheit<br />

und Variabilität gefunden werden. Sowohl Bias als auch Varianz gleichzeitig<br />

zum Verschw<strong>in</strong>den zu br<strong>in</strong>gen, ist im Allgeme<strong>in</strong>en nicht möglich. E<strong>in</strong> Beispiel hierfür<br />

ist die Wahl <strong>der</strong> Größe <strong>der</strong> Umgebung bei <strong>lokale</strong>n <strong>Modelle</strong>n (siehe Abschnitt 3.3.1).<br />

Vermeidung von Overfitt<strong>in</strong>g<br />

Das Problem des Overfitt<strong>in</strong>g entsteht beispielsweise dadurch, dass die Parameter des<br />

Modells ausschließlich über e<strong>in</strong>e M<strong>in</strong>imierung des mittleren quadratischen Fehlers<br />

auf <strong>der</strong> Tra<strong>in</strong><strong>in</strong>gsmenge optimiert werden. E<strong>in</strong> h<strong>in</strong>reichend komplexes Modell mit<br />

niedrigem Bias kann hierbei immer so tra<strong>in</strong>iert werden, dass dieser Fehler nahezu<br />

verschw<strong>in</strong>det, hierbei jedoch i.A. die Varianz ansteigt. Um dies zu vermeiden, kann<br />

an zwei Stellen angesetzt werden: <strong>der</strong> Komplexität des Modells (die statistische<br />

Lerntheorie spricht auch von <strong>der</strong> Kapazität <strong>der</strong> Lernmasch<strong>in</strong>e) und dem Tra<strong>in</strong><strong>in</strong>g des<br />

Modells. Im Falle von <strong>lokale</strong>n <strong>Modelle</strong>n wurde bereits <strong>in</strong> Abschnitt 2.1.1 erwähnt,<br />

dass die Größe <strong>der</strong> Umgebung des Anfragepunktes wesentlich die Variabilität des<br />

Modells steuert, vom Extremfall <strong>der</strong> Interpolation zum Extremfall e<strong>in</strong>es e<strong>in</strong>fachen<br />

globalen Modells. Sie ist also <strong>der</strong> erste Ansatzpunkt zur Steuerung <strong>der</strong> Komplexität<br />

des Modells, sowohl zur Vermeidung von Overfitt<strong>in</strong>g als auch zur Vermeidung e<strong>in</strong>es<br />

zu hohen Bias und dem daraus folgenden Un<strong>der</strong>fitt<strong>in</strong>g. An<strong>der</strong>e Möglichkeiten, die vor<br />

allem e<strong>in</strong>e zu hohe Varianz vermeiden, bestehen <strong>in</strong> <strong>der</strong> Regularisierung des Modells<br />

(Abschnitt 3.4), <strong>der</strong> Reduzierung des Datensatzes (Abschnitt 3.6) und <strong>der</strong> Wahl<br />

alternativer Kostenfunktionen (Kapitel 4).<br />

Für das Tra<strong>in</strong><strong>in</strong>g e<strong>in</strong>es <strong>lokale</strong>n Modells kann e<strong>in</strong>e “extreme” Form <strong>der</strong> sog. Cross-<br />

Validation verwendet werden, die im folgenden Abschnitt erläutert werden soll.


Seite 32<br />

2.4. Validierung <strong>lokale</strong>r <strong>Modelle</strong><br />

2.4 Validierung <strong>lokale</strong>r <strong>Modelle</strong><br />

Wie im vorigen Abschnitt erläutert ist es nicht ratsam, e<strong>in</strong> Modell ausschließlich<br />

auf Basis des mittleren quadratischen Fehlers des gegebenen Datensatzes zu optimieren,<br />

da es hierbei zu e<strong>in</strong>em Overfitt<strong>in</strong>g kommen kann. E<strong>in</strong>e Möglichkeit ist<br />

natürlich, von dem zu untersuchenden System neue Datensätze zu erstellen und<br />

das Modell mit diesen neuen Daten zu validieren. Allerd<strong>in</strong>gs ist dies häufig nicht<br />

möglich und zudem könnten diese Daten ebensogut <strong>in</strong> den bestehenden Datensatz<br />

<strong>in</strong>tegriert werden, um so die Genauigkeit des Modells weiter zu verbessern (gerade<br />

bei <strong>lokale</strong>n <strong>Modelle</strong>n ist die Genauigkeit eng mit <strong>der</strong> Zahl <strong>der</strong> zur Verfügung stehenden<br />

Daten verknüpft). E<strong>in</strong>e naheliegende Alternative ist, Tra<strong>in</strong><strong>in</strong>g und Validierung<br />

an Teilmengen des bestehenden Datensatzes vorzunehmen. Diese Strategie wird als<br />

Cross-Validation bezeichnet.<br />

2.4.1 Cross-Validation<br />

Bei <strong>der</strong> Cross-Validation (CV) wird <strong>der</strong> Datensatz <strong>in</strong> zwei Mengen aufgeteilt: e<strong>in</strong>e<br />

• Tra<strong>in</strong><strong>in</strong>gsmenge, anhand <strong>der</strong>er das Modell berechnet wird und e<strong>in</strong>e<br />

• Testmenge, die zur Validierung des Modells herangezogen wird.<br />

Wesentlich für die Cross-Validation ist, dass ke<strong>in</strong>erlei Daten <strong>der</strong> Testmenge <strong>in</strong> die<br />

Bildung des Modells e<strong>in</strong>fließen. Im Falle <strong>lokale</strong>r <strong>Modelle</strong> bedeutet dies, dass bei e<strong>in</strong>em<br />

Anfragepunkt aus <strong>der</strong> Testmenge nur nächste Nachbarn <strong>in</strong> <strong>der</strong> Tra<strong>in</strong><strong>in</strong>gsmenge<br />

gesucht werden dürfen. E<strong>in</strong> typischer Verlauf e<strong>in</strong>er solchen Cross-Validation ist, dass<br />

zunächst <strong>der</strong> Fehler sowohl auf dem Tra<strong>in</strong><strong>in</strong>gs- wie dem Testdatensatz kle<strong>in</strong>er wird,<br />

<strong>der</strong> Testfehler jedoch ansteigt, sobald e<strong>in</strong> Overfitt<strong>in</strong>g des Modells auftritt. Das M<strong>in</strong>imum<br />

des Testfehlers entspricht somit dem optimalen Satz <strong>der</strong> Modellparameter.<br />

Nachteil <strong>der</strong> Cross-Validation ist, dass weniger Punkte für das Tra<strong>in</strong><strong>in</strong>g des Modells<br />

zur Verfügung stehen. Es bleibt daher immer die Frage offen, ob e<strong>in</strong> Tra<strong>in</strong><strong>in</strong>g auf dem<br />

kompletten Datensatz ohne Cross-Validation nicht vielleicht e<strong>in</strong> besseres Modell liefern<br />

würde. Die Cross-Validation führt somit letztlich zu e<strong>in</strong>er Erhöhung des Bias des<br />

Modells, was bei komplexen Daten zu e<strong>in</strong>er schlechteren Modellierung führen kann.<br />

Es trifft im übrigen auf praktisch alle Verfahren zur Vermeidung von Overfitt<strong>in</strong>g<br />

zu, dass diese zu e<strong>in</strong>er Erhöhung des Bias führen (für e<strong>in</strong>e ausführliche Diskussion<br />

dieses Themas siehe [33]). Man kann diesen Effekt bei <strong>der</strong> Cross-Validation aber<br />

dadurch m<strong>in</strong>imieren, <strong>in</strong>dem man die Testmenge möglichst kle<strong>in</strong> macht. Natürlich<br />

verliert dadurch die Validierung des Modells an Aussagekraft, jedoch kann dieser<br />

Vorgang für mehrere Realisierungen von Testmengen durchgeführt werden. Dieses<br />

Pr<strong>in</strong>zip soll nun näher erläutert werden.


Kapitel 2. Lokale <strong>Modelle</strong> Seite 33<br />

2.4.2 Leave-one-out Cross-Validation<br />

Bei <strong>der</strong> Leave-one-out Cross-Validation (LOO-CV) wird das Pr<strong>in</strong>zip <strong>der</strong> Cross-<br />

Validation gewissermaßen auf die Spitze getrieben: es wird genau e<strong>in</strong> Punkt als<br />

Testmenge verwendet und die N − 1 restlichen Punkte dienen als Tra<strong>in</strong><strong>in</strong>gsmenge.<br />

Natürlich hat e<strong>in</strong>e Testmenge bestehend aus e<strong>in</strong>em Punkt ke<strong>in</strong>e wirkliche Aussagekraft<br />

über die Verallgeme<strong>in</strong>erungsfähigkeit des Modells, daher wird dieser Vorgang<br />

für viele verschiedene (am besten alle) Punkte des Datensatzes wie<strong>der</strong>holt und die<br />

Fehler <strong>der</strong> Vorhersage gemittelt.<br />

Die LOO-CV ist e<strong>in</strong> mächtiges Werkzeug zur Validierung, da das Modell mit Ausnahme<br />

e<strong>in</strong>es Punktes auf <strong>der</strong> gesamten Tra<strong>in</strong><strong>in</strong>gsmenge gebildet wird und somit <strong>der</strong><br />

Bias nahezu konstant bleibt. Sie ist überhaupt nur deshalb möglich, weil das konkrete<br />

Modell erst bei Kenntnis e<strong>in</strong>es Anfragepunktes berechnet wird; sie ist somit nur mit<br />

den sog. Lazy Learnern wie <strong>lokale</strong>n <strong>Modelle</strong>n möglich. Hier zahlt sich die Flexibilität<br />

dieses Ansatzes aus. Bei globalen <strong>Modelle</strong>n muss das Modell bei je<strong>der</strong> neuen Teilung<br />

des Datensatzes <strong>in</strong> Test- und Tra<strong>in</strong><strong>in</strong>gsmenge komplett neu berechnet werden, weshalb<br />

hier die LOO-CV <strong>in</strong> <strong>der</strong> Praxis kaum durchführbar ist. Bei <strong>lokale</strong>n <strong>Modelle</strong>n<br />

regelt sich dieses Problem praktisch von selbst, <strong>in</strong>dem man e<strong>in</strong>fach nur ausschließen<br />

muss, dass bei <strong>der</strong> Suche nächster Nachbarn <strong>der</strong> Testpunkt selbst gefunden wird.<br />

Bei eng abgetasteten kont<strong>in</strong>uierlichen Systemen ist zusätzlich s<strong>in</strong>nvoll, das gesamte<br />

Trajektoriensegment des Anfragepunktes aus <strong>der</strong> Tra<strong>in</strong><strong>in</strong>gsmenge zu entfernen (siehe<br />

den folgenden Abschnitt). Bei <strong>der</strong> Validierung <strong>der</strong> Mehrschritt-Vorhersage e<strong>in</strong>es<br />

Punktes e<strong>in</strong>er Zeitreihe ist dies <strong>in</strong> jedem Fall nötig.<br />

2.4.3 Fehlermaße bei Leave-one-out Cross-Validation<br />

In dieser Arbeit wird als Fehlermaß ausschließlich <strong>der</strong> mittlere quadratische Fehler<br />

verwendet, <strong>der</strong> <strong>in</strong> <strong>der</strong> e<strong>in</strong>fachsten Form gegeben ist durch<br />

MSE 1 = 1<br />

|T ref |<br />

∑<br />

t∈T ref<br />

(<br />

yt − f t (x t ) ) 2<br />

, (2.11)<br />

wobei über e<strong>in</strong>e genügend große Zahl an Referenzpunkten T ref gemittelt werden muss<br />

und f t (x) das Modell bezeichnet, welches unter Auslassen des Punktes x t gebildet<br />

wurde.<br />

Bei <strong>der</strong> Vorhersage von Zeitreihen stellt sich allerd<strong>in</strong>gs die Frage, welche Schrittweite<br />

verwendet werden soll. Mit x t = (s t , s t−1 , . . . s t−(d−1) ) ist die e<strong>in</strong>fachste Wahl<br />

durch y t = s t+1 gegeben, also die Vorhersage e<strong>in</strong>es Schrittes <strong>in</strong> die Zukunft 2 . Gerade<br />

bei eng abgetasteten Zeitreihen hat dieser E<strong>in</strong>schritt-Vorhersagefehler aber wenig<br />

2 Der E<strong>in</strong>fachheit halber wird hier von e<strong>in</strong>em Delay von E<strong>in</strong>s ausgegangen.


Seite 34<br />

2.4. Validierung <strong>lokale</strong>r <strong>Modelle</strong><br />

Aussagekraft; <strong>in</strong>sb. ist <strong>der</strong> Satz an Parametern, <strong>der</strong> den E<strong>in</strong>schritt-Vorhersagefehler<br />

m<strong>in</strong>imiert <strong>in</strong> <strong>der</strong> Regel nicht identisch mit dem Satz, <strong>der</strong> auch bei mehr als e<strong>in</strong>em<br />

Vorhersageschritt die besten Ergebnisse liefert. Robuste Ergebnisse erhält man daher<br />

erst, wenn man die Fehler für mehrere iterierte Vorhersageschritte summiert.<br />

Dies ergibt den p-Schritt Vorhersagefehler<br />

MSE p = 1<br />

p|T ref |<br />

[<br />

∑ (st+1<br />

− f t (x t ) ) p−1<br />

∑<br />

2 (<br />

+ st+i+1 − f t+i (ˆx t+i ) ) ]<br />

2<br />

. (2.12)<br />

t∈T ref i=1<br />

Hierbei stammt nur <strong>der</strong> erste Punkt x t aus dem Datensatz, während alle weiteren<br />

iterierten Vorhersagen auf den geschätzten Punkten ˆx t+i basieren.<br />

Aufgrund des chaotischen Verhaltens <strong>der</strong> betrachteten Systeme kann die Anzahl <strong>der</strong><br />

Schritte p nicht beliebig groß gemacht werden. Verlässt man den Vorhersagehorizont<br />

des Modells, so wird <strong>der</strong> Vorhersagefehler sehr groß und liefert ke<strong>in</strong>e s<strong>in</strong>nvolle<br />

Aussage mehr. Die Anzahl <strong>der</strong> möglichen Vorhersageschritte hängt natürlich vom<br />

jeweiligen System ab; bei kont<strong>in</strong>uierlichen Systemen spielt zudem die gewählte Abtastrate<br />

e<strong>in</strong>e erhebliche Rolle.<br />

Bei eng abgetasteten Zeitreihen gibt es e<strong>in</strong> weiteres Problem: nimmt man für die<br />

LOO-CV e<strong>in</strong>en Testpunkt aus dem Datensatz heraus und sucht <strong>in</strong> <strong>der</strong> verbleibenden<br />

Tra<strong>in</strong><strong>in</strong>gsmenge dessen nächste Nachbarn, wird man mit hoher Wahrsche<strong>in</strong>lichkeit<br />

Punkte direkt vor und direkt h<strong>in</strong>ter dem Testpunkt f<strong>in</strong>den. Dies verfälscht jedoch<br />

das Ergebnis, da dies bei e<strong>in</strong>em “echten” Anfragepunkt, <strong>der</strong> nicht e<strong>in</strong>fach aus dem<br />

Datensatz entnommen wurde, nicht <strong>der</strong> Fall ist. Es ist daher s<strong>in</strong>nvoll, e<strong>in</strong>e bestimmte<br />

Anzahl an Punkten vor und h<strong>in</strong>ter dem Testpunkt von <strong>der</strong> Suche nächster Nachbarn<br />

auszuschließen. Zur Wahl dieses zusätzlichen Parameters bietet sich die mittlere<br />

Wie<strong>der</strong>kehrzeit des Systems an [25]. Sie wird nach folgendem Algorithmus berechnet:<br />

• Wähle zufällig e<strong>in</strong>en Punkt x i aus dem Datensatz.<br />

• Bestimme die Distanz d(x i , x i+p ) mit p = 1, 2, . . . zwischen diesem Punkt und<br />

den nachfolgenden Punkten.<br />

• Bestimmte den additiven Index p, ab dem die Distanz erstmals wie<strong>der</strong> kle<strong>in</strong>er<br />

wird. Dieser ist dann gerade die halbe Wie<strong>der</strong>kehrzeit für den Index i.<br />

• Wie<strong>der</strong>hole diese Schritte für genügend Punkte i des Datensatzes und bestimme<br />

den Mittelwert aller p i . Dieser ist gerade die halbe Wie<strong>der</strong>kehrzeit des<br />

Systems.<br />

Vor <strong>der</strong> Modellierung wird die mittlere Wie<strong>der</strong>kehrzeit des Systems berechnet, die<br />

im Folgenden mit dem Parameter c bezeichnet wird. Der Ausschluss aller Punkte


Kapitel 2. Lokale <strong>Modelle</strong> Seite 35<br />

im Intervall [t − c, t + c] bei Berechnung des Modells soll durch die Notation f t±c (x t )<br />

angegeben werden. Um die Güte <strong>der</strong> Vorhersage für verschiedene Zeitreihen besser<br />

vergleichen zu können, wird zusätzlich <strong>der</strong> Fehler durch die mittlere quadratische<br />

Abweichung <strong>der</strong> Zeitreihe normiert. Der normierte p-Schritt Vorhersagefehler unter<br />

Ausschluss dieses Intervalls wird dadurch zu<br />

N ∑ [ (st+1<br />

NMSE p =<br />

p|T ref | ∑ − f t±c (x<br />

N<br />

t ) ) 2<br />

+<br />

t=1 (st − ¯s) 2 t∈T ref<br />

p−1<br />

∑ (<br />

st+i+1 − f (t+i)±c (ˆx t+i ) ) ]<br />

2<br />

.<br />

i=1<br />

(2.13)<br />

Nur für NMSE p < 1 kann man von e<strong>in</strong>er erfolgreichen Modellierung sprechen <strong>in</strong> dem<br />

S<strong>in</strong>ne, dass das Modell bessere Vorhersagen liefert als e<strong>in</strong>e e<strong>in</strong>fache Schätzung über<br />

den Mittelwert <strong>der</strong> Zeitreihe.


Kapitel 3<br />

Lokal polynomiale Modellierung<br />

Gegeben sei e<strong>in</strong> Datensatz Ω = {(x 1 , y 1 ), . . . , (x n , y n )} bestehend aus den vektoriellen<br />

E<strong>in</strong>gabewerten x i und den jeweiligen skalaren Ausgabewerten y i . Gesucht ist nun<br />

e<strong>in</strong> Schätzer für die skalare Ausgabe e<strong>in</strong>es Anfragepunktes q, welcher häufig auch<br />

als Query bezeichnet wird. Gesucht ist somit e<strong>in</strong>e Schätzung f(x) für die Regression<br />

m(x) = E(Y | X = x).<br />

Bei <strong>der</strong> lokal polynomialen Modellierung besteht <strong>der</strong> Ansatz <strong>in</strong> e<strong>in</strong>er Taylor-Entwicklung<br />

<strong>in</strong> <strong>der</strong> Umgebung des Punktes q bis zu e<strong>in</strong>em vorgegebenen Grad p<br />

m(x) ≈ m(q) + m ′ (q)(x − q) + 1 2 m′′ (q)(x − q) 2 + . . . + m(p) (q)<br />

(x − q) p<br />

p!<br />

≡ ν 0 (q) + ν 1 (q) · (x − q) + ν 2 (q) · (x − q) 2 + . . . + ν p (q) · (x − q) p .<br />

(3.1)<br />

Die Koeffizienten werden über die übliche Methode <strong>der</strong> kle<strong>in</strong>sten Quadrate bestimmt,<br />

d.h. die Summe <strong>der</strong> quadratischen Abweichungen zwischen Modell und bekannten<br />

Datenpunkten<br />

P (ν) =<br />

n∑ p∑<br />

{y i − ν j (x i − q) j } 2 K h (x i − q) (3.2)<br />

i=1 j=0<br />

ist zu m<strong>in</strong>imieren. Die Funktion K h ist e<strong>in</strong>e sog. Kernfunktion, die jeden Punkt<br />

<strong>in</strong> Abhängigkeit von se<strong>in</strong>em Abstand zum Anfragepunkt wichtet und von ke<strong>in</strong>en<br />

an<strong>der</strong>en Größen abhängt. Der Parameter h <strong>der</strong> Kernfunktion wird als Bandbreite<br />

bezeichnet und legt die Größe <strong>der</strong> <strong>lokale</strong>n Nachbarschaft fest. Die Kernfunktion<br />

macht das Modell somit überhaupt erst lokal und durch den Bandbreite-Parameter<br />

wird <strong>der</strong> Grad <strong>der</strong> Lokalität gesteuert.<br />

36


Kapitel 3. Lokal polynomiale Modellierung Seite 37<br />

Für die Berechnung <strong>der</strong> Koeffizienten ist es s<strong>in</strong>nvoll, obigen Ausdruck mit Matrizen<br />

zu schreiben. Es soll gelten<br />

sowie<br />

X =<br />

⎛<br />

⎜<br />

⎝<br />

⎞<br />

1 (x 1 − q) . . . (x 1 − q) p<br />

⎟<br />

. .<br />

. ⎠ (3.3)<br />

1 (x n − q) . . . (x n − q) p<br />

y =<br />

⎛<br />

⎜<br />

⎝<br />

⎞<br />

⎛<br />

y 1<br />

ν<br />

⎟<br />

⎜<br />

. ⎠ und ν = ⎝<br />

0.<br />

T<br />

y n<br />

ν T p<br />

⎞<br />

⎟<br />

⎠ . (3.4)<br />

Weiterh<strong>in</strong> sei<br />

{√ }<br />

W = diag Kh (x i − q)<br />

=<br />

⎛<br />

⎞<br />

w 1 0 · · · 0<br />

0 w 2 · · · 0<br />

⎜<br />

⎝ . .<br />

..<br />

⎟ . . ⎠<br />

0 0 · · · w n<br />

(3.5)<br />

(3.6)<br />

e<strong>in</strong>e n × n-Wichtungsmatrix, auf <strong>der</strong>en Diagonale die sich aus <strong>der</strong> Kernfunktion<br />

ergebenden Gewichte stehen. Dann kann (3.2) geschrieben werden als<br />

P (ν) = (y − Xν) T W T W(y − Xν) (3.7)<br />

= y T W T Wy − ν T X T W T Wy − y T W T WXν + ν T X T W T WXν (3.8)<br />

= y T W y W − ν T X T W y W − y T W X W ν + ν T X T W X W ν , (3.9)<br />

wobei hier wie im Folgenden die Abkürzungen X W = WX und y W = Wy verwendet<br />

werden. Der Gradient dieser Funktion ist<br />

∇ ν P (ν) = −2X T W y W + 2X T W X W ν (3.10)<br />

und Nullsetzen des Gradienten und Auflösen nach ν ergibt e<strong>in</strong> e<strong>in</strong>deutiges Extremum<br />

<strong>der</strong> Funktion P (ν) bei


Seite 38<br />

3.1. Lokal konstantes und lokal l<strong>in</strong>eares Modell<br />

ν = (X T W X W ) −1 X T W y W<br />

= (X W ) † y W , (3.11)<br />

wobei die Pseudo<strong>in</strong>verse <strong>der</strong> Matrix X W<br />

X † W = (XT W X W ) −1 X T W .<br />

Die Hesse-Matrix ist gegeben durch<br />

verwendet wurde, die def<strong>in</strong>iert ist durch<br />

∇ 2 νP (ν) = 2X T W X W . (3.12)<br />

Sie ist positiv def<strong>in</strong>it für jede Matrix X mit l<strong>in</strong>ear unabhängigen Spalten. Daher ist<br />

P (ν) strikt konvex [27, Theorem 3.3.8] und somit ist (3.11) das globale M<strong>in</strong>imum<br />

dieser Funktion [27, Theorem 3.4.3].<br />

In obiger Formulierung s<strong>in</strong>d immer noch alle Datenpunkte an <strong>der</strong> Modellbildung beteiligt,<br />

auch wenn durch die Kernfunktion nur e<strong>in</strong>e Umgebung des Anfragepunktes<br />

Auswirkung auf den Koeffizientenvektor ν hat. Dies erleichtert zwar die mathematische<br />

Behandlung, ist aber <strong>in</strong> <strong>der</strong> Praxis wenig s<strong>in</strong>nvoll; hier wird man überhaupt<br />

nur e<strong>in</strong>e gewisse Anzahl nächster Nachbarn x nn(1) , . . . , x nn(k) <strong>in</strong> die Berechnung des<br />

Modells e<strong>in</strong>beziehen, die zusätzlich durch die Wichtungsmatrix W je nach Abstand<br />

zum Anfragepunkt gewichtet werden können. Diese nächsten Nachbarn müssen <strong>in</strong><br />

die Matrix X e<strong>in</strong>gesetzt werden und <strong>der</strong> Vektor y aus dem vorigen Abschnitt besteht<br />

dann aus den Ausgaben dieser nächsten Nachbarn, d.h. y = (y nn(1) , . . . , y nn(k) ) T .<br />

3.1 Lokal konstantes und lokal l<strong>in</strong>eares Modell<br />

Aus <strong>der</strong> allgeme<strong>in</strong>en Formulierung <strong>der</strong> lokal polynomialen Modellierung lassen sich<br />

zwei wichtige Spezialfälle ableiten: das lokal konstante (Grad p=0) und das lokal<br />

l<strong>in</strong>eare Modell (Grad p=1).<br />

Setzt man p = 0, so wird die Matrix X zu e<strong>in</strong>em Spaltenvektor <strong>in</strong> dem <strong>in</strong> je<strong>der</strong> Komponente<br />

die E<strong>in</strong>s steht. Beschränkt man sich beim Modellieren auf die k nächsten<br />

Nachbarn wie im vorigen Abschnitt beschrieben, so erhält man<br />

ν = (1 T kW1 k ) −1 1 T kWy (3.13)<br />

=<br />

∑ k<br />

i=1 w iy nn(i)<br />

∑ k<br />

i=1 w i<br />

(3.14)<br />

= ŷ ,


Kapitel 3. Lokal polynomiale Modellierung Seite 39<br />

d.h. den gewichteten Mittelwert <strong>der</strong> k nächsten Nachbarn des Anfragepunktes q;<br />

im Falle W = I wird <strong>der</strong> ungewichtete Mittelwert <strong>der</strong> nächsten Nachbarn gebildet.<br />

Verwendet man als Umgebung nur e<strong>in</strong>en nächsten Nachbarn, so ist die Ausgabe<br />

des Modells e<strong>in</strong>fach die Ausgabe dieses nächsten Nachbarn. In manchen Fällen liefert<br />

dieses denkbar e<strong>in</strong>fachste <strong>lokale</strong> Modell bereits Ergebnisse, die sich mit weitaus<br />

komplizierteren Methoden messen können.<br />

Das polynomiale Modell vom Grad p = 0 wird als lokal konstantes Modell bezeichnet;<br />

<strong>in</strong> <strong>der</strong> englischen Literatur f<strong>in</strong>det sich meist <strong>der</strong> Ausdruck local averag<strong>in</strong>g models.<br />

Das lokal l<strong>in</strong>eare Modell ergibt sich für p = 1, d.h. es wird e<strong>in</strong>e Ebene an die<br />

skalaren Ausgabewerte <strong>der</strong> nächsten Nachbarn des Anfragepunktes gefittet, so wie<br />

man es von <strong>der</strong> herkömmlichen l<strong>in</strong>earen Regression kennt, nur dass hier noch die<br />

Wichtungsmatrix W beteiligt ist. Die Berechnung <strong>der</strong> Ausgabe des Modells reduziert<br />

sich auf<br />

ŷ = [q 1] ν . (3.15)<br />

Mit Hilfe <strong>der</strong> S<strong>in</strong>gulärwertzerlegung kann <strong>der</strong> Koeffizientenvektor berechnet werden<br />

über<br />

ν = X † W y W =<br />

r∑<br />

i=1<br />

1<br />

σ i<br />

〈u T i , y W 〉v i , (3.16)<br />

wobei u i und v i die i-ten Spaltenvektoren <strong>der</strong> orthogonalen Matrizen U bzw. V aus<br />

<strong>der</strong> S<strong>in</strong>gulärwertzerlegung von X W s<strong>in</strong>d (siehe Anhang A).<br />

Natürlich könnte man jetzt immer weiter <strong>Modelle</strong> mit wachsendem p betrachten,<br />

aber es erweist sich, dass das lokal konstante und das lokal l<strong>in</strong>eare Modell bereits<br />

die wesentlichen Anwendungsgebiete abdecken; auf sie soll daher im nächsten Abschnitt<br />

vertiefend e<strong>in</strong>gegangen werden. Polynome höheren Grades als E<strong>in</strong>s haben<br />

Eigenschaften, die sie zum <strong>lokale</strong>n Modellieren wenig geeignet machen, <strong>in</strong>sb. <strong>in</strong> Gebieten<br />

<strong>in</strong> denen wenig Datenpunkte zur Modellierung vorhanden s<strong>in</strong>d. Sie neigen<br />

zum Überschw<strong>in</strong>gen und verlassen sehr schnell den Wertebereich <strong>der</strong> Datenpunkte.<br />

Bereits die lokal quadratischen <strong>Modelle</strong> (p = 2) s<strong>in</strong>d <strong>in</strong> den meisten Fällen numerisch<br />

zu <strong>in</strong>stabil und liefern gerade bei <strong>der</strong> Mehrschrittvorhersage chaotischer Zeitreihen<br />

schnell gänzlich falsche Ausgaben.<br />

3.2 Vergleich von lokal konstantem und lokal l<strong>in</strong>earem<br />

Modell<br />

Das lokal konstante und das lokal l<strong>in</strong>eare Modell s<strong>in</strong>d die beiden e<strong>in</strong>fachsten <strong>lokale</strong>n<br />

polynomialen <strong>Modelle</strong>, und gerade <strong>in</strong> ihrer E<strong>in</strong>fachheit liegt ihre Stärke. Es zeigt


Seite 40<br />

3.2. Vergleich von lokal konstantem und lokal l<strong>in</strong>earem Modell<br />

sich <strong>in</strong> <strong>der</strong> praktischen Anwendung, dass es nicht unbed<strong>in</strong>gt von Vorteil ist, beson<strong>der</strong>s<br />

flexible und komplexe <strong>Modelle</strong> lokal zu verwenden, da diese e<strong>in</strong>erseits zum<br />

Overfitt<strong>in</strong>g neigen und an<strong>der</strong>erseits mit mehr Parametern ausgestattet s<strong>in</strong>d. Werden<br />

diese Parameter nicht korrekt gewählt (natürlich immer bezogen auf das konkrete<br />

Modellierungsproblem), so liefern sie <strong>in</strong> <strong>der</strong> Regel deutlich schlechtere Ergebnisse<br />

als e<strong>in</strong>fachere <strong>Modelle</strong>. Hohe Komplexität ist somit auch immer mit e<strong>in</strong>er höheren<br />

Wahrsche<strong>in</strong>lichkeit des Versagens des Modells verbunden. Zudem benötigen komplexe<br />

<strong>Modelle</strong> <strong>in</strong> <strong>der</strong> Regel viele Datenpunkte, um gute Ergebnisse liefern zu können.<br />

Im Folgenden sollen die wesentlichen Unterschiede des lokal konstanten und des lokal<br />

l<strong>in</strong>earen Modells besprochen werden.<br />

• Robustheit: Hier liegt <strong>der</strong> größte Vorteil des lokal konstanten Modells. Es<br />

liefert zwar häufig nicht die genauesten Ergebnisse, jedoch ist es <strong>in</strong> se<strong>in</strong>em<br />

Wertebereich durch die Werte <strong>der</strong> nächsten Nachbarn beschränkt, d.h. es wird<br />

niemals gänzlich falsche Ausgaben liefern können.<br />

• Anzahl <strong>der</strong> Parameter: Beim lokal konstanten Modell gibt es nur drei Arten<br />

von Parametern, nämlich Wichtung, Metrik und die Anzahl <strong>der</strong> nächsten<br />

Nachbarn. E<strong>in</strong>e Regularisierung ist aufgrund <strong>der</strong> Beschränktheit <strong>der</strong> Ausgabe<br />

nicht nötig. Beim lokal l<strong>in</strong>earen Modell ist e<strong>in</strong>e Regularisierung <strong>in</strong>sb. bei<br />

<strong>der</strong> iterierten Mehrschritt-Vorhersage nötig, da ansonsten die akkumulierenden<br />

Fehler zu e<strong>in</strong>em Verlassen des Wertebereiches <strong>der</strong> Zeitreihe führen. Die<br />

Möglichkeiten zur Regularisierung werden <strong>in</strong> Abschnitt 3.4 besprochen; sie ist<br />

mit m<strong>in</strong>destens e<strong>in</strong>em zusätzlichen Parameter verbunden, <strong>der</strong> an das Modellierungsproblem<br />

angepasst werden muss.<br />

• Genauigkeit: Hier ist das lokal l<strong>in</strong>eare Modell häufig im Vorteil, aber nur<br />

unter <strong>der</strong> Voraussetzung, dass die Parameter für das Modell entsprechend optimiert<br />

worden s<strong>in</strong>d. Verwendet man e<strong>in</strong>en schlecht gewählten Parametersatz,<br />

wird das l<strong>in</strong>eare Modell meist größere Fehler liefern als das lokal konstante<br />

Modell. Dies betrifft <strong>in</strong>sb. e<strong>in</strong>e gut gewählte Regularisierung des Modells. Weiterh<strong>in</strong><br />

ist das lokal konstante Modell im Vorteil, wenn nur wenige Datenpunkte<br />

zur Verfügung stehen, da es bereits mit e<strong>in</strong>em e<strong>in</strong>zigen nächsten Nachbarn arbeiten<br />

kann. Lokal l<strong>in</strong>eare <strong>Modelle</strong> benötigen deutlich mehr nächste Nachbarn,<br />

um gute Ergebnisse liefern zu können.<br />

• Laufzeit: Die Berechnung des lokal konstanten Modells beschränkt sich auf<br />

die Berechnung <strong>der</strong> Summe (3.14). Verglichen mit <strong>der</strong> Rechenzeit zur Suche<br />

nächster Nachbarn ist dies vernachlässigbar. Das lokal l<strong>in</strong>eare Modell benötigt<br />

mehr nächste Nachbarn und zusätzlich ist e<strong>in</strong>e S<strong>in</strong>gulärwertzerlegung nötig,<br />

die die Laufzeit merklich vergrößert. Die Rechenzeit zur Regularisierung ist<br />

h<strong>in</strong>gegen vernachlässigbar.


Kapitel 3. Lokal polynomiale Modellierung Seite 41<br />

Zusammenfassend kann man also sagen, dass das lokal konstante Modell für praktisch<br />

alle Anwendungsfälle geeignet ist, beson<strong>der</strong>s wenn es nicht auf sehr hohe Genauigkeit<br />

ankommt und/o<strong>der</strong> man nur wenig Datenpunkte zur Verfügung hat. Es<br />

eignet sich beson<strong>der</strong>s gut, um e<strong>in</strong>en groben Überblick zu erhalten, z.B. über die Dimensionalität<br />

des Problems, den Rauschanteil und ob sich die Zeitreihe überhaupt<br />

voraussagen lässt (es könnte ja auch e<strong>in</strong> re<strong>in</strong> stochastischer Prozess vorliegen). Hat<br />

man diese Parameter grob e<strong>in</strong>gestellt, kann im nächsten Schritt e<strong>in</strong> lokal l<strong>in</strong>eares Modell<br />

optimiert werden, welches häufig wesentlich genauere Ergebnisse liefern kann.<br />

3.3 Parameter bei <strong>der</strong> <strong>lokale</strong>n Modellbildung<br />

Im folgenden sollen die Parameter zur <strong>lokale</strong>n Modellbildung erläutert werden. Hierzu<br />

gehören die Zahl <strong>der</strong> nächsten Nachbarn, die Metrik und die Wichtung (die Regularisierung<br />

wird im nächsten Abschnitt behandelt werden). Diese Parameter s<strong>in</strong>d<br />

wesentlich für die Wahl <strong>der</strong> Umgebung des Anfragepunktes, <strong>in</strong> <strong>der</strong> das Modell berechnet<br />

wird. Die korrekte Wahl dieser Parameter ist somit wesentlich für die Güte<br />

des Modells.<br />

3.3.1 Zahl nächster Nachbarn<br />

Der Parameter k zur Anzahl nächster Nachbarn ist, wie bereits mehrfach erwähnt,<br />

entscheidend für e<strong>in</strong>e erfolgreiche Modellierung. Über ihn lassen sich Bias und Varianz<br />

des endgültigen Modells steuern, sowie direkt damit verbunden <strong>der</strong> Grad <strong>der</strong><br />

Nichtl<strong>in</strong>earität des Modells. Dies soll an e<strong>in</strong>em e<strong>in</strong>fachen e<strong>in</strong>dimensionalen Beispiel<br />

kurz verdeutlicht werden.<br />

Als Zeitreihe soll <strong>der</strong> Wechselkurs zwischen DM und US-Dollar von 1966 bis 2000<br />

betrachtet werden. Es sei hiermit versprochen, dass dies die e<strong>in</strong>zige Zeitreihe aus <strong>der</strong><br />

Ökonomie se<strong>in</strong> wird, die <strong>in</strong> dieser Arbeit Verwendung f<strong>in</strong>det; auch sei vom populistischen<br />

Versuch e<strong>in</strong>er Vorhersage dieser Zeitreihe abgesehen. Sie soll ausschließlich<br />

zur Illustration dienen.<br />

In Abbildung 3.1(a) ist die lokal konstante Modellierung anhand e<strong>in</strong>es nächsten<br />

Nachbarn gezeigt. Man erhält e<strong>in</strong>e Interpolation <strong>der</strong> Daten und somit e<strong>in</strong> Modell<br />

mit maximaler Varianz und verschw<strong>in</strong>dendem Bias. Die Abbildung 3.1(c) zeigt die<br />

Modellierung mit <strong>der</strong> maximal möglichen Zahl nächster Nachbarn; es ergibt sich<br />

somit e<strong>in</strong> globales Modell und als Ausgabe <strong>der</strong> Mittelwert <strong>der</strong> Zeitreihe. Dazwischen<br />

liegt das Modell mit fünf nächsten Nachbarn, was e<strong>in</strong> Kompromiss zwischen Bias<br />

und Varianz darstellt. Was bei <strong>der</strong> Modellierung noch störend auffällt ist, dass die<br />

Modellausgabe unstetig ist. Dieses Problem soll im folgenden Abschnitt behandelt<br />

werden.


Seite 42<br />

3.3. Parameter bei <strong>der</strong> <strong>lokale</strong>n Modellbildung<br />

4<br />

4<br />

3.5<br />

3.5<br />

3<br />

3<br />

DM<br />

2.5<br />

DM<br />

2.5<br />

2<br />

2<br />

1.5<br />

1.5<br />

1<br />

1965 1970 1975 1980 1985 1990 1995 2000<br />

Jahr<br />

(a) k = 1<br />

1<br />

1965 1970 1975 1980 1985 1990 1995 2000<br />

Jahr<br />

(b) k = 5<br />

4<br />

3.5<br />

3<br />

DM<br />

2.5<br />

2<br />

1.5<br />

1<br />

1965 1970 1975 1980 1985 1990 1995 2000<br />

Jahr<br />

(c) k = 25<br />

Abbildung 3.1: Modellierung des Wechselkurses DM/US-Dollar mit lokal konstantem<br />

Modell und unterschiedlicher Zahl nächster Nachbarn.


Kapitel 3. Lokal polynomiale Modellierung Seite 43<br />

3.3.2 Wichtung<br />

Es wurde bereits erwähnt, dass es <strong>in</strong> <strong>der</strong> Praxis natürlich ke<strong>in</strong>en S<strong>in</strong>n macht, bei<br />

e<strong>in</strong>em <strong>lokale</strong>n Modell alle Punkte <strong>in</strong> Betracht zu ziehen und diese erst durch die<br />

Kernfunktion K h (x i − q) wie<strong>der</strong> e<strong>in</strong>zugrenzen. Stattdessen betrachtet man für die<br />

Modellierung nur e<strong>in</strong>e bestimmte Anzahl k nächster Nachbarn o<strong>der</strong> e<strong>in</strong>e gewisse<br />

Umgebung U ε . Dies heißt aber nicht, dass dadurch die Kernfunktion bzw. die Wichtungsmatrix<br />

W überflüssig wird.<br />

Setzt man e<strong>in</strong>fach W = I, d.h. wichtet man alle nächsten Nachbarn gleich, so bleibt<br />

die Modellausgabe <strong>in</strong> e<strong>in</strong>em gewissen Anfragebereich konstant, nämlich solange die<br />

nächsten Nachbarn des Anfragepunktes sich nicht än<strong>der</strong>n. Sobald jedoch dieser Bereich<br />

verlassen wird, än<strong>der</strong>t sich wenigstens <strong>der</strong> letzte nächste Nachbar und das<br />

Modell liefert e<strong>in</strong>en an<strong>der</strong>en Wert. Man erhält <strong>in</strong> e<strong>in</strong>em gewissen Anfragebereich somit<br />

e<strong>in</strong>e nur stückweise stetige Stufenfunktion als Modellausgabe. Da dies für viele<br />

Anwendungen ungünstig ist und zudem dies auch die zu approximierende Funktion<br />

i.A. nicht korrekt modelliert, ist daher e<strong>in</strong>e Wichtung <strong>der</strong> nächsten Nachbarn <strong>in</strong><br />

Abhängigkeit vom Abstand zum Anfragepunkt nötig: nahe am Anfragepunkt liegende<br />

Punkte sollen stärker <strong>in</strong> das Modell e<strong>in</strong>fließen als weiter entfernte. Hierdurch wird<br />

die Ausgabe des Modells geglättet, da die Modellausgabe nun auch vom Abstand<br />

<strong>der</strong> nächsten Nachbarn zum Anfragepunkt abhängt.<br />

In dieser Arbeit werden Wichtungsfunktionen <strong>der</strong> Form<br />

w n (r) = (1 − r n ) n mit r = d i<br />

d max<br />

(3.17)<br />

verwendet, wobei d i = ‖x i − q‖ <strong>der</strong> Abstand <strong>der</strong> nächsten Nachbarn zum Anfragepunkt<br />

und d max = ‖x k − q‖ <strong>der</strong> Abstand des letzten nächsten Nachbarn ist.<br />

Je nach Exponent n ergibt sich e<strong>in</strong>e unterschiedliche Form <strong>der</strong> Wichtung (siehe<br />

Abbildung 3.2). Je größer <strong>der</strong> Exponent, desto stärker <strong>der</strong> Abfall für die letzten<br />

nächsten Nachbarn. Die Zahl nächster Nachbarn und die Wichtung hängen somit<br />

direkt mite<strong>in</strong>an<strong>der</strong> zusammen: e<strong>in</strong>e große Zahl nächster Nachbarn wird durch e<strong>in</strong>en<br />

großen Exponenten n effektiv verr<strong>in</strong>gert. Dennoch besteht die wesentliche Aufgabe<br />

<strong>der</strong> Wichtung dar<strong>in</strong>, für e<strong>in</strong>e glatte Ausgabe des Modells zu sorgen. Ihr E<strong>in</strong>fluss auf<br />

die Genauigkeit des Modells ist verglichen mit den an<strong>der</strong>en Parametern eher ger<strong>in</strong>g.<br />

Als Beispiel wurde wie<strong>der</strong> die Wechselkurs-Zeitreihe aus dem vorigen Abschnitt mit<br />

k = 5 und zusätzlich e<strong>in</strong>er biquadratischen Wichtung modelliert. Das Ergebnis ist<br />

<strong>in</strong> Abbildung 3.3 zu sehen; man erhält nun e<strong>in</strong>e glatte Modellierung <strong>der</strong> Daten.


Seite 44<br />

3.3. Parameter bei <strong>der</strong> <strong>lokale</strong>n Modellbildung<br />

2<br />

1.5<br />

1<br />

0.8<br />

w 0<br />

1<br />

w 1<br />

0.6<br />

0.4<br />

w 2<br />

0.5<br />

0<br />

0 0.2 0.4 0.6 0.8 1<br />

r<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

(a) Konstant (n=0)<br />

0<br />

0 0.2 0.4 0.6 0.8 1<br />

r<br />

(c) Biquadratisch (n=2)<br />

w 3<br />

0.2<br />

0<br />

0 0.2 0.4 0.6 0.8 1<br />

r<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

(b) L<strong>in</strong>ear (n=1)<br />

0<br />

0 0.2 0.4 0.6 0.8 1<br />

r<br />

(d) Trikubisch (n=3)<br />

Abbildung 3.2: Wichtungsfunktionen für unterschiedliche Exponenten


Kapitel 3. Lokal polynomiale Modellierung Seite 45<br />

4<br />

3.5<br />

3<br />

DM<br />

2.5<br />

2<br />

1.5<br />

1<br />

1965 1970 1975 1980 1985 1990 1995 2000<br />

Jahr<br />

Abbildung 3.3: Modellierung <strong>der</strong> DM/US-Dollar Zeitreihe mit k = 5 und biquadratischer<br />

Wichtung<br />

3.3.3 Metrik<br />

Die Metrik ist entscheidend bei <strong>der</strong> Suche nach nächsten Nachbarn und somit auch<br />

e<strong>in</strong> wesentlicher Parameter für die <strong>lokale</strong> Modellbildung. Zunächst ist natürlich jede<br />

L p -Metrik<br />

( d∑<br />

) 1/p<br />

d(x, q) = (x i − q i ) p (3.18)<br />

i=1<br />

möglich, mit Abstand am populärsten natürlich die euklidische Metrik mit p = 2.<br />

Gerade für die Vorhersage von Zeitreihen ist e<strong>in</strong>e Abwandlung dieser Metrik s<strong>in</strong>nvoll,<br />

die sog. exponentiell gewichtete euklidische Metrik<br />

d exp (x, q) =<br />

( d∑<br />

i=1<br />

λ i−1 (x i − q i ) 2 ) 1/2<br />

. (3.19)<br />

Im Falle von Delay-Vektoren x t , q t ergibt sich<br />

( d∑<br />

) 1/2<br />

d exp (x t , q t ) = λ i−1 (x t−iτ − q t−iτ ) 2 , (3.20)<br />

i=1


Seite 46<br />

3.3. Parameter bei <strong>der</strong> <strong>lokale</strong>n Modellbildung<br />

daher werden durch diese Metrik die Komponenten stärker gewichtet, die zeitlich<br />

näher am gesuchten Schätzer <strong>der</strong> zeitlichen Entwicklung von q liegen, während die<br />

zeitlich weiter entfernten Komponenten an E<strong>in</strong>fluss verlieren. Diese Metrik kann <strong>in</strong><br />

bestimmten Fällen zu e<strong>in</strong>er Verbesserung <strong>der</strong> Vorhersage führen.<br />

Manchmal kann es s<strong>in</strong>nvoll se<strong>in</strong>, bestimmten Komponenten mehr Gewicht bei <strong>der</strong><br />

Wahl nächster Nachbarn zu geben als an<strong>der</strong>en. Gerade bei experimentellen Daten,<br />

wo z.B. Messwerte verschiedener Sensoren zu e<strong>in</strong>em Messvektor zusammengefasst<br />

werden, kann es vorkommen, dass bestimmte Komponenten ke<strong>in</strong>en o<strong>der</strong> negativen<br />

E<strong>in</strong>fluss auf die Berechnung des Modells haben, z.B. weil das Signal-Rausch-Verhältnis<br />

zu niedrig ist. Hier ist es s<strong>in</strong>nvoll, diese Komponenten weniger stark o<strong>der</strong> gar<br />

nicht bei <strong>der</strong> Suche nach nächsten Nachbarn zu berücksichtigen. Hierfür lässt sich<br />

die diagonal gewichtete euklidischen Metrik<br />

d dwe (x, q) 2 =<br />

d∑<br />

λ 2 i (x i − q i ) 2 = (x − q) T Λ 2 (x − q) , Λ = diag(λ), λ ∈ R d (3.21)<br />

i=1<br />

verwenden. Noch allgeme<strong>in</strong>er ist die gewichtete euklidische Metrik, bei <strong>der</strong> die Wichtungsmatrix<br />

Λ ke<strong>in</strong>e Diagonalmatrix ist. Hier stellt sich allerd<strong>in</strong>gs die Frage, nach<br />

welchen Kriterien die Nicht-Diagonalelemente dieser Matrix gewählt werden sollen.<br />

Dies ist <strong>in</strong> <strong>der</strong> Praxis letztlich nur mit Hilfe e<strong>in</strong>es Optimierungsverfahrens möglich,<br />

wobei hier d 2 Parameter zu optimieren s<strong>in</strong>d, was <strong>in</strong> <strong>der</strong> Regel zu zeitaufwändig ist.<br />

Natürlich gibt es Modellierungsprobleme, wo gänzlich an<strong>der</strong>e Metriken nötig werden.<br />

E<strong>in</strong> Beispiel ist die Modellierung von DNA Sequenzen, wo bekanntlich nur vier<br />

verschiedene Zustände (A,T,G,C) möglich s<strong>in</strong>d. Hier können z.B. Hamm<strong>in</strong>g-ähnliche<br />

Metriken verwendet werden (für e<strong>in</strong> Beispiel siehe [28]).<br />

Beispiel: Hénon-Abbildung<br />

E<strong>in</strong> Beispiel für den Nutzen alternativer Metriken zeigt sich bei <strong>der</strong> lokal l<strong>in</strong>earen<br />

Modellierung von Datensätzen <strong>der</strong> Hénon-Abbildung<br />

x n+1 = y n − ax 2 n + 1<br />

y n+1 = bx n<br />

(3.22)<br />

mit den Parameterwerten a = 1, 4 und b = 0, 3, wobei die x-Variable als Zeitreihe<br />

aufgefasst und zweidimensional e<strong>in</strong>gebettet wurde. Hier kann durch Verwendung<br />

e<strong>in</strong>er exponentiell gewichteten Metrik (3.19) e<strong>in</strong>e deutliche Verbesserung <strong>der</strong> Vorhersage<br />

erzielt werden. Die beste Vorhersage erhält man mit λ = 0, was auf den


Kapitel 3. Lokal polynomiale Modellierung Seite 47<br />

ersten Blick verblüffen mag, da dies nichts an<strong>der</strong>es bedeutet, als dass die nächsten<br />

Nachbarn nur auf Basis <strong>der</strong> ersten Komponente gewählt werden.<br />

Setzt man die zweite Gleichung <strong>der</strong> Hénon-Abbildung <strong>in</strong> die erste e<strong>in</strong>, so erhält man<br />

x n+1 = bx n−1 −ax 2 n +1. In den Wert x n+1 fließt somit x n quadratisch und x n−1 l<strong>in</strong>ear<br />

e<strong>in</strong>. Da e<strong>in</strong> l<strong>in</strong>eares Modell verwendet wird, kann <strong>der</strong> l<strong>in</strong>eare Anteil ohneh<strong>in</strong> perfekt<br />

modelliert werden; somit ist <strong>der</strong> quadratische Anteil <strong>der</strong> für die Modellierung wesentliche.<br />

Dementsprechend werden die nächsten Nachbarn nur anhand dieser Komponente<br />

ausgewählt. Für an<strong>der</strong>e Modelltypen wie z.B. e<strong>in</strong> lokal konstantes Modell<br />

ist diese Metrik völlig ungeeignet; die optimale Metrik hängt somit wesentlich von<br />

dem verwendeten Modell ab. Auch unter E<strong>in</strong>fluss von Rauschen ist λ = 0 beim lokal<br />

l<strong>in</strong>earen Modell nicht mehr die optimale Wahl (siehe auch Abschnitt 5.1.1).<br />

3.4 Regularisierung polynomialer <strong>Modelle</strong><br />

Zwar hat man mit (3.11) e<strong>in</strong> mathematisch exaktes Ergebnis für den Koeffizientenvektor<br />

ν gefunden, jedoch stellt sich bei <strong>der</strong> praktischen Berechnung das Problem,<br />

dass die Matrix X häufig schlecht konditioniert ist, d.h. sie ist nahezu s<strong>in</strong>gulär.<br />

Dieses Problem tritt <strong>in</strong>sb. dann auf, wenn nur wenige Punkte zur Berechnung herangezogen<br />

werden und wenn viele dieser Punkte kol<strong>in</strong>ear s<strong>in</strong>d. Dies ist gerade bei<br />

<strong>lokale</strong>n <strong>Modelle</strong>n häufig <strong>der</strong> Fall, wo wenige nächste Nachbarn zur Berechnung des<br />

Modells verwendet werden.<br />

Um auch <strong>in</strong> diesen Fällen vernünftige Werte für den Koeffizientenvektor ν zu erhalten,<br />

ist e<strong>in</strong>e Regularisierung <strong>der</strong> Matrix X notwendig. Hierfür gibt es vor allem<br />

zwei populäre Methoden: die Ridge Regression (RR) und die Pr<strong>in</strong>cipal Component<br />

Regression (PCR).<br />

3.4.1 Pr<strong>in</strong>cipal Component Regression<br />

Der E<strong>in</strong>fachheit halber soll zunächst auf die Wichtung verzichtet werden. Der Koeffizientenvektor<br />

ist somit gegeben durch<br />

ν = X † y = (X T X) −1 X T y = (VS 2 V T ) −1 X T y , (3.23)<br />

wobei hier die S<strong>in</strong>gulärwertzerlegung X = USV T verwendet wurde (siehe Anhang<br />

A). Das Matrixprodukt X T X ist reell und symmetrisch, daher ist VS 2 V T e<strong>in</strong>e Diagonalisierung<br />

des Matrixproduktes mit den quadrierten reellen, positiven Eigenwerten<br />

σ i auf <strong>der</strong> Diagonalen von S 2 . Sortiert man diese <strong>der</strong> Größe nach, so s<strong>in</strong>d die dazugehörigen<br />

Eigenvektoren v i die Hauptachsen (Pr<strong>in</strong>cipal Components) <strong>der</strong> Matrix<br />

XX T . Statistisch können diese als die Vektoren verstanden werden, die die Summe


Seite 48<br />

3.4. Regularisierung polynomialer <strong>Modelle</strong><br />

<strong>der</strong> zweiten Momente des Anfragepunktes q und se<strong>in</strong>er nächsten Nachbarn maximieren,<br />

q T X T Xq =<br />

≈<br />

n∑ k∑<br />

(q i · x j,i ) 2 + 1<br />

i=1<br />

j=1<br />

n∑<br />

k · E [ (q i · x·,i ) 2] + k , (3.24)<br />

i=1<br />

wobei E[·] den Erwartungswert beschreibt und x·,i e<strong>in</strong>e Zufallsvariable ist, die den<br />

i-ten E<strong>in</strong>gabewert des Modells darstellt. Falls diese Zufallsvariable e<strong>in</strong>en Mittelwert<br />

von Null hat, so ist dies identisch mit <strong>der</strong> Maximierung <strong>der</strong> Varianz <strong>der</strong> Datenpunkte,<br />

d.h. <strong>der</strong> Vektor v 1 ist <strong>der</strong> Vektor, <strong>in</strong> dessen Richtung die Punkte maximale Varianz<br />

besitzen.<br />

Das Pr<strong>in</strong>zip <strong>der</strong> Pr<strong>in</strong>cipal Component Regression besteht nun dar<strong>in</strong>, gerade die<br />

Komponenten wegzulassen, <strong>in</strong> <strong>der</strong>en Richtung die Punkte kaum Ausdehnung im<br />

Phasenraum besitzen, d.h. die Komponenten mit m<strong>in</strong>imaler Varianz. Praktisch erfolgt<br />

dies dadurch, die Summe <strong>in</strong> (3.16) nur bis zu e<strong>in</strong>em Index n σ < r laufen zu<br />

lassen. Im gewichteten Fall ergibt sich dann (vgl. [22])<br />

ν = (X W ) † y W =<br />

∑n σ<br />

i=1<br />

1<br />

σ i<br />

〈u T i , y W 〉v i . (3.25)<br />

Dies leuchtet auch ohne Betrachtung <strong>der</strong> statistischen Interpretation sofort e<strong>in</strong>: Ist<br />

die Matrix X schlecht konditioniert, so liegen e<strong>in</strong> o<strong>der</strong> mehrere S<strong>in</strong>gulärwerte dicht<br />

bei Null und die Ausgabe des Modells wird durch die Multiplikation mit 1/σ i beson<strong>der</strong>s<br />

groß. Da die S<strong>in</strong>gulärwerte <strong>der</strong> Größe nach sortiert s<strong>in</strong>d liegt es nah, die Summe<br />

früher abzubrechen. Dies wird auch als Truncated Pr<strong>in</strong>cipal Component Regression<br />

(TPCR) bezeichnet.<br />

Bei <strong>der</strong> bisherigen Betrachtung wurde allerd<strong>in</strong>gs nicht beachtet, dass die Datenpunkte<br />

bei <strong>der</strong> <strong>lokale</strong>n Modellbildung i.A. ke<strong>in</strong>en Mittelwert Null besitzen. Daher zeigt<br />

gerade die erste Hauptachse v 1 meist nicht <strong>in</strong> die Richtung maximaler Varianz, son<strong>der</strong>n<br />

e<strong>in</strong>fach vom Ursprung aus <strong>in</strong> Richtung des Mittelwerts <strong>der</strong> Datenpunkte (siehe<br />

Abbildung 3.4(a)). Es ist daher s<strong>in</strong>nvoll, von den Datenpunkten den Mittelwert<br />

¯x abzuziehen; dies wird als Center<strong>in</strong>g bezeichnet. Das Ergebnis ist <strong>in</strong> Abbildung<br />

3.4(b) zu sehen: die erste Hauptachse zeigt nun <strong>in</strong> Richtung <strong>der</strong> größten Varianz <strong>der</strong><br />

Punktwolke. Die Modellausgabe ist nun gegeben durch<br />

∑n σ<br />

( ) 1<br />

ŷ = ȳ + 〈(q − ¯x) T , v i 〉 〈u T i , y〉 . (3.26)<br />

σ i<br />

i=1


Kapitel 3. Lokal polynomiale Modellierung Seite 49<br />

x 2<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

x 2<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

−0.1<br />

0 0.2 0.4 0.6 0.8<br />

−0.1<br />

0 0.2 0.4 0.6 0.8<br />

x 1<br />

x 1<br />

(a) Ohne Center<strong>in</strong>g<br />

(b) Mit Center<strong>in</strong>g<br />

Abbildung 3.4: Beispiel für Pr<strong>in</strong>cipal Components mit (a) und ohne (b) Center<strong>in</strong>g;<br />

<strong>der</strong> Schwerpunkt <strong>der</strong> Punktwolke liegt bei (0.5,0.5).<br />

Hierbei ist ȳ <strong>der</strong> Mittelwert <strong>der</strong> Ausgabewerte <strong>der</strong> nächsten Nachbarn.<br />

E<strong>in</strong>e weitere Verfe<strong>in</strong>erung <strong>der</strong> TPCR besteht im sog. Soft-Threshold<strong>in</strong>g. Hierbei wird<br />

anstelle e<strong>in</strong>es scharfen Abschneidens <strong>der</strong> Hauptkomponenten e<strong>in</strong>e Wichtungsfunktion<br />

f(σ) verwendet, sodass sich für die Modellausgabe<br />

∑n σ<br />

( ) f(σi )<br />

ŷ = ȳ + 〈(q − ¯x) T , v i 〉 〈u T i , y〉 (3.27)<br />

σ i<br />

i=1<br />

ergibt. McNames schlägt <strong>in</strong> [22] e<strong>in</strong>e Modifikation <strong>der</strong> biquadratische Wichtung<br />

zur Regularisierung vor,<br />

⎧<br />

⎪⎨<br />

f(σ) =<br />

⎪⎩<br />

0 s m<strong>in</strong> > σ ,<br />

(<br />

1 −<br />

(<br />

smax − σ<br />

s max − s m<strong>in</strong><br />

) 2<br />

) 2<br />

s m<strong>in</strong> ≤ σ < s max ,<br />

1 s max ≤ σ ,<br />

(3.28)<br />

wobei die Werte für s m<strong>in</strong> und s max<br />

über<br />

s m<strong>in</strong> ≡ s c (1 − s w ) (3.29)<br />

s max ≡ s c (1 + s w ) (3.30)


Seite 50<br />

3.4. Regularisierung polynomialer <strong>Modelle</strong><br />

def<strong>in</strong>iert werden. Die Parameter s c und s w geben das Zentrum bzw. die Breite <strong>der</strong><br />

Schwelle an, <strong>in</strong> <strong>der</strong> die S<strong>in</strong>gulärwerte gewichtet werden. Oberhalb von s max bleiben<br />

die S<strong>in</strong>gulärwerte unverän<strong>der</strong>t, unterhalb von s m<strong>in</strong> werden sie auf Null gesetzt. E<strong>in</strong><br />

Beispiel für die Auswirkung <strong>der</strong> Wichtungsfunktion ist <strong>in</strong> Abbildung 3.5(a) gegeben.<br />

4<br />

4<br />

¢¡¤£¦¥§£©¨<br />

3.5<br />

3<br />

2.5<br />

2<br />

1.5<br />

1<br />

0.5<br />

£ ¨<br />

3.5<br />

3<br />

2.5<br />

2<br />

1.5<br />

1<br />

0.5<br />

¢¡¤£¥ §¦©¨§¦<br />

<br />

0<br />

0 1 2 3 4<br />

σ<br />

(a) Truncated Pr<strong>in</strong>cipial Components mit<br />

Soft-Threshold (s c = 1, s w = 0.5, siehe<br />

(3.28))<br />

0<br />

0 1 2 3 4<br />

σ<br />

(b) Ridge Regression (µ = 0.75)<br />

Abbildung 3.5: Verlauf <strong>der</strong> regularisierten S<strong>in</strong>gulärwerte<br />

3.4.2 Ridge Regression<br />

Bei <strong>der</strong> (gewichteten) Ridge Regression wird die Kostenfunktion (3.7) durch e<strong>in</strong>en<br />

additiven Term ergänzt, <strong>der</strong> große Werte im Koeffizientenvektor ν “bestraft”. E<strong>in</strong>e<br />

allgeme<strong>in</strong>e Form ist<br />

P (ν) RR = (y − Xν) T W T W(y − Xν) + ν T R T Rν , (3.31)<br />

wobei über die Diagonalmatrix R ≡ diag(r 1 , . . . , r n ) die Koeffizienten verschieden<br />

gewichtet werden können. Anstelle von Ridge Regression f<strong>in</strong>det sich auch häufig die<br />

Bezeichnung Tikhonov-Phillips-Regularisierung. Die Lösung für ν berechnet sich<br />

analog wie <strong>in</strong> Anhang A beschrieben und lautet<br />

ν = (X T W X W + R T R) −1 X T W y W . (3.32)<br />

Die Berechnung von (3.32) erfolgt <strong>in</strong> diesem allgeme<strong>in</strong>en Fall am besten durch e<strong>in</strong>e<br />

Sequenz von Househol<strong>der</strong>-Transformationen. E<strong>in</strong>e e<strong>in</strong>fache (und populäre) Wahl für


Kapitel 3. Lokal polynomiale Modellierung Seite 51<br />

die Ridge-Matrix ist R = µ 2 I, d.h. alle Koeffizienten werden gleich stark mit dem<br />

Faktor µ 2 gewichtet. Die Berechnung von (3.32) wird dadurch beson<strong>der</strong>s e<strong>in</strong>fach, da<br />

man hier e<strong>in</strong>fach die S<strong>in</strong>gulärwertzerlegung X W = USV T e<strong>in</strong>setzen kann und als<br />

Lösung<br />

ν =<br />

k∑<br />

i=1<br />

σ i<br />

σ 2 i + µ2 〈uT i , y W 〉v i (3.33)<br />

erhält. Für σ i ≫ µ ist σ i /(σ 2 i + µ 2 ) ≈ 1/σ i und für σ i → 0 gilt σ i /(σ 2 i + µ 2 ) ≈ 0. E<strong>in</strong><br />

Beispiel ist <strong>in</strong> Abbildung 3.5(b) zu sehen. Man erhält somit e<strong>in</strong> ähnliches Verhalten<br />

<strong>der</strong> Regularisierung wie bei <strong>der</strong> TPCR mit Soft-Threshold<strong>in</strong>g, allerd<strong>in</strong>gs werden<br />

durch den Parameter µ die Kehrwerte <strong>der</strong> S<strong>in</strong>gulärwerte pr<strong>in</strong>zipiell verkle<strong>in</strong>ert. Es<br />

existiert somit e<strong>in</strong> Bias, auch wenn dieser für große S<strong>in</strong>gulärwerte und kle<strong>in</strong>e µ<br />

vernachlässigbar wird. E<strong>in</strong> weiterer Nachteil ist, dass Komponenten mit sehr kle<strong>in</strong>en<br />

S<strong>in</strong>gulärwerten nicht wie bei <strong>der</strong> TPCR konsequent auf Null gesetzt werden.<br />

3.4.3 Wahl <strong>der</strong> Regularisierung<br />

Es stellt sich die Frage, welche Regularisierung verwendet werden sollte. Die Ridge<br />

Regression hat den Vorteil, dass man gezielt bestimmte Komponenten <strong>der</strong> <strong>Modelle</strong><strong>in</strong>gabe<br />

wichten kann. Weiß man bereits vor <strong>der</strong> Modellierung, dass bestimmte Komponenten<br />

z.B. im wesentlichen Rauschanteile darstellen, so können diese durch passende<br />

Wahl <strong>der</strong> Matrix R weniger stark <strong>in</strong> das Modell e<strong>in</strong>fließen. Diese Möglichkeit<br />

<strong>der</strong> direkten Wichtung e<strong>in</strong>zelner Komponenten ist mit <strong>der</strong> TPCR nicht möglich.<br />

Die Nachteile <strong>der</strong> Ridge Regression wurden bereits am Ende des letzten Abschnittes<br />

erläutert: <strong>der</strong> Bias wird vergrößert und sehr kle<strong>in</strong>e S<strong>in</strong>gulärwerte größer Null werden<br />

nicht konsequent auf Null gesetzt.<br />

Die TPCR ist beson<strong>der</strong>s dann von Vorteil, wenn die zu modellierenden Daten <strong>in</strong><br />

e<strong>in</strong>er Untermannigfaltigkeit des Datenraumes liegen. Dies ist gerade bei <strong>der</strong> Vorhersage<br />

von Zeitreihen <strong>der</strong> Fall, wo man üblicherweise versucht, die Dynamik auf<br />

e<strong>in</strong>em Attraktor zu modellieren, <strong>der</strong> wie <strong>in</strong> Kapitel 1.1.3 beschrieben <strong>in</strong> e<strong>in</strong>e Untermannigfaltigkeit<br />

e<strong>in</strong>gebettet ist. Durch das Pr<strong>in</strong>zip, die Komponenten mit kle<strong>in</strong>er<br />

Varianz aus <strong>der</strong> Modellierung herauszunehmen, passt sich das Modell automatisch<br />

<strong>der</strong> durch den Attraktor gegebenen Dynamik an. Beson<strong>der</strong>s hervorzuheben ist, dass<br />

durch Verwendung des Soft-Threshold<strong>in</strong>g auch <strong>lokale</strong> Variationen <strong>der</strong> Dynamik auf<br />

dem Attraktor berücksichtigt werden. So können bestimmte Komponenten an e<strong>in</strong>em<br />

Ort des Attraktors e<strong>in</strong>e weit wichtigere Rolle spielen als an e<strong>in</strong>em an<strong>der</strong>en, was sich<br />

aber <strong>in</strong> e<strong>in</strong>er entsprechenden Verän<strong>der</strong>ung <strong>der</strong> S<strong>in</strong>gulärwerte nie<strong>der</strong>schlägt.<br />

E<strong>in</strong> Vergleich von Ridge Regression und TPCR mit Soft-Threshold<strong>in</strong>g bei <strong>der</strong> Vorhersage<br />

von Zeitreihen nichtl<strong>in</strong>earer Systeme f<strong>in</strong>det sich <strong>in</strong> [22]. Es zeigt sich <strong>in</strong> <strong>der</strong><br />

Tat, dass die TPCR besser für diesen Anwendungsfall geeignet ist.


Seite 52<br />

3.5. Lokale Variation von Parametern<br />

Die Schwierigkeit bei<strong>der</strong> Methoden liegt <strong>in</strong> <strong>der</strong> Wahl <strong>der</strong> Parameter R bzw. s c<br />

und s w . Bei <strong>lokale</strong>n <strong>Modelle</strong>n bietet es sich an, diese durch Leave-one-out Cross-<br />

Validation zu optimieren (siehe Abschnitt 3.8).<br />

3.5 Lokale Variation von Parametern<br />

Üblicherweise werden alle bislang besprochenen Parameter global gewählt, d.h. für<br />

jeden Anfragepunkt wird unabhängig von se<strong>in</strong>er Position exakt das gleiche Modell<br />

verwendet. An<strong>der</strong>erseits kann diese Wahl <strong>der</strong> Parameter auch immer nur e<strong>in</strong> Kompromiss<br />

<strong>in</strong> H<strong>in</strong>sicht auf die <strong>lokale</strong> Variation des Flusses se<strong>in</strong>, die gerade bei chaotischen<br />

Systemen üblicherweise sehr groß ist. Es liegt daher nahe, die Parameter lokal<br />

zu variieren und dadurch je nach Position des Anfragepunktes e<strong>in</strong> an<strong>der</strong>es Modell<br />

zu verwenden.<br />

Beson<strong>der</strong>s gut lässt sich die <strong>lokale</strong> Variation <strong>der</strong> Modellparameter an e<strong>in</strong>em e<strong>in</strong>fachen<br />

Beispiel e<strong>in</strong>er Funktionsapproximation illustrieren, dem sog. Ramp-Hill-Datensatz.<br />

Der Ramp-Hill-Datensatz<br />

−1<br />

−0.5<br />

1<br />

x 2<br />

0<br />

1<br />

0<br />

0.5<br />

0.5<br />

−1<br />

−1<br />

−0.5<br />

0<br />

x 1<br />

0.5<br />

1 −1 −0.5<br />

0<br />

x 2<br />

1<br />

−1 −0.5 0 0.5 1<br />

x 1<br />

(a) Ramp-Hill-Funktion<br />

(b) Stützstellen (200 Stück)<br />

Abbildung 3.6: Ramp-Hill-Funktion und Stützstellen zur Generierung des Ramp-<br />

Hill-Datensatzes.


Kapitel 3. Lokal polynomiale Modellierung Seite 53<br />

d h := 5 2√<br />

(x1 + 0.4) 2 + (x 2 + 0.4) 2<br />

y h :=<br />

{ 2 cos(πdh /2) für d h ≤ 1,<br />

0 sonst,<br />

y l := 2x 1 + 2.5x 2 − 0.5<br />

⎧<br />

⎨ y h − 1 für y l < 0,<br />

y := y b + y l − 1 für 0 ≤ y l ≤ 2,<br />

⎩<br />

y b + 1 sonst.<br />

(3.34)<br />

Die Ramp-Hill-Funktion (3.34), die <strong>in</strong> Abbildung 3.6(a)) gezeigt ist, besteht aus e<strong>in</strong>em<br />

l<strong>in</strong>earen Anstieg (Ramp) und e<strong>in</strong>er Kos<strong>in</strong>us-Funktion (Hill), die von konstanten<br />

Gebieten umgeben s<strong>in</strong>d. Sie stellt beson<strong>der</strong>s für globale <strong>Modelle</strong> e<strong>in</strong>e Art “worst-case<br />

Szenario” dar, da die Modellierung <strong>der</strong> e<strong>in</strong>zelnen Gebiete sich nur schwer <strong>in</strong> e<strong>in</strong>em<br />

geschlossenen Ausdruck zusammenfassen lässt.<br />

Zur Generierung e<strong>in</strong>es Datensatzes werden mit <strong>der</strong> Ramp-Hill-Funktion gleichverteilt<br />

200 Datenpunkte als Stützstellen generiert (siehe Abbildung 3.6(b)), anhand<br />

<strong>der</strong>er die Funktion zu modellieren ist. Zunächst soll betrachtet werden, wie sich lokal<br />

konstantes und lokal l<strong>in</strong>eare Modell bei diesem Datensatz verhalten.<br />

Lokale Variation des Modells<br />

Betrachtet man bei verschiedenen Punkten im Intervall [−1, 1] 2 , wann e<strong>in</strong> lokal<br />

konstantes und wann e<strong>in</strong> lokal l<strong>in</strong>eares Modell bessere Ergebnisse liefert, ergibt sich<br />

das Bild <strong>in</strong> Abbildung 3.7 (zur Verdeutlichung wurden die Rampe und <strong>der</strong> Hügel<br />

<strong>in</strong> weiß skizziert). Hierbei stehen hellgraue und dunkelgraue Punkte für Stellen, wo<br />

das lokal l<strong>in</strong>eare bzw. das lokal konstante Modell bessere Ergebnisse liefern. Das<br />

Ergebnis ist nicht überraschend: Bei <strong>der</strong> Rampe und im näherungsweise l<strong>in</strong>earen<br />

Anstieg <strong>der</strong> Kos<strong>in</strong>us-Funktion liefert das lokal l<strong>in</strong>eare Modell bessere Ergebnisse,<br />

während <strong>in</strong> konstanten Gebieten und im nichtl<strong>in</strong>earen Bereich des Kos<strong>in</strong>us das lokal<br />

konstante Modell besser abschneidet.<br />

Es liegt nahe, das Modell je nach Lage des Anfragepunktes zwischen konstant und<br />

l<strong>in</strong>ear zu variieren. Hierbei wird e<strong>in</strong>e Umgebung des Anfragepunktes betrachtet und<br />

mit Hilfe <strong>der</strong> Leave-one-out Cross-Validation berechnet, welches Modell bei den<br />

Nachbarn die besten Ergebnisse liefert. Für den Anfragepunkt wird dann das Modell<br />

verwendet, welches bei <strong>der</strong> Mehrheit <strong>der</strong> Nachbarn das bessere Ergebnis liefert.<br />

Im e<strong>in</strong>fachsten Fall betrachtet man nur e<strong>in</strong>en nächsten Nachbarn und übernimmt<br />

dessen optimales Modell. In <strong>der</strong> Tat br<strong>in</strong>gt dies beim Ramp-Hill-Datensatz e<strong>in</strong>e Verbesserung<br />

<strong>der</strong> Modellierung, allerd<strong>in</strong>gs ist dies letztlich e<strong>in</strong> konstruiertes Beispiel,


Seite 54<br />

3.5. Lokale Variation von Parametern<br />

−1<br />

−0.8<br />

−0.6<br />

−0.4<br />

−0.2<br />

x 1<br />

0<br />

0.2<br />

0.4<br />

0.6<br />

0.8<br />

1<br />

−1 −0.5 0<br />

x 2<br />

0.5 1<br />

Abbildung 3.7: Punkte des Ramp-Hill-Datensatzes, an denen lokal l<strong>in</strong>eares (hellgrau)<br />

und lokal konstantes Modell (dunkelgrau) kle<strong>in</strong>ere Fehler liefern.<br />

wo die Unterschiede <strong>der</strong> beiden <strong>Modelle</strong> beson<strong>der</strong>s deutlich zu Tage treten. Bei chaotischen<br />

Systemen wie z.B. dem Hénon- o<strong>der</strong> Lorenz-System (siehe (3.22) und (2.6))<br />

br<strong>in</strong>gt diese Technik <strong>in</strong> <strong>der</strong> Regel ke<strong>in</strong>e deutliche Verbesserung, häufig verschlechtert<br />

sich das Ergebnis sogar, da für e<strong>in</strong>en nicht zu vernachlässigenden Prozentsatz<br />

<strong>der</strong> Punkte gerade das falsche Modell verwendet wird. Diese Beobachtung macht<br />

man auch bei <strong>der</strong> <strong>lokale</strong>n Variation an<strong>der</strong>er Parameter wie z.B. <strong>der</strong> Zahl nächster<br />

Nachbarn.<br />

Lokale Variation <strong>der</strong> Zahl nächster Nachbarn<br />

Ganz ähnlich kann auch <strong>der</strong> Parameter <strong>der</strong> Zahl nächster Nachbarn lokal betrachtet<br />

werden. Zunächst wird mit e<strong>in</strong>er Leave-one-out Cross-Validation die optimale Zahl<br />

nächster Nachbarn beim Ramp-Hill-Datensatz für verschiedene Punkte auf dem Intervall<br />

[−1, 1] 2 bestimmt. In <strong>der</strong> Auftragung ergeben sich die Bil<strong>der</strong> 3.8(a) für das<br />

lokal konstante und 3.8(b) für das lokal l<strong>in</strong>eare Modell. Beim lokal konstanten Modell<br />

ist zu sehen, dass im Bereich <strong>der</strong> Rampe und des Hügels mehr nächster Nachbarn<br />

zur Modellierung benötigt werden, während <strong>in</strong> den konstanten Bereichen bereits<br />

e<strong>in</strong> nächster Nachbar ausreicht. Auch lassen sich auf <strong>der</strong> Rampe und dem Hügel<br />

zusammenhängende Bereiche mit gleichem Parameter-Wert ausmachen.<br />

Beim lokal l<strong>in</strong>earen Modell ist die Situation an<strong>der</strong>s: hier lassen sich ke<strong>in</strong>e e<strong>in</strong>fachen<br />

Gesetzmäßigkeiten bei <strong>der</strong> Verteilung des optimalen Parameters f<strong>in</strong>den. Zudem existieren<br />

ke<strong>in</strong>e zusammenhängenden Bereiche mit gleichem optimalen Parameterwert


Kapitel 3. Lokal polynomiale Modellierung Seite 55<br />

wie beim lokal konstanten Modell. Zwar existieren durchaus “hellere” und “dunklere”<br />

Flächen, diese s<strong>in</strong>d bei näherer Betrachtung aber nicht e<strong>in</strong>heitlich ausgefüllt<br />

son<strong>der</strong>n “gemustert”. Es ist daher eher unwahrsche<strong>in</strong>lich, auf Basis <strong>der</strong> Betrachtung<br />

nächster Nachbarn für e<strong>in</strong>en Anfragepunkt den optimalen Parameterwert zu<br />

erhalten.<br />

−1<br />

−1<br />

20<br />

−0.5<br />

15<br />

−0.5<br />

15<br />

x 2<br />

0<br />

10<br />

x 2<br />

0<br />

10<br />

0.5<br />

5<br />

0.5<br />

5<br />

1<br />

−1 −0.5 0 0.5 1<br />

x 1<br />

1<br />

−1 −0.5 0 0.5 1<br />

x 1<br />

(a) Lokal konstant<br />

(b) Lokal l<strong>in</strong>ear<br />

Abbildung 3.8: Optimale Zahl nächster Nachbarn bei lokal konstantem und lokal<br />

l<strong>in</strong>earen Modell<br />

Diese Vermutung bestätigt sich beim Versuch, mit <strong>der</strong> gleichen Methode wie im<br />

vorigen Abschnitt den Parameter <strong>der</strong> Zahl <strong>der</strong> nächsten Nachbarn lokal zu variieren.<br />

Beim Ramp-Hill-Datensatz kann e<strong>in</strong>e Verbesserung <strong>der</strong> Vorhersage durch <strong>lokale</strong><br />

Variation <strong>der</strong> Zahl nächster Nachbarn beim lokal konstanten Modell erzielt werden,<br />

beim lokal l<strong>in</strong>earen Modell versagt diese Technik jedoch.<br />

Stellt man ähnliche Versuche bei <strong>der</strong> Modellierung chaotischer Attraktoren an, so<br />

zeigen sich dort selbst beim lokal konstanten Modell ke<strong>in</strong>e zusammenhängenden<br />

Bereiche mit gleicher optimaler Zahl nächster Nachbarn. E<strong>in</strong>e <strong>lokale</strong> Variation dieses<br />

Parameters br<strong>in</strong>gt daher meist ke<strong>in</strong>e Verbesserung <strong>der</strong> Vorhersage, im Gegenteil:<br />

häufig bewirkt die <strong>lokale</strong> Variation e<strong>in</strong>e Verschlechterung des Modells verglichen mit<br />

e<strong>in</strong>er optimalen globalen Wahl <strong>der</strong> Parameter. E<strong>in</strong>e Betrachtung im Detail zeigt, dass<br />

zwar für viele Punkte gute Parameter gewählt werden, jedoch immer e<strong>in</strong> nicht zu<br />

vernachlässigen<strong>der</strong> Prozentsatz existiert, wo die Methode <strong>der</strong> <strong>lokale</strong>n Parameterwahl<br />

versagt und dies letztlich den Fehler nach oben treibt. Auch die <strong>lokale</strong> Variation des<br />

Parameters λ <strong>der</strong> exponentiellen Metrik (3.19) ergibt e<strong>in</strong> ähnliches Ergebnis: bei<br />

e<strong>in</strong>igen wenigen Datensätzen ist die Variation erfolgreich, meist aber ergeben sich<br />

ähnliche o<strong>der</strong> schlechtere Ergebnisse verglichen mit <strong>der</strong> optimalen globalen Wahl des<br />

Parameters.<br />

Diese Beobachtungen decken sich mit e<strong>in</strong>er Untersuchung <strong>in</strong> [3], wo herkömmli-


Seite 56<br />

3.6. Approximation durch Gitterpunkte<br />

che <strong>lokale</strong> <strong>Modelle</strong> mit <strong>der</strong> sog. “Lazy Learn<strong>in</strong>g Toolbox” verglichen werden, die von<br />

Birattari und Bontempi entwickelt wurde (siehe [7]). Diese Toolbox basiert ebenfalls<br />

auf e<strong>in</strong>er <strong>lokale</strong>n Auswahl von Modelltyp und zugehörigen Parametern anhand<br />

e<strong>in</strong>er LOO-CV <strong>der</strong> nächsten Nachbarn. Auch hier wurde festgestellt, dass diese Methoden<br />

<strong>der</strong> Toolbox herkömmlichen Methoden nicht überlegen s<strong>in</strong>d und häufig auch<br />

schlechtere Ergebnisse liefern. E<strong>in</strong>e weitere Methode von Bontempi basiert darauf,<br />

bekannte dynamische Eigenschaften des Systems auszunutzen. Hierbei wird das <strong>lokale</strong><br />

Modell so gewählt, dass die durch das Modell beschriebene Volumenkontraktion 1<br />

mit <strong>der</strong> des Systems im E<strong>in</strong>klang steht. Aber auch diese Methode versagt bei Teilen<br />

des Datensatzes und liefert dort deutlich schlechtere Ergebnisse, sodass <strong>der</strong> gemittelte<br />

Fehler über den gesamten Datensatz letztlich größer ist als mit herkömmlichen<br />

Methoden (vgl. [8]).<br />

E<strong>in</strong>e erfolgreiche <strong>lokale</strong> Variation <strong>der</strong> Zahl nächster Nachbarn bei lokal l<strong>in</strong>earen <strong>Modelle</strong>n<br />

hat Smith erreicht, <strong>in</strong>dem er diesen Parameter nur <strong>in</strong> engen Grenzen vom<br />

globalen optimalen Wert variieren ließ (siehe [34]). Allerd<strong>in</strong>gs s<strong>in</strong>d die Verbesserungen<br />

mit dieser Methode nur ger<strong>in</strong>gfügig und es ist von e<strong>in</strong>er deutlich höheren<br />

Rechenzeit auszugehen.<br />

Zusammenfassend lässt sich sagen, dass die <strong>lokale</strong> Variation von Parametern bei<br />

bestimmten Modellierungsproblemen wie z.B. bei <strong>der</strong> Approximation von glatten,<br />

nicht-chaotischen Abbildungen wie <strong>der</strong> Ramp-Hill-Funktion erfolgreich se<strong>in</strong> kann.<br />

Allerd<strong>in</strong>gs ist es bislang nicht gelungen, e<strong>in</strong>e die zusätzliche Rechenzeit rechtfertigende<br />

deutliche Verbesserung <strong>der</strong> Vorhersage über <strong>lokale</strong> Variation zu erreichen,<br />

die auch bei Datensätzen wie chaotischen Zeitreihen zuverlässig funktioniert. Auch<br />

muss man bedenken, dass unter E<strong>in</strong>fluss von Rauschen die Parameter weniger stark<br />

lokal variieren. Selbst e<strong>in</strong>e lokal optimale Wahl <strong>der</strong> Parameter hätte bei verrauschten<br />

Datensätzen wenig Auswirkungen auf das Ergebnis.<br />

3.6 Approximation durch Gitterpunkte<br />

Zur Vermeidung von Over- und Un<strong>der</strong>fitt<strong>in</strong>g ist die korrekte Wahl des Parameters<br />

<strong>der</strong> Zahl nächster Nachbarn entscheidend. Im vorigen Abschnitt wurden die Schwierigkeiten<br />

bei <strong>der</strong> <strong>lokale</strong>n Variation dieses Parameters erläutert, und es stellt sich die<br />

Frage, ob man nicht den umgekehrten Weg gehen kann: im Falle <strong>lokale</strong>r <strong>Modelle</strong>, wo<br />

Datenpunkte und Modell gar nicht mehr zu trennen s<strong>in</strong>d, kann anstelle e<strong>in</strong>er Än<strong>der</strong>ung<br />

des Modell-Algorithmus auch bei den Datenpunkten selbst angesetzt werden.<br />

Die Idee besteht dar<strong>in</strong>, den Datensatz durch relativ wenige Punkte e<strong>in</strong>es Gitters<br />

zu approximieren. Hierzu wird e<strong>in</strong> Punktegitter generiert welches den Datensatz<br />

komplett überdeckt und anschließend gezielt bestimmte Punkte dieses Gitters für<br />

die Approximation ausgewählt. Diese so entstehende gleichmäßigere Verteilung <strong>der</strong><br />

1 Wobei hier vorausgesetzt wird, dass e<strong>in</strong> dissipatives Systems modelliert wird.


Kapitel 3. Lokal polynomiale Modellierung Seite 57<br />

Punkte sollte e<strong>in</strong>er globalen Wahl <strong>der</strong> Parameter besser entgegenkommen; e<strong>in</strong>e <strong>lokale</strong><br />

Variation wird somit schlicht überflüssig.<br />

E<strong>in</strong> Nebeneffekt dieses Ansatzes ist die Reduzierung <strong>der</strong> Komplexität des Modells.<br />

Wie <strong>in</strong> Abschnitt 3.3.1 bereits besprochen, führt das lokal konstante Modell im Extremfall<br />

mit e<strong>in</strong>em nächsten Nachbarn und ohne Wichtung zu e<strong>in</strong>er Interpolation <strong>der</strong><br />

Daten. Man erhält <strong>in</strong> diesem Fall somit e<strong>in</strong> Modell mit verschw<strong>in</strong>dendem Bias und<br />

hoher Varianz. Die Approximation <strong>der</strong> Datenpunkte durch die Gitterpunkte führt<br />

zu e<strong>in</strong>er Erhöhung des Bias des Modells, e<strong>in</strong>e Interpolation des Datensatzes ist auch<br />

mit e<strong>in</strong>em nächsten Nachbarn und lokal konstantem Modell nicht mehr möglich. Der<br />

Bias wird hierbei um so größer, je gröber das Gitter ist und je weniger Gitterpunkte<br />

verwendet werden. Das Ziel besteht somit dar<strong>in</strong>, dass Gitter nur soweit aufzubauen<br />

bis es zu e<strong>in</strong>em Overfitt<strong>in</strong>g kommt. Dieses Vorgehen kann mit <strong>der</strong> Termselektion<br />

bei e<strong>in</strong>em globalen Modell verglichen werden: hier werden Basisfunktionen solange<br />

<strong>in</strong> das Modell e<strong>in</strong>gefügt, bis <strong>der</strong> Testfehler bei <strong>der</strong> Cross-Validation wie<strong>der</strong> ansteigt<br />

(was Overfitt<strong>in</strong>g anzeigt). Natürlich kann auch <strong>der</strong> umgekehrte Weg gegangen werden:<br />

es wird mit e<strong>in</strong>em dichten Gitter gestartet und nach und nach Punkte dieses<br />

Gitters herausgenommen (und analog existiert dieses umgekehrte Verfahren auch<br />

bei <strong>der</strong> Termselektion).<br />

3.6.1 Beispiel Hénon-Abbildung<br />

Mit <strong>der</strong> Hénon-Abbildung (3.22) wurden 500 Punkte an Tra<strong>in</strong><strong>in</strong>gsdaten und 1000<br />

Punkte an Testdaten für e<strong>in</strong>e Cross-Validation generiert 2 . Der erste Schritt besteht<br />

dar<strong>in</strong>, den Attraktor durch Punkte auf e<strong>in</strong>em Gitter zu approximieren (diese werden<br />

im Folgenden e<strong>in</strong>fach “Gitterpunkte” genannt). Der Algorithmus hierzu lautet<br />

folgen<strong>der</strong>maßen:<br />

1. Bestimme zweidimensionales quadratisches Intervall I, <strong>in</strong> dem alle Tra<strong>in</strong><strong>in</strong>gspunkte<br />

x i des Attraktors liegen. Lege e<strong>in</strong>e ganzzahlige Konstante m > 0 fest,<br />

die die Zahl nächster Nachbarn bestimmt, die <strong>in</strong> <strong>der</strong> Umgebung e<strong>in</strong>es Gitterpunktes<br />

m<strong>in</strong>destens liegen müssen.<br />

2. Generiere <strong>in</strong> diesem Intervall e<strong>in</strong> Punktegitter G mit e<strong>in</strong>er frei wählbaren<br />

Gitterkonstanten g.<br />

3. Bestimme bei jedem Gitterpunkt <strong>in</strong> e<strong>in</strong>em Kreis mit Radius g die Anzahl<br />

nächster Nachbarn k von Punkten x i des Hénon-Systems.<br />

4. Falls k ≤ m, lösche den Punkt aus G.<br />

2 Ob man direkt die Punkte aus (3.22) verwendet o<strong>der</strong> ob man e<strong>in</strong>e <strong>der</strong> beiden Koord<strong>in</strong>aten<br />

zweidimensional e<strong>in</strong>bettet liefert beim Hénon-System bis auf e<strong>in</strong>e Spiegelung an <strong>der</strong> W<strong>in</strong>kelhalbierenden<br />

den gleichen Attraktor.


Seite 58<br />

3.6. Approximation durch Gitterpunkte<br />

Die Menge G <strong>der</strong> sich ergebenden Gitterpunkte wird durch die Parameter g und<br />

m gesteuert. Hierbei steuert g nur die Fe<strong>in</strong>heit des Gitters, während m bestimmt,<br />

welche Punkte tatsächlich verwendet werden; im Folgenden wurde m = 1 verwendet.<br />

Um möglichst viel Information von den Tra<strong>in</strong><strong>in</strong>gspunkten <strong>in</strong> die Gitterpunkte zu<br />

übertragen, wurde folgen<strong>der</strong> Ansatz gewählt: Zunächst wird mit e<strong>in</strong>er LOO-CV <strong>der</strong><br />

globale optimale Wert für die Zahl nächster Nachbarn beim lokal l<strong>in</strong>earen Modell<br />

bestimmt. Anschließend wird mit diesem Modell e<strong>in</strong> Schätzer für die Gitterpunkte<br />

berechnet, aber anstelle des skalaren Schätzers wird <strong>der</strong> gesamte Koeffizientenvektor<br />

ν aus (3.15) gespeichert, d.h. bei dem hier betrachteten zweidimensionalen System<br />

ist mit jedem Gitterpunkt e<strong>in</strong> 3-dimensionaler Vektor assoziiert.<br />

Um später mit den Gitterpunkten die Modellausgabe für e<strong>in</strong>en Anfragepunkt zu<br />

berechnen, werden die Koeffizientenvektoren von den drei 3 nächstliegenden Gitterpunkten<br />

gemittelt und mit diesem <strong>der</strong> Schätzer berechnet. E<strong>in</strong> Nebeneffekt dieser<br />

Form von Modellierung ist, dass ke<strong>in</strong>e S<strong>in</strong>gulärwertzerlegung mehr nötig ist und<br />

somit die Rechenzeit verkürzt wird.<br />

Aus <strong>der</strong> nun gegebenen Menge G von Gitterpunkten sollen jetzt die maßgeblichen<br />

für die Modellierung ermittelt werden:<br />

1. Entnehme zunächst drei zufällige Gitterpunkte aus G, die möglichst maximale<br />

Distanz zue<strong>in</strong>an<strong>der</strong> besitzen. Diese bilden die ersten drei Punkte <strong>der</strong> Menge<br />

<strong>der</strong> endgültigen Gitterpunkte K, die später als Datensatz für die Modellierung<br />

dient.<br />

2. Nimm e<strong>in</strong>en weiteren Punkt aus G testweise <strong>in</strong> K h<strong>in</strong>zu und berechne den<br />

Fehler bei <strong>der</strong> Vorhersage <strong>der</strong> Tra<strong>in</strong><strong>in</strong>gspunkte anhand dieser Punkte. Führe<br />

dies für alle weiteren Gitterpunkte aus G durch.<br />

3. Wähle aus G den Punkt, <strong>der</strong> den kle<strong>in</strong>sten Tra<strong>in</strong><strong>in</strong>gsfehler ergibt und füge<br />

diesen endgültig <strong>der</strong> Menge <strong>der</strong> Gitterpunkte K h<strong>in</strong>zu.<br />

4. Bestimme den Fehler bei <strong>der</strong> Vorhersage <strong>der</strong> Testmenge anhand <strong>der</strong> Gitterpunkte<br />

K.<br />

5. Falls noch weitere Punkte <strong>in</strong> G existieren, starte wie<strong>der</strong> bei 2.<br />

Betrachtet wird zunächst e<strong>in</strong>e e<strong>in</strong>gebettete Zeitreihe e<strong>in</strong>es Hénon-Systems, welche<br />

relativ stark mit weißem Rauschen überlagert ist (Signal-Rausch-Abstand beträgt<br />

20dB). In Abbildung 3.9(a) s<strong>in</strong>d als Beispiel die ersten 30 Gitterpunkte gezeigt.<br />

3 Es werden gerade drei Gitterpunkte genommen, weil <strong>der</strong> E<strong>in</strong>bettungsraum <strong>in</strong> diesem Fall<br />

zweidimensional ist; im allgeme<strong>in</strong>en Fall würde man k = d + 1, also Dimension plus E<strong>in</strong>s wählen.


Kapitel 3. Lokal polynomiale Modellierung Seite 59<br />

1<br />

0.5<br />

0<br />

−0.5<br />

−1<br />

−1.5<br />

MSE<br />

0.22<br />

0.2<br />

0.18<br />

0.16<br />

0.14<br />

0.12<br />

0.1<br />

−1.5 −1 −0.5 0 0.5 1 1.5<br />

(a) Tra<strong>in</strong><strong>in</strong>gsmenge mit den ersten 30 Gitterpunkten.<br />

50 100 150<br />

Zahl <strong>der</strong> Gitterpunkte<br />

(b) Tra<strong>in</strong><strong>in</strong>gsfehler (durchgezogene L<strong>in</strong>ie),<br />

Testfehler (gestrichelte L<strong>in</strong>ie) und Fehler <strong>der</strong><br />

LOO-CV (gepunktete L<strong>in</strong>ie).<br />

Abbildung 3.9: Approximation des verrauschten Hénon-Attraktors (SNR=20dB)<br />

durch e<strong>in</strong> Gitter (a) mit Tra<strong>in</strong><strong>in</strong>gs- und Testfehler (b).<br />

In Abbildung 3.9(b) ist Tra<strong>in</strong><strong>in</strong>gsfehler (durchgezogene Kurve) und Testfehler (gestrichelte<br />

Kurve) gezeigt. Als Vergleich dient <strong>der</strong> Fehler <strong>der</strong> Leave-one-out Cross-<br />

Validation <strong>der</strong> Tra<strong>in</strong><strong>in</strong>gsmenge (gepunktete L<strong>in</strong>ie). Test- und Tra<strong>in</strong><strong>in</strong>gsfehler s<strong>in</strong>d <strong>in</strong><br />

Abhängigkeit von <strong>der</strong> Anzahl <strong>der</strong> Gitterpunkte aufgetragen.<br />

Wie man sieht, reichen bereits die 30 gezeigten Gitterpunkte, um den verrauschten<br />

Hénon-Attraktor gut zu modellieren. Dass <strong>der</strong> Tra<strong>in</strong><strong>in</strong>gsfehler immer deutlich unter<br />

dem Testfehler bleibt rührt daher, dass <strong>in</strong> den Gitterpunkten durch die gespeicherten<br />

Koeffizientenvektoren Informationen aus den Tra<strong>in</strong><strong>in</strong>gspunkten vorhanden s<strong>in</strong>d.<br />

Deshalb ist für die Bewertung <strong>der</strong> Vorhersagequalität des Gitters zw<strong>in</strong>gend e<strong>in</strong>e<br />

unabhängige Testmenge nötig, die nicht für die Berechnung <strong>der</strong> Gitterwerte verwendet<br />

wurde. E<strong>in</strong> Overfitt<strong>in</strong>g ist allerd<strong>in</strong>gs kaum zu beobachten, im Gegenteil: auch<br />

<strong>der</strong> Tra<strong>in</strong><strong>in</strong>gsfehler steigt zum Ende h<strong>in</strong>, da hier Gitterpunkte e<strong>in</strong>gebunden werden,<br />

die sich aus den Tra<strong>in</strong><strong>in</strong>gsdaten nur schlecht vorhersagen ließen und die sich daher<br />

negativ auf die Modellierung auswirken.<br />

Zum<strong>in</strong>dest im verrauschten Fall liefert die Approximation durch das Gitter somit<br />

gute Ergebnisse. Allerd<strong>in</strong>gs muss gesagt werden, dass die Berechnung des Gitteraufbaus<br />

recht langwierig ist und e<strong>in</strong>e Leave-one-out Cross-Validation nicht durchgeführt<br />

werden kann, d.h. <strong>in</strong> <strong>der</strong> Praxis e<strong>in</strong>e Teilung des vorhandenen Datensatzes notwendig<br />

ist. Zudem liefert die Gitterapproximation im unverrauschten Fall schlechte Ergebnisse.<br />

In Abbildung 3.10(a) ist e<strong>in</strong> Gitter mit 70 Punkten über e<strong>in</strong>em unverrauschten<br />

Hénon-Attraktor zu sehen, <strong>in</strong> Abbildung 3.10(b) ist wie<strong>der</strong> Test- und Tra<strong>in</strong><strong>in</strong>gsfeh-


Seite 60<br />

3.6. Approximation durch Gitterpunkte<br />

1<br />

0.5<br />

0<br />

−0.5<br />

−1<br />

MSE<br />

6 x 10−3<br />

5<br />

4<br />

3<br />

2<br />

1<br />

Zahl <strong>der</strong> Gitterpunkte<br />

−1.5<br />

−1.5 −1 −0.5 0 0.5 1<br />

(a) Tra<strong>in</strong><strong>in</strong>gsmenge mit den ersten 70 Gitterpunkten.<br />

0<br />

50 100 150<br />

(b) Tra<strong>in</strong><strong>in</strong>gsfehler (durchgezogene L<strong>in</strong>ie),<br />

Testfehler (gestrichelte L<strong>in</strong>ie) und Fehler <strong>der</strong><br />

LOO-CV (gepunktete L<strong>in</strong>ie).<br />

Abbildung 3.10: Approximation des unverrauschten Hénon-Attraktors durch e<strong>in</strong> Gitter<br />

(a) mit Tra<strong>in</strong><strong>in</strong>gs- und Testfehler (b).<br />

ler aufgetragen, sowie als Vergleich das Ergebnis <strong>der</strong> Leave-one-out Cross-Validation<br />

über dem Tra<strong>in</strong><strong>in</strong>gsdatensatz. Erneut geht <strong>der</strong> Tra<strong>in</strong><strong>in</strong>gsfehler unter den Wert <strong>der</strong><br />

LOO-CV, da <strong>in</strong> den Gitterpunkten Informationen <strong>der</strong> Tra<strong>in</strong><strong>in</strong>gsmenge enthalten<br />

s<strong>in</strong>d. Der Testfehler bleibt allerd<strong>in</strong>gs recht groß. Zudem zeigt <strong>der</strong> plötzliche Abfall<br />

bei ca. 50 Gitterpunkten, wie <strong>lokale</strong> M<strong>in</strong>ima den Aufbau des Gitters erschweren, die<br />

durch die “Greedy-Strategie” verursacht werden, die ausschließlich danach trachtet,<br />

den Fehler für den nächsten Gitterpunkt zu m<strong>in</strong>imieren.<br />

Auch wenn das Problem <strong>lokale</strong>r M<strong>in</strong>ima durch bessere Auswahl-Strategien gelöst<br />

werden kann und für verrauschte Daten sich gute Ergebnisse zeigen, bleibt dennoch<br />

das Ergebnis, dass im Falle von Daten mit wenig o<strong>der</strong> ke<strong>in</strong>em Rauschen die Approximation<br />

durch e<strong>in</strong> Gitter e<strong>in</strong>e schlechtere Modellierung ergibt. Die Vermeidung von<br />

Overfitt<strong>in</strong>g kann bereits durch den herkömmlichen Ansatz über die LOO-CV geschehen;<br />

die Approximation durch Gitterpunkte bietet hier ke<strong>in</strong>e wesentlichen Vorteile.<br />

Auch <strong>der</strong> Gew<strong>in</strong>n an Rechenzeit durch weniger Datenpunkte und weniger nächsten<br />

Nachbarn verschw<strong>in</strong>det, wenn man die Zeit zur Optimierung des Gitters h<strong>in</strong>zuzieht.


Kapitel 3. Lokal polynomiale Modellierung Seite 61<br />

3.7 Lokale radiale Basisfunktionen<br />

Das <strong>in</strong> Abschnitt 2.1.1 vorgestellt Pr<strong>in</strong>zip <strong>der</strong> <strong>lokale</strong>n Modellbildung stellt frei, welche<br />

Form von Modell <strong>in</strong> <strong>der</strong> Umgebung des Anfragepunktes verwendet wird. Pr<strong>in</strong>zipiell<br />

kann jede Form von Modell gewählt werden, wobei sich jedoch aufgrund <strong>der</strong><br />

niedrigen Zahl <strong>der</strong> Datenpunkte nur wenige wirklich eignen. Als Alternative zu polynomialen<br />

<strong>Modelle</strong>n sollen daher noch <strong>lokale</strong> <strong>Modelle</strong> mit radialen Basisfunktionen<br />

(RBF) vorgestellt werden.<br />

Hierbei werden an vorgegebenen Stützstellen c i , i = 1, . . . , k, rotationssymmetrische<br />

Funktionen g i (‖x−c i ‖) aufgespannt und additiv überlagert. Als Stützstellen bei <strong>der</strong><br />

<strong>lokale</strong>n Modellierung dienen die nächsten Nachbarn des Anfragepunktes [29].<br />

Die beiden populärsten RBF s<strong>in</strong>d die Gauß-Funktion<br />

g i (x) = exp<br />

(− ‖x − c )<br />

i‖ 2<br />

σ 2<br />

(3.35)<br />

und die multiquadratische Funktion<br />

g i (x) = √ r 2 + ‖x − c i ‖ 2 , (3.36)<br />

wobei σ ∈ R bzw. r ∈ R frei wählbare Parameter s<strong>in</strong>d. Das Modell ergibt sich durch<br />

L<strong>in</strong>earkomb<strong>in</strong>ation dieser Basisfunktionen, d.h.<br />

f(x) =<br />

k∑<br />

ν i g i (x) . (3.37)<br />

i=1<br />

Der Parameter σ ist die Halbwertsbreite <strong>der</strong> Gauß-Kurve und def<strong>in</strong>iert somit den<br />

Grad <strong>der</strong> Lokalität <strong>der</strong> Basisfunktion. Im Falle <strong>der</strong> multiquadratischen Basisfunktion,<br />

die im Gegensatz zur Gauß-Funktion nicht beschränkt ist, kann durch den<br />

Parameter r die Glattheit <strong>der</strong> resultierenden Überlagerung gesteuert werden. Für<br />

r = 0 ergibt sich die Betragsfunktion g i (x) = ‖x − c i ‖, die an <strong>der</strong> Stützstelle x = c i<br />

nicht mehr differenzierbar ist.<br />

Die Berechnung e<strong>in</strong>er Approximation durch Überlagerung von radialen Basisfunktionen<br />

erfolgt durch M<strong>in</strong>imierung e<strong>in</strong>er Kostenfunktion<br />

P (ν) = ‖y − Aν‖ 2 + ‖Rν‖ 2<br />

= (y − Aν) T (y − Aν) + ν T R T Rν .<br />

(3.38)


Seite 62<br />

3.8. Optimierung <strong>der</strong> Modellparameter<br />

Der zweite Term <strong>der</strong> Kostenfunktion ist die Ridge Regression aus Abschnitt 3.4.2<br />

zur Regularisierung des Modells. Die Komponenten <strong>der</strong> Vektoren y und ν s<strong>in</strong>d<br />

wie bei <strong>der</strong> polynomialen Regression gegeben durch die Ausgabewerte <strong>der</strong> nächsten<br />

Nachbarn und den Koeffizienten aus (3.37)<br />

y =<br />

⎛<br />

⎜<br />

⎝<br />

⎞<br />

⎛ ⎞<br />

y nn(1)<br />

ν 0<br />

⎟<br />

⎜ ⎟<br />

. ⎠ und ν = ⎝ . ⎠ . (3.39)<br />

y nn(k) ν k<br />

In <strong>der</strong> Matrix A stehen die Werte <strong>der</strong> radialen Basisfunktionen, ausgewertet an den<br />

nächsten Nachbarn x nn(1) , . . . , x nn(k) , d.h.<br />

⎛<br />

⎞<br />

g 1 (x nn(1) ) . . . g k (x nn(1) )<br />

⎜<br />

A = ⎝<br />

.<br />

. ..<br />

⎟ . ⎠ . (3.40)<br />

g 1 (x nn(k) ) . . . g k (x nn(k) )<br />

Die Diagonalelemente von A s<strong>in</strong>d somit alle gleich dem Parameter r. Die Normalengleichung<br />

ist gegeben durch (3.32), nur dass hier ke<strong>in</strong>e Wichtungsmatrix vorhanden<br />

ist, d.h.<br />

ν = (A T A + R T R) −1 A T y . (3.41)<br />

Im folgenden wird die Regularisierungsmatrix R = µ 2 I gesetzt und man erhält durch<br />

E<strong>in</strong>setzen <strong>der</strong> S<strong>in</strong>gulärwertzerlegung die Lösung (3.33), nur dass y = y W e<strong>in</strong>gesetzt<br />

werden muss.<br />

3.8 Optimierung <strong>der</strong> Modellparameter<br />

Es ist e<strong>in</strong>e wesentliche Eigenschaft nichtparametrischer Regression, dass “Modell”<br />

und “Daten” ke<strong>in</strong>e trennbaren Begriffe s<strong>in</strong>d. Dies zeigt sich auch bei den Parametern<br />

<strong>der</strong> <strong>lokale</strong>n Modellierung: bis auf die Parameter zur Regularisierung dienen<br />

sie zur Auswahl <strong>der</strong> Umgebung, <strong>in</strong> <strong>der</strong> die eigentliche Berechnung <strong>der</strong> Regression<br />

stattf<strong>in</strong>det.<br />

Im Fall des lokal konstanten Modells gibt es ke<strong>in</strong>e Form <strong>der</strong> Regularisierung und es<br />

verbleiben vier Arten von Parametern zur Wahl <strong>der</strong> Umgebung: die Zahl nächster<br />

Nachbarn, die Form <strong>der</strong> Wichtung, die Metrik zur Suche nach nächsten Nachbarn<br />

sowie die Form <strong>der</strong> E<strong>in</strong>bettung. Erschwert wird die korrekte Wahl <strong>der</strong> Parameter<br />

dadurch, dass sie sehr stark vone<strong>in</strong>an<strong>der</strong> abhängen. Die Zahl <strong>der</strong> nächsten Nachbarn<br />

kann durch entsprechende Wahl <strong>der</strong> Wichtung effektiv verr<strong>in</strong>gert werden. Die Form<br />

<strong>der</strong> Umgebung wie<strong>der</strong>um wird wesentlich durch die Metrik bee<strong>in</strong>flusst, was wie<strong>der</strong>um<br />

direkte Auswirkung auf die nötige Zahl <strong>der</strong> nächsten Nachbarn hat.


Kapitel 3. Lokal polynomiale Modellierung Seite 63<br />

Wahl <strong>der</strong> E<strong>in</strong>bettung<br />

Im Falle <strong>der</strong> Modellierung von Zeitreihen steht an erster Stelle die E<strong>in</strong>bettung<br />

mit den Parametern d (E<strong>in</strong>bettungsdimension) und τ (Delay). Über die optimale<br />

Wahl dieser Parameter s<strong>in</strong>d zahlreiche Untersuchungen durchgeführt worden; für<br />

e<strong>in</strong>e Übersicht verschiedener Methoden zur Ermittlung <strong>der</strong> optimalen E<strong>in</strong>bettungsparameter<br />

sei auf [10] verwiesen. Diese Methoden zielen meist darauf, e<strong>in</strong>e Rekonstruktion<br />

des Attraktors mit e<strong>in</strong>er m<strong>in</strong>imalen E<strong>in</strong>bettungsdimension zu erreichen;<br />

dies muss allerd<strong>in</strong>gs nicht die optimale Wahl für das Problem <strong>der</strong> Modellierung se<strong>in</strong>.<br />

Die Problematik <strong>der</strong> korrekten Wahl <strong>der</strong> E<strong>in</strong>bettungsparameter kann aber <strong>in</strong>sofern<br />

vere<strong>in</strong>facht werden, als dass es für die Modellierung wesentlich ist, das Produkt <strong>der</strong><br />

beiden Parameter<br />

ω = d · τ (3.42)<br />

korrekt zu wählen. Insofern ω groß genug und d nicht zu kle<strong>in</strong> gewählt wird, können<br />

durchaus verschiedene Komb<strong>in</strong>ationen von (d, τ) ähnlich gute Ergebnisse bei <strong>der</strong><br />

Modellierung liefern (siehe [20],[22]). McNames empfiehlt, die Delay-Zeit möglichst<br />

kle<strong>in</strong> zu wählen, da kle<strong>in</strong>ere Delay-Zeiten e<strong>in</strong>e bessere Abschätzung des <strong>in</strong>tegrierten<br />

quadratischen Fehlers erlauben [24]. Dies führt zwar zu entsprechend großen E<strong>in</strong>bettungsdimensionen,<br />

aber es zeigt sich, dass sich trotz des “Fluch <strong>der</strong> Dimensionen”<br />

hierdurch die besten Ergebnisse erzielen lassen 4 . Letztlich sollte die Qualität <strong>der</strong> Vorhersage<br />

über die Wahl <strong>der</strong> E<strong>in</strong>bettung entscheiden, weshalb die beiden Parameter<br />

(d, τ) anhand des Vorhersagefehlers optimiert werden.<br />

Zyklische Optimierung<br />

Es stellt sich die Frage, wie die Parameter <strong>der</strong> <strong>lokale</strong>n Modellierung geeignet optimiert<br />

werden können. Als Kriterium für die Güte e<strong>in</strong>es Modells bietet sich <strong>der</strong> normierte<br />

Mehrschritt-Vorhersagefehler (2.13) an (NMSE), <strong>der</strong> <strong>in</strong> Abschnitt 2.4 vorgestellt<br />

wurde. E<strong>in</strong> Problem hierbei ist, dass die Berechnung dieser Fehlergröße gerade<br />

bei größeren Datensätzen und aufwändigeren <strong>Modelle</strong>n (lokal l<strong>in</strong>ear, <strong>lokale</strong> RBF) sowie<br />

vielen iterativen Schritten zeitaufwändig ist. Langsam konvergierende genetische<br />

Algorithmen o<strong>der</strong> das Simulated Anneal<strong>in</strong>g kommen daher nicht <strong>in</strong> Frage, obwohl sie<br />

sich für dieses Problem anbieten würden, da häufig <strong>lokale</strong> M<strong>in</strong>ima auftreten. Auch<br />

Gradienten-basierte Verfahren können höchstens für die Optimierung <strong>der</strong> Metrik und<br />

<strong>der</strong> Regularisierung verwendet werden; alle an<strong>der</strong>en Größen s<strong>in</strong>d ganzzahlig und lassen<br />

ke<strong>in</strong>e Berechnung e<strong>in</strong>es Gradienten zu. Aber auch Optimierungsverfahren ohne<br />

4 McNames empfiehlt ebenso, bei grob abgetasteten Zeitreihen e<strong>in</strong> Upsampl<strong>in</strong>g durch Interpolation<br />

<strong>der</strong> Daten durchzuführen. Ob dies i.A. tatsächlich die Genauigkeit <strong>der</strong> Vorhersage erhöht<br />

ersche<strong>in</strong>t allerd<strong>in</strong>gs fraglich, da hierdurch die nächsten Nachbarn extrem dicht beie<strong>in</strong>an<strong>der</strong> liegen.


Seite 64<br />

3.8. Optimierung <strong>der</strong> Modellparameter<br />

Gradienten wie z.B. die Methode nach Powell [30] konvergieren <strong>in</strong> den meisten<br />

Fällen zu langsam und lassen sich nur bei relativ kle<strong>in</strong>en Datensätzen verwenden.<br />

E<strong>in</strong>e e<strong>in</strong>fache Möglichkeit ist die zyklische Optimierung, bei <strong>der</strong> e<strong>in</strong>fach alle Parameter<br />

nache<strong>in</strong>an<strong>der</strong> optimiert werden [22]. Für jeden Parameter wird e<strong>in</strong> gewisses<br />

Intervall vorgegeben, aus dem <strong>in</strong> l<strong>in</strong>ear o<strong>der</strong> logarithmisch skalierten Abständen verschiedene<br />

Werte des Parameters gewählt werden. Nach jedem Durchlauf wird dieses<br />

Intervall verkle<strong>in</strong>ert. Natürlich hat dieses Verfahren durchaus gravierende Nachteile:<br />

es ist anfällig für <strong>lokale</strong> M<strong>in</strong>ima und es berücksichtigt nicht die Abhängigkeit <strong>der</strong><br />

Parameter untere<strong>in</strong>an<strong>der</strong>. Aus Gründen <strong>der</strong> Laufzeit ist es aber mit dem Stand heutiger<br />

Rechner das e<strong>in</strong>zig praktikable. In e<strong>in</strong>igen Jahren dürfte es aber ke<strong>in</strong> Problem<br />

se<strong>in</strong>, auch komplexere Algorithmen wie z.B. das oben erwähnte Simulated Anneal<strong>in</strong>g<br />

für dieses Problem zu verwenden.<br />

Um die Rechenzeit weiter zu verkürzen, wird <strong>der</strong> NMSE nicht über alle Punkte des<br />

Datensatzes berechnet, son<strong>der</strong>n e<strong>in</strong>e zufällige Teilmenge gewählt. Sie darf natürlich<br />

nicht zu kle<strong>in</strong> gewählt werden, ansonsten ist das Ergebnis nicht mehr repräsentativ<br />

für den gesamten Datensatz. Die Teilmenge wird für jeden zu optimierenden Parameter<br />

neu gewählt, um e<strong>in</strong> Overfitt<strong>in</strong>g auf e<strong>in</strong>e Untermenge des Datensatzes zu<br />

vermeiden.<br />

Algorithmus<br />

Das Vorgehen <strong>der</strong> Optimierung ist wie folgt:<br />

1. Zunächst ist bis auf E<strong>in</strong>bettungsdimension und Delay e<strong>in</strong> Startwert für jeden<br />

Parameter festzulegen, <strong>der</strong> möglichst konservativ gewählt werden sollte, damit<br />

das Modell nicht gänzlich versagt. Weiterh<strong>in</strong> ist e<strong>in</strong>e Schrittweite p für den<br />

NMSE vorzugeben.<br />

2. Für jeden Parameter P ist e<strong>in</strong> Start<strong>in</strong>tervall [P m<strong>in</strong> , P max ] anzugeben, <strong>in</strong> dem<br />

<strong>der</strong> Parameter variiert wird. Weiterh<strong>in</strong> muss festgelegt werden, wie fe<strong>in</strong> die<br />

Unterteilung dieses Intervalls se<strong>in</strong> soll und ob sie l<strong>in</strong>ear o<strong>der</strong> logarithmisch<br />

erfolgt. Zusätzlich muss angegeben werden, ob <strong>der</strong> Parameter ganzzahlig se<strong>in</strong><br />

muss o<strong>der</strong> nicht.<br />

3. Die Parameter werden nun nache<strong>in</strong>an<strong>der</strong> <strong>in</strong>nerhalb <strong>der</strong> vorgegeben Intervalle<br />

optimiert. Im Falle von Zeitreihen steht an erster Stelle die E<strong>in</strong>bettung. Hierzu<br />

werden Komb<strong>in</strong>ationen von Delay und Dimension aus den vorgegebenen Intervallen<br />

verwendet und <strong>der</strong> NMSE berechnet. Meist reicht es, den Delay auf<br />

kle<strong>in</strong>e Werte zu beschränken.<br />

4. Nun erfolgt die Optimierung <strong>der</strong> an<strong>der</strong>en Parameter, wobei folgende Reihenfolge<br />

verwendet wurde: Zahl nächster Nachbarn, Regularisierung, evtl. Parameter


Kapitel 3. Lokal polynomiale Modellierung Seite 65<br />

r o<strong>der</strong> σ für radiale Basisfunktionen, Wichtung, Metrik. Vor jedem neuen Parameter<br />

wird e<strong>in</strong>e neue zufällige Teilmenge <strong>der</strong> Daten gebildet.<br />

5. Nach dem kompletten Durchlauf aller Parameter werden die Intervalle exponentiell<br />

o<strong>der</strong> l<strong>in</strong>ear verkle<strong>in</strong>ert. Nach dem ersten Durchlauf sollte dies allerd<strong>in</strong>gs<br />

unterlassen werden, um evtl. schlecht gewählte Startwerte zu korrigieren.<br />

6. Falls seit dem letzten Durchlauf ke<strong>in</strong>e nennenswerte Verbesserung <strong>der</strong> Vorhersage<br />

erzielt werden konnte ist die Optimierung abzubrechen. Ansonsten gehe<br />

zu Punkt 3.<br />

Dieser e<strong>in</strong>fache Algorithmus liefert zwar meist nicht optimale, aber zum<strong>in</strong>dest gute<br />

Ergebnisse für die Modellierung. Auch mit <strong>lokale</strong>n <strong>Modelle</strong>n gänzlich unerfahrene<br />

Benutzer können mit Hilfe dieser Optimierung gute <strong>Modelle</strong> erhalten. Zwar müssen<br />

vor Beg<strong>in</strong>n <strong>der</strong> Optimierung gewisse Startwerte vorgegeben werden, dies stellt allerd<strong>in</strong>gs<br />

<strong>in</strong> den meisten Fällen ke<strong>in</strong> Problem dar, da sich für jeden Modelltyp allgeme<strong>in</strong>e<br />

“konservative” Parameterwerte f<strong>in</strong>den lassen, die als Startpunkt zur Optimierung<br />

dienen können. Problematisch wird es bei Datensätzen mit sehr wenig Datenpunkten,<br />

da hier zahlreiche <strong>lokale</strong> M<strong>in</strong>ima auftreten, die letztlich zu wenig geeigneten<br />

Parameterkonfigurationen führen können. In solchen Fällen ist e<strong>in</strong>e manuelle Wahl<br />

<strong>der</strong> Parameter vorzuziehen.<br />

3.9 Zeitliche Variation <strong>der</strong> Parameter<br />

Es wurde bereits erwähnt, dass es bei <strong>der</strong> iterativen Mehrschritt-Vorhersage von<br />

Zeitreihen wichtig ist, dass die Parameter des Modells auch auf die Mehrschritt-<br />

Vorhersage h<strong>in</strong> optimiert werden. E<strong>in</strong> Modell, dessen Parameter für die E<strong>in</strong>-Schritt-<br />

Vorhersage optimiert ist, wird bei iterativer Anwendung e<strong>in</strong> schlechteres Ergebnis<br />

zeigen, da es die akkumulierenden Fehler nicht berücksichtigt.<br />

Aber warum soll man für jeden e<strong>in</strong>zelnen Schritt <strong>der</strong> Mehrschritt-Vorhersage dasselbe<br />

Modell verwenden, obwohl doch <strong>der</strong> Fehler <strong>der</strong> Anfragepunkte für die ersten<br />

Schritte ger<strong>in</strong>g ist und erst später anwächst Es ist daher s<strong>in</strong>nvoll, für die ersten<br />

paar Zeitschritte e<strong>in</strong> Modell zu nehmen, dass noch mehr “Vertrauen” <strong>in</strong> die Güte<br />

<strong>der</strong> Anfragepunkte hat, während darauf folgende <strong>Modelle</strong> etwas “kritischer” se<strong>in</strong><br />

sollten. Der wesentliche Parameter ist hierbei die Regularisierung; im Falle <strong>der</strong> hier<br />

verwendeten TPCR mit Soft-Threshold ist vor allem <strong>der</strong> Parameter s c aus (3.29)<br />

und (3.30) wesentlich. Der Parameter sollte für die ersten Zeitschritte eher kle<strong>in</strong><br />

gewählt werden und mit <strong>der</strong> Zeit anwachsen.<br />

Um diesen Vorgang zu automatisieren lässt sich wie<strong>der</strong> <strong>der</strong> zyklische Optimierungsalgorithmus<br />

aus Abschnitt 3.8 verwenden. Der Algorithmus für e<strong>in</strong>en Datensatz <strong>der</strong><br />

Länge N lautet wie folgt:


Seite 66<br />

3.9. Zeitliche Variation <strong>der</strong> Parameter<br />

1. Wähle e<strong>in</strong> Intervall ∆p, <strong>in</strong> das die gewünschte Vorhersagedauer p unterteilt<br />

werden soll (im Folgenden wird davon ausgegangen, dass p/∆p ganzzahlig ist).<br />

Setze die Zählvariable j = 0.<br />

2. Optimiere die Parameter des <strong>lokale</strong>n Modells für die Vorhersage von T a = 0 bis<br />

T e = ∆p und speichere die erhaltenen Parameter P 0 ab. Für jeden e<strong>in</strong>zelnen<br />

Punkt x i des Datensatzes speichere die vom optimalen Modell vorhergesagten<br />

Werte <strong>in</strong> e<strong>in</strong>em Vektor v i .<br />

3. Setze T a = T a + ∆p, T e = T e + ∆p und j = j + 1. Falls T a > p ist <strong>der</strong><br />

Algorithmus abzubrechen.<br />

4. Optimiere die Parameter des <strong>lokale</strong>n Modells für die Vorhersage von T a bis T e ,<br />

allerd<strong>in</strong>gs auch unter Verwendung <strong>der</strong> bereits von den vorherigen <strong>Modelle</strong>n<br />

vorhergesagten Werte v i , i = 1, . . . , N. Speichere die so erhaltenen optimalen<br />

Parameter <strong>in</strong> P j . Für jeden Punkt x i , i = 1, . . . , N des Datensatzes berechne<br />

anhand des optimalen Modells die Vorhersagen von T a bis T e und hänge diese<br />

jeweils an den Vektor v i an.<br />

5. Spr<strong>in</strong>ge zu 3.<br />

Das endgültige Modell setzt sich somit aus p/∆p e<strong>in</strong>zelnen <strong>Modelle</strong>n zusammen mit<br />

den Parameterwerten P i und i = 1, . . . , p/∆p.<br />

Als Beispiel wurde das System von Baier und Sahle verwendet, welches e<strong>in</strong>e Verallgeme<strong>in</strong>erung<br />

des Rössler-Systems darstellt [4]. Es ist gegeben durch das Differentialgleichungssystem<br />

ẋ 1 = −x 2 + ax 1<br />

ẋ i = x i−1 − x i+1 mit i = 2, . . . , M − 1<br />

ẋ M = ε + bx M · (x M−1 − d) ,<br />

(3.43)<br />

wobei als Parameter a = 0.28, b = 4, d = 2, ε = 0.1 gewählt wurden. Der Parameter<br />

M steuert die Dimensionalität des Systems und muss ungeradzahlig gewählt werden;<br />

mit M ≥ 5 ergibt sich e<strong>in</strong> hyperchaotisches System.<br />

In diesem Beispiel wurde M = 5 gewählt und zunächst mit dem vorgestellten Optimierungsalgorithmus<br />

die Vorhersage für p = 40 Zeitschritte optimiert. Als Unterteilung<br />

wurde ∆p = 10 gewählt. Hier wurde nun ausschließlich <strong>der</strong> Parameter s c<br />

optimiert, während alle an<strong>der</strong>e Parameter konstant gehalten wurden. Dieser variierte<br />

von s c = 7, 5 · 10 −5 für die Zeitschritte von 0 bis 10 zu s c = 0.05 für die Zeitschritte<br />

von 30 bis 40. Das so erhaltene Modell, dass sich aus den vier unterschiedlichen<br />

E<strong>in</strong>zelmodellen zusammensetzt, brachte um 8% bessere Ergebnisse.


Kapitel 3. Lokal polynomiale Modellierung Seite 67<br />

3.10 Suche nach nächsten Nachbarn<br />

E<strong>in</strong> großer Vorteil <strong>lokale</strong>r <strong>Modelle</strong> ist ihre Effizienz. Sie rührt natürlich daher, dass<br />

das eigentliche Modell nur anhand sehr weniger Tra<strong>in</strong><strong>in</strong>gspunkte, eben den nächsten<br />

Nachbarn, berechnet werden muss. Aber bei dieser Argumentation lässt man den<br />

eigentlich wichtigsten Punkt <strong>in</strong> Bezug auf die Laufzeitbetrachtung unter den Tisch<br />

fallen: wie f<strong>in</strong>det man möglichst schnell die nächsten Nachbarn e<strong>in</strong>es Punktes<br />

Das Problem ist folgen<strong>der</strong>maßen def<strong>in</strong>iert: Gegeben sei e<strong>in</strong>e Menge von Punkten<br />

M = {x 1 , . . . , x n } mit x i ∈ R d , ∀i, e<strong>in</strong>e Metrik ‖ · ‖ sowie e<strong>in</strong> Anfragepunkt q ∈ R d .<br />

Gesucht s<strong>in</strong>d die k Punkte aus M, die bezüglich <strong>der</strong> gegebenen Metrik die ger<strong>in</strong>gste<br />

Distanz zum Anfragepunkt q haben.<br />

Die Suche nach nächsten Nachbarn ist mittlerweile Kern zahlreicher Algorithmen,<br />

<strong>in</strong>sb. <strong>in</strong> Gebieten wie Data M<strong>in</strong><strong>in</strong>g, Mustererkennung, Klassifikation, Mach<strong>in</strong>e Learn<strong>in</strong>g,<br />

Datenkompression und Statistik [21]. Es ist e<strong>in</strong> sehr komplexes Problem und<br />

es gibt nicht den besten Algorithmus zur Suche nach nächsten Nachbarn; vielmehr<br />

hängt es vom Anwendungsfall ab, welcher Algorithmus am schnellsten arbeitet. Hierbei<br />

s<strong>in</strong>d mehrere Parameter entscheidend, <strong>in</strong>sb. die Dimension d des Raumes, die<br />

Anzahl n <strong>der</strong> Punkte und ihre Verteilung im Raum, sowie die verwendete Metrik<br />

und die Verteilung <strong>der</strong> Anfragepunkte q i .<br />

Je<strong>der</strong> Algorithmus zur Suche nach nächsten Nachbarn muss sich zunächst mit dem<br />

sog. Brute-Force Ansatz messen. Hierbei werden e<strong>in</strong>fach alle Distanzen zwischen<br />

Anfragepunkt und den restlichen Punkten des Datensatzes berechnet und die k<br />

Punkte mit den ger<strong>in</strong>gsten Distanzen zurückgegeben. Dieses Verfahren benötigt ke<strong>in</strong>erlei<br />

Präprozess<strong>in</strong>g und bis auf die Punkte selbst ke<strong>in</strong>en zusätzlichen Speicherplatz,<br />

hat jedoch e<strong>in</strong>e Laufzeit von O(nd) für alle L p -Distanzen. Bei Verwendung solcher<br />

L p -Distanzen ist bei höherdimensionalen Problemen e<strong>in</strong>e Beschleunigung durch Verwendung<br />

des sog. Partial Distance Search (PDS) möglich, wo die Berechnung <strong>der</strong><br />

Distanz abgebrochen wird, sobald diese größer wird als die des bislang gefundenen<br />

letzten nächsten Nachbarn. Durch PDS kann natürlich je<strong>der</strong> Algorithmus zur Suche<br />

nächster Nachbarn beschleunigt werden, <strong>der</strong> L p -Distanzen verwendet.<br />

Die meisten effizienten Algorithmen zur Suche nach nächsten Nachbarn basieren auf<br />

e<strong>in</strong>er hierarchischen Zerlegung <strong>der</strong> Punktmenge, die meist <strong>in</strong> e<strong>in</strong>em Suchbaum als<br />

Datenstruktur gespeichert wird. Diese Zerlegung wird <strong>in</strong> e<strong>in</strong>em Präprozess<strong>in</strong>g durchgeführt;<br />

die Suche selbst f<strong>in</strong>det dann auf diesem Suchbaum statt. Es gibt zahlreiche<br />

Methoden zur Zerlegung <strong>der</strong> Punktmenge und zur Bildung e<strong>in</strong>er geeignete Datenstruktur.<br />

Im folgenden sollen zunächst Algorithmen auf Basis von k-d-Bäumen vorgestellt<br />

werden, da sie zu den ältesten und populärsten Methoden gehören und viele<br />

an<strong>der</strong>e Algorithmen zur Suche nächster Nachbarn diesen im Pr<strong>in</strong>zip ähneln. Daran<br />

anschließend wird <strong>der</strong> ATRIA-Algorithmus vorgestellt, <strong>der</strong> <strong>in</strong> dem Programmpaket<br />

TSTOOL [15] <strong>in</strong>tegriert ist und <strong>der</strong> auch für diese Arbeit verwendet wurde.


Seite 68<br />

3.10. Suche nach nächsten Nachbarn<br />

k-d-Bäume<br />

Der k-d-Baum ist e<strong>in</strong>e Datenstruktur, die als Verallgeme<strong>in</strong>erung des b<strong>in</strong>ären Suchbaums<br />

1975 von Bentley e<strong>in</strong>geführt wurde (siehe [6]); die Abkürzung “k-d” ist<br />

hierbei als “k-dimensional” zu verstehen 5 .<br />

E<strong>in</strong> k-d-Baum ist zunächst e<strong>in</strong>mal e<strong>in</strong> b<strong>in</strong>ärer Suchbaum: zu jedem Knoten P existieren<br />

maximal zwei Söhne; diese s<strong>in</strong>d als Po<strong>in</strong>ter LS(P ) und RS(P ) im Knoten<br />

von P gespeichert. Hierbei s<strong>in</strong>d diese Po<strong>in</strong>ter so zu verstehen, dass sie den gesamten<br />

Teilbaum l<strong>in</strong>ks bzw. rechts des Knotens P repräsentieren. Im Gegensatz zum<br />

normalen b<strong>in</strong>ären Suchbaum, wo je<strong>der</strong> Knoten genau e<strong>in</strong>en Schlüssel trägt, trägt<br />

beim k-d-Baum je<strong>der</strong> Knoten k verschiedene Schlüssel K 0 (P ), . . . , K k−1 (P ). Weiterh<strong>in</strong><br />

trägt je<strong>der</strong> Knoten e<strong>in</strong>e ganzzahlige Dimensionsangabe D(P ) zwischen 0 und<br />

k − 1, den sog. Diskrim<strong>in</strong>ator. Die Anordnung <strong>der</strong> Knoten erfüllt nun folgende Regel:<br />

Sei j = D(P ) <strong>der</strong> Diskrim<strong>in</strong>ator e<strong>in</strong>es Knotens P im k-d-Baum, dann gilt für<br />

alle Knoten U im Teilbaum LS(P ), dass K j (U) < K j (P ) und für alle Knoten V im<br />

Teilbaum RS(P ) gilt K j (V ) > K j (P ). Sollten zwei Schlüssel gleich se<strong>in</strong>, werden die<br />

restlichen Schlüssel als Vergleichsobjekte herangezogen (für Details siehe [6]).<br />

Für die Anwendung <strong>der</strong> Suche nach nächsten Nachbarn s<strong>in</strong>d die Schlüssel e<strong>in</strong>es<br />

Knotens K 0 (P ), . . . , K k−1 (P ) Komponenten e<strong>in</strong>es k-dimensionalen Vektors; je<strong>der</strong><br />

Knoten im k-d-Baum trägt somit e<strong>in</strong>en Punkt x ∈ R k . Alle Punkte aus Knoten U<br />

im Teilbaum LS(P ) s<strong>in</strong>d somit bezüglich <strong>der</strong> Komponente j = D(P ) kle<strong>in</strong>er als P .<br />

In Abbildung 3.11 ist dies für den Fall des 2-d-Baumes gezeigt, e<strong>in</strong>mal <strong>in</strong> räumlicherund<br />

e<strong>in</strong>mal <strong>in</strong> Graph-Darstellung. Der Knoten A ist die Wurzel des Baumes, für se<strong>in</strong>e<br />

Söhne gelte die x-Komponenten als Vergleichskriterium: Alle Knoten im l<strong>in</strong>ken<br />

Teilbaum von A (also B,D,E und G) liegen l<strong>in</strong>ks von A, die an<strong>der</strong>en rechts. Ausgehend<br />

von den Söhnen von A, nämlich B und C, gilt nun die y-Komponente als<br />

Vergleichskriterium: alle Knoten im l<strong>in</strong>ken Teilbaum von B liegen unterhalb, <strong>der</strong><br />

Knoten E im rechten Teilbaum oberhalb. Analog verhält es sich beim Knoten C,<br />

wo <strong>der</strong> Knoten F im rechten Teilbaum liegt und somit oberhalb von C.<br />

Der eigentliche Trick liegt somit dar<strong>in</strong>, dass mit jedem Knoten nicht nur e<strong>in</strong> Punkt,<br />

son<strong>der</strong>n auch gleichzeitig e<strong>in</strong> k-dimensionaler Qua<strong>der</strong> des Raumes verknüpft ist,<br />

dessen Kanten durch die Vorgängerknoten bestimmt wird. Je<strong>der</strong> nicht-term<strong>in</strong>ale<br />

Knoten e<strong>in</strong>es k-d-Baumes ist somit Wurzel e<strong>in</strong>es Teilbaumes, <strong>der</strong> alle Punkte e<strong>in</strong>es<br />

bestimmten Qua<strong>der</strong>s enthält; die Wurzel des Baumes umfasst als e<strong>in</strong>ziger Knoten<br />

den gesamten Raum. Der k-d-Baum liefert somit e<strong>in</strong>e hierarchische räumliche Aufteilung<br />

<strong>der</strong> Punkte. In <strong>der</strong> Praxis ist es aus Gründen <strong>der</strong> Laufzeit s<strong>in</strong>nvoll, e<strong>in</strong>e<br />

m<strong>in</strong>imale Anzahl L an Punkten vorzugeben, ab <strong>der</strong> ke<strong>in</strong>e Aufteilung mehr vorgenommen<br />

werden soll. Diese Punktmengen mit e<strong>in</strong>er Punktzahl kle<strong>in</strong>er als L laden<br />

<strong>in</strong> den term<strong>in</strong>alen Knoten des Baumes; sie werden meist als Buckets bezeichnet.<br />

5 Um dem Begriff “k-d-Baum” Genüge zu tun, wird <strong>in</strong> diesem Abschnitt die bisherige Notation<br />

fallengelassen, die mit d die Dimension und mit k die Zahl nächster Nachbarn bezeichnet.


£¢ £<br />

¢<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

Kapitel 3. Lokal polynomiale Modellierung Seite 69<br />

(0,100) (100,100)<br />

E(40,85)<br />

¨<br />

©¨<br />

©<br />

<br />

<br />

<br />

F(70,85)<br />

G(10,60)<br />

¤<br />

¥¤<br />

¥<br />

A<br />

¡<br />

¡<br />

A(50,50)<br />

B<br />

C<br />

¦<br />

§¦<br />

§<br />

D(25,20)<br />

D E F<br />

y<br />

C(80,15)<br />

(0,0)<br />

x<br />

<br />

(a)<br />

<br />

<br />

<br />

G<br />

(100,0)<br />

(b)<br />

B(10,70)<br />

<br />

Abbildung 3.11: Beispiel für k-d-Baum <strong>in</strong> räumlicher Darstellung (a) und als b<strong>in</strong>ärer<br />

Baum (b).<br />

Ist e<strong>in</strong>e Punktmenge erstmal <strong>in</strong> solch e<strong>in</strong>er Datenstruktur gespeichert, gestaltet sich<br />

die Suche nach m nächsten Nachbarn zum Anfragepunkt q recht e<strong>in</strong>fach. Man verwendet<br />

zusätzlich zum k-d-Baum e<strong>in</strong>e Liste D, die die bislang gefundenen m nächsten<br />

Punkte verwaltet, wobei diese nach den Distanzen d 1 , . . . , d m = d max sortiert<br />

ist. Beg<strong>in</strong>nend mit <strong>der</strong> Wurzel wird rekursiv e<strong>in</strong>e Funktion aufgerufen, die folgendes<br />

ausführt:<br />

• Falls e<strong>in</strong> term<strong>in</strong>aler Knoten (Bucket) angetroffen wird, werden alle Distanzen<br />

zwischen q und den dort vorhandenen Punkten berechnet und die Liste D<br />

entsprechend aktualisiert. Dies entspricht dem oben erwähnten Brute-Force<br />

Ansatz.<br />

• Immer wenn man e<strong>in</strong>en Knoten antrifft dessen Punkt näher an q liegt als d max ,<br />

wird dieser <strong>in</strong> die Liste e<strong>in</strong>gefügt. Die Funktion wird dann rekursiv für den<br />

Sohn aufgerufen, <strong>in</strong> dessen Teilbaum <strong>der</strong> Anfragepunkt q liegt.<br />

• Falls nach Rückkehr aus dieser Funktion die Kugel mit Radius d max um den<br />

Anfragepunkt q mit dem Bereich des an<strong>der</strong>en Sohnes überlappt, muss auch<br />

dieser rekursiv aufgerufen werden.<br />

• Die Rekursion endet, falls diese Kugel komplett <strong>in</strong>nerhalb <strong>der</strong> Grenzen des<br />

Knotens liegt.<br />

Die Effizienz des k-d-Baumes hängt von verschiedenen Parametern ab. Zunächst ist<br />

die Frage, wie man jeweils e<strong>in</strong>en Punkt und den Diskrim<strong>in</strong>ator wählen soll, anhand


Seite 70<br />

3.10. Suche nach nächsten Nachbarn<br />

<strong>der</strong>er die Aufteilung des Raumes geschieht. Als natürlichen k-d-Baum bezeichnet<br />

man, wenn die Punkte zufällig und für den Diskrim<strong>in</strong>ator e<strong>in</strong>e Modulo-Funktion<br />

verwendet wird, d.h. D(P ) = i mod k, wobei i die Ebene des Baumes ist, <strong>in</strong> <strong>der</strong><br />

sich <strong>der</strong> Knoten P bef<strong>in</strong>det. Der Diskrim<strong>in</strong>ator wird somit <strong>in</strong> aufsteigen<strong>der</strong> Reihenfolge<br />

vergeben, beg<strong>in</strong>nend mit 0 bei <strong>der</strong> Wurzel bis zur Ebene k, bei <strong>der</strong> dann<br />

<strong>der</strong> Zyklus erneut mit 0 beg<strong>in</strong>nt. Um e<strong>in</strong>en sog. optimalen k-d-Baum aufzubauen,<br />

wird <strong>der</strong> Punkt im Knoten P und <strong>der</strong> Diskrim<strong>in</strong>ator D(P ) so gewählt, dass <strong>in</strong> den<br />

sich ergebenden Teilmengen etwa gleich viele Punkte liegen [12]. Es gibt noch weitere<br />

Verfe<strong>in</strong>erungen zur Wahl des Punktes und Diskrim<strong>in</strong>ators e<strong>in</strong>es k-d-Baumes,<br />

die <strong>in</strong>sb. sehr ungleich verteilte Punktmengen berücksichtigen (z.B. das sog. Slid<strong>in</strong>g<br />

Midpo<strong>in</strong>t Verfahren; e<strong>in</strong>e Übersicht f<strong>in</strong>det sich <strong>in</strong> [21]).<br />

Unter gewissen Voraussetzungen (für Details siehe [12]) ist die Laufzeit zum Aufbau<br />

des k-d-Baumes (Präprozess<strong>in</strong>g) O(k·n log n) und es wird O(n) zusätzlicher Speicher<br />

benötigt. Für die Suche nach m nächsten Nachbarn gilt O(log n), also unabhängig<br />

von k. Diese letzte Aussage ist aber mit Vorsicht zu genießen, <strong>in</strong>sb. für normalund<br />

gleichverteilte Punkte steigt die Zeit zur Suche nächster Nachbarn deutlich mit<br />

wachsen<strong>der</strong> Dimension, im hochdimensionalen Fall sogar exponentiell (vgl. [23]). Der<br />

Grund hierfür liegt im “Fluch <strong>der</strong> Dimensionen” (siehe Abschnitt 2.2). Die Größen<br />

<strong>der</strong> Abstände <strong>der</strong> nächsten Nachbarn nähern sich immer weiter an, weshalb bei<br />

<strong>der</strong> Suche nächster Nachbarn im k-d-Baum immer mehr Knoten aufgesucht werden<br />

müssen. Für hohe Dimensionen ist daher e<strong>in</strong> Brute-Force Ansatz bei gleich- o<strong>der</strong><br />

normalverteilten Punkten häufig schneller, da hier die Zeit für das Präprozess<strong>in</strong>g<br />

entfällt.<br />

Glücklicherweise hat man es aber gerade bei <strong>der</strong> <strong>Zeitreihenanalyse</strong> häufig mit Daten<br />

zu tun, die auf e<strong>in</strong>er Untermannigfaltigkeit des Raumes liegen, <strong>der</strong>en Dimension<br />

meist deutlich ger<strong>in</strong>ger als die des E<strong>in</strong>bettungsraumes ist. Es zeigt sich, dass die<br />

meisten Algorithmen zur Suche nächster Nachbarn weitaus stärker von <strong>der</strong> Dimension<br />

dieser Mannigfaltigkeit abhängt als von <strong>der</strong> Dimension des E<strong>in</strong>bettungsraumes.<br />

Beson<strong>der</strong>s gut skaliert hierbei <strong>der</strong> sog. ATRIA, <strong>der</strong> von Merkwirth <strong>in</strong> [25] vorgestellt<br />

wird und <strong>der</strong> auch für diese Arbeit verwendet wurde.<br />

ATRIA<br />

Der ATRIA (Advanced Triangle Inequality (Based) Algorithm) erstellt ebenfalls<br />

e<strong>in</strong>en b<strong>in</strong>ären Suchbaum <strong>in</strong> e<strong>in</strong>em Präprozess<strong>in</strong>g, <strong>der</strong> dann später für die Suche<br />

nächster Nachbarn verwendet wird. Der Vorteil des ATRIA gegenüber dem k-d-<br />

Baum ist, dass er bei <strong>der</strong> Bildung des Suchbaumes direkt e<strong>in</strong>e Aufteilung <strong>der</strong> Datenpunkte<br />

<strong>in</strong> sog. Cluster vornimmt, während sich dies beim k-d-Baum mehr als<br />

e<strong>in</strong>e <strong>in</strong>direkte Folge aus <strong>der</strong> Aufteilung des Datenraumes <strong>in</strong> Qua<strong>der</strong> ergab. Der<br />

ATRIA passt sich so automatisch <strong>der</strong> gegebenen Verteilung <strong>der</strong> Datenpunkte an.<br />

Je<strong>der</strong> Knoten des Suchbaumes repräsentiert e<strong>in</strong>en Cluster, wobei dieser charakte-


Kapitel 3. Lokal polynomiale Modellierung Seite 71<br />

risiert ist durch e<strong>in</strong>en zentralen Punkt c und dem m<strong>in</strong>imalen Radius R, <strong>der</strong> nötig<br />

ist, um alle Punkte des Clusters zu überdecken. Beim Übergang von e<strong>in</strong>er Ebene<br />

des Suchbaumes zur nächsten wird je<strong>der</strong> Cluster <strong>in</strong> zwei Subcluster geteilt, die die<br />

Söhne <strong>der</strong> jeweiligen Knoten bilden.<br />

Die Teilung e<strong>in</strong>es Clusters erfolgt hierbei nach folgenden Schema: Suche zunächst<br />

den Punkt c r mit maximalem Abstand zum zentralen Punkt c (ist <strong>der</strong> aktuelle<br />

Knoten die Wurzel, so wähle e<strong>in</strong>en zufälligen Punkt als zentralen Punkt). Anschließend<br />

suche den Punkt c l mit maximalem Abstand zu c r . Diese Punkte c l und c r<br />

bilden die zentralen Punkte des l<strong>in</strong>ken bzw. rechten Sohnes. Alle weiteren Punkte<br />

des momentanen Clusters werden nun dem l<strong>in</strong>ken o<strong>der</strong> rechten Sohn zugesprochen,<br />

je nachdem ob sie näher an c l o<strong>der</strong> näher an c r liegen. Für die beiden Subcluster<br />

muss anschließend <strong>der</strong> m<strong>in</strong>imale Radius R berechnet werden. Die Aufteilung <strong>der</strong><br />

Knoten wird fortgesetzt, bis die Anzahl <strong>der</strong> Punkte <strong>in</strong> e<strong>in</strong>em Cluster e<strong>in</strong>e m<strong>in</strong>imale<br />

Punktzahl L unterschreitet. Diese Cluster s<strong>in</strong>d dann die term<strong>in</strong>alen Knoten des<br />

Suchbaums. Für diese term<strong>in</strong>alen Knoten werden alle Distanzen <strong>der</strong> Punkten zum<br />

zentralen Punkt berechnet und gespeichert.<br />

Für die Suche nach nächsten Nachbarn wird wie<strong>der</strong> e<strong>in</strong>e nach den Distanzen sortierte<br />

Liste D = (d 1 , . . . , d m = d max ) e<strong>in</strong>geführt, die die Distanzen <strong>der</strong> bislang besten m<br />

nächsten Nachbarn speichert. Es wird nun wie beim vorherigen Algorithmus <strong>der</strong><br />

Suchbaum rekursiv durchlaufen. E<strong>in</strong> Cluster i wird ausgeschlossen, falls gilt<br />

d max < ˆd m<strong>in</strong> (i) , (3.44)<br />

wobei ˆd m<strong>in</strong> e<strong>in</strong>e untere Schranke für die Distanz vom Anfragepunkt zu e<strong>in</strong>em beliebigen<br />

Punkt des Clusters ist. Dieser Wert kann nicht exakt berechnet werden, aber<br />

es ist möglich, zum<strong>in</strong>dest drei verschiedene untere Schranken für ˆd m<strong>in</strong> zu erhalten,<br />

wobei <strong>der</strong> Cluster-Radius R, <strong>der</strong> Abstand zwischen Cluster i und se<strong>in</strong>em Bru<strong>der</strong>knoten,<br />

sowie die Tatsache ausgenutzt wird, dass ˆd m<strong>in</strong> nicht kle<strong>in</strong>er se<strong>in</strong> kann als <strong>der</strong><br />

Wert des Vaterknotens (für Details siehe [26]). Das Maximum dieser drei Werte wird<br />

<strong>in</strong> (3.44) e<strong>in</strong>gesetzt. Trifft man auf e<strong>in</strong>en term<strong>in</strong>alen Knoten, so werden alle Punkte<br />

x ausgeschlossen für die gilt<br />

d max < ‖d(c i , q) − d(c i , x)‖ . (3.45)<br />

Die hierfür nötigen Distanzen d(c i , x) wurden bereits während des Präprozess<strong>in</strong>gs<br />

berechnet. Der ATRIA kann ebenfalls durch Verwendung des Partial Distance Search<br />

beschleunigt werden. Die Laufzeit hängt wesentlich von <strong>der</strong> Dimension <strong>der</strong> Punktmenge<br />

ab und ist meist niedriger als bei Algorithmen auf Basis von k-d-Bäumen<br />

[26]. Zudem hat <strong>der</strong> ATRIA den Vorteil, mit beliebigen Metriken arbeiten zu<br />

können. So können durch Verwendung von sog. Kernfunktionen, die <strong>in</strong> Abschnitt<br />

4.1.2 noch näher besprochen werden, auch nächste Nachbarn <strong>in</strong> hochdimensionalen


Seite 72<br />

3.11. Vergleich <strong>lokale</strong>r <strong>Modelle</strong> mit globalen <strong>Modelle</strong>n<br />

Merkmalsräumen berechnet werden, ohne dass hierzu die Punkte explizit <strong>in</strong> diese<br />

abgebildet werden müssen.<br />

3.11 Vergleich <strong>lokale</strong>r <strong>Modelle</strong> mit globalen <strong>Modelle</strong>n<br />

In diesem Abschnitt sollen <strong>lokale</strong> und globale <strong>Modelle</strong> gegenübergestellt und ihre<br />

Vor- und Nachteile näher betrachtet werden.<br />

Rechenaufwand<br />

Bei globalen <strong>Modelle</strong>n s<strong>in</strong>d die eigentliche Bildung des Modells und die Berechnung<br />

e<strong>in</strong>er Modellausgabe für e<strong>in</strong>en Anfragepunkt zwei vone<strong>in</strong>an<strong>der</strong> getrennte Vorgänge.<br />

Für die Bildung ist e<strong>in</strong> zeitaufwändiges Präprozess<strong>in</strong>g <strong>in</strong> Form e<strong>in</strong>es Tra<strong>in</strong><strong>in</strong>gs auf<br />

den gegebenen Datensatz nötig, wo e<strong>in</strong>e Termauswahl durchgeführt und die zugehörigen<br />

Parameter geschätzt werden. Ist e<strong>in</strong> globales Modell erst e<strong>in</strong>mal für e<strong>in</strong>en<br />

konkreten Datensatz gebildet worden, ist die Berechnung <strong>der</strong> Modellausgaben extrem<br />

schnell, da das Modell <strong>in</strong> e<strong>in</strong>er kompakten geschlossenen Form vorliegt.<br />

Lokale <strong>Modelle</strong> h<strong>in</strong>gegen haben als Präprozess<strong>in</strong>g zunächst nur den Aufbau <strong>der</strong><br />

Datenstruktur zur Nachbarsuche, ansonsten ist im Pr<strong>in</strong>zip ke<strong>in</strong>erlei Vorarbeit für<br />

die Bildung des Modells notwendig. Berechnung <strong>der</strong> Modellausgabe und Bildung<br />

des Modells s<strong>in</strong>d hier nicht trennbar. Lokale <strong>Modelle</strong> benötigen den überwiegenden<br />

Teil <strong>der</strong> Rechenzeit für die Suche nach nächsten Nachbarn. Die hierfür verwendete<br />

ATRIA-Algorithmus skaliert im wesentlichen mit <strong>der</strong> Dimension <strong>der</strong> Datenpunkte<br />

(siehe Abschnitt 3.10).<br />

Es wird aber gerne vernachlässigt, dass auch <strong>lokale</strong> <strong>Modelle</strong> Parameter besitzen, die<br />

korrekt gewählt werden müssen. S<strong>in</strong>d bereits Merkmale des Datensatzes bekannt wie<br />

Dimension und Signal-Rausch-Abstand, kann e<strong>in</strong> mit <strong>lokale</strong>n <strong>Modelle</strong>n erfahrener<br />

Benutzer häufig wenigstens akzeptable Parameter schätzen. Ist jedoch nichts über<br />

den Datensatz bekannt o<strong>der</strong> e<strong>in</strong>e möglichst genaue Vorhersage nötig, so müssen die<br />

Parameter optimiert werden wie <strong>in</strong> Abschnitt 3.8 beschrieben. Dieses Verfahren ist<br />

ähnlich zeitaufwändig wie e<strong>in</strong>e Termauswahl bei globalen <strong>Modelle</strong>n, allerd<strong>in</strong>gs stark<br />

abhängig von <strong>der</strong> Größe des Datensatzes und dem verwendeten Modell.<br />

Validierung<br />

Für die Vermeidung von Overfitt<strong>in</strong>g muss bei globalen <strong>Modelle</strong>n die Cross-Validation<br />

e<strong>in</strong>gesetzt werden, die jedoch zu e<strong>in</strong>er Erhöhung des Bias des Modells führt. Lokale<br />

<strong>Modelle</strong> können diesen Bias durch Verwendung <strong>der</strong> LOO-CV m<strong>in</strong>imieren. Die


Kapitel 3. Lokal polynomiale Modellierung Seite 73<br />

Durchführung <strong>der</strong> LOO-CV an sich ist mit ke<strong>in</strong>em zusätzlichen Aufwand für das<br />

Modell verbunden, da e<strong>in</strong>fach nur die zu modellierenden Datenpunkte aus dem Datensatz<br />

entfernt werden müssen. Bei <strong>der</strong> Validierung ist somit das <strong>lokale</strong> Modell<br />

gegenüber dem globalen im Vorteil.<br />

Flexibilität<br />

Bei <strong>lokale</strong>n <strong>Modelle</strong>n ist <strong>der</strong> Prozess <strong>der</strong> Modellierung nie abgeschlossen, da erst<br />

konkrete Anfragepunkte zur Berechnung des Modells führen. Dieses Pr<strong>in</strong>zip ist e<strong>in</strong>erseits<br />

unflexibel, weil es nicht möglich ist, das Modell <strong>in</strong> geschlossener Form nie<strong>der</strong>zuschreiben<br />

o<strong>der</strong> weiterzugeben, da <strong>der</strong> Datensatz untrennbarer Teil des Modells<br />

ist. An<strong>der</strong>erseits hat dies wie bereits erwähnt den Vorteil, dass ke<strong>in</strong> Tra<strong>in</strong><strong>in</strong>g des<br />

Modells nötig ist und mit etwas Erfahrung zum<strong>in</strong>dest die Vorhersagbarkeit e<strong>in</strong>es<br />

gegebenen Datensatzes auch ohne Optimierung <strong>der</strong> Parameter schnell abgeschätzt<br />

werden kann. Globale <strong>Modelle</strong> h<strong>in</strong>gegen müssen <strong>in</strong> jedem Fall zunächst tra<strong>in</strong>iert<br />

werden.<br />

E<strong>in</strong> großer Vorteil des <strong>lokale</strong>n Modells ist die Art <strong>der</strong> Parameter, über die sich<br />

direkt wesentliche Eigenschaften des Modells e<strong>in</strong>stellen lassen (z.B. die Zahl nächster<br />

Nachbarn zur Steuerung von Bias und Varianz, Wichtung steuert Glätte, Metrik<br />

die Form <strong>der</strong> Umgebung). Somit lassen sich wesentliche Elemente <strong>der</strong> Modellierung<br />

praktisch <strong>in</strong> Echtzeit während <strong>der</strong> Modellierung än<strong>der</strong>n. Die Parameter globaler<br />

<strong>Modelle</strong> haben meist ke<strong>in</strong>e solch anschaulichen Bedeutungen und die Än<strong>der</strong>ungen<br />

an diesen Parametern haben weit weniger berechenbare Folgen.<br />

Genauigkeit<br />

Ob e<strong>in</strong> globales o<strong>der</strong> <strong>lokale</strong>s Modell bessere Ergebnisse liefert hängt i.A. von zwei<br />

wesentlichen Faktoren ab: vom gegebenen Datensatz und von <strong>der</strong> Erfahrung des Benutzers<br />

mit dem Modell. Dieser letzte Punkt, auch als Expert Bias bezeichnet [22],<br />

wird beim Vergleich verschiedener Modelltypen gerne übersehen, was dazu führt,<br />

dass sich meist das Modell als “überlegen” herausstellt, mit dem <strong>der</strong> Benutzer die<br />

meisten Erfahrungen sammeln konnte. E<strong>in</strong> Ausweg bieten Wettbewerbe zur Vorhersage<br />

von Zeitreihen, wie sie 1991 vom Sante Fe Institut und 1998 von <strong>der</strong> K.U. Leuven<br />

veranstaltet wurden (siehe [44] bzw. [39]). Beim Santa-Fe-Wettbewerb wurden<br />

mehrere Zeitreihen zur Verfügung gestellt, wobei aber die e<strong>in</strong>es Lasers die meiste Beachtung<br />

fand. Hier gewann e<strong>in</strong> globaler Ansatz (Neuronales Netz), aber dicht gefolgt<br />

von e<strong>in</strong>em lokal l<strong>in</strong>earen Modell. Im zweiten Fall war nur e<strong>in</strong>e künstlich generierte<br />

unverrauschte Zeitreihe e<strong>in</strong>es chaotischen Systems gegeben; hier gewann McNames<br />

mit e<strong>in</strong>em lokal konstanten Modell [24].<br />

Aber auch die Ergebnisse <strong>der</strong> Wettbewerbe sollten nicht überbewertet werden, da<br />

hier ausschließlich die Vorhersage <strong>der</strong> Zeitreihe bewertet wird, d.h. die Modellie-


Seite 74<br />

3.11. Vergleich <strong>lokale</strong>r <strong>Modelle</strong> mit globalen <strong>Modelle</strong>n<br />

rung ausgehend von e<strong>in</strong>em e<strong>in</strong>zigen Punkt. Besser wäre e<strong>in</strong> Fehlermaß, welches die<br />

Vorhersagequalität über den gesamten Datensatz bewertet, wie z.B. <strong>der</strong> mittlere<br />

Vorhersagehorizont o<strong>der</strong> <strong>der</strong> <strong>in</strong> dieser Arbeit verwendet NMSE. Letzterer basiert<br />

aber auf <strong>der</strong> LOO-CV und kann mit globalen <strong>Modelle</strong>n praktisch nicht berechnet<br />

werden. Zudem müsste bei beiden Fehlermaßen <strong>der</strong> Wettbewerb “unter Aufsicht”<br />

stattf<strong>in</strong>den, da die zu modellierenden Punkte <strong>in</strong>nerhalb des Datensatzes natürlich<br />

bekannt s<strong>in</strong>d.<br />

Vorsichtig formuliert kann man aber sagen, dass <strong>in</strong> <strong>der</strong> Regel <strong>lokale</strong> <strong>Modelle</strong> wenigstens<br />

ebenso gute Ergebnisse erzielen können wie globale <strong>Modelle</strong>.<br />

Geschlossenheit und physikalische Interpretation<br />

Gerade Physiker stehen <strong>lokale</strong>n <strong>Modelle</strong>n häufig skeptisch gegenüber, weil diese ke<strong>in</strong><br />

geschlossenes Modell für den gesamten Datensatz geben können und somit anhand<br />

des Modells auch ke<strong>in</strong>e Rückschlüsse auf den zugrunde liegenden physikalischen<br />

Prozess liefern können. Allerd<strong>in</strong>gs muss bezweifelt werden, <strong>in</strong>wieweit die kompakten<br />

und geschlossenen globalen <strong>Modelle</strong> tatsächlich “physikalische Realität” wie<strong>der</strong>geben.<br />

Zwar kann z.B. mit e<strong>in</strong>em e<strong>in</strong>fachen globalen polynomialen Modell die<br />

Hénon-Abbildung anhand e<strong>in</strong>er (unverrauschten) Zeitreihe exakt rekonstruiert werden,<br />

allerd<strong>in</strong>gs ist dies e<strong>in</strong> konstruiertes Beispiel. Selbst wenn man <strong>in</strong> <strong>der</strong> Lage wäre,<br />

mit e<strong>in</strong>er Messung e<strong>in</strong>e ideale unverrauschte Zeitreihen zu erhalten, hat man es üblicherweise<br />

mit Systemen zu tun, die mit Polynomen o<strong>der</strong> radialen Basisfunktionen<br />

immer nur approximiert, aber nicht exakt beschrieben werden können. Hier liefert<br />

e<strong>in</strong> geschlossenes globales Modell somit ebensowenig physikalisch verwertbare Informationen<br />

wie e<strong>in</strong> <strong>lokale</strong>s Modell, auch wenn die geschlossene Darstellung dies<br />

suggerieren mag.<br />

Mit <strong>der</strong> physikalischen Interpretation verknüpft ist die Frage nach <strong>der</strong> Verallgeme<strong>in</strong>erungsfähigkeit<br />

des Modells: Inwieweit können Aussagen über Anfragepunkte<br />

gestellt werden, die von den Tra<strong>in</strong><strong>in</strong>gspunkten weit entfernt liegen<br />

Beim <strong>lokale</strong>n Ansatz gilt: “Wo ke<strong>in</strong>e Datenpunkte, da auch ke<strong>in</strong> gültiges Modell”.<br />

Das Verhalten <strong>lokale</strong>r <strong>Modelle</strong> weit außerhalb von Tra<strong>in</strong><strong>in</strong>gspunkten hängt vom verwendeten<br />

Modelltyp ab: Während lokal konstante <strong>Modelle</strong> immer durch den Wertebereich<br />

<strong>der</strong> nächsten Nachbarn beschränkt s<strong>in</strong>d und daher außerhalb von Tra<strong>in</strong><strong>in</strong>gspunkten<br />

konstante Werte im Intervall <strong>der</strong> Ausgabe <strong>der</strong> nächsten Nachbarn liefern,<br />

neigen <strong>Modelle</strong> höheren Grades dazu, sehr schnell zu divergieren, falls diese nicht<br />

passend regularisiert werden. Daher ist <strong>in</strong> Bereichen außerhalb von Tra<strong>in</strong><strong>in</strong>gspunkten<br />

pr<strong>in</strong>zipiell das lokal konstante Modell vorzuziehen, allerd<strong>in</strong>gs liefert bei guter<br />

Regularisierung auch das lokal l<strong>in</strong>eare Modell ähnliche Werte. Beide <strong>Modelle</strong> liefern<br />

jedoch ke<strong>in</strong>e gültigen Aussagen mehr, da bei den Anfragepunkten schlicht ke<strong>in</strong>e<br />

Informationen zur Modellierung vorliegen.


Kapitel 3. Lokal polynomiale Modellierung Seite 75<br />

Nun ist es nicht so, dass globale <strong>Modelle</strong> dieses Problem nicht haben: auch hier<br />

ist die Aussagekraft des Modells <strong>in</strong> Bereichen wo ke<strong>in</strong>e Tra<strong>in</strong><strong>in</strong>gspunkte vorliegen<br />

fragwürdig. Auch neigen gerade polynomiale <strong>Modelle</strong> dazu, sehr schnell extrem große<br />

o<strong>der</strong> kle<strong>in</strong>e Werte zu liefern, sobald man den Bereich <strong>der</strong> Tra<strong>in</strong><strong>in</strong>gspunkte verlässt.<br />

Nur wenn das globale Modell tatsächlich den zugrunde liegenden Prozess erfasst, ist<br />

das Modell auch wirklich verallgeme<strong>in</strong>erungsfähig.


Kapitel 4<br />

Support-Vektor-Regression<br />

Methoden auf <strong>der</strong> Basis von Support Vektoren, <strong>in</strong> <strong>der</strong> englischen Literatur unter dem<br />

Begriff <strong>der</strong> Support Vector Mach<strong>in</strong>es (SVM) zusammengefasst, haben <strong>in</strong> den letzten<br />

Jahren e<strong>in</strong>e Renaissance erfahren. Entwickelt wurden die SVM ursprünglich als e<strong>in</strong>e<br />

nichtl<strong>in</strong>eare Verallgeme<strong>in</strong>erung des sog. Generalized Portrait Algorithmus, <strong>der</strong> zur<br />

Klassifikation mit trennenden Hyperebenen dient und bereits <strong>in</strong> den 60er Jahren von<br />

Vapnik, Lerner und Chervonenkis entwickelt wurde. Das eigentliche Potential<br />

dieser Methoden blieb aber vorerst unerkannt, nicht zuletzt aufgrund mangeln<strong>der</strong><br />

Kapazität damaliger Rechner.<br />

Ursprünglich für das Problem <strong>der</strong> Klassifikation und Mustererkennung entworfen,<br />

wurden <strong>in</strong> den 90er Jahren Support-Vektor-Methoden auch auf das Problem <strong>der</strong><br />

parametrischen Regression ausgeweitet [41] und haben sich dort <strong>in</strong>sb. bei hochdimensionalen<br />

Problemen bewährt [42]. Support-Vektor-Methoden s<strong>in</strong>d gerade auch<br />

deshalb <strong>in</strong>teressant, weil sie die Sichtweise <strong>der</strong> statistischen Lerntheorie auf das Problem<br />

<strong>der</strong> Regression übertragen: Man betrachtet die Schätzung e<strong>in</strong>er Regression als<br />

Lernprozess über den gegebenen E<strong>in</strong>- und Ausgangsdaten. Um hierbei e<strong>in</strong> Overfitt<strong>in</strong>g<br />

zu vermeiden, werden die zur Modellierung verwendeten Methoden h<strong>in</strong>sichtlich<br />

ihrer Komplexität ausgewählt, und zwar so, dass diese gerade ausreichend für die<br />

Beschreibung des gegebenen Problems ist. Dies wird als strukturelle Risikom<strong>in</strong>imierung<br />

bezeichnet. E<strong>in</strong> Maß für die Komplexität e<strong>in</strong>er solchen “Lernmasch<strong>in</strong>e” ist<br />

durch die sog. VC-Dimension gegeben, die jedoch für das Regressionsproblem nicht<br />

die Bedeutung hat wie für die Klassifikation (für e<strong>in</strong>e Begründung siehe [36]). Sie<br />

soll daher <strong>in</strong> dieser Arbeit nicht näher erläutert werden. Interessierte seien auf [41],<br />

[16] sowie [9] verwiesen.<br />

Da sich die SVR bei globalen Problemen als vielversprechend erwiesen hat, liegt es<br />

nahe, diese Methoden auch lokal anzuwenden. Die hierzu nötige Theorie soll nun<br />

erläutert werden.<br />

76


Kapitel 4. Support-Vektor-Regression Seite 77<br />

4.1 L<strong>in</strong>eare Support-Vektor-Regression<br />

Erneut wird vom grundlegenden Regressions-Problem wie <strong>in</strong> Kapitel 2.1 ausgegangen:<br />

es existiert e<strong>in</strong> Satz von E<strong>in</strong>gabevektoren x i ∈ R n und skalaren Ausgangsgrößen<br />

y i ∈ R<br />

Ω = {(x 1 , y 1 ), (x 2 , y 2 ), . . . , (x N , y N )} , (4.1)<br />

die e<strong>in</strong>e Realisierung von zwei Zufallsvariablen darstellt, wobei die y i durch e<strong>in</strong>e<br />

unbekannte Wahrsche<strong>in</strong>lichkeitsverteilung P (x, y) von den x i abhängen. Gesucht ist<br />

nach e<strong>in</strong>er Funktion f(x), die das sog. Risiko-Funktional<br />

∫<br />

R(f) =<br />

L(y − f(x), x) dP (x, y) (4.2)<br />

m<strong>in</strong>imiert. Üblicherweise ist f hierbei e<strong>in</strong>e L<strong>in</strong>earkomb<strong>in</strong>ation<br />

f(x) =<br />

n∑<br />

α j φ j (x) (4.3)<br />

j=1<br />

von e<strong>in</strong>er Menge von Basisfunktionen (z.B. Monome, radiale Basisfunktionen, etc.),<br />

sodass sich das Problem auf das Auff<strong>in</strong>den des Parametervektors α = (α j ) verlagert,<br />

<strong>der</strong> R(f) = R(α) m<strong>in</strong>imiert. Die Funktion L ist e<strong>in</strong>e Kostenfunktion (Loss function),<br />

die Abweichungen des Modells vom tatsächlichen Wert “bestraft”.<br />

Da die Wahrsche<strong>in</strong>lichkeitsverteilung P (x, y) unbekannt ist, bleibt (4.2) e<strong>in</strong>e theoretische<br />

Größe, die <strong>in</strong> <strong>der</strong> Praxis nicht berechnet werden kann. Man kann jedoch das<br />

empirische Risiko<br />

R emp = 1 N<br />

N∑<br />

L(y i − f(x i ), x i ) . (4.4)<br />

i=1<br />

berechnen, was bislang als Kostenfunktion bezeichnet wurde. Die Modellbildung ausschließlich<br />

auf die M<strong>in</strong>imierung dieser Größe auszurichten führt zu e<strong>in</strong>em niedrigen<br />

Bias und hoher Varianz. Der Schwerpunkt bei Support-Vektor-Methoden liegt auf<br />

dem Begriff des “Risikos”, womit auch gerade das Risiko dieses Overfitt<strong>in</strong>gs geme<strong>in</strong>t<br />

ist. Während bislang diesem Risiko bei <strong>der</strong> Modellberechnung mit Regularisierung<br />

und beim Tra<strong>in</strong><strong>in</strong>g durch Cross-Validation begegnet wurde, wird nun zusätzlich e<strong>in</strong><br />

an<strong>der</strong>er Ansatz gewählt, <strong>der</strong> sich <strong>in</strong> <strong>der</strong> Wahl <strong>der</strong> Kostenfunktion L(η) nie<strong>der</strong>schlägt.


Seite 78<br />

4.1. L<strong>in</strong>eare Support-Vektor-Regression<br />

Um den Support-Vektor-Ansatz vom Problem <strong>der</strong> Klassifikation auf das Problem <strong>der</strong><br />

Regression zu übetragen, verwendet Vapnik <strong>in</strong> [41] die ε-<strong>in</strong>sensitive Kostenfunktion,<br />

{ 0 falls |η| ≤ ε<br />

|η| ε ≡<br />

|η| − ε sonst.<br />

(4.5)<br />

Ihre Wirkung ist, dass nur die Punkte, die e<strong>in</strong>en Abstand größer als ε von <strong>der</strong> Regressionsfunktion<br />

haben, <strong>in</strong> die Kosten e<strong>in</strong>fließen (siehe Abbildung 4.1). Alle an<strong>der</strong>en<br />

Punkte <strong>in</strong> diesem “ε-Schlauch” s<strong>in</strong>d für die Bildung des Modells praktisch ohne<br />

Bedeutung. Das Modell wird dadurch robuster gegenüber dem E<strong>in</strong>fluss von Rauschen<br />

und das Risiko des Overfitt<strong>in</strong>g ist verr<strong>in</strong>gert. Die Punkte, die außerhalb <strong>der</strong><br />

ε-Schranke liegen, s<strong>in</strong>d die Support-Vektoren. Neben (4.5) gibt es an<strong>der</strong>e mögliche<br />

Kostenfunktionen. Dies s<strong>in</strong>d e<strong>in</strong>erseits Variationen <strong>der</strong> ε-<strong>in</strong>sensitiven Funktion, aber<br />

auch stetig differenzierbare Funktionen, die zu herkömmlichen Regressionsverfahren<br />

ohne Support-Vektoren führen (z.B. entspricht L(η) = η 2 dem mittleren quadratischen<br />

Fehler, <strong>der</strong> bislang als Fehlergröße verwendet wurde). Beispiele f<strong>in</strong>den sich<br />

z.B. <strong>in</strong> [35].<br />

y<br />

ξ<br />

ε<br />

ξ∗<br />

|η| ε<br />

ξ ∗<br />

x<br />

ε<br />

ε<br />

η<br />

Abbildung 4.1: Wirkung <strong>der</strong> ε-<strong>in</strong>sensitiven Kostenfunktion<br />

Die Schwierigkeit liegt <strong>in</strong> <strong>der</strong> richtigen Wahl des Parameters ε. Er sollte am Signal-<br />

Rausch-Verhältnis ausgerichtet werden, was aber <strong>in</strong> <strong>der</strong> Praxis meist nicht bekannt<br />

ist. Somit ist e<strong>in</strong>e Optimierung des Parameters nötig, wobei sich bei <strong>lokale</strong>n <strong>Modelle</strong>n<br />

wie<strong>der</strong> die Leave-one-out Cross-Validation als Fehlergröße anbietet.<br />

Die ε-<strong>in</strong>sensitive Kostenfunktion ersetzt allerd<strong>in</strong>gs nicht die Regularisierung des Modells.<br />

Der E<strong>in</strong>fachheit halber soll zunächst von e<strong>in</strong>em l<strong>in</strong>earen Modell<br />

f(x) = 〈w, x〉 + b , x, w ∈ R d , b ∈ R (4.6)


Kapitel 4. Support-Vektor-Regression Seite 79<br />

ausgegangen werden. Für die Regularisierung wird auf e<strong>in</strong>e e<strong>in</strong>fache Form <strong>der</strong> Ridge<br />

Regression zurückgegriffen, wobei man e<strong>in</strong>en additiven Regularisierungsterm <strong>der</strong><br />

Form ‖w‖ 2 /2 e<strong>in</strong>fügt und das empirische Risiko mit e<strong>in</strong>em konstanten Faktor C<br />

wichtet,<br />

R = CR emp + 1 2 ‖w‖2 . (4.7)<br />

Der Parameter C gibt somit an, ob die die Flachheit des Modells o<strong>der</strong> die M<strong>in</strong>imierung<br />

<strong>der</strong> Abweichungen größer als ε im Vor<strong>der</strong>grund steht. Man stößt hier wie<strong>der</strong><br />

auf den Bias-Varianz-Kompromiss: Für C → ∞ erhält man e<strong>in</strong> komplexes Modell<br />

mit maximalem Bias und m<strong>in</strong>imaler Varianz, umgekehrt für C → 0 e<strong>in</strong> konstantes<br />

Modell mit m<strong>in</strong>imalem Bias und maximaler Varianz.<br />

Nun ist die Kostenfunktion (4.5) an den Stellen ±ε nicht differenzierbar, weshalb<br />

Gradienten-basierte Optimierungsverfahren nicht verwendet werden können. Daher<br />

werden die Schlupf-Variablen ξ i , ξi<br />

∗ e<strong>in</strong>geführt, die die Abweichung oberhalb bzw.<br />

unterhalb zur ε-Umgebung <strong>der</strong> Regressionsfunktion angeben (siehe Abbildung 4.1)<br />

und ohne Verwendung <strong>der</strong> ε-<strong>in</strong>sensitiven Kostenfunktion <strong>in</strong> (4.7) e<strong>in</strong>gesetzt. Um das<br />

<strong>in</strong>sensitive Verhalten gegenüber ε zu wahren, s<strong>in</strong>d zusätzlich vier Nebenbed<strong>in</strong>gungen<br />

nötig, sodass man als neues M<strong>in</strong>imierungsproblem<br />

N∑<br />

m<strong>in</strong>imiere C (ξ i + ξi ∗ ) + 1 2 |w|2<br />

i=1<br />

⎧<br />

⎨ y i − 〈w, x i 〉 − b ≤ ε + ξ i<br />

unter 〈w, x i 〉 + b − y i ≤ ε + ξi<br />

∗ ⎩<br />

−ξ i , −ξi ∗ ≤ 0<br />

(4.8)<br />

erhält. Diese Formulierung ist äquivalent zur M<strong>in</strong>imierung von (4.7). Zur Lösung<br />

wird <strong>der</strong> Lagrange-Formalismus verwendet, d.h. zunächst wird die Lagrange-Funktion<br />

L = 1 N∑<br />

N∑<br />

2 ‖w‖2 + C (ξ i + ξi ∗ ) − α i (ε + ξ i − y i + 〈w, x i 〉 + b)<br />

−<br />

i=1<br />

i=1<br />

N∑<br />

αi ∗ (ε + ξi ∗ + y i − 〈w, x i 〉 − b) −<br />

i=1<br />

i=1<br />

N∑<br />

(η i ξ i + ηi ∗ ξi ∗ )<br />

(4.9)<br />

konstruiert. Da die Kostenfunktion und die Nebenbed<strong>in</strong>gungen konvex s<strong>in</strong>d, liefern<br />

die Karush-Kuhn-Tucker (KKT) Bed<strong>in</strong>gungen (siehe Anhang B.1) die globale<br />

Lösung des M<strong>in</strong>imierungsproblems. Mit <strong>der</strong> KKT-Bed<strong>in</strong>gung (B.6) folgt, dass


Seite 80<br />

4.1. L<strong>in</strong>eare Support-Vektor-Regression<br />

die Ableitungen <strong>der</strong> Lagrange-Funktion nach den primalen Variablen verschw<strong>in</strong>den<br />

müssen, d.h. es gilt<br />

∂ b L =<br />

∂ w L = w −<br />

∂ ξ<br />

(∗)<br />

i<br />

N∑<br />

(αi ∗ − α i ) = 0 (4.10)<br />

i=1<br />

N∑<br />

(α i − αi ∗ )x i = 0 (4.11)<br />

i=1<br />

= C − α (∗)<br />

i<br />

− η (∗)<br />

i = 0 . (4.12)<br />

Aus (4.11) folgt sofort<br />

w =<br />

N∑<br />

(α i − αi ∗ )x i (4.13)<br />

i=1<br />

und somit<br />

f(q) =<br />

N∑<br />

(α i − αi ∗ )〈x i , q〉 + b . (4.14)<br />

i=1<br />

Der Koeffizientenvektor w lässt sich somit e<strong>in</strong>deutig durch e<strong>in</strong>e L<strong>in</strong>earkomb<strong>in</strong>ation<br />

<strong>der</strong> Tra<strong>in</strong><strong>in</strong>gsvektoren x i beschreiben. Wie man an 4.14 abliest, muss er aber gar<br />

nicht explizit berechnet werden: die Regressionsfunktion f lässt sich komplett durch<br />

Skalarprodukte <strong>der</strong> Tra<strong>in</strong><strong>in</strong>gspunkte x i mit dem Anfragepunkt q berechnen. Diese<br />

Eigenschaft ist wichtig für die Erweiterung zur nichtl<strong>in</strong>earen SV-Regression über<br />

Kern-Funktionen (siehe Abschnitt 4.1.2). Nun s<strong>in</strong>d für jeden Tra<strong>in</strong><strong>in</strong>gspunkt zwei<br />

duale Variablen α i und α ∗ i zu berechnen, die Zahl <strong>der</strong> Parameter sche<strong>in</strong>t sich somit<br />

verdoppelt zu haben. Hierzu muss man aber bedenken, dass Abweichungen größer<br />

ε oberhalb und unterhalb <strong>der</strong> Regressionsfunktion bestraft werden (siehe Abbildung<br />

4.1), diese aber bei e<strong>in</strong>em Punkt natürlich nie gleichzeitig auftreten können 1 ; alle<strong>in</strong>e<br />

hierdurch wird die Zahl <strong>der</strong> Parameter bereits halbiert. Auch s<strong>in</strong>d Abweichungen<br />

kle<strong>in</strong>er als ε für die Berechnung <strong>der</strong> Regressionsfunktion ohne Belang, was zu e<strong>in</strong>er<br />

weiteren Reduzierung <strong>der</strong> Parameter führt. Dieser Effekt wird im nächsten Abschnitt<br />

deutlich werden.<br />

1 Zwar machen die Begriffe “oberhalb” und “unterhalb” natürlich nur <strong>in</strong> zwei Dimensionen S<strong>in</strong>n,<br />

das mit diesen Begriffen und <strong>der</strong> zugehörigen Abbildung anschaulich dargestellte Pr<strong>in</strong>zip gilt aber<br />

auch <strong>in</strong> höherdimensionalen Räumen.


Kapitel 4. Support-Vektor-Regression Seite 81<br />

Duale Formulierung<br />

Das M<strong>in</strong>imierungsproblem (4.8) ist e<strong>in</strong>facher <strong>in</strong> se<strong>in</strong>er sog. dualen Formulierung zu<br />

lösen. Hierbei wird das M<strong>in</strong>imierungsproblem <strong>in</strong> e<strong>in</strong> äquivalentes Maximierungsproblem<br />

umgeformt. Hierzu wird die Dualfunktion nach Wolfe verwendet, die über<br />

die KKT-Bed<strong>in</strong>gung (B.6) die primalen Variablen aus <strong>der</strong> Lagrange-Funktion elim<strong>in</strong>iert<br />

(siehe Anhang B.2). Es ergibt sich so e<strong>in</strong> Maximierungsproblem <strong>der</strong> Lagrange-<br />

Funktion <strong>in</strong> den dualen Variablen.<br />

E<strong>in</strong>setzen <strong>der</strong> Gleichungen (4.10)-(4.12) <strong>in</strong> (4.9) liefert das duale Optimierungsproblem<br />

Maximiere<br />

unter<br />

⎧<br />

− ⎪⎨<br />

1 N∑<br />

(α i − αi ∗ )(α j − α<br />

2<br />

j)〈x ∗ i , x j 〉<br />

i,j=1<br />

(4.15)<br />

N∑<br />

N∑<br />

⎪⎩ − ε (α i + αi ∗ ) + y i (α i − αi ∗ )<br />

i=1<br />

i=1<br />

{ ∑ N<br />

i=1 (α i − αi ∗ ) = 0<br />

α i , αi ∗ . (4.16)<br />

∈ [0, C]<br />

Die Regularisierung des Modells verlagert sich <strong>in</strong> <strong>der</strong> dualen Formulierung somit von<br />

<strong>der</strong> Kostenfunktion <strong>in</strong> die letzten beiden Nebenbed<strong>in</strong>gungen. Die Konstante C, die<br />

zwischen Regularisierung und M<strong>in</strong>imierung des Tra<strong>in</strong><strong>in</strong>gsfehlers wichtet, wird hier<br />

zur oberen Schranke für die dualen Variablen α (∗)<br />

i . Die dualen Variablen η (∗)<br />

i wurden<br />

durch Bed<strong>in</strong>gung (4.12) elim<strong>in</strong>iert.<br />

4.1.1 Berechnung von b<br />

Zur Berechnung von b werden die KKT-Bed<strong>in</strong>gungen (B.7) verwendet, die besagen,<br />

dass das Produkt aus Lagrange-Multiplikator und Nebenbed<strong>in</strong>gung verschw<strong>in</strong>den<br />

muss. Ist <strong>der</strong> Lagrange-Multiplikator gleich Null, so ist die zugehörige Nebenbed<strong>in</strong>gung<br />

nicht b<strong>in</strong>dend (<strong>in</strong>aktiv), es handelt sich somit um e<strong>in</strong> <strong>in</strong>neres Extremum<br />

bezüglich <strong>der</strong> Nebenbed<strong>in</strong>gung. Ist <strong>der</strong> Lagrange-Multiplikator ungleich Null, so handelt<br />

es sich um e<strong>in</strong> Extremum, was auf dem Rand <strong>der</strong> durch die Nebenbed<strong>in</strong>gung<br />

e<strong>in</strong>geschränkten Menge <strong>der</strong> gültigen Punkte liegt. Man erhält aus <strong>der</strong> primalen Formulierung<br />

(4.8)<br />

α i (ε + ξ i − y i + 〈w, x i 〉 + b) = 0<br />

α ∗ i (ε + ξ ∗ i + y i − 〈w, x i 〉 − b) = 0<br />

(4.17)


Seite 82<br />

4.1. L<strong>in</strong>eare Support-Vektor-Regression<br />

und<br />

ξ i (C − α i ) = 0<br />

ξ ∗ i (C − α ∗ i ) = 0 .<br />

(4.18)<br />

Anhand dieser Bed<strong>in</strong>gungen lassen sich die wesentlichen Eigenschaften <strong>der</strong> Support-<br />

Vektor-Regression zusammenfassen. Liegt e<strong>in</strong> Punkt <strong>in</strong> <strong>der</strong> ε-Umgebung <strong>der</strong> Regressionsfunktion,<br />

so ist die Klammer <strong>in</strong> (4.17) ungleich Null, woraus folgt dass<br />

α i = αi<br />

∗ = 0. Diese Punkte s<strong>in</strong>d somit für die Berechnung <strong>der</strong> Regressionsfunktion<br />

unerheblich und könnten sogar komplett aus dem Datensatz herausgenommen<br />

werden, könnte man sie vor <strong>der</strong> Berechnung bereits bestimmen.<br />

Liegt e<strong>in</strong> Punkt oberhalb <strong>der</strong> ε-Umgebung <strong>der</strong> Regressionsfunktion, so ist ξ i > 0<br />

und aus (4.18) folgt α i = C. Liegt e<strong>in</strong> Punkt genau um ε oberhalb <strong>der</strong> Regressionsfunktion,<br />

so ist ξ i = 0 und α i ∈ (0, C). Die Variablen ξi ∗ und αi ∗ s<strong>in</strong>d <strong>in</strong> beiden<br />

Fällen gleich Null. Für Punkte unterhalb <strong>der</strong> Regressionsfunktion gilt dies analog,<br />

nur dass <strong>in</strong> obigen Beziehungen ξ i ↔ ξi<br />

∗ und α i ↔ αi ∗ ausgetauscht werden müssen.<br />

Diese Punkte s<strong>in</strong>d die Support-Vektoren und maßgeblich für die Berechnung <strong>der</strong><br />

Regressionsfunktion. Man sieht somit, dass mit genügend großem ε die Zahl <strong>der</strong><br />

Parameter deutlich verr<strong>in</strong>gert werden kann.<br />

Die Berechnung von b erfolgt somit je nachdem ob α i ≠ 0 o<strong>der</strong> α ∗ i ≠ 0 über<br />

b = y i − 〈w, x i 〉 − ε für α i ∈ (0, C) ,<br />

b = y i − 〈w, x i 〉 + ε für α ∗ i ∈ (0, C) .<br />

(4.19)<br />

4.1.2 Nichtl<strong>in</strong>eare Support-Vektor-Regression<br />

Ziel ist es, die bislang betrachtete l<strong>in</strong>eare Support-Vektor-Regression auf nichtl<strong>in</strong>eare<br />

Probleme zu erweitern. E<strong>in</strong>e Möglichkeit besteht dar<strong>in</strong>, von jedem Punkt x i des<br />

Datensatzes sog. Merkmale (Features) zu bilden und diese zur Modellbildung zu<br />

verwenden. Damit ist geme<strong>in</strong>t, dass die Punkte über e<strong>in</strong>e nichtl<strong>in</strong>eare Abbildung<br />

φ :<br />

R n → R N<br />

x ↦→ φ(x) = (φ 1 (x), . . . , φ N (x))<br />

(4.20)<br />

<strong>in</strong> e<strong>in</strong>en Merkmalsraum (Feature Space) abgebildet werden, wobei dieser üblicherweise<br />

mehr Dimensionen besitzt als <strong>der</strong> Raum <strong>der</strong> <strong>der</strong> E<strong>in</strong>gabepunkte. Der “Trick”<br />

dieses <strong>in</strong> H<strong>in</strong>blick auf den “Fluch <strong>der</strong> Dimensionen” (siehe Kapitel 2.2) zunächst


Kapitel 4. Support-Vektor-Regression Seite 83<br />

wi<strong>der</strong>s<strong>in</strong>nig ersche<strong>in</strong>enden Verfahrens besteht dar<strong>in</strong>, dass bei geeigneter Wahl von<br />

φ sich die Merkmale durch e<strong>in</strong>en l<strong>in</strong>earen Zusammenhang beschreiben lassen. Das<br />

oben beschriebene Verfahren <strong>der</strong> l<strong>in</strong>earen SVR kann dann unverän<strong>der</strong>t im Merkmalsraum<br />

ausgeführt werden und die berechnete Regression durch Anwendung <strong>der</strong><br />

<strong>in</strong>versen Abbildung φ −1 wie<strong>der</strong> <strong>in</strong> den E<strong>in</strong>gaberaum rücktransformiert werden.<br />

E<strong>in</strong> populäres Beispiel für solch e<strong>in</strong>e Transformation ist<br />

φ : R 2 → R 3<br />

(<br />

(x 1 , x 2 ) ↦→ x 2 1, √ )<br />

2 x 1 x 2 , x 2 2 .<br />

(4.21)<br />

E<strong>in</strong> l<strong>in</strong>earer Zusammenhang <strong>der</strong> Merkmale ist somit gegeben durch 〈w, φ(x)〉 + b<br />

o<strong>der</strong> ausführlicher<br />

w 1 x 2 1 + w 2 x 1 x 2 + w 3 x 2 2 = 0 , (4.22)<br />

es ergibt sich somit e<strong>in</strong>e L<strong>in</strong>earkomb<strong>in</strong>ation aller möglichen Monome e<strong>in</strong>e Polynoms<br />

vom Grad 2. Die Geradengleichung im Merkmalsraum beschreibt daher e<strong>in</strong> homogenes<br />

Polynom zweiten Grades im zweidimensionalen E<strong>in</strong>gaberaum; jedes Merkmal<br />

entspricht hierbei e<strong>in</strong>em möglichen Monom. Allgeme<strong>in</strong> ist die Zahl <strong>der</strong> möglichen<br />

Monome jedoch gegeben durch ( )<br />

n+p−1<br />

p , wobei p <strong>der</strong> Grad des Polynoms und n die<br />

Dimension des E<strong>in</strong>gaberaumes ist. Man benötigt somit Merkmalsräume mit enorm<br />

hoher Dimension sobald n und/o<strong>der</strong> p größer werden. Aus Gründen <strong>der</strong> Laufzeit ist<br />

dieses Verfahren dann praktisch nicht mehr durchführbar. Betrachtet man aber im<br />

gegebenen Beispiel e<strong>in</strong>mal das Skalarprodukt im Merkmalsraum, so ergibt sich<br />

φ(x) · φ(y) = (x 1 y 1 + x 2 y 2 ) 2 = 〈x, y〉 2<br />

≡ K(x, y) ,<br />

(4.23)<br />

d.h. man kann das Skalarprodukt im Merkmalsraum über e<strong>in</strong>e Funktion <strong>der</strong> Punkte<br />

im E<strong>in</strong>gebraum beschreiben. Man bezeichnet e<strong>in</strong>e solche Funktion als Kern-<br />

Funktion. Dieses Ergebnis gilt sogar allgeme<strong>in</strong> für homogene Polynome mit beliebigem<br />

Grad p, d.h. die Kern-Funktion<br />

K p (x, y) = 〈x, y〉 p , (4.24)<br />

ist Skalarprodukt <strong>in</strong> e<strong>in</strong>em Merkmalsraum, <strong>in</strong> dem homogene Polynome vom Grad<br />

p l<strong>in</strong>ear beschrieben werden können. Da die SVR sich ausschließlich über Skalarprodukte<br />

berechnet lässt, kann mit Hilfe dieser Kern-Funktionen die Regression im


Seite 84<br />

4.1. L<strong>in</strong>eare Support-Vektor-Regression<br />

Merkmalsraum berechnet werden, ohne dass die Transformation φ hierfür überhaupt<br />

bekannt se<strong>in</strong> muss.<br />

Ersetzt man somit die Skalarprodukte bei <strong>der</strong> Berechnung <strong>der</strong> SVR durch e<strong>in</strong>e Kern-<br />

Funktion mit <strong>der</strong> Eigenschaft<br />

K(x 1 , x 2 ) = 〈φ(x 1 ), φ(x 2 )〉 , (4.25)<br />

so arbeitet <strong>der</strong> Algorithmus im Merkmalsraum, <strong>der</strong> je nach verwendeter Kern-<br />

Funktion auch von sehr hoher Dimension o<strong>der</strong> auch unendlich-dimensional se<strong>in</strong><br />

kann. Die Laufzeit des Algorithmus erhöht sich hierbei nur um die Berechnung <strong>der</strong><br />

Kern-Funktionen. Der Algorithmus bleibt hierzu im Pr<strong>in</strong>zip unverän<strong>der</strong>t; es muss<br />

lediglich <strong>in</strong> (4.15) das herkömmliche Skalarprodukt 〈x i , x j 〉 durch e<strong>in</strong>e geeignete<br />

Kern-Funktion K(x i , x j ) ersetzt werden. Das Problem bleibt dabei konvex, da die<br />

Kern-Funktion positiv def<strong>in</strong>it ist [35]. Nach Lösen des Maximierungsproblems ergibt<br />

sich anschließend b durch<br />

b = y i −<br />

b = y i −<br />

N∑<br />

(α j − αj)K(x ∗ j , x i ) − ε für α i ∈ (0, C)<br />

j=1<br />

N∑<br />

(α j − αj)K(x ∗ j , x i ) + ε für αi ∗ ∈ (0, C)<br />

j=1<br />

(4.26)<br />

und die Regressionsfunktion kann mit<br />

f(q) =<br />

N∑<br />

(α i − αi ∗ )K(x i , q) + b (4.27)<br />

i=1<br />

berechnet werden.<br />

Bed<strong>in</strong>gung von Mercer<br />

Wie f<strong>in</strong>det man aber zu e<strong>in</strong>er gegebenen Abbildung φ und Merkmalsraum die passende<br />

Kern-Funktion Lei<strong>der</strong> lässt sich dies nur für e<strong>in</strong>ige wenige Fälle explizit<br />

berechnen, zumal nicht für jede Komb<strong>in</strong>ation von Abbildung und Merkmalsraum<br />

überhaupt e<strong>in</strong>e solche Kern-Funktion existieren muss. Allerd<strong>in</strong>gs kann man für e<strong>in</strong>e<br />

gegebene Kern-Funktion e<strong>in</strong>e Aussage darüber machen, ob diese e<strong>in</strong> Skalarprodukt


Kapitel 4. Support-Vektor-Regression Seite 85<br />

im Merkmalsraum e<strong>in</strong>er (unbekannten) Abbildung φ darstellt. Die Bed<strong>in</strong>gung von<br />

Mercer besagt <strong>in</strong> vere<strong>in</strong>fachter Form, dass falls für alle h ∈ L 2 (R d ) gilt<br />

∫ ∫<br />

K(x, x ′ )h(x)h(x ′ ) dx dx ′ ≥ 0 (4.28)<br />

dann ist K(x, x ′ ) e<strong>in</strong> Skalarprodukt <strong>in</strong> e<strong>in</strong>em Merkmalsraum, d.h. es gilt (4.25). Allerd<strong>in</strong>gs<br />

kann aus dieser Bed<strong>in</strong>gung we<strong>der</strong> die passende Abbildung φ noch <strong>der</strong> Merkmalsraum<br />

rekonstruiert werden. Weiterh<strong>in</strong> ist die Bed<strong>in</strong>gung (4.28) nicht leicht zu<br />

überprüfen, da diese für alle quadrat<strong>in</strong>tegrablen Funktionen h gelten muss. Es lassen<br />

sich aber zum<strong>in</strong>dest e<strong>in</strong>ige e<strong>in</strong>fache notwendige (wenn auch nicht h<strong>in</strong>reichende)<br />

Bed<strong>in</strong>gungen ableiten; für Details sei auf [36] verwiesen.<br />

Beispiele für Kern-Funktionen<br />

Es wurde bereits die Kern-Funktion (4.24) vorgestellt, die homogene Polynome beschreibt.<br />

Für <strong>in</strong>homogene Polynome kann die Kern-Funktion<br />

K p (x, y) = (x · y + 1) p (4.29)<br />

verwendet werden, die sich aus <strong>der</strong> Kern-Funktion für homogene Polynome ableiten<br />

lässt (vgl. [36]).<br />

E<strong>in</strong>e an<strong>der</strong>e Kern-Funktion ist <strong>der</strong> Gauß-Kern<br />

( )<br />

‖x − y‖<br />

K σ (x, y) = exp − , (4.30)<br />

2σ 2<br />

mit σ als frei wählbarem Parameter. Diese Kern-Funktion def<strong>in</strong>iert e<strong>in</strong>en unendlichdimensionalen<br />

Merkmalsraum und ist somit e<strong>in</strong> Beispiel, wo die eigentliche Abbildung<br />

φ pr<strong>in</strong>zipiell nicht explizit angegeben werden kann, obwohl sich das Skalarprodukt<br />

im Merkmalsraum e<strong>in</strong>fach berechnen lässt. Anhand <strong>der</strong> Form <strong>der</strong> Kern-<br />

Funktion im Vergleich zu (3.35) lässt sich aber bereits vermuten, dass die Verwendung<br />

dieses Kerns e<strong>in</strong>er L<strong>in</strong>earkomb<strong>in</strong>ation von radialen Basisfunktionen im<br />

E<strong>in</strong>gaberaum entspricht. Die Support-Vektoren s<strong>in</strong>d hierbei die Zentren <strong>der</strong> Gauß-<br />

Funktionen.<br />

Zum Schluss sei noch <strong>der</strong> sigmoide Kern<br />

K(x, y) = tanh(κ〈x, y〉 + θ) (4.31)


Seite 86<br />

4.1. L<strong>in</strong>eare Support-Vektor-Regression<br />

erwähnt. Der Parameter κ wird als ga<strong>in</strong> und θ als threshold bezeichnet, wobei diese<br />

Begriffe aus <strong>der</strong> Theorie <strong>der</strong> neuronalen Netze stammen, wo ebenfalls dieser Funktionstyp<br />

verwendet wird. Die resultierende Regression im Merkmalsraum entspricht<br />

e<strong>in</strong>em speziellen Typ e<strong>in</strong>es sigmoiden neuronalen Netzes mit zwei Schichten.


Kapitel 5<br />

Anwendungen <strong>der</strong> <strong>Modelle</strong><br />

In diesem Kapitel sollen die vorgestellten Methoden an unterschiedlichen Datensätzen<br />

angewendet werden, um so ihre Unterschiede sowie Stärken und Schwächen auszumachen.<br />

Anschließend soll untersucht werden, wie gut man mit Hilfe e<strong>in</strong>es optimierten<br />

lokal l<strong>in</strong>earen Modells Lyapunov-Exponenten von gegebenen Systemen bestimmen<br />

kann.<br />

5.1 Modellierung künstlich generierter Systeme<br />

Von <strong>der</strong> Hénon-Abbildung (3.22) mit a = 1, 4 und b = 0, 3 wurden 2200 Punkte generiert<br />

und die ersten 200 Punkte verworfen. Die erste Variable x wurde als Zeitreihe<br />

aufgefasst.<br />

Vom Baier-Sahle-System (3.43) wurde jeweils e<strong>in</strong> Datensatz mit M = 5 und M = 11<br />

erstellt. Die Systeme wurden von T = 0 bis T = 4000 <strong>in</strong>tegriert und alle ∆T = 0, 2<br />

abgetastet, sodass sich <strong>in</strong>sgesamt 20000 Samples ergaben. Die erste Variable x 1<br />

wurde als Zeitreihe aufgefasst und von dieser die ersten 10000 Samples als transient<br />

verworfen.<br />

Das Lorenz-System (2.6) mit Parametern σ = −10, b = 8/3 und r = 28 wurde<br />

von T = 0 bis T = 600 <strong>in</strong>tegriert und e<strong>in</strong>e Abtastrate von ∆T = 0, 03 verwendet,<br />

wodurch sich 20000 Samples ergaben. Die erste Variable x 1 wurde als Zeitreihe<br />

aufgefasst und die ersten 10000 Samples verworfen.<br />

5.1.1 Ergebnisse <strong>der</strong> Modellierung<br />

Es wurden folgende <strong>Modelle</strong> untersucht: lokal l<strong>in</strong>ear, lokal l<strong>in</strong>eare SVR, <strong>lokale</strong> SVR<br />

mit Gauß-Kern (siehe (4.30)) und <strong>lokale</strong> radiale Basisfunktionen. Die lokal konstanten<br />

<strong>Modelle</strong> liefern bei den hier betrachteten Datensätzen deutlich schlechtere<br />

Ergebnisse und wurden daher nicht berücksichtigt.<br />

87


Seite 88<br />

5.1. Modellierung künstlich generierter Systeme<br />

Zusätzlich wurden die Zeitreihen teilweise noch mit weißem Rauschen überlagert<br />

und <strong>der</strong> Signal-Rausch-Abstand (SNR) bestimmt. Die Parameter <strong>der</strong> <strong>Modelle</strong> wurden<br />

mit <strong>der</strong> <strong>in</strong> Abschnitt (3.8) vorgestellten zyklischen Optimierung ermittelt. Als<br />

Fehlermaß wurde <strong>der</strong> NMSE p aus (2.13) verwendet. Als Delay ergab sich immer<br />

τ = 1 und ist deshalb nicht extra angegeben. Zur kürzeren Schreibweise wird die<br />

Notation c e k = c · 10 k verwendet.<br />

Ergebnisse lokal l<strong>in</strong>eares Modell<br />

Datensatz p SNR [dB] NMSE D k λ n s c s w<br />

BaierSahle, M=5 40 ∞ 0,0072 22 95 1 1 0,03 1<br />

BaierSahle, M=11 20 ∞ 0,0081 60 100 1 0 0,001 1<br />

BaierSahle, M=11 10 20 0,1311 80 131 1 1 0,23 0,6<br />

Lorenz 50 ∞ 0,0017 29 11 0,89 1 0,0026 0,28<br />

Lorenz 30 30 0,025 79 24 0,85 1 0,12 0,46<br />

Lorenz 10 10 0,187 67 36 0,98 2 0,51 0,7<br />

Hénon 5 ∞ 6,6e-8 2 11 0 3 0 0<br />

Hénon 3 20 0,076 4 81 1 3 0,49 0,9<br />

Der sehr stark verrauschte Lorenz-Datensatz ist auch für 10 Schritte nur schwer<br />

zu modellieren. Auch beim etwas weniger verrauschten Baier-Sahle-Datensatz mit<br />

M = 11 stößt das Modell an se<strong>in</strong>e Grenzen, was auch <strong>der</strong> hohen Dimension des Systems<br />

(ca. 10-dimensional) geschuldet ist. Für das unverrauschte System erhält man<br />

aber weit bessere Werte, woraus sich zeigt, dass <strong>lokale</strong> <strong>Modelle</strong> trotz des “Fluches<br />

<strong>der</strong> Dimensionen” durchaus auch höherdimensionale Systeme modellieren können.<br />

Weiterh<strong>in</strong> ist auch deutlich <strong>der</strong> E<strong>in</strong>fluss des Rauschens zu beobachten: sowohl <strong>der</strong><br />

Regularisierungsparameter s c als auch die Zahl nächster Nachbarn wird deutlich<br />

größer gewählt als bei den unverrauschten Systemen.<br />

Im Folgenden sollen nun <strong>lokale</strong> <strong>Modelle</strong> mit Support-Vektor-Regression und <strong>lokale</strong>n<br />

radialen Basisfunktionen betrachtet werden. Von den obigen Beispielen wurden<br />

hierfür e<strong>in</strong>mal die stark verrauschten Datensätze verwendet, da hier das lokal l<strong>in</strong>eare<br />

Modell die größten Schwierigkeiten hat. Weiterh<strong>in</strong> wurden von Hénon, Lorenz<br />

und Baier-Sahle mit M = 5 die unverrauschten Datensätze untersucht. Es werden<br />

zunächst die e<strong>in</strong>zelnen Ergebnisse vorgestellt und danach besprochen.


Kapitel 5. Anwendungen <strong>der</strong> <strong>Modelle</strong> Seite 89<br />

Ergebnisse lokal l<strong>in</strong>eare SVR<br />

Datensatz p SNR NMSE D k λ ε C<br />

BaierSahle, M=5 40 ∞ 0,015 37 22 1 0,001 4<br />

BaierSahle, M=11 10 20 0,155 74 52 1 0,1 0,1<br />

Lorenz 50 ∞ 0,0325 31 13 0,83 0,01 ∞<br />

Lorenz 10 10 0,156 47 39 0,95 4 3,5<br />

Hénon 5 ∞ 2,3e-7 2 7 0 1e-9 ∞<br />

Hénon 3 20 0,081 4 25 1 0,04 ∞<br />

Ergebnisse lokal radiale Basisfunktionen<br />

Datensatz p SNR NMSE D k λ µ r<br />

BaierSahle, M=5 40 ∞ 0,0082 33 42 1 0,001 3,1<br />

BaierSahle, M=11 10 20 0,099 87 147 1 0,01 17<br />

Lorenz 50 ∞ 0,0023 29 87 1 1e-4 16,4<br />

Lorenz 10 10 0,181 74 18 0,99 1 1,6<br />

Hénon 5 ∞ 1,38e-7 3 52 1 1e-6 1,2<br />

Hénon 3 20 0,075 5 89 1 0,28 0,1<br />

Ergebnisse <strong>lokale</strong> SVR mit Gauß-Kern<br />

Datensatz p SNR NMSE D k λ ε σ C<br />

BaierSahle, M=5 40 ∞ 0,0069 37 24 1 1e-5 14,8 10<br />

BaierSahle, M=11 10 20 0,16 86 45 1 0,006 32,1 320<br />

Lorenz 50 ∞ 0,0021 25 20 1 1e-5 10 14<br />

Lorenz 10 10 0,170 75 18 1 1,3 28,8 2<br />

Hénon 5 ∞ 4,2e-9 3 23 0,44 1e-7 1 1e5<br />

Hénon 3 20 0,077 4 25 0,93 0,004 14.1 200<br />

Resümee<br />

Im wesentlichen liegen alle <strong>Modelle</strong> <strong>in</strong> ähnlichen Größenordnungen. Nur die <strong>lokale</strong><br />

SVR mit Gauß-Kern liefert beim unverrauschten Hénon weit bessere Ergebnisse als<br />

die an<strong>der</strong>en <strong>Modelle</strong>. Die lokal l<strong>in</strong>eare SVR liefert bis auf den stark verrauschten Lorenz<br />

schlechtere Ergebnisse als das e<strong>in</strong>fache lokal l<strong>in</strong>eare Modell. Dies liegt e<strong>in</strong>erseits<br />

wohl an dem besseren Regularisierungs-Mechanismus über das Soft-Threshold<strong>in</strong>g,<br />

an<strong>der</strong>erseits sche<strong>in</strong>t die l<strong>in</strong>eare SVR <strong>in</strong> den kle<strong>in</strong>en Umgebungen <strong>der</strong> <strong>lokale</strong>n <strong>Modelle</strong>


Seite 90<br />

5.1. Modellierung künstlich generierter Systeme<br />

ihre Stärken kaum ausspielen zu können. Durch die Parameteroptimierung über die<br />

LOO-CV wird bereits die Komplexität des Modells wesentlich vorgegeben, weshalb<br />

das Konzept <strong>der</strong> ε-<strong>in</strong>sensitiven Kostenfunktion hier nicht so greift wie bei globalen<br />

Modell-Ansätzen.<br />

Sehr gute Ergebnisse liefern das Modell mit lokal radialen Basisfunktionen und die<br />

nichtl<strong>in</strong>eare SVR mit Gauß-Kern. Allerd<strong>in</strong>gs s<strong>in</strong>d hier die Parameter r bzw. σ zusätzlich<br />

zu optimieren, die sehr kritisch für die Genauigkeit des Modells s<strong>in</strong>d und die bei<br />

falscher Wahl zu e<strong>in</strong>em völligen Versagen des Modells führen. H<strong>in</strong>zu kommt, dass<br />

gerade das nichtl<strong>in</strong>eare SVR-Modell weitaus höhere Rechenzeiten hat als das normale<br />

lokal l<strong>in</strong>eare Modell, weshalb gerade hier die Optimierung <strong>der</strong> Parameter sehr<br />

langwierig ist. Die lokal l<strong>in</strong>earen <strong>Modelle</strong> haben somit den Vorteil, deutlich robuster<br />

und zudem schneller zu se<strong>in</strong>.<br />

5.1.2 H<strong>in</strong>dmarsh-Rose-System<br />

Das Modell von H<strong>in</strong>dmarsh und Rose (HR-Modell) ist e<strong>in</strong> Versuch zur Beschreibung<br />

von Aktionspotentialen, die nach Depolarisation von Zellen im Hirn e<strong>in</strong>er<br />

Schnecke beobachtet wurden [17]. Diese zeigen e<strong>in</strong>e Anordnung sog. Bursts, die von<br />

längeren Aussetzern unterbrochen werden.<br />

Das Differentialgleichungssystem lautet<br />

ẋ = y − x 3 + 3x 2 − z ,<br />

ẏ = 1 − 5x 2 − y ,<br />

ż = ε [x − (z − z 0 )/4] .<br />

(5.1)<br />

Der Parameter ε ist sehr kle<strong>in</strong> zu wählen, d.h. die z-Variable än<strong>der</strong>t sich nur sehr<br />

langsam; im Folgenden wurde ε = 0, 004 gesetzt. Je nach Wahl von z 0 ergeben sich<br />

unterschiedliche Dynamiken des System, darunter auch Chaos <strong>in</strong> e<strong>in</strong>em schmalen<br />

Fenster zwischen z 0 ≈ 3, 159 und z 0 ≈ 3, 2, wobei <strong>in</strong> diesem auch periodische Fenster<br />

existieren [43].<br />

Im Folgenden wurde z 0 = 3, 19 gewählt. Das System wurde von T = 0 bis T =<br />

6000 <strong>in</strong>tegriert und alle ∆T = 0, 2 abgetastet. Die Variable x wurde als Zeitreihe<br />

aufgefasst und die ersten 15000 Samples als transient verworfen. Die verbleibenden<br />

15000 Samples s<strong>in</strong>d <strong>in</strong> Abbildung 5.1 zu sehen. Man sieht das periodische Auftreten<br />

von Bursts, die aus zahlreichen e<strong>in</strong>zelnen Spikes bestehen. Die Zahl <strong>der</strong> Spikes und<br />

auch die Abstände variieren hierbei chaotisch. Unterbrochen werden die Bursts von<br />

längeren Aussetzern. Die Modellierung dieses Systems ist recht schwierig, da die<br />

Dynamik hier auf zwei unterschiedlichen Zeitskalen abläuft: die Aussetzer zwischen<br />

den Bursts haben ca. die 10fache Länge <strong>der</strong> e<strong>in</strong>zelnen Spikes. Dennoch kommen<br />

<strong>lokale</strong> <strong>Modelle</strong> erstaunlich gut mit dieser Problematik zurecht.


Kapitel 5. Anwendungen <strong>der</strong> <strong>Modelle</strong> Seite 91<br />

2<br />

1.5<br />

1<br />

0.5<br />

x<br />

0<br />

−0.5<br />

−1<br />

−1.5<br />

−2<br />

0 5000 10000 15000<br />

Abbildung 5.1: Datensatz H<strong>in</strong>dmarsh-Rose-Modell, z 0 = 3.19<br />

t<br />

Ergebnisse: Modellierung H<strong>in</strong>dmarsh-Rose-System<br />

Der Datensatz wurde mit den obigen <strong>Modelle</strong>n auf Basis <strong>der</strong> 100-Schritt-Vorhersage<br />

optimiert.<br />

Modell NMSE D k n λ s c s w µ r/σ ε C<br />

L<strong>in</strong>ear 0.0019 30 37 2 0.65 0.001 1 - - - -<br />

SVR (l<strong>in</strong>ear) 0.021 46 22 - 0.67 - - - - 1e-5 21.38<br />

RBF 0.0029 27 26 - 1 - - 1e-6 9.23 - -<br />

SVR (RBF) 0.002 35 24 - 0.8 - - - 1 1e-6 1e4<br />

Es mag zunächst verblüffen, dass die E<strong>in</strong>bettungsdimension bei allen <strong>Modelle</strong>n eher<br />

kle<strong>in</strong> gewählt wird (<strong>der</strong> Delay ist auch hier τ = 1). Aufgrund <strong>der</strong> unterschiedlichen<br />

Zeitskalen würde man eigentlich e<strong>in</strong>e sehr hohe E<strong>in</strong>bettungsdimension o<strong>der</strong> e<strong>in</strong>en<br />

größeren Delay vermuten. Allerd<strong>in</strong>gs muss man hierbei bedenken, dass die Basis für<br />

die Optimierung ausschließlich <strong>der</strong> Mehrschritt-Vorhersagefehler ist. Entscheidend<br />

für diesen ist die korrekte Modellierung <strong>der</strong> Spikes: wird e<strong>in</strong> Spike fehlerhaft modelliert,<br />

so steigt <strong>der</strong> Fehler aufgrund <strong>der</strong> Höhe <strong>der</strong> Spikes sehr stark an. Verglichen<br />

damit ist e<strong>in</strong>e fehlerhafte Modellierung <strong>der</strong> Aussetzer zwischen den Bursts weniger<br />

kritisch. Die Breite e<strong>in</strong>es Spikes beträgt ca. 30 Samples, was <strong>in</strong> etwa <strong>der</strong> E<strong>in</strong>bettungsdimension<br />

<strong>der</strong> <strong>Modelle</strong> entspricht. Ist man daher z.B. an e<strong>in</strong>er Vorhersage <strong>der</strong><br />

Aussetzer und weniger an e<strong>in</strong>er Vorhersage <strong>der</strong> Spikes <strong>in</strong>teressiert, so müssen die<br />

Aussetzer im Fehlermaß stärker berücksichtigt werden.


Seite 92<br />

5.2. Modellierung experimenteller Daten<br />

5.2 Modellierung experimenteller Daten<br />

5.2.1 Experimentelle Neuron-Daten<br />

Es wurde e<strong>in</strong>e 10000 Punkte umfassende experimentell gemessene Zeitreihe e<strong>in</strong>es<br />

Neurons verwendet, die <strong>in</strong> Abbildung 5.2(a) zu sehen ist. Es handelt sich hierbei<br />

um die Messung an e<strong>in</strong>em isolierten sog. LP-Neuron des Hummers. In Abbildung<br />

5.2(b) ist e<strong>in</strong> vergrößerter Ausschnitt zu sehen. Für die Modellierung treten hier im<br />

Vergleich zum HR-Modell mehrere zusätzliche Schwierigkeiten auf. Zunächst ist die<br />

Zeitreihe recht stark verrauscht, und wie man bei Vergleich mit Abbildung 5.1 sofort<br />

sieht ist auch die Dynamik dieses Systems deutlich komplizierter. Insbeson<strong>der</strong>e liegen<br />

die Bursts und die Aussetzer nicht mehr auf gleichen Niveaus, son<strong>der</strong>n variieren recht<br />

stark <strong>in</strong> Höhe und Ausdehnung.<br />

−0.64<br />

−0.66<br />

−0.68<br />

−0.7<br />

−0.72<br />

−0.74<br />

−0.76<br />

−0.64<br />

−0.66<br />

−0.68<br />

−0.7<br />

−0.72<br />

−0.74<br />

−0.76<br />

−0.78<br />

0 2000 4000 6000 8000 10000<br />

(a)<br />

−0.78<br />

2000 2500 3000 3500<br />

(b)<br />

Abbildung 5.2: Datensatz des gemessenen Neurons<br />

Ergebnisse<br />

Es wurde wie<strong>der</strong> mit <strong>der</strong> 100-Schritt-Vorhersage optimiert. Es ergaben sich folgende<br />

Werte:<br />

Modell NMSE D k n λ s c s w µ r/σ ε C<br />

L<strong>in</strong>ear 0,149 63 41 0 0,6 0,018 0,65 - - - -<br />

SVR (l<strong>in</strong>) 0,126 80 25 - 0,9 - - - - 4,6e-5 2<br />

RBF 0,119 64 58 - 1 - - 7,77e-5 11,9 - -<br />

SVR (rbf) 0,12 59 53 - 1 - - - 8,79 4,7e-5 100


Kapitel 5. Anwendungen <strong>der</strong> <strong>Modelle</strong> Seite 93<br />

Als Ergebnis erhält man, dass alle <strong>Modelle</strong> hier klar an ihre Grenzen stoßen. Die<br />

Dimension wird nun deutlich größer gewählt als beim HR-Modell, was angesichts<br />

<strong>der</strong> breiteren Spikes auch nicht verwun<strong>der</strong>t. Als Beispiel s<strong>in</strong>d zwei typische Langzeit-<br />

Vorhersagen des lokal l<strong>in</strong>earen Modells gezeigt. Es versagt komplett, wenn <strong>der</strong> Anfragepunkt<br />

<strong>in</strong> e<strong>in</strong>em <strong>der</strong> großen Aussetzer liegt (Abbildung 5.3(a)), kann aber zum<strong>in</strong>dest<br />

den Verlauf e<strong>in</strong>es Spikes annähernd modellieren (Abbildung 5.3(b)). Da <strong>in</strong><br />

dieser Zeitreihe jedoch weit mehr Aussetzer zu f<strong>in</strong>den s<strong>in</strong>d als beim HR-Modell, ist<br />

<strong>der</strong> Fehler <strong>in</strong>sgesamt sehr groß.<br />

−0.64<br />

−0.66<br />

−0.68<br />

−0.7<br />

−0.64<br />

−0.66<br />

−0.68<br />

−0.72<br />

−0.74<br />

−0.76<br />

−0.7<br />

−0.72<br />

−0.78<br />

0 100 200 300 400 500<br />

(a)<br />

−0.74<br />

0 100 200 300 400 500<br />

Abbildung 5.3: Zwei Beispiele für Vorhersagen des gemessenen Neuron-Datensatzes<br />

(durchgezogene L<strong>in</strong>ie = Orig<strong>in</strong>al, gestrichelte L<strong>in</strong>ie = Modell)<br />

(b)<br />

5.3 Lyapunov-Exponenten<br />

Berechnet man e<strong>in</strong> lokal l<strong>in</strong>eares Modell an e<strong>in</strong>em bestimmten Punkt x 0 , so kann<br />

mit dem Koeffizientenvektor ν aus (3.15) direkt die Jacobi-Matrix an diesem Punkt<br />

bestimmt werden. Man erhält somit die Lyapunov-Exponenten, <strong>in</strong>dem man für e<strong>in</strong>e<br />

genügend lange Trajektorie des Datensatzes für jeden Punkt e<strong>in</strong> lokal l<strong>in</strong>eares Modell<br />

berechnet und die Jacobi-Matrix bestimmt. Über die Iterationsvorschrift (1.21) und<br />

die Formel (1.23) lassen sich dann die Lyapunov-Exponenten berechnen.<br />

5.3.1 Ergebnisse für Lyapunov-Exponenten<br />

Zunächst sollen mit den <strong>in</strong> Abschnitt 5.1.1 erhaltenen <strong>Modelle</strong>n die Lyapunov-<br />

Exponenten von Hénon-Abbildung, Lorenz- und Baier-Sahle-System bestimmt werden.<br />

Für die Literaturwerte wurde für das Hénon-System auf [31] zurückgegriffen,


Seite 94<br />

5.3. Lyapunov-Exponenten<br />

für das Lorenz-System auf [37]. Für das Baier-Sahle-System wurde auf e<strong>in</strong>e Methode<br />

zurückgegriffen, die die Exponenten aus den l<strong>in</strong>earisierten Differentialgleichungen<br />

bestimmt und damit sehr gute Ergebnisse erzielen kann. Die Exponenten wurden bei<br />

<strong>der</strong> Hénon-Abbildung und dem Lorenz-System mit dem Logarithmus zur natürlichen<br />

Basis e berechnet, beim Baier-Sahle-System wurde die Basis 2 verwendet.<br />

System Lyapunov Exponenten Lyapunov Exponenten<br />

(Literatur) (über lok. l<strong>in</strong>eares Modell)<br />

Hénon-Abbildung 0.417 ± 0.006 0.413<br />

(a=1.4,b=0.3) −1.58 ± 0.006 -1.551<br />

Lorenz-System 0.906 0.89<br />

(σ = −10, b = 8/3 0.00 -0.06<br />

r = 28) -14.572 -<br />

Baier-Sahle-System 0.116 0.089<br />

(M = 5, a = 28, b = 4, 0.087 0.065<br />

d = 2, ε = 0.1) 0.023 0.027<br />

0.00 -0.027<br />

-10.548 -<br />

Bis auf das Hénon-System konnten mit <strong>der</strong> beschriebenen Methode ke<strong>in</strong>e guten<br />

Werte für die negativen Exponenten bestimmt werden, weshalb sie hier erst gar<br />

nicht angegeben wurden. Für die Hénon-Abbildung und das Lorenz-System ergibt<br />

sich e<strong>in</strong>e gute Übere<strong>in</strong>stimmung, nur die Exponenten für das Baier-Sahle-System<br />

s<strong>in</strong>d mit e<strong>in</strong>er Ausnahme deutlich zu kle<strong>in</strong>. Es soll daher noch e<strong>in</strong>mal im Detail<br />

betrachtet werden.<br />

Baier-Sahle-System<br />

Mit <strong>der</strong> zyklischen Optimierung aus Abschnitt 3.8 erhält man e<strong>in</strong>en Satz an Parametern,<br />

<strong>der</strong> e<strong>in</strong>e gute Vorhersage über p Schritte erlaubt. Dem Parameter p wurde<br />

bislang wenig Aufmerksamkeit geschenkt, da er vom Benutzer je nach Wunsch<br />

gewählt werden kann, je nachdem ob man mehr an kurzfristigen o<strong>der</strong> längerfristigen<br />

Vorhersagen <strong>in</strong>teressiert ist. Wie soll p jedoch für die Berechnung von Lyapunov-<br />

Exponenten gewählt werden Könnte man z.B. beim Baier-Sahle-System durch e<strong>in</strong>e<br />

an<strong>der</strong>e Wahl von p bessere Werte erhalten<br />

Für das Baier-Sahle-System wurden sechs lokal l<strong>in</strong>eare <strong>Modelle</strong> mit Schrittweiten<br />

p = 5, 10, 20, 30, 40 ermittelt. Mit jedem dieser <strong>Modelle</strong> wurden die vier größten<br />

Lyapunov-Exponenten berechnet. Das Ergebnis ist <strong>in</strong> Abbildung 5.4 zu sehen. Die<br />

gepunkteten L<strong>in</strong>ien geben die genauen Werte an, wobei drei positive und <strong>der</strong> Null-<br />

Exponent existieren. Als Trend lässt sich mit Ausnahme des dritten Exponenten<br />

erkennen, dass die Exponenten mit wachsen<strong>der</strong> Schrittweite abnehmen. Die Exponenten<br />

bei p = 5 liegen <strong>in</strong>sgesamt am dichtesten an den exakten Werten.


Kapitel 5. Anwendungen <strong>der</strong> <strong>Modelle</strong> Seite 95<br />

λ 1<br />

0.1<br />

λ 2<br />

0.05<br />

λ 3<br />

0<br />

λ 4<br />

−0.05<br />

5 10 15 20 25 30 35 40<br />

Schrittweite für Optimierung<br />

Abbildung 5.4: Die vier größten Lyapunov-Exponenten des Baier-Sahle-Systems<br />

(M = 5) <strong>in</strong> Abhängigkeit von <strong>der</strong> Schrittweite <strong>der</strong> Optimierung (gepunktete L<strong>in</strong>ien<br />

geben exakte Werte an).<br />

Betrachtet man die sich ergebenden Parameterwerte für die <strong>Modelle</strong> <strong>der</strong> unterschiedlichen<br />

Schrittweiten, so stellt man fest, dass <strong>der</strong> Parameter s c , <strong>der</strong> maßgeblich die<br />

Regularisierung des Modells bee<strong>in</strong>flusst, sich um zwei Größenordnungen von ca. 10 −5<br />

bei <strong>der</strong> 5-Schritt-Vorhersage auf ca. 10 −3 bei <strong>der</strong> 40-Schritt-Vorhersage verr<strong>in</strong>gert.<br />

Die an<strong>der</strong>en Parameterwerte <strong>der</strong> <strong>Modelle</strong> unterscheiden sich kaum. Die stärkere<br />

Regularisierung führt dazu, dass die Lyapunov-Exponenten systematisch zu kle<strong>in</strong><br />

geschätzt werden.<br />

Das die Exponenten auch bei <strong>der</strong> 5-Schritt-Vorhersage zu kle<strong>in</strong> geschätzt werden liegt<br />

daran, dass die Zeitreihe mit 10000 Punkten e<strong>in</strong>fach zu kurz ist. E<strong>in</strong> Test mit e<strong>in</strong>er<br />

Zeitreihe von 100000 Punkten und e<strong>in</strong>em darauf tra<strong>in</strong>ierten lokal l<strong>in</strong>earen Modell<br />

(10-Schritt Vorhersage) ergab die Exponenten 0.1156; 0.0851; 0.0438; −0.0110. Hier<br />

stimmen zum<strong>in</strong>dest die ersten beiden Exponenten sehr genau übere<strong>in</strong>, nur <strong>der</strong> dritte<br />

Exponent wurde zu groß bestimmt.<br />

Um den E<strong>in</strong>fluss von Rauschen zu untersuchen, wird vom Baier-Sahle-System e<strong>in</strong>e<br />

Zeitreihe mit M = 5 und e<strong>in</strong>em Signal-Rausch-Verhältnis von SNR=25dB untersucht.<br />

Die Zeitreihe umfasst wie eben 10000 Punkte.<br />

Das Ergebnis ist <strong>in</strong> Abbildung 5.5 zu sehen. Die Exponenten s<strong>in</strong>d nun alle deutlich zu<br />

kle<strong>in</strong>, aber steigen mit wachsen<strong>der</strong> Schrittweite an. Die Mehrschritt-Vorhersage liefert<br />

somit bei verrauschten Zeitreihen bessere Ergebnisse für die Lyapunov-Exponenten.


Seite 96<br />

5.3. Lyapunov-Exponenten<br />

λ 1<br />

0.1<br />

λ 2<br />

0.05<br />

λ 3<br />

0<br />

λ 4<br />

−0.05<br />

5 10 15 20 25 30<br />

Schrittweite für Optimierung<br />

Abbildung 5.5: Die vier größten Lyapunov-Exponenten des verrauschten Baier-<br />

Sahle-Systems (M = 5, SNR=25dB) <strong>in</strong> Abhängigkeit von <strong>der</strong> Schrittweite <strong>der</strong> Optimierung<br />

(gepunktete L<strong>in</strong>ien geben exakte Werte an).


Kapitel 5. Anwendungen <strong>der</strong> <strong>Modelle</strong> Seite 97<br />

Lorenz-System<br />

Die Abbildung 5.6 zeigt die zwei größten Lyapunov-Exponenten des Lorenz-Systems<br />

<strong>in</strong> Abhängigkeit von <strong>der</strong> Schrittweite, die bei <strong>der</strong> Optimierung verwendet wurde.<br />

Man sieht hier deutlich, dass die 10-Schritt-Vorhersage zu große Werte liefert; <strong>in</strong>sb.<br />

<strong>der</strong> Null-Exponent ist viel zu groß, sodass es so aussieht als hätte das Lorenz-System<br />

zwei positive Lyapunov-Exponenten. Im Gegensatz zum Baier-Sahle-System ist hier<br />

e<strong>in</strong>e kle<strong>in</strong>e Wahl <strong>der</strong> Schrittweite somit nicht angebracht.<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

10 20 30 40 50<br />

Schrittweite für Optimierung<br />

Abbildung 5.6: Die zwei größten Lyapunov-Exponenten des Lorenz-Systems <strong>in</strong><br />

Abhängigkeit von <strong>der</strong> Schrittweite <strong>der</strong> Optimierung (gepunktete L<strong>in</strong>ien geben exakte<br />

Werte an).<br />

Colpitts-Oszillator<br />

Der Colpitts-Oszillator ist e<strong>in</strong> elektrischer Schw<strong>in</strong>gkreis dessen Dynamik bei Vernachlässigung<br />

<strong>der</strong> <strong>in</strong>ternen Dynamik des verwendeten Transistors durch e<strong>in</strong> System<br />

von drei Differentialgleichungen beschrieben werden kann (siehe [39, Kapitel<br />

8.2]). Gerrit Langer hat freundlicherweise Daten e<strong>in</strong>es solchen Colpitts-Oszillator zur<br />

Verfügung gestellt, die mit e<strong>in</strong>er Sampl<strong>in</strong>g-Frequenz von 48kHz und 16Bit-Auflösung<br />

aufgezeichnet wurden. Die Zeitreihe besteht aus 6000 Punkten. Um die Lyapunov-<br />

Exponenten zu berechnen ist e<strong>in</strong> lokal l<strong>in</strong>eares Modell für verschiedene Schrittweiten<br />

zwischen 5 und 40 optimiert worden. Die Ergebnisse s<strong>in</strong>d <strong>in</strong> Abbildung 5.7 zu sehen.


Seite 98<br />

5.3. Lyapunov-Exponenten<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

0<br />

−0.1<br />

5 10 15 20 25 30 35 40<br />

Schrittweite für Optimierung<br />

Abbildung 5.7: Die zwei größten Lyapunov-Exponenten des Colpitts-Oszillatros <strong>in</strong><br />

Abhängigkeit von <strong>der</strong> Schrittweite <strong>der</strong> Optimierung.<br />

Da <strong>der</strong> Colpitts-Oszillator nur e<strong>in</strong>en positiven und e<strong>in</strong>en Null-Exponenten aufweisen<br />

sollte, können die Werte bis zur 30-Schritt-Vorhersage verworfen werden. Die 40-<br />

Schritt-Vorhersage liefert h<strong>in</strong>gegen annähernd e<strong>in</strong>en Null-Exponenten.


Kapitel 6<br />

Zusammenfassung und Ausblick<br />

In dieser Arbeit wurden <strong>lokale</strong> <strong>Modelle</strong> vorgestellt und ihre Möglichkeiten <strong>in</strong> H<strong>in</strong>blick<br />

auf die Modellierung nichtl<strong>in</strong>earer Zeitreihen dargelegt. E<strong>in</strong> wesentlicher Punkt war<br />

hierbei die korrekte Wahl <strong>der</strong> Parameter wie die Art des Modells, die Zahl nächster<br />

Nachbarn, Metrik, Regularisierung und Wichtung. Es wurde gezeigt, dass die<br />

<strong>lokale</strong> Variation von Parametern <strong>in</strong> E<strong>in</strong>zelfällen e<strong>in</strong>e Verbesserung <strong>der</strong> Modellierung<br />

bewirken kann, im allgeme<strong>in</strong>en Fall jedoch wenig ratsam ist. Weiterh<strong>in</strong> wurde e<strong>in</strong><br />

Verfahren vorgestellt, welches durch Approximation des gegebenen Datensatzes mit<br />

wenigen Punkten e<strong>in</strong>e Reduzierung <strong>der</strong> Komplexität des Modells erreichen kann. Bei<br />

relativ stark verrauschten Daten kann dies zu e<strong>in</strong>er Verbesserung <strong>der</strong> Modellierung<br />

führen, versagt allerd<strong>in</strong>gs bei wenig- o<strong>der</strong> unverrauschten Datensätzen.<br />

Zur korrekten Wahl <strong>der</strong> Parameter wurde e<strong>in</strong> zyklischer Optimierungsalgorithmus<br />

vorgestellt, <strong>der</strong> es erlaubt, praktisch ohne jegliches Vorwissen über den Datensatz<br />

e<strong>in</strong>en guten Satz an Parametern zu erhalten. Durch die Optimierung können <strong>lokale</strong><br />

<strong>Modelle</strong> als “Black-Box” Algorithmen verwendet werden, wo <strong>der</strong> Benutzer bis<br />

auf grobe Vore<strong>in</strong>stellungen <strong>der</strong> Parameterbereiche ke<strong>in</strong>erlei manuelle E<strong>in</strong>stellungen<br />

tätigen muss. Weiterh<strong>in</strong> wurde e<strong>in</strong> Verfahren vorgestellt, welches durch zeitliche Variation<br />

<strong>der</strong> Parameter e<strong>in</strong>e Verbesserung <strong>der</strong> Mehrschritt-Vorhersage bewirkt, <strong>in</strong>dem<br />

die Parameter des Modells für aufe<strong>in</strong>an<strong>der</strong>folgende Zeitabschnitte getrennt optimiert<br />

werden.<br />

Es wurden neben den lokal polynomialen <strong>Modelle</strong>n auch <strong>lokale</strong> <strong>Modelle</strong> unter Verwendung<br />

radialer Basisfunktionen sowie l<strong>in</strong>earer und nichtl<strong>in</strong>earer Support-Vektor-<br />

Regression vorgestellt. An verschiedenen künstlich generierten aber auch gemessenen<br />

Datensätzen wurde gezeigt, dass diese <strong>lokale</strong>n <strong>Modelle</strong> unter Verwendung <strong>der</strong><br />

automatischen Parameter-Optimierung gute Ergebnisse liefern und erst bei hochdimensionalen<br />

und stark verrauschten Daten an ihre Grenzen stoßen. Hierbei zeigten<br />

sich zwar gewisse Unterschiede <strong>in</strong> <strong>der</strong> Genauigkeit <strong>der</strong> e<strong>in</strong>zelnen <strong>Modelle</strong>, aber ke<strong>in</strong><br />

Modell kann als pr<strong>in</strong>zipiell überlegen bezeichnet werden.<br />

Weiterh<strong>in</strong> wurde gezeigt, dass sich die lokal l<strong>in</strong>earen <strong>Modelle</strong> mit optimierten Para-<br />

99


Seite 100<br />

meterwerten zur Berechnung von positiven Lyapunov-Exponenten eignen. Man hat<br />

somit durch die automatische Optimierung <strong>der</strong> Parameterwerte gleichzeitig e<strong>in</strong>e Methode<br />

zur automatischen Bestimmung <strong>der</strong> positiven Lyapunov-Exponenten erhalten.<br />

Zudem erhält man durch die Optimierung <strong>in</strong> H<strong>in</strong>blick auf die Mehrschritt-Vorhersage<br />

robuste <strong>Modelle</strong>, die selbst mit verrauschten Zeitreihen noch gute Ergebnisse erzielen<br />

können.<br />

E<strong>in</strong> Problem bei <strong>der</strong> zyklischen Optimierung <strong>der</strong> Parameterwerte ist das Auftreten<br />

<strong>lokale</strong>r M<strong>in</strong>ima. Hier könnte durch Verwendung von genetischen Algorithmen o<strong>der</strong><br />

Simulated Anneal<strong>in</strong>g e<strong>in</strong>e Verbesserung erreicht werden; <strong>in</strong> bestimmten Bereich wie<br />

z.B. <strong>der</strong> Optimierung <strong>der</strong> E<strong>in</strong>bettung konnten mit diesen Algorithmen schon gute<br />

Ergebnisse erzielt werden [3]. E<strong>in</strong>e <strong>der</strong>artige Optimierung aller Parameter ist<br />

allerd<strong>in</strong>gs bei größeren Datensätze aufgrund <strong>der</strong> zeitaufwändigen Berechnung des<br />

Mehrschritt-Vorhersagefehlers mit den üblich vorhandenen Rechnern nicht praktikabel.<br />

Es ist aber nur e<strong>in</strong>e Frage <strong>der</strong> Zeit, wann die hierfür nötige Rechenleistung<br />

allgeme<strong>in</strong> zur Verfügung steht.<br />

In Bezug auf die weitere Verbesserung <strong>lokale</strong>r <strong>Modelle</strong> muss man sich vor Augen<br />

halten, dass ihre Stärke gerade <strong>in</strong> dem e<strong>in</strong>fachen und flexiblen Aufbau liegt. Im<br />

Rahmen dieser Arbeit wurden verschiedene Ansätze zur weiteren Verbesserung untersucht,<br />

die sich jedoch teilweise wie z.B. die <strong>lokale</strong> Variation <strong>der</strong> Parameter als<br />

untauglich erwiesen, weil sie die Komplexität <strong>der</strong> <strong>Modelle</strong> erhöhten o<strong>der</strong> weil sie<br />

wie bei <strong>der</strong> Gitterapproximation ihrer Flexibilität beraubt wurden. E<strong>in</strong>e Alternative<br />

wäre, die <strong>lokale</strong> Modellierung <strong>in</strong> ihrem Kern so zu belassen wie sie ist und sich<br />

mehr dem Tra<strong>in</strong><strong>in</strong>g des Modells zuzuwenden. E<strong>in</strong> <strong>in</strong>teressanter neuer Ansatz aus<br />

<strong>der</strong> statistischen Lerntheorie ist das von Schapire e<strong>in</strong>geführte Boost<strong>in</strong>g (siehe [16,<br />

Kapitel 10]). Eigentlich für das Problem <strong>der</strong> Klassifikation entworfen besteht das<br />

Pr<strong>in</strong>zip dar<strong>in</strong>, endlich viele verschiedene Klassifizierer auf unterschiedlichen Verteilungen<br />

<strong>der</strong> Daten zu tra<strong>in</strong>ieren und die e<strong>in</strong>zelnen Ausgaben zu komb<strong>in</strong>ieren. Die<br />

Klassifizierer werden hierbei meist sehr e<strong>in</strong>fach gehalten und s<strong>in</strong>d für sich alle<strong>in</strong>e auf<br />

dem Datensatz kaum besser als e<strong>in</strong>e e<strong>in</strong>fache Zufalls-Schätzung. Jedem Paar (x i , y i )<br />

des Datensatzes wird e<strong>in</strong> Gewicht w i zugewiesen, welches zu Beg<strong>in</strong>n für alle Punkte<br />

gleich ist (d.h. w i = 1/N mit N als Länge des Datensatzes). Der erste Klassifizierer<br />

wird auf dem Orig<strong>in</strong>al-Datensatz tra<strong>in</strong>iert und anschließend werden die Gewichte<br />

<strong>der</strong> Punkte erhöht, die fehlerhaft klassifiziert wurden. Mit diesen modifizierten Gewichten<br />

wird dann <strong>der</strong> nächste Klassifizierer tra<strong>in</strong>iert und so fort. Die verschieden<br />

tra<strong>in</strong>ierten Klassifizierer bilden am Ende e<strong>in</strong> Ensemble, welches deutlich bessere Ergebnisse<br />

liefert als die e<strong>in</strong>zelnen Klassifizierer alle<strong>in</strong>e. Boost<strong>in</strong>g-Algorithmen s<strong>in</strong>d<br />

auch bereits mit Erfolg auf Regressionsprobleme übertragen worden [2], allerd<strong>in</strong>gs<br />

noch nicht mit <strong>lokale</strong>r Modellierung.


Anhang A<br />

Berechnung <strong>der</strong> Modellkoeffizienten<br />

In diesem Anhang soll kurz auf die praktische Berechnung von (3.11) e<strong>in</strong>gegangen<br />

werden, da die numerische Stabilität, die erst durch e<strong>in</strong> Regularisierung des Modells<br />

gewährleistet werden kann (siehe Abschnitt 3.4), e<strong>in</strong>e entscheidende Rolle bei <strong>der</strong><br />

Genauigkeit des Modells spielt. Hierbei spielt die die S<strong>in</strong>gulärwertzerlegung (SVD)<br />

<strong>der</strong> Matrix X W e<strong>in</strong>e entscheidende Rolle.<br />

Allgeme<strong>in</strong> ist für e<strong>in</strong>e Matrix A ∈ R m×n die S<strong>in</strong>gulärwertzerlegung gegeben durch<br />

A = U S V T ,<br />

(A.1)<br />

wobei U ∈ R m×m und V ∈ R n×n orthogonal und S ∈ R m×n e<strong>in</strong>e Diagonalmatrix ist.<br />

Auf <strong>der</strong> Diagonalen von S stehen die S<strong>in</strong>gulärwerte σ i , wobei mit r = Rang(A) gilt<br />

σ 1 ≥ . . . ≥ σ r ≥ σ r+1 = . . . = σ m<strong>in</strong>(m,n) = 0 .<br />

(A.2)<br />

Die S<strong>in</strong>gulärwerte s<strong>in</strong>d durch die Matrix A e<strong>in</strong>deutig bestimmt, nicht jedoch die<br />

orthogonalen Matrizen U und V. Def<strong>in</strong>iert man nun die Matrix S † durch<br />

⎛<br />

S † :=<br />

⎜<br />

⎝<br />

⎞<br />

1/σ 1 0 · · · 0<br />

...<br />

. .<br />

1/σ r 0 · · · 0<br />

0 · · · 0 0 · · · 0<br />

⎟<br />

. . . . ⎠<br />

0 · · · 0 0 · · · 0<br />

(A.3)<br />

so kann man zeigen [45, Satz 6.5], dass für m ≥ n und Rang(A) = n die Pseudo<strong>in</strong>verse<br />

von A gegeben ist durch<br />

A † = V S † U T<br />

(A.4)<br />

101


Seite 102<br />

und es ergibt sich<br />

A † y =<br />

r∑<br />

i=1<br />

1<br />

σ i<br />

〈u T i , y〉v i ,<br />

(A.5)<br />

wobei u i und v i die i-te Spaltenvektoren <strong>der</strong> Matrizen U bzw. V s<strong>in</strong>d. Ganz allgeme<strong>in</strong><br />

gilt, wie auch durch Vergleich mit Kapitel 3 klar wird, dass x = A † y den<br />

Ausdruck ‖Ax − y‖ 2 m<strong>in</strong>imiert.


Anhang B<br />

Nichtl<strong>in</strong>eare Optimierung<br />

Für die Lösung des Support-Vektor-Problems mit ε-<strong>in</strong>sensitiver Kostenfunktion s<strong>in</strong>d<br />

die Bed<strong>in</strong>gungen von Karuhn, Kush und Tucker (KKT) sowie die sog. duale<br />

Formulierung des M<strong>in</strong>imierungsproblems notwendig. Die hierfür notwendige Mathematik<br />

soll <strong>in</strong> diesem Anhang kurz zusammengefasst werden, wobei auf Beweise<br />

verzichtet wird. Diese f<strong>in</strong>den sich <strong>in</strong> praktisch jedem Lehrbuch zur Optimierung und<br />

nichtl<strong>in</strong>earen Programmierung wie z.B. [27].<br />

B.1 Die Karush-Kuhn-Tucker-Bed<strong>in</strong>gungen<br />

Die KKT-Bed<strong>in</strong>gungen stellen e<strong>in</strong>e Verallgeme<strong>in</strong>erung <strong>der</strong> klassischen Theorie zur<br />

Bestimmung <strong>der</strong> bed<strong>in</strong>gten Extrema von Lagrange dar. Sie wurden erstmals 1939<br />

von Karush formuliert und 1951 von Kuhn und Tucker verallgeme<strong>in</strong>ert. In älteren<br />

Lehrbüchern werden sie meist nur als Kuhn-Tucker-Bed<strong>in</strong>gungen bezeichnet.<br />

Gegeben sei das Problem<br />

M<strong>in</strong>imiere f(x) , x ∈ R d (B.1)<br />

unter den Nebenbed<strong>in</strong>gungen c i (x) ≤ 0 , i = 1, . . . , m<br />

sowie die Menge M = {x|x ∈ R d , c i (x) ≤ 0} <strong>der</strong> zulässigen Punkte, die die Nebenbed<strong>in</strong>gungen<br />

erfüllen. Unter gewissen Regularitätsvoraussetzungen, auf die hier<br />

nicht näher e<strong>in</strong>gegangen werden soll und die im Falle des Support-Vektor-Problems<br />

erfüllt s<strong>in</strong>d, kann <strong>der</strong> bekannte Formalismus <strong>der</strong> Lagrange-Multiplikatoren auf das<br />

Problem angewandt werden. Hierbei wird ausgenutzt, dass jede Ungleichung durch<br />

E<strong>in</strong>führung e<strong>in</strong>er zusätzlichen Schlupf-Variable <strong>in</strong> e<strong>in</strong>e Gleichung umgewandelt werden<br />

kann. Falls nun f(x) und die Nebenbed<strong>in</strong>gungen c i (x) partiell differenzierbar<br />

103


Seite 104<br />

B.1. Die Karush-Kuhn-Tucker-Bed<strong>in</strong>gungen<br />

s<strong>in</strong>d und <strong>der</strong> Punkt q ∈ M das M<strong>in</strong>imierungsproblem lokal löst, dann existieren<br />

Skalare λ i sodass die KKT-Bed<strong>in</strong>gungen<br />

∇f(x 0 ) +<br />

m∑<br />

λ i ∇c i (x 0 ) = 0 (B.2)<br />

i=1<br />

λ i c i (x 0 ) = 0, i = 1, . . . , m (B.3)<br />

λ i ≥ 0, i = 1, . . . , m (B.4)<br />

gelten. Unter Verwendung <strong>der</strong> Lagrange-Funktion<br />

lauten die KKT-Bed<strong>in</strong>gungen<br />

L(x, λ) = f(x) +<br />

m∑<br />

λ i c i (x)<br />

i=1<br />

(B.5)<br />

∂L(x 0 , λ)<br />

∂x i<br />

= 0, i = 1, . . . , d (B.6)<br />

λ i · ∂L(x 0, λ)<br />

∂λ i<br />

= 0, i = 1, . . . , m (B.7)<br />

λ i ≥ 0, i = 1, . . . , m (B.8)<br />

Die Nebenbed<strong>in</strong>gungen können zudem durch die Bed<strong>in</strong>gungen<br />

∂L(x 0 , λ)<br />

∂λ i<br />

≤ 0 , i = 1, . . . , m (B.9)<br />

an die Lagrange-Funktion ausgedrückt werden. Die λ i werden als Lagrange-Multiplikatoren<br />

o<strong>der</strong> auch als duale Variablen bezeichnet; die Komponenten von x s<strong>in</strong>d die primalen<br />

Variablen. Die KKT-Bed<strong>in</strong>gungen s<strong>in</strong>d notwendige Bed<strong>in</strong>gungen für die Existenz<br />

e<strong>in</strong>es <strong>lokale</strong>n Extremums bei x 0 . Falls aber f(x) und die Menge M (und somit die<br />

Nebenbed<strong>in</strong>gungen c i ) konvex s<strong>in</strong>d, so existiert e<strong>in</strong> e<strong>in</strong>deutiges globales M<strong>in</strong>imum<br />

und die KKT-Bed<strong>in</strong>gungen s<strong>in</strong>d h<strong>in</strong>reichend; dieser Fall ist beim SV-Problem gegeben.<br />

Die KKT-Bed<strong>in</strong>gungen lassen sich zum<strong>in</strong>dest für e<strong>in</strong>fache M<strong>in</strong>imierungsprobleme<br />

anschaulich darstellen. Im Falle e<strong>in</strong>er Funktion f(x, y) und zwei Nebenbed<strong>in</strong>gungen<br />

c 1,2 (x, y) besagt (B.2), dass <strong>der</strong> negative Gradient −∇f durch e<strong>in</strong>e L<strong>in</strong>earkomb<strong>in</strong>ation<br />

<strong>der</strong> Gradienten <strong>der</strong> Nebenbed<strong>in</strong>gungen mit positiven Koeffizienten dargestellt<br />

werden kann. Somit liegt <strong>der</strong> Vektor −∇f zwischen den beiden Vektoren ∇c 1,2 . Die


Anhang B. Nichtl<strong>in</strong>eare Optimierung Seite 105<br />

zweite Bed<strong>in</strong>gung (B.3) (komplementärer Schlupf) besagt, dass entwe<strong>der</strong> λ i o<strong>der</strong><br />

c i (x 0 ) o<strong>der</strong> beide Null se<strong>in</strong> müssen. Falls λ i = 0, ist die Nebenbed<strong>in</strong>gung c i bei x 0<br />

nicht b<strong>in</strong>dend (<strong>in</strong>aktiv), d.h. das M<strong>in</strong>imum von f(x) liegt im Inneren und nicht auf<br />

dem Rand <strong>der</strong> durch die Nebenbed<strong>in</strong>gung c i def<strong>in</strong>ierten Menge.<br />

Bei vielen Optimierungsproblemen bestehen Nebenbed<strong>in</strong>gungen dar<strong>in</strong>, primale Variablen<br />

auf positive Werte zu beschränken 1 (Nichtnegativitätsbed<strong>in</strong>gungen). Zur Vere<strong>in</strong>fachung<br />

<strong>der</strong> Notation gelte dies gerade für die ersten k ≤ d primalen Variablen.<br />

Die Lagrange-Funktion lautet dann<br />

˜L(x, λ, η) = f(x) +<br />

m∑<br />

k∑<br />

λ i c i (x) + η j (−x j )<br />

i=1<br />

j=1<br />

(B.10)<br />

und die KKT-Bed<strong>in</strong>gungen (B.2)-(B.4) liefern bei konvexen Problemen das globale<br />

M<strong>in</strong>imum. Die zu den Nichtnegativitätsbed<strong>in</strong>gungen gehörenden Lagrange-<br />

Multiplikatoren η j können aber auch gleich Null gesetzt werden (d.h. man verwendet<br />

(B.5) als Lagrange-Funktion) und durch die zusätzlichen Bed<strong>in</strong>gungen<br />

∂L(x 0 , λ 0 )<br />

∂x i<br />

≥ 0 , i = 1, . . . , k (B.11)<br />

x i · ∂L(x 0, λ 0 )<br />

∂x i<br />

= 0 , i = 1, . . . , k . (B.12)<br />

an die primalen Variablen x 1 , . . . , x k ersetzt werden. Falls <strong>in</strong> (B.12) gerade x i = 0<br />

gilt, handelt es sich hier um e<strong>in</strong> Randm<strong>in</strong>imum, für x i > 0 um e<strong>in</strong> <strong>in</strong>neres M<strong>in</strong>imum<br />

bezüglich <strong>der</strong> i-ten Koord<strong>in</strong>ate.<br />

B.2 Duale Formulierung<br />

Unter e<strong>in</strong>er Dualfunktion versteht man e<strong>in</strong>e Funktion F (x) die e<strong>in</strong>e Schranke für<br />

die zu optimierende Primalfunktion f(x) darstellt. Ist wie <strong>in</strong> diesem Fall die Primalfunktion<br />

zu m<strong>in</strong>imieren, so ist die Dualfunktion e<strong>in</strong>e untere Schranke für die<br />

Primalfunktion. E<strong>in</strong>e Möglichkeit zur Formulierung e<strong>in</strong>er Dualfunktion bietet die<br />

Lagrange-Funktion, <strong>in</strong>dem die M<strong>in</strong>imierung von f(x) <strong>in</strong> den primalen Variablen<br />

(B.1) auf e<strong>in</strong>e Maximierungsproblem <strong>in</strong> den dualen Variablen λ i transformiert wird.<br />

Um dies zu zeigen, werden zunächst die notwendigen Bed<strong>in</strong>gungen für e<strong>in</strong> M<strong>in</strong>imum<br />

<strong>der</strong> Lagrange-Funktion (B.5) bezüglich <strong>der</strong> primalen Variablen x i betrachtet. Bei<br />

ξ (∗)<br />

i<br />

1 Solche Bed<strong>in</strong>gungen existieren auch beim SV-Problem <strong>in</strong> <strong>der</strong> Form, dass die Schlupfvariablen<br />

positiv se<strong>in</strong> müssen.


Seite 106<br />

B.2. Duale Formulierung<br />

den freien primalen Variablen x k+1 , . . . , x d ist dies durch die Bed<strong>in</strong>gung (B.6) gegeben,<br />

während für die den Nichtnegativitätsbed<strong>in</strong>gungen unterworfenen Variablen<br />

x 1 , . . . , x k die Bed<strong>in</strong>gungen (B.11) gelten müssen. Für e<strong>in</strong> Maximum <strong>der</strong> Lagrange-<br />

Funktion bezüglich <strong>der</strong> dualen Variablen λ i ist (B.9) e<strong>in</strong>e notwendige Bed<strong>in</strong>gung.<br />

Daraus folgt, dass die KKT-Bed<strong>in</strong>gungen gerade notwendig für die Existenz e<strong>in</strong>es<br />

Sattelpunktes <strong>der</strong> Lagrangefunktion s<strong>in</strong>d. E<strong>in</strong> Sattelpunkt ist charakterisiert durch<br />

L(x, λ 0 ) ≥ L(x 0 , λ 0 ) ≥ L(x 0 , λ) ,<br />

(B.13)<br />

wobei x 0 und λ 0 gerade die primalen und dualen Variablen s<strong>in</strong>d, die die KKT-<br />

Bed<strong>in</strong>gungen erfüllen. Man kann nun das duale Problem formulieren, <strong>in</strong>dem man<br />

sich dem Sattelpunkt <strong>der</strong> Lagrange-Funktion nicht über die primalen son<strong>der</strong>n über<br />

die dualen Variablen nähert: Man ersetzt das Optimierungsproblem (4.8) durch das<br />

Auff<strong>in</strong>den des Sattelpunktes <strong>der</strong> Lagrange-Funktion <strong>in</strong> Abhängigkeit von λ. Man<br />

erhält damit das Maximierungsproblem<br />

Maximiere g(λ) ≡ <strong>in</strong>f L(x, λ)<br />

x∈R d<br />

unter λ i ≥ 0 . (B.14)<br />

Für konvexe Optimierungsprobleme können die primalen Variablen durch KKT-<br />

Bed<strong>in</strong>gungen (B.6) elim<strong>in</strong>iert werden. Daraus ergibt sich die duale Formulierung<br />

nach Wolfe<br />

Maximiere g(λ) ≡ L(x(λ), λ)<br />

unter λ i ≥ 0 (B.15)<br />

o<strong>der</strong>, um den Zusammenhang mit dem primalen Problem deutlich zu machen:<br />

f(x) = g(λ) (B.16)<br />

x ∈ M , λ i ≥ 0 , i = 1, . . . , m .<br />

Die Differenz f(x) − g(λ), die als Dualitätslücke bezeichnet wird, ist nützlich um<br />

z.B. die Konvergenzgeschw<strong>in</strong>digkeit e<strong>in</strong>es Algorithmus zu bestimmen.


Literaturverzeichnis<br />

[1] J. Argyris, G. Faust und M. Haase: Die Erforschung des Chaos. Vieweg-Verlag,<br />

Braunschweig, Wiesbaden, 1995.<br />

[2] R. Avnimelech und N. Intrator: Boost<strong>in</strong>g regression estimators. Neural Computation<br />

11, 499–520, 1999.<br />

[3] V. Babovic und D. R. Fuhrman: Data assimilation and error prediction us<strong>in</strong>g<br />

local models. D2K Technical Report 0401-2 , 2001.<br />

[4] G. Baier und S. Sahle: Design of hyperchaotic flows. Phys. Rev. E51(4), R2712–<br />

R2714, 1995.<br />

[5] R. Bellman: Dynamische Programmierung und selbstanpassende Regelprozesse.<br />

R.Oldenbourg Verlag, München, 1967.<br />

[6] J. L. Bentley: Multidimensional b<strong>in</strong>ary search trees used for associative search<strong>in</strong>g.<br />

Communications of the ACM 18(9), 509–517, 1975.<br />

[7] M. Birattari und G. Bontempi: The lazy learn<strong>in</strong>g toolbox, for use with MAT-<br />

LAB. Technical Report TR/IRIDIA/99-7 , 1999.<br />

[8] G. Bontempi und M. Birattari: A multi-step-ahead prediction method based<br />

on local dynamic properties. In: Proceed<strong>in</strong>gs of ESANN 2000, S. 311–316, European<br />

Symposium on Artificial Neural Networks, 2000.<br />

[9] C. J. C. Burges: A tutorial on support vector mach<strong>in</strong>es for pattern recognition.<br />

Data M<strong>in</strong><strong>in</strong>g and Knowledge Discovery 2, 121–167, 1998.<br />

[10] T. Buzug: Analyse chaotischer Systeme. BI Wissenschaftsverlag, Mannheim,<br />

1994.<br />

[11] J. D. Farmer und J. J. Sidorowich: Predict<strong>in</strong>g chaotic time series. Physical<br />

Review Letters 59(8), 845–848, 1987.<br />

[12] J. H. Friedman, J. L. Bentley und R. A. F<strong>in</strong>kel: An algorithm for f<strong>in</strong>d<strong>in</strong>g best<br />

matches <strong>in</strong> logarithmic expected time. ACM Transactions on Mathematical<br />

Software 3(3), 209–226, 1977.<br />

107


Seite 108<br />

Literaturverzeichnis<br />

[13] K. Geist, U. Parlitz und W. Lauterborn: Comparison of different methods for<br />

comput<strong>in</strong>g Lyapunov exponents. Progress <strong>in</strong> Theoretical Physics 83(5), 875–<br />

893, 1990.<br />

[14] S. Geman, E. Bienenstock und R. Doursat: Neural networks and the bias/variance<br />

dilemma. Neural Computation 4, 1–58, 1992.<br />

[15] Drittes Physikalisches Institut Gött<strong>in</strong>gen: TSTool. URL: http://www.dpi.<br />

physik.uni-goett<strong>in</strong>gen.de/tstool, 2000.<br />

[16] T. Hastie, R. Tibshirani und J. Friedmann: The Elements of Statistical Learn<strong>in</strong>g.<br />

Spr<strong>in</strong>ger-Verlag, New York, 2001.<br />

[17] J. L. H<strong>in</strong>dmarsh und R. M. Rose: A model of neuronal burst<strong>in</strong>g us<strong>in</strong>g three<br />

coupled first or<strong>der</strong> differential equations. Proc. Royal Society London B(221),<br />

87–102, 1985.<br />

[18] W. Härdle, H. Lütkepohl und R. Chen: A review of nonparametric time series<br />

analysis. International Statistical Review 65, 49–72, 1996.<br />

[19] K. Jänich: Analysis für Physiker und Ingenieure. Spr<strong>in</strong>ger, Berl<strong>in</strong>, 1995.<br />

[20] D. Kugiumtzis: State space reconstruction parameters <strong>in</strong> the analysis of chaotic<br />

time series - the role of the time w<strong>in</strong>dow length. Physica D 95, 13–28, 1996.<br />

[21] S. Maneewongvatana und D.M. Mount: An empirical study of a new approach<br />

to nearest neighbor search<strong>in</strong>g. In: 3rd International Workshop on Algorithm<br />

Eng<strong>in</strong>eer<strong>in</strong>g and Experiments (ALENEX 2001), S. 172–187, Spr<strong>in</strong>ger Lecture<br />

Notes LNCS 2153, 2001.<br />

[22] J. McNames: Innovations <strong>in</strong> Local Model<strong>in</strong>g for Time Series Prediction. Ph.d.<br />

thesis, Stanford University, 1999.<br />

[23] J. McNames: A fast nearest neighbor algorithm based on a pr<strong>in</strong>cipal axes tree.<br />

IEEE Transactions on Pattern Analysis and Mach<strong>in</strong>e Intelligence 23(9), 964–<br />

976, 2001.<br />

[24] J. McNames, J. A. K. Suykens und J. Vandewalle: W<strong>in</strong>n<strong>in</strong>g entry of the K. U.<br />

Leuven time series prediction competition. International Journal of Bifurcation<br />

and Chaos 9(8), 1485–1500, 1999.<br />

[25] C. Merkwirth: Nächste-Nachbar basierte Methoden <strong>in</strong> <strong>der</strong> nichtl<strong>in</strong>earen <strong>Zeitreihenanalyse</strong>.<br />

Dissertation, Universität Gött<strong>in</strong>gen, 2000.<br />

[26] C. Merkwirth, U. Parlitz und W. Lauterborn: Fast nearest-neighbor search<strong>in</strong>g<br />

for nonl<strong>in</strong>ear signal process<strong>in</strong>g. Physical Review E 62(2), 2089–2097, 2000.


Literaturverzeichnis Seite 109<br />

[27] M.S.Bazaraa, H.D.Sherali und C.M.Shetty: Nonl<strong>in</strong>ear Programm<strong>in</strong>g. John Wiley<br />

& Sons, Inc., New York, zweite Aufl., 1993.<br />

[28] J. Barral P., A. Hasmy, J. Jiménez und A. Marcano: Nonl<strong>in</strong>ear model<strong>in</strong>g technique<br />

for the analysis of DNA cha<strong>in</strong>s. Physical Review E 61(2), 1812–1815,<br />

2000.<br />

[29] U. Parlitz: Identification of true and spurious lyapunov exponents from time<br />

series. International Journal of Bifurcation and Chaos 2, 155–165, 1992.<br />

[30] W. H. Press, B. P. Flannery, S. A. Teukolsky und W. T. Vetterl<strong>in</strong>g: Numerical<br />

Recipes <strong>in</strong> C: The art of scientific comput<strong>in</strong>g. Cambridge University Press,<br />

Cambridge, 1992.<br />

[31] M. Sano und Y. Sawada: Measurement of the Lyapunov spectrum from a chaotic<br />

time series. Physical Review Letters 55(10), 1082–1085, 1985.<br />

[32] T. Sauer, J. A. Yorke und M. Casdagli: Embedology. Journal of Statistical<br />

Physics 65(4), 579–616, 1991.<br />

[33] C. Schaffer: Overfitt<strong>in</strong>g avoidance as bias. Mach<strong>in</strong>e Learn<strong>in</strong>g 10, 153–178, 1993.<br />

[34] L. A. Smith: Local optimal prediction: exploit<strong>in</strong>g strangeness and the variation<br />

of sensitivity to <strong>in</strong>itial condition. Philosophical Transactions of the Royal<br />

Society A(348), 371–381, 1994.<br />

[35] A. Smola: Regression estimation with support vector learn<strong>in</strong>g mach<strong>in</strong>es. Diplom,<br />

Technische Universität München, 1996.<br />

[36] A. J. Smola und B. Schölkopf: A tutorial on support vector regression. Neuro-<br />

COLT2 Technical Report Series NC2-TR-1998-030 , 1998.<br />

[37] J. C. Sprott: Lyapunov exponent and dimension of the lorenz attractor. URL:<br />

http://sprott.physics.wisc.edu/chaos/lorenzle.htm, 1997.<br />

[38] W.-H. Steeb: Chaos und Quantenchaos <strong>in</strong> dynamischen Systemen. BI Wissenschaftsverlag,<br />

Zürich, 1994.<br />

[39] J. A. K. Suykens und J. Vandewalle: Nonl<strong>in</strong>ear Model<strong>in</strong>g - Advanced Black-Box<br />

Techniques. Kluwer Academic Publishers, Boston, 1998.<br />

[40] F. Takens: Detect<strong>in</strong>g strange attractors <strong>in</strong> turbulence. In: Dynamical Systems<br />

and Turbulence, Spr<strong>in</strong>ger Verlag, Berl<strong>in</strong>, 1981.<br />

[41] V. Vapnik: The Nature of Statistical Learn<strong>in</strong>g Theory. Spr<strong>in</strong>ger Verlag, New<br />

York, 1995.


Seite 110<br />

Literaturverzeichnis<br />

[42] V.Vapnik, S.Golowich und A.Smola: Support vector method for function approximation,<br />

regression estimation, and signal process<strong>in</strong>g. In: Advances <strong>in</strong> Neural<br />

Information Process<strong>in</strong>g Systems 9, herausgegeben von M. Mozer, M. Jordan<br />

und T. Petsche, S. 281–287, MIT Press, 1997.<br />

[43] X.-J. Wang: Genesis of burst<strong>in</strong>g oscillations <strong>in</strong> the H<strong>in</strong>dmarsh-Rose model and<br />

homocl<strong>in</strong>icity to a chaotic saddle. Physica D(62), 263–274, 1996.<br />

[44] A. S. Weigend und N. A. Gershenfeld: Time Series Prediction - Forecast<strong>in</strong>g the<br />

future and un<strong>der</strong>stand<strong>in</strong>g the past. Addison-Wesley Publish<strong>in</strong>g Company, 1994.<br />

[45] J. Werner: Numerische Mathematik 1. Vieweg Studium, Wiesbaden, 1992.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!