Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Optimierte lokale Modelle in der 

nichtlinearen Zeitreihenanalyse 

Diplomarbeit 

vorgelegt von 

David Engster 

aus 

Göttingen 

angefertigt im 

Dritten Physikalischen Institut 

der Georg–August–Universität zu Göttingen 

2002

Inhaltsverzeichnis 

Einleitung 5 

1 Grundlagen 8 

1.1 Dynamische Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

1.1.1 Lyapunov Exponenten . . . . . . . . . . . . . . . . . . . . . . 10 

1.1.2 Berechnung von Lyapunov-Exponenten über 

QR-Zerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

1.1.3 Attraktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

1.1.4 Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

1.1.5 Rekonstruktion des Attraktors . . . . . . . . . . . . . . . . . . 18 

2 Lokale Modelle 21 

2.1 Das Modellierungsproblem . . . . . . . . . . . . . . . . . . . . . . . . 21 

2.1.1 Lokale Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

2.1.2 Vorhersage von Zeitreihen . . . . . . . . . . . . . . . . . . . . 24 

2.2 Der Fluch der Dimensionen . . . . . . . . . . . . . . . . . . . . . . . 26 

2.3 Bias, Varianz und Overfitting . . . . . . . . . . . . . . . . . . . . . . 28 

2.4 Validierung lokaler Modelle . . . . . . . . . . . . . . . . . . . . . . . 32 

2.4.1 Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . 32 

2.4.2 Leave-one-out Cross-Validation . . . . . . . . . . . . . . . . . 33 

2.4.3 Fehlermaße bei Leave-one-out Cross-Validation . . . . . . . . . 33 

2

Inhaltsverzeichnis Seite 3 

3 Lokal polynomiale Modellierung 36 

3.1 Lokal konstantes und lokal lineares Modell . . . . . . . . . . . . . . . 38 

3.2 Vergleich von lokal konstantem und lokal linearem Modell . . . . . . . 39 

3.3 Parameter bei der lokalen Modellbildung . . . . . . . . . . . . . . . . 41 

3.3.1 Zahl nächster Nachbarn . . . . . . . . . . . . . . . . . . . . . 41 

3.3.2 Wichtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 

3.3.3 Metrik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 

3.4 Regularisierung polynomialer Modelle . . . . . . . . . . . . . . . . . . 47 

3.4.1 Principal Component Regression . . . . . . . . . . . . . . . . 47 

3.4.2 Ridge Regression . . . . . . . . . . . . . . . . . . . . . . . . . 50 

3.4.3 Wahl der Regularisierung . . . . . . . . . . . . . . . . . . . . . 51 

3.5 Lokale Variation von Parametern . . . . . . . . . . . . . . . . . . . . 52 

3.6 Approximation durch Gitterpunkte . . . . . . . . . . . . . . . . . . . 56 

3.6.1 Beispiel Hénon-Abbildung . . . . . . . . . . . . . . . . . . . . 57 

3.7 Lokale radiale Basisfunktionen . . . . . . . . . . . . . . . . . . . . . . 61 

3.8 Optimierung der Modellparameter . . . . . . . . . . . . . . . . . . . . 62 

3.9 Zeitliche Variation der Parameter . . . . . . . . . . . . . . . . . . . . 65 

3.10 Suche nach nächsten Nachbarn . . . . . . . . . . . . . . . . . . . . . 67 

3.11 Vergleich lokaler Modelle mit globalen Modellen . . . . . . . . . . . . 72 

4 Support-Vektor-Regression 76 

4.1 Lineare Support-Vektor-Regression . . . . . . . . . . . . . . . . . . . 77 

4.1.1 Berechnung von b . . . . . . . . . . . . . . . . . . . . . . . . . 81 

4.1.2 Nichtlineare Support-Vektor-Regression . . . . . . . . . . . . . 82 

5 Anwendungen der Modelle 87 

5.1 Modellierung künstlich generierter Systeme . . . . . . . . . . . . . . . 87 

5.1.1 Ergebnisse der Modellierung . . . . . . . . . . . . . . . . . . . 87 

5.1.2 Hindmarsh-Rose-System . . . . . . . . . . . . . . . . . . . . . 90

Seite 4 


5.2 Modellierung experimenteller Daten . . . . . . . . . . . . . . . . . . . 92 

5.2.1 Experimentelle Neuron-Daten . . . . . . . . . . . . . . . . . . 92 

5.3 Lyapunov-Exponenten . . . . . . . . . . . . . . . . . . . . . . . . . . 93 

5.3.1 Ergebnisse für Lyapunov-Exponenten . . . . . . . . . . . . . . 93 

6 Zusammenfassung und Ausblick 99 

A Berechnung der Modellkoeffizienten 101 

B Nichtlineare Optimierung 103 

B.1 Die Karush-Kuhn-Tucker-Bedingungen . . . . . . . . . . . . . . . . . 103 

B.2 Duale Formulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 

Literaturverzeichnis 107

Einleitung 

In der Physik hat man meist den Anspruch, analytische Modelle auf Basis physikalischer 

Betrachtung zu gewinnen, die im Idealfall ein mathematisches Abbild der 

physikalischen “Realität” darstellen und somit verallgemeinerungsfähig sind. Was 

jedoch, wenn der physikalische Vorgang gänzlich unbekannt oder zumindest so komplex 

ist, dass eine Modellierung auf Basis physikalischer Betrachtungen unmöglich 

ist Häufig ist nicht einmal bekannt, ob die gewonnenen Daten einem deterministischen 

oder stochastischen Prozess zuzuordnen sind. Gerade bei Zeitreihen chaotischer 

Systeme kann mit herkömmlichen Analyse-Methoden wie der Berechnung des 

Frequenz-Spektrums oder der Autokorrelation häufig nicht zwischen diesen beiden 

Fällen unterschieden werden. 

Es sind daher Modelle nötig, die möglichst keinerlei Voraussetzungen an das betrachtete 

System stellen und die so viel Information wie möglich aus den Daten selbst 

ermitteln. Ein solches Modell betrachtet das zu modellierende System als “Black 

Box” mit veränderlichen Parametern, welches gewisse Eingaben entgegennimmt und 

Ausgaben liefert. Die Modellierung geschieht anhand eines genügend großen Datensatzes 

von beobachteten Ein- und Ausgaben. Falls das System nicht rein zufällige 

Ausgaben liefert, sollte das Modell in der Lage sein, auch für neue, bislang nicht beobachtete 

Eingaben eine Schätzung für die Ausgabe zu berechnen. Das Modell sollte 

genau dann versagen, wenn die Ausgabe des Systems gänzlich unabhängig von den 

Eingabedaten ist. Diese Form von Modellierung trachtet somit nicht danach, physikalische 

Gesetzmäßigkeiten wiederzugeben. Aber allein die Information, dass ein 

System überhaupt vorhersagbar ist, lässt bereits wichtige Rückschlüsse auf die Art 

der Daten zu. So kann z.B. durch Modellierung von DNA zwischen informationstragenden 

und “überflüssigen” Sequenzen unterschieden werden [28]. In der Physik 

kann durch Modellbildung zwischen stochastischen und chaotischen Systemen unterschieden 

werden und bei letzteren lassen sich zumindest kurzfristige Vorhersagen 

ermitteln. Auch lässt sich die Dimensionalität des Systems abschätzen und durch 

Berechnung der Jacobi-Matrix charakteristische Größen der Dynamik bestimmen. 

Der Schwerpunkt dieser Arbeit liegt auf der sog. lokalen Modellbildung. Ihr Prinzip 

besteht darin, nur in einer Umgebung eines konkreten Anfragepunktes das Modell 

zu bilden und den restlichen Bereich des Datensatzes unberücksichtigt zu lassen. 

Direkte Konsequenz dieses Ansatzes ist, dass der Datensatz von Beobachtungen 

5

Seite 6 


immer untrennbarer Teil des Modells ist und mit der Modellierung immer erst bei 

Vorliegen eines konkreten Anfragepunktes begonnen wird. Lokale Modelle zeichnen 

sich durch hohe Flexibilität, einfachen Aufbau und geringe Rechenzeiten aus. Im 

Gegensatz zu den lokalen stehen die globalen Modelle, die immer den gesamten 

vorhandenen Datensatz zur Modellierung verwenden, z.B. durch Linearkombination 

von Polynomen oder radialen Basisfunktionen. Die Parameter dieser Modelle müssen 

allerdings zuerst auf diesen Datensatz hin trainiert werden, was ein zeitaufwändiges 

Präprozessing erfordert. Sie sind weniger flexibel als lokale Modelle, jedoch lassen 

sie sich in kompakter geschlossener Form angeben und vom Datensatz trennen. 

Natürlich existieren auch bei lokalen Modellen verschiedene Parameter, die gut 

gewählt werden müssen. Diese Parameter definieren insbesondere die Umgebung 

eines Anfragepunktes, in der das eigentliche Modell gebildet wird. Wesentliches Ziel 

dieser Arbeit ist es, diese Parameter zu erläutern und Verfahren vorzustellen, die 

diese automatisch bestimmen. Weiterhin soll erläutert werden, welche unterschiedlichen 

Typen von Modellen in den Umgebungen verwendet werden können und welche 

Auswirkungen diese auf die Vorhersage nichtlinearer Zeitreihen haben. Hierbei soll 

auch auf die in den letzten Jahren zunehmend populäre Support-Vektor-Regression 

eingegangen werden. Auch soll untersucht werden, wie gut sich lokale Modelle zur 

Bestimmung von Lyapunov-Exponenten eignen, die charakteristische Größen für die 

Dynamik eines Systems sind. 

Die Arbeit gliedert sich wie folgt: 

Das erste Kapitel beschäftigt sich mit den Grundlagen dynamischer Systeme und 

chaotischer Dynamik. Hierzu wird zunächst der mathematische Rahmen erläutert 

und die wesentlichen Begriffe der nichtlinearen Dynamik vorgestellt. Das zweite Kapitel 

beschäftigt sich allgemein mit der Theorie der nichtlinearen Modellbildung und 

speziell mit dem bereits erwähnten lokalen Ansatz. Anhand des sog. Bias-Varianz- 

Dilemmas werden prinzipielle Einschränkungen bei der Modellierung erläutert und 

Methoden zur Validierung lokaler Modelle vorgestellt. 

Im dritten Kapitel wird die lokal polynomiale Modellbildung erläutert, die in den lokalen 

Umgebungen ein Polynom mit beliebigem Grad als Modell verwendet. Es werden 

Algorithmen zur Suche nach nächsten Nachbarn beschrieben, da sie ein Hauptbestandteil 

von lokalen Modellen sind. Die verschiedenen Arten von Parametern 

bei der lokal polynomialen Modellbildung werden erläutert und es wird untersucht, 

inwieweit diese lokal variiert werden können. Weiterhin wird ein Verfahren vorgestellt, 

welches eine Reduktion des Datensatzes der Beobachtungen ermöglicht und 

hierdurch die Parameterwahl vereinfacht. Anschließend wird ein Algorithmus zur 

automatischen Optimierung der Parameter vorgestellt und die Möglichkeit zur zeitlichen 

Variation der Parameter bei der Mehrschritt-Vorhersage untersucht. Das Kapitel 

schließt mit einem Vergleich des lokalen und globalen Modellierungs-Ansatzes. 

Das vierte Kapitel stellt die sog. Support-Vektor-Regression vor, ein Ansatz aus der 

statistischen Lerntheorie und ursprünglich für das Problem der Klassifikation ent-

Inhaltsverzeichnis Seite 7 

worfen. Inwieweit diese Algorithmen in der lokalen Modellierung sinnvoll sind wird 

zusammen mit den lokal polynomialen Algorithmen im fünften Kapitel an künstlich 

generierten und an gemessenen Zeitreihen untersucht. Anhand des lokal linearen 

Modells werden die Lyapunov-Exponenten verschiedener Zeitreihen berechnet und 

die Abhängigkeit von der Schrittweite der Vorhersage untersucht. 

Die Arbeit schließt mit einer Zusammenfassung der Ergebnisse und einem Ausblick 

auf die mögliche weitere Entwicklung der lokalen Modelle. Im Anhang wird auf die 

Singulärwertzerlegung und die nichtlineare Optimierung eingegangen.

Kapitel 1 

Grundlagen 

Ende des 19. Jahrhunderts, als die klassische analytische Mechanik mit der Theorie 

von Hamilton auf ihrem Höhepunkt war und praktisch als “vollendet” galt, stellte 

König Oscar von Schweden die Preisaufgabe, die Stabilität des Sonnensystems 

zu beweisen. Den Preis erhielt der französische Mathematiker Henri Poincaré, 

allerdings für den Nachweis der Unmöglichkeit eines solchen Beweises. Er konnte zeigen, 

dass beim Dreikörperproblem der Himmelsmechanik die nichtlinearen höheren 

Terme das Ergebnis bereits bei winzigen Änderungen der Anfangsbedingungen auf 

nicht vorhersagbare Weise beeinflussen, und das obwohl das System als solches streng 

deterministisch ist. Dieses Ergebnis zeigte die Grenzen des sog. erweiterten linearen 

Superpositionsprinzips, wonach sich die Anwesenheit einer Nichtlinearität nur 

durch eine verglichen mit dem linearen Anteil kleine Störung im Ergebnis bemerkbar 

macht. Poincaré stellte fest, dass dies beim Dreikörperproblem nicht gegeben 

war, sondern eine sensitive Abhängigkeit von den Anfangsbedingungen vorliegt, die 

durch die nichtlinearen Therme verursacht wird. Dieses Phänomen ist charakteristisch 

für chaotische Systeme und ist als Quasi-Definition des Chaos zu betrachten: 

winzige Änderungen in den Anfangsbedingungen führen zu völlig unterschiedlichem 

Verhalten des Systems mit der Konsequenz, dass die zeitliche Entwicklung chaotischer 

Systeme sich praktisch nicht über längere Zeiträume vorhersagen lässt. Der 

Begriff des “Chaos” ist hierbei irreführend, da dieser in der Umgangssprache eher 

mit “Zufall”, also stochastischen Systemen in Zusammenhang gebracht wird. Die 

hier betrachteten Systeme sind aber streng deterministisch; um diesen Aspekt zu 

betonen, wird meist von deterministischem Chaos gesprochen. 

Im Folgenden werden die wesentlichen Begriffe zur Charakterisierung und Beschreibung 

chaotischer Systeme erläutert. Diese bauen auf der mathematischen Theorie 

der dynamischen Systeme auf, welche als erste erläutert werden sollen. 

8

Kapitel 1. Grundlagen Seite 9 

1.1 Dynamische Systeme 

Unter einem dynamischen System versteht man ganz allgemein kontinuierlich oder 

diskret beobachtbare Objekte mit messbaren Eigenschaften, die sich nach bestimmten 

Regeln zeitlich ändern. Die Objekte werden durch Zustandsvektoren in einem 

endlich-dimensionalen Zustandsraum x ∈ M ⊂ R d beschrieben. Das dynamische 

System ist definiert durch eine stetige Abbildung 

die folgende Eigenschaften erfüllt: 

Φ : K × M → M (1.1) 

Φ(0, x) = x für alle x ∈ M (1.2) 

Φ(d, Φ(t, x)) = Φ(t + d, x) für alle d, t ∈ R, x ∈ M . (1.3) 

Wie man an diesen Eigenschaften abliest, definiert die Abbildung Φ die zeitliche 

Entwicklung eines Zustandes x, wobei der Parameter t die Zeit darstellt. Dieser ist 

entweder eine ganze Zahl (K = Z) oder reell (K = R), wobei man von zeitdiskreten 

bzw. zeitkontinuierlichen Systemen spricht. Falls Φ nicht invertierbar ist, muss der 

Parameter t auf positive Werte eingeschränkt werden. Bei kontinuierlichen Systemen 

wird die Abbildung Φ auch als Fluss bezeichnet. 

Betrachtet man die zeitliche Entwicklung eines bestimmten Zustandes x ∈ M, so 

erhält man eine Bahnkurve (Trajektorie oder auch Orbit) im Zustandsraum, die 

durch die aus dem Fluss abgeleitete Abbildung 

α x : R → M 

t ↦→ Φ(t, x) (1.4) 

gegeben ist. Da die Trajektorie durch einen Zustandsvektor bereits eindeutig bestimmt 

ist, können sich Trajektorien im Zustandsraum nicht schneiden, oder anders 

gesagt: haben zwei Trajektorien einen Punkt gemeinsam, so sind sie identisch. 

Es soll nun ein sog. autonomes System betrachtet werden, wo die zeitliche Ableitung 

durch ein stetig differenzierbares Vektorfeld F : M → R d gegeben ist, d.h. es gilt 

dx 

dt 

= F(x) . (1.5)

Seite 10 

1.1. Dynamische Systeme 

Dies ist ein autonomes Differentialgleichungssystem erster Ordnung. Es ist insofern 

allgemein gültig, als das jedes System gewöhnlicher Differentialgleichungen höherer 

Ordnung durch Einführung zusätzlicher Variablen in ein System erster Ordnung 

überführt werden kann. Ebenso kann jedes nichtautonome System durch Einführung 

einer zusätzlichen Variablen x d+1 = t und der trivialen Differentialgleichung ẋ d+1 = 1 

auf ein System autonomer Differentialgleichungen transformiert werden. Eine Trajektorie 

der Form (1.4) ist Lösung dieses DGL-Systems. Diese Darstellung ist aus 

der klassischen Mechanik vertraut, wo der Zustandsraum M = R d durch die verallgemeinerten 

Koordinaten und Impulse eines idealisierten Massepunktes aufgespannt 

wird, dessen zeitliche Entwicklung ebenfalls durch die Lösung eines autonomen DGL- 

Systems erster Ordnung gegeben ist (Hamiltonsche harmonische Gleichungen). 

Im Falle stetig differenzierbarer Vektorfelder 1 ist die Lösung des autonomen Systems 

durch die Anfangswerte eindeutig bestimmt. Daher stellt (1.5) tatsächlich ein 

dynamisches System dar, selbst wenn das Vektorfeld lokal begrenzt ist (vgl. [19]). 

Den Fluss Φ erhält man durch Integration der Differentialgleichungen über die Zeit 

t. Daraus folgt, dass ein so definierter Fluss immer invertierbar ist, denn die Integration 

kann natürlich in beide Zeitrichtungen erfolgen. 

Im Falle von zeitdiskreten Systemen wird das dynamische System durch eine Differenzengleichung 

x n = f(x n−1 ) (1.6) 

beschrieben. Hierbei ist x n der Zustand des Systems zu einer diskreten Zeit n ∈ Z. 

Die zeitliche Entwicklung ist auch hier durch den Anfangswert eindeutig bestimmt, 

weshalb auch (1.6) ein dynamisches System ist, wobei hier der Fluss durch die Abbildung 

selbst gegeben ist. 

1.1.1 Lyapunov Exponenten 

Es werden zwei Trajektorien im Phasenraum mit Anfangswerten x 0 und x 0 +δx 0 betrachtet, 

wobei die Differenz der Anfangswerte δx 0 eine infinitesimal kleine Störung 

ist. Ist das System in Richtung dieser Störung sensitiv gegenüber den Anfangsbedingungen, 

so vergrößert sich der Betrag der Störung exponentiell mit der Zeit. Dieses 

exponentielle Wachstum wird durch die Lyapunov-Exponenten charakterisiert, die 

somit eine quantitative Beschreibung des chaotischen Verhaltens liefern. 

1 Diese Bedingung kann noch auf die sog. Lipschitz-Bedingung reduziert werden, die eine 

schwächere Voraussetzung ist als die stetige Differenzierbarkeit.


Das dynamische System sei zunächst durch ein DGL-System der Form (1.5) gegeben. 

Die zeitliche Ableitung der gestörten Trajektorie ist gegeben durch 

d(x + δx) 

dt 

= F(x + δx) . (1.7) 

Linearisierung in der Umgebung von x ergibt 

dx 

dt + δx dF 

= F(x) + 

dt dx · δx 

⇒ δẋ = J(x) · δx , 

(1.8) 

wobei J(x) = dF/dx die Jacobi-Matrix des DGL-Systems ist. Die Zeitentwicklung 

der Störung ergibt sich durch die Transfermatrix U t , die die Differentialgleichung 

˙U = JU mit U 0 = I löst. Man erhält somit 

δx t = U t δx 0 (1.9) 

und der Lyapunov-Exponent in Richtung des Einheitsvektors u 0 = δx 0 /‖δx 0 ‖ ist 

gegeben durch 

1 

λ(x 0 , δx 0 ) = lim 

t→∞ t ln ‖δx t‖ 

‖δx 0 ‖ = lim 1 

t→∞ t ln ‖Ut (x 0 )u 0 ‖ . (1.10) 

Bei zeitdiskreten Abbildungen der Form (1.6) ist der Fluss des Systems direkt durch 

die Abbildung gegeben. Die zeitliche Entwicklung der Störung erhält man daher 

direkt durch die Jacobi-Matrix der Abbildung, d.h. es gilt 

δx t+1 = J(x t ) · δx t (1.11) 

mit J(x) = df/dx und der Lyapunov Exponent in Richtung von u 0 ist gegeben 

durch 

1 

λ(x 0 , δx 0 ) = lim 

n→∞ n ln ‖δx n‖ 

‖δx 0 ‖ = lim ln n→∞ ‖Jn (x 0 )u 0 ‖ (1.12) 

wobei J n (x 0 ) = J(x n−1 ) · J(x n−2 ) · . . . · J(x 0 ). 

Für einen d-dimensionalen Phasenraum gibt es entsprechend d im Allgemeinen verschiedene 

Lyapunov-Exponenten, die das zeitliche Verhalten der Störung in den 

verschiedenen Richtungen des Raums beschreiben. Für ergodische Systeme sind sie

Seite 12 


invariant bezüglich der Wahl der Anfangswerte x 0 und der Störungen (Tangentialvektoren) 

δx 0 . 

Die Lyapunov-Exponenten beschreiben somit die exponentielle Divergenz oder auch 

Konvergenz eng benachbarter Trajektorien eines dynamischen Systems. Periodische 

Bewegungen werden durch einen Satz von Null- oder negativen Exponenten beschrieben. 

Kontinuierliche Systeme besitzen immer einen Null-Exponenten, da in 

Tangentialrichtung der Trajektorie weder Streckung noch Kompression stattfindet. 

Das Lyapunov-Spektrum ist gegeben durch die in absteigender Reihenfolge sortierten 

Exponenten 

λ 1 ≥ λ 2 ≥ . . . ≥ λ d . (1.13) 

Bislang wurde als Quasi-Definition chaotischer Bewegung die “sensitive Abhängigkeit 

von den Anfangswerten” verwendet, die nun mit Hilfe der Lyapunov-Exponenten 

auf eine mathematische Basis gestellt werden kann: Chaotische Bewegung ist dadurch 

ausgezeichnet, dass mindestens ein Lyapunov-Exponent positiv ist. Durch Berechnung 

des größten Lyapunov-Exponenten eines dynamischen Systems lässt sich 

somit eindeutig aussagen, ob das System chaotisches Verhalten zeigt oder nicht. 

1.1.2 Berechnung von Lyapunov-Exponenten über 

QR-Zerlegung 

Betrachtet man ein Volumen um einen beliebigen Punkt des Attraktors x 0 , so verformt 

sich dieses unter Wirkung des Flusses: es streckt sich in Richtung positiver 

Lyapunov-Exponenten und schrumpft oder stagniert in den restlichen Richtungen. 

Durch Betrachtung der Volumenänderung in den verschiedenen Richtungen können 

somit die Lyapunov-Exponenten berechnet werden. Da jedoch nach einer gewissen 

Menge an Iterationen praktisch alle das Volumen definierenden Vektoren in Richtung 

des größten Lyapunov-Exponenten zeigen, ist eine Reorthonormalisierung der 

betrachteten Vektoren nötig. Hierzu gibt es zwei verschiedene Ansätze: der eine basiert 

auf der Singulärwertzerlegung, der andere, der im Folgenden betrachtet werden 

soll, auf der QR-Zerlegung [13]. 

Zunächst wählt man an einem Punkt x 0 eine beliebige Orthonormalbasis mit Vektoren 

b 1 , . . . , b d . Die ersten k Basisvektoren mit k ≤ d spannen ein Volumen 

V k (t) = ‖U t (x 0 )b 1 × . . . × U t (x 0 )b k ‖ (1.14) 

auf, dessen zeitliche Änderung ausgedrückt werden kann durch die Summe der ersten


k Lyapunov-Exponenten, insofern diese der Größe nach sortiert sind: 

1 

lim 

t→∞ t ln[V k(t)] = 

k∑ 

λ i . (1.15) 

Die Matrix P(t) sei definiert durch die zeitliche Änderung der Basisvektoren 

i=1 

P(t) ≡ (U t (x 0 )b 1 , . . . , U t (x 0 )b d ) . (1.16) 

Dieses Volumen kann mit Hilfe der QR−Zerlegung [45, S. 53] der Matrix P erhalten 

werden. Hierfür bildet man 

⎛ 

⎞ 

R 11 R 12 · · · R 1d 

0 R 22 · · · R 2d 

P = QR = (Q 1 , . . . , Q d ) · ⎜ 

⎝ 

. 

. . .. 

⎟ . ⎠ . (1.17) 

0 0 · · · R dd 

Die Matrix Q ist orthogonal und die obere Dreiecksmatrix R besitzt positive Diagonalelemente, 

deren Produkt das Volumen (1.14) ergeben, d.h. 

V k (t) = 

k∏ 

R ii . (1.18) 

i=1 

Für den i-ten Lyapunov-Exponent ergibt sich somit mit Hilfe von (1.15) 

1 

λ i = lim 

t→∞ t ln(R ii) . (1.19) 

Anschaulich lässt sich dies folgendermaßen darstellen: Unter der Wirkung des Flusses 

wird der anfängliche Einheitswürfel aus den Vektoren b i mit i = 1, . . . , d in den Spat 

P verformt. Durch QR-Zerlegung entsteht der Quader R ii Q i , dessen Kantenlängen 

gegenüber dem Einheitswürfel exponentiell mit den Lyapunov-Exponenten gewachsen 

oder geschrumpft sind, der jedoch das gleiche Volumen wie der Spat P besitzt. 

Üblicherweise beginnt man mit der Basis b i = I, i = 1, . . . , d, die von der Transfermatrix 

U t auf die Matrix P abgebildet wird. Diese wird in diskreten Schritten mit 

Abstand ∆t der QR-Zerlegung unterworfen, wobei man über die dabei entstehende

Seite 14 


Matrix Q eine neue orthogonale Basis für den nächsten Iterationsschritt erhält. Man 

erhält also folgendes Schema: 

Q 0 = I ↦−→ U0 

P 0 ↦−→ Q 1 R 0 

Q 1 

U 1 

↦−→ P 1 ↦−→ Q 2 R 1 

usw. 

(1.20) 

Die Iterationsvorschrift lautet somit 

Q j R j−1 = U j−1 Q j−1 , j = 1, . . . , d (1.21) 

und wird nach Eckmann und Ruelle auch als Treppen-Iteration Algorithmus bezeichnet 

[13]. Die Diagonalelemente ergeben sich multiplikativ aus den diskreten 

Schritten 

n−1 

∏ 

R ii = R j ii . (1.22) 

j=0 

Somit setzt sich auch die Ausdehnungsrate der Tangentialvektoren aus den diskreten 

Schritten zusammen. Mit (1.19) ergibt sich somit für den i-ten Lyapunov- 

Exponenten 

1 ∑n−1 

λ i = lim ln(R j ii n→∞ n ∆t 

) . (1.23) 

j=0 

1.1.3 Attraktoren 

Bei den durch (1.4) definierten Trajektorien interessiert man sich besonders für das 

asymptotisches Verhalten für t → ∞. In konservativen dynamischen Systemen, wie 

sie z.B. in der Newtonschen Mechanik bei Vernachlässigung der Reibung betrachtet 

werden, bleibt das Volumen einer Menge von Punkten im Phasenraums in der zeitlichen 

Entwicklung dieser Punkte erhalten, d.h. es ist invariant gegenüber dem Fluss 

(1.1). In dissipativen Systemen bleibt das Volumen nicht erhalten, sondern verringert 

sich unter Einwirkung des Flusses. Mathematisch bedeutet dies, dass ausgehend von 

(1.5) die Divergenz des Vektorfeldes F kleiner Null ist: 

∇ · F < 0 . (1.24)


Im Falle von zeitdiskreten Systemen ist bei dissipativen Systemen der Betrag der 

Determinanten der Jacobi-Matrix von f kleiner Eins. Weiterhin gilt, dass die Summe 

aller Lyapunov-Exponenten negativ sein muss, da sonst Volumina des Phasenraums 

unter Einwirkung des Flusses nicht kontrahieren würden. 

Typisch für dissipative Systeme ist, dass im asymptotischen Verhalten ein Volumen 

des Phasenraums asymptotisch auf eine kompakte Untermenge A ⊂ R n zustrebt, 

die aufgrund ihrer “anziehenden” Eigenschaften als Attraktor bezeichnet wird. Für 

einen Attraktor A gelten die folgenden Eigenschaften [38]: 

• Attraktivität: Es gibt eine offene Umgebung U von A (A ⊂ U), sodass Φ(U, t) ⊂ 

U für t > 0 und die sich unter der Wirkung des Flusses auf A zusammenzieht, 

d.h. 

A = ⋂ t>0 

Φ(U, t) . (1.25) 

• Invarianz: Der Attraktor A ist invariant unter der Wirkung des Flusses, d.h. 

aus x ∈ A folgt Φ(x, t) ∈ A. 

• Nichtzerlegbarkeit: Mit wachsendem t und für fast alle x 0 gilt: Φ(x 0 , t) ∈ U a 

für beliebige Umgebungen U a aller Attraktorpunkte a ∈ A. 

Die letzte Eigenschaft bedeutet, dass der Attraktor A nicht in zwei abgeschlossene, 

nichtüberlappende, invariante Mengen zerlegt werden kann. Die Menge aller Anfangszustände, 

von denen aus Trajektorien dem Attraktor A zustreben, wird als 

Einzugsgebiet oder auch Bassin des Attraktors bezeichnet. Liegt der Startpunkt einer 

Trajektorie im Einzugsgebiet eines Attraktors, so verläuft sie nach Ablauf einer 

gewissen Zeit, die als Transiente bezeichnet wird, ausschließlich auf diesem Attraktor 

(wobei es aufgrund der asymptotischen Annäherung von der betrachteten Längenskala 

abhängt, wann von einer Bewegung “auf dem Attraktor” gesprochen werden 

kann). Im Falle des gedämpften frei schwingenden Pendels laufen z.B. alle Trajektorien 

in den Ursprung, der somit als Fixpunkt einen Attraktor darstellt. Im Falle von 

periodischen und quasiperiodischen Bewegungen sind die Attraktoren Grenzzyklen 

bzw. Tori. 

Auch im Falle von chaotischer Bewegung, d.h. wenn mindestens ein Lyapunov- 

Exponent größer Null ist, existiert ein Attraktor. Betrachtet man ein Volumenelement 

auf einem solchen Attraktor, so wächst dieses exponentiell in Richtung positiver 

Lyapunov-Exponenten und schrumpft oder stagniert in den restlichen Richtungen. 

Durch diese Streckung entsteht somit ein Ellipsoid, der allerdings aufgrund der 

Beschränktheit des Attraktors nicht ins Unendliche weiterwachsen kann. Spätestens 

wenn der Ellipsoid an den Rand des Attraktors stößt, wird er verbogen und zurückgefaltet. 

Der durch dieses Strecken und Falten charakterisierte Attraktor zeigt auf

Seite 16 


verschiedenen Längenskalen Selbstähnlichkeit, er ist ein sog. Fraktal. Charakteristisch 

für Fraktale ist, dass ihnen keine ganzzahlige Dimension zugeordnet werden 

kann (siehe nächsten Abschnitt). Man spricht deshalb von einem seltsamen Attraktor. 

Seltsame Attraktoren sind somit keine glatten Mannigfaltigkeiten wie die regulären 

Attraktoren, sondern fraktale Teilmengen des Phasenraums. In der Regel ist ein solcher 

Attraktor jedoch in eine glatte Mannigfaltigkeit eingebettet, die eine niedrigere 

Dimension als der Phasenraum aufweist und die wiederum in einen Rekonstruktionsraum 

eingebettet werden kann (siehe Abschnitt 1.1.5). Die fraktale Struktur des 

seltsamen Attraktors ist eine notwendige Bedingung für chaotische Bewegung, sie ist 

allerdings nicht hinreichend. So findet man vor allem in quasi-periodischen getriebenen 

Systemen auch seltsame Attraktoren, wo die Bewegung jedoch kein chaotisches 

Verhalten zeigt (der größte Lyapunov-Exponent ist Null). 

1.1.4 Dimension 

Allgemein kann die Dimension eines Attraktors aufgefasst werden als derjenige Informationsgehalt, 

der nötig ist, um die Position eines Punktes auf dem Attraktor 

mit einer bestimmten Genauigkeit zu lokalisieren. Sie ist ein Maß für die Zahl der 

Freiheitsgrade und somit ein Maß für die Komplexität der Bewegung auf dem Attraktor. 

Der Begriff der Dimension ist allerdings nicht eindeutig; es gibt unendlich 

viele Möglichkeiten, einer Menge von Punkten eine Dimension zuzuordnen. Eine 

Bedingung, die man aber an jeden Dimensionbegriff stellt ist, dass für die “üblichen” 

Mengen wie Punkte, Linien und Ebenen sich die bekannten Werte ergeben 

(also 0, 1 bzw. 2). Bei Fraktalen wie seltsamen Attraktoren hat man es aber nicht 

mehr mit einer geschlossenen Punktmenge zu tun. Die fraktale Struktur lässt sich 

nur durch die statistische Verteilung der Punkte charakterisieren, die Dimension 

liegt hier zwischen den ganzzahligen Werten und ist ein statistisches Maß im Gegensatz 

zu den Lyapunov-Exponenten, die ein dynamisches Maß darstellen. Beide fallen 

jedoch unter die invarianten Maße, d.h. sie bleiben unter einer Koordinatentransformation 

unverändert, insofern diese umkehrbar und die Inverse stetig-differenzierbar 

ist (d.h. ein Diffeomorphismus ist). Diese Eigenschaft ist wesentlich für die Berechnung 

dieser Werte anhand der Rekonstruktion eines Attraktors, die im nächsten 

Abschnitt besprochen wird. 

Eine anschauliche Form der Dimensionsbestimmung ist die Box-Counting Methode. 

Hierbei unterteilt man den Phasenraum in Zellen mit Volumen ε d und bestimmt die 

Anzahl der Zellen N(ε), in denen sich Punkte des Attraktors befinden. Im Idealfall 

erhält man einen Zusammenhang der Form 

N(ε) ∼ ε −D 0 

, (1.26)


mit dem Exponenten D 0 als die Dimension des Attraktors, oder anders formuliert 

D 0 = lim 

ε→0 

ln(N(ε)) 

ln(1/ε) . (1.27) 

Diese Dimension bezeichnet man als Box-Counting- oder auch Kapazitäts-Dimension. 

Sie basiert auf den metrischen Eigenschaften des Attraktors. Gerade für chaotische 

Attraktoren ist es jedoch typisch, dass bestimmte Bereiche von einer Trajektorie 

weit häufiger aufgesucht werden als andere, was durch die Box-Counting-Dimension 

nicht berücksichtigt wird. Mathematisch lässt sich dies durch das natürliche Maß 

η(N i , T ) 

µ(N i ) = lim 

T →∞ T 

(1.28) 

beschreiben, wobei η(N i , T ) die Zeitdauer ist, die eine Trajektorie im Zeitintervall 

0 ≤ t ≤ T in der Zelle N i verweilt. Dies kann auch interpretiert werden als die 

Wahrscheinlichkeit, dass ein Punkt in der Zelle N i liegt. Diese Größe ist fast immer 2 

unabhängig vom Startpunkt x 0 . Die Box-Counting-Dimension ist der Spezialfall, 

wenn alle Zellen in etwa das gleiche natürliche Maß besitzen, d.h. wenn für alle i = 

1, . . . , N(ε) gilt µ(N i ) ≈ 1/N(ε). Bei chaotischen Attraktoren variiert das natürliche 

Maß aber meist stark mit der betrachteten Zelle N i , weshalb man bei genügend 

kleinem ε einen Großteil des natürlichen Maßes der Punktmenge mit einem Bruchteil 

der Zellen N(ε) abdecken kann. Man definiert daher die Informationsdimension 

∑ N(ε) 

i=1 

D 1 = lim 

µ(N i) ln µ(N i ) 

ε→0 ln(ε) 

I(ε) 

= lim 

ε→0 ln(1/ε) , (1.29) 

wobei I(ε) = − ∑ N(ε) 

i=1 µ(N i) ln µ(N i ) die auf Shannon zurückgehende Information 

(auch Informationsentropie) darstellt. Diese ist hier ein Maß für die Menge an 

Information, die gewonnen wird, wenn die Unterteilung des Systems mit der Kantenlänge 

ε vorgenommen wird. Die Informationsdimension ergibt sich somit durch 

Betrachtung des Verhältnisses von gewonnener Information zur Kantenlänge der 

Unterteilung. 

Beide Dimensionsbegriffe können auf die generalisierte Dimension D q von Renyi 

zurückgeführt werden die definiert ist durch 

( ∑N(ε) 

1 ln 

D q = lim 

ε→0 q − 1 · 

i=1 (µ(N i)) q) 

, (1.30) 

ln(ε) 

2 Dies ist im maßtheoretischen Sinn zu verstehen: die Menge von Startpunkten von denen das 

natürliche Maß abhängt hat Lebesgue-Maß Null.

Seite 18 


wobei q ∈ R frei gewählt werden kann. Es gibt somit unendlich viele generalisierte 

Dimensionen, wobei D q ≤ D p für q ≥ p gilt. Für q = 0 ergibt sich die Box-Counting- 

Dimension, für q → 1 ergibt sich mit der Regel von L’Hôspital die Informationsdimension. 

Es sei noch erwähnt, dass sich für q = 2 die Dimension D 2 ergibt, die 

durch die sog. Korrelationsdimension approximiert werden kann. Diese beschreibt 

die räumliche Korrelation von Punktepaaren auf dem Attraktor (für Details siehe 

z.B. [1]). Sie ist in der Praxis besonders beliebt, da sie sich recht einfach berechnen 

lässt. 

1.1.5 Rekonstruktion des Attraktors 

Der bisher vorgestellte mathematische Formalismus operiert ausschließlich im Phasenraum, 

der jedoch im Experiment nicht explizit erfasst werden kann. Es stellt sich 

daher die Frage, inwieweit man überhaupt in der Lage ist, auf Basis von Messungen 

Größen wie Lyapunov-Exponenten oder die Dimension eines Attraktors zu bestimmen. 

Um diese zu berechnen benötigt man eine Abbildung, die das Langzeitverhalten 

der Dynamik im Phasenraum rekonstruiert. 

Es werden zunächst kontinuierliche Flüsse der Form (1.5) betrachtet, wobei die Dynamik 

innerhalb einer Mannigfaltigkeit S ⊂ R k mit Dimension d < k verläuft. 

Werden zu einem bestimmten Zeitpunkt an dem System n unabhängige Messungen 

u 1 , . . . , u n gleichzeitig vorgenommen, so kann dies beschrieben werden durch eine 

Abbildung des Zustandes x ∈ S in einen Rekonstruktionsraum durch eine Messfunktion 

h : 

S ⊂ R k → R n 

x ↦→ h(x) = (u 1 , . . . , u n ) . 

(1.31) 

Diese Messfunktion bildet somit Trajektorien aus S im Phasenraum in den R n ab. 

Um eine Rekonstruktion der Langzeitdynamik im Rekonstruktionsraum zu erreichen, 

muss der Attraktor A ⊂ S unter der Messfunktion h erhalten bleiben. Dazu 

muss diese zunächst kontinuierlich und umkehrbar jeden Zustand auf dem Attraktor 

ein-eindeutig abbilden, d.h. zwei Messungen h(x i ) und h(x j ) mit i ≠ j dürfen nur 

dann identisch sein, falls auch x i = x j gilt. Ansonsten könnten sich im Rekonstruktionsraum 

Trajektorien schneiden und die rekonstruierte Dynamik wäre nicht mehr 

deterministisch. Von einer Einbettung spricht man, wenn auch die differenzierbaren 

Anteile des Attraktors unter h erhalten bleiben (in der mathematischen Sprache 

bezeichnet man eine Abbildung mit dieser Eigenschaft als Immersion). Dies stellt 

sicher, dass auch Stabilitätseigenschaften des Attraktors erhalten bleiben, d.h. auch 

Fix-, Knoten- und Sattelpunkte in die Rekonstruktion übertragen werden. Eine solche 

Einbettung kann auch als nichtlineare Koordinatentransformation verstanden


werden, wobei Größen wie Dimension und Lyapunov-Exponenten unter dieser invariant 

sind und somit anhand des Bildes h(A) des Attraktors berechnet werden 

können. 

Die Frage, unter welchen Voraussetzungen h eine Einbettung ist, wurde zuerst 1936 

mit dem Einbettungstheorem von Whitney für glatte Mannigfaltigkeiten beantwortet 

und 1991 von Sauer et al. für kompakte Untermengen mit fraktaler Struktur 

erweitert [32]. Es besagt, dass falls A kompakt in R k mit Box-Counting-Dimension 

d liegt, sowie Φ ein Fluss auf R k und n eine ganze Zahl mit n > 2d ist, dann 

sind fast alle stetig differenzierbaren Abbildungen h eine Einbettung von A in den 

Rekonstruktionsraum R n . 

Hierbei ist “fast jede” im maßtheoretischen Sinn zu verstehen, d.h. dass es auch mit 

n > 2d passieren kann, dass eine Messfunktion keine Einbettung darstellt, jedoch 

eine kleine Störung dieser Messfunktion ausreicht, um mit Wahrscheinlichkeit Eins 

eine Einbettung zu erhalten [32]. 

Delay Einbettung 

Nun ist es bei vielen Experimenten praktisch nicht möglich so viele Messungen 

gleichzeitig am System vorzunehmen, dass n > 2d erfüllt ist. Nach dem Theorem 

von Takens [40] ist dies ist aber auch nicht nötig: es ist ein verblüffendes Ergebnis 

der Theorie dynamischer Systeme, dass bereits die kontinuierliche Messung einer einzigen 

Größe ausreicht, um eine Rekonstruktion des Attraktors durchzuführen. Diese 

betrachtete Messgröße sei in Form einer kontinuierlichen Messfunktion h gegeben, 

die jedem Punkt x t des Phasenraums zur Zeit t eine skalare Größe s t = h(x t ) ∈ R zuordnet. 

Mit dem Fluss Φ t ist dann die Delay-Koordinaten-Abbildung definiert durch 

F(h, Φ, τ)(x) = ( h(x), h(Φ τ (x)), h(Φ 2τ (x)), . . . , h(Φ (n−1)τ (x)) ) , (1.32) 

wobei τ die sog. Delay-Zeit ist. Das Theorem von Takens [40] und eine Erweiterung 

dieses Theorems von Sauer et al. [32] besagt nun, dass auch die Delay-Koordinaten- 

Abbildung F für n > 2d und fast alle (h, τ) eine Einbettung darstellt, insofern auf 

dem Attraktor A keine periodischen Orbits mit Periode τ oder 2τ existieren, sowie 

nur endlich viele Gleichgewichtszustände und endlich viele Orbits mit Periode pτ 

mit 3 ≤ p < n, wobei die Linearisierungen dieser Orbits unterschiedliche Eigenwerte 

besitzen müssen. 

Allerdings gilt dieses Theorem nur für eine kontinuierliche Messfunktion mit unendlich 

vielen Messwerten, die zudem rauschfrei sein müssen. Beides ist im Experiment 

praktisch nicht möglich. Bei Verwendung eines A/D-Wandlers erhält man diskrete 

Werte s t , deren zeitlicher Abstand durch die Sampling-Periode T gegeben ist und 

die wenigstens durch Quantisierungsrauschen verfälscht sind. Auch wenn in diesem

Seite 20 


Fall das Theorem von Takens nicht mehr gilt, kann auch mit endlich vielen diskreten 

Werten meist eine Einbettung erreicht werden, insofern die Sampling-Periode klein 

genug ist und die Delay-Zeit richtig gewählt wird. Die Delay-Koordinaten-Abbildung 

reduziert sich hierbei auf die Bildung von Delay-Vektoren 

x t−τ(d−1) = (s t , s t−τ , . . . , s n−(d−1)τ ) , t = τ(d − 1) + 1, . . . , n (1.33) 

wobei τ ein Vielfaches der Sampling-Periode ist.

Kapitel 2 

Lokale Modelle 

2.1 Das Modellierungsproblem 

Gegeben sei eine Menge von Punktpaaren 

Ω = {(x 1 , y 1 ), (x 2 , y 2 ), . . . , (x N , y N )} (2.1) 

wobei x i ∈ K d die Eingabevektoren und y i ∈ K die zugehörigen beobachteten skalaren 

Ausgangsgrößen eines unbekannten Systems sind. Das nichtlineare Modellierungsproblem 

besteht darin, für einen neuen Eingabevektor q /∈ Ω (Query) einen 

Schätzer ŷ für die Ausgabe des Systems zu finden. 

Falls die Ausgangsgrößen keine Skalare sind sondern in einem höherdimensionalen 

Raum liegen, kann durch Betrachtung der einzelnen Komponenten dieser Fall auf die 

obige Formulierung zurückgeführt werden. In dieser Arbeit wird nur der Fall K = R 

betrachtet, aber natürlich gibt es zahlreiche Modellierungsprobleme, in denen dies 

nicht der Fall ist. Ein populäres Beispiel ist die Modellierung von DNA-Sequenzen 

[28]. Die obige Formulierung des Modellierungsproblems findet insb. in der statistischen 

Lerntheorie Verwendung. Da deren anfängliche Anwendungen im Bereich 

der Klassifikation und Mustererkennung lagen, wird hier Ω auch als Menge von 

Beobachtungen bezeichnet und die Eingabevektoren als Muster [16]. 

Ebenso kann das Modellierungsproblem unter dem für den Physiker sicherlich vertrauteren 

statistischen Gesichtspunkt der Regression formuliert werden. Man betrachtet 

hierbei die Paare (x i , y i ) als Realisierung von Zufallsvariablen X bzw. Y , 

wobei Y über eine unbekannte bedingte Wahrscheinlichkeitsverteilung P (Y | X) von 

der Zufallsvariablen X abhängt [41]. Hierbei ist es natürlich auch möglich, dass die 

y i eindeutig von den x i abhängen (der sog. degenerierte Fall). Die Regression (oder 

synonym: bedingte Erwartung) E[Y | X] ist diejenige Zufallsvariable, deren Werte 

21

Seite 22 

2.1. Das Modellierungsproblem 

die bedingten Erwartungswerte m(x) ≡ E[Y | X = x] sind. Sie ist somit ein deterministischer 

funktionaler Zusammenhang zwischen den x i und den y i und ist im 

degenerierten Fall identisch mit der Wahrscheinlichkeitsverteilung P (Y | X). Wie in 

Abschnitt 2.3 erläutert wird, ist die Regression im Sinne der Least-Squares-Methode 

ein optimaler Schätzer für die y i . 

Parametrische und nichtparametrische Regression 

Gesucht ist somit eine Funktion y i = f(x i ) zwischen unabhängigen und abhängigen 

Variablen, die die Regression E[Y | X] möglichst gut approximiert. Dies beinhaltet 

insbesondere auch, dass diese Funktion nicht nur die gegebene Realisierung Ω zu 

beschreiben vermag, sondern auch die Fähigkeit zur Generalisierung besitzt. Die 

Formulierung y i = f(x i ) legt allerdings die Vermutung nahe, dass nach einem geschlossenen 

Ausdruck für diese Funktion gesucht ist, z.B. eine Geradengleichung 

(lineare Regression), ein Polynom höheren Grades oder eine andere Linearkombination 

von Basisfunktionen, wobei die Koeffizienten die Parameter des Modells sind, 

für die eine gute Schätzung gefunden werden muss. Dieser Ansatz, der eine bestimmte 

funktionale Form voraussetzt, wird als parametrische Regression bezeichnet. 

Eine nichtparametrische Regression hingegen arbeitet ohne solche Voraussetzungen, 

der funktionale Zusammenhang wird “durch die Daten selbst” generiert, was dazu 

führt, dass Daten und Modell nicht mehr getrennt betrachtet werden können und die 

Genauigkeit des Modells eng mit der Zahl der vorliegenden Datenpunkte verknüpft 

ist. Es ist bei nichtparametrischen Regressionen daher nicht möglich, den funktionalen 

Zusammenhang mit einem geschlossenen mathematischen Ausdruck anzugeben. 

Auch die Parameter des Modells hängen vom verwendeten Ansatz ab und können 

nicht allgemein beschrieben werden. Unter die nichtparametrische Regression fallen 

auch lokale Modelle, wie sie in dieser Arbeit verwendet werden. Eine Übersicht zu 

nichtparametrischen Ansätzen insb. zur Analyse von Zeitreihen findet sich in [18]. 

Parametrische wie nichtparametrische Regression haben ihre Vor- und Nachteile, 

und es hängt vor allem vom gegebenen Problem ab, welcher Ansatz sich besser eignet. 

Die parametrische Regression ist natürlich dann zu verwenden, wenn ein funktionaler 

Zusammenhang zwischen Ein- und Ausgabedaten schon vorher bekannt ist 

oder zumindest vermutet wird. Ist diese Vermutung jedoch falsch, so wird den Daten 

ein funktionaler Zusammenhang unterstellt, den diese möglicherweise nicht haben. 

Man spricht dann von einem Bias des Modells gegenüber den Daten. Nichtparametrische 

Regression kann gerade in solchen Fällen bessere Ergebnisse liefern, wobei 

die Zahl der vorliegenden Datenpunkte allerdings groß genug sein muss.

Kapitel 2. Lokale Modelle Seite 23 

2.1.1 Lokale Modelle 

Grundlegendes Prinzip lokaler Modelle ist, dass zur Modellierung nur eine gewisse 

Umgebung (Nachbarschaft) eines Anfragepunktes q verwendet wird, während die 

restlichen Punkte des Datensatzes unberücksichtigt bleiben. Diese Nachbarschaft 

kann z.B. eine ε-Umgebung U ε (q) sein, aber auch eine bestimmte Anzahl k von 

Punkten (fixed mass) x nn(1) , . . . , x nn(k) , die bezüglich einer Metrik ‖ · ‖ die geringste 

Distanz zu q haben (nächste Nachbarn), wobei nn(1), . . . , nn(k) die Indizes dieser 

Punkte im Datensatz seien. In dieser Umgebung des Anfragepunktes findet die eigentliche 

Berechnung eines Modells statt, z.B. in Form einer linearen Regression oder 

noch einfacher durch Bildung eines gewichteten Mittelwerts der Bilder der nächsten 

Nachbarn. Voraussetzung ist, dass die Umgebung so klein gewählt wird, dass 

sich die zeitliche Entwicklung der nächsten Nachbarn von der gesuchten zeitlichen 

Entwicklung des Anfragepunktes nicht wesentlich unterscheidet. Ausschlaggebend 

hierfür sind die Nachbarn, die in Richtungen mit positiven Lyapunov-Exponenten 

liegen, da deren Trajektorien sich in der zeitlichen Entwicklung exponentiell vom 

Anfragepunkt entfernen. 

Lokale Modelle fallen unter die Klasse der nichtparametrischen Regression, da sie an 

die Gesamtheit des Datensatzes Ω keine funktionale Form voraussetzen. In den Umgebungen 

der Anfragepunkte wird aber meist eine einfache parametrische Regression 

durchgeführt. 

Im Gegensatz hierzu stehen parametrische globale Modelle, wo stets der gesamte 

Datensatz zur Berechnung einer parametrischen Regression herangezogen wird. Sie 

versuchen somit, den gesamten Datensatz durch einen geschlossenen funktionalen 

Ausdruck zu beschreiben, während lokale Modelle dies nur für gewisse Umgebungen 

von Punkten des Datensatzes tun. Um den gesamten Datensatz zu beschreiben ist 

somit eine Vielzahl von unabhängigen lokalen Modellen nötig. 

Eine wichtige Konsequenz des lokalen Ansatzes ist, dass die Berechnung des Modells 

erst dann stattfindet, wenn ein konkreter Anfragepunkt vorliegt, für den eine 

Schätzung der Ausgabe berechnet werden soll 1 . Somit werden nur die Bereiche 

des gegebenen Datensatzes modelliert, die Umgebungen von Anfragepunkten sind - 

alle anderen Punkte sind für die lokale Modellbildung ohne Bedeutung. Es ist sofort 

einleuchtend, dass die Eigenschaften des Modells wesentlich von der Größe der 

gewählten Umgebung abhängen. Kleine Umgebungen führen zu einem sehr variablen 

Modell, im Extremfall zur Interpolation der Datenpunkte. Große Umgebungen 

hingegen führen im Extremfall zu einem globalen Modell (siehe Abschnitt 3.3.1). 

Ohne die Kenntnis eines Anfragepunktes ist somit die Berechnung eines lokalen Modells 

nicht möglich. Die einzigen Berechnungen, die vor den eigentlichen Anfragen 

1 Man findet in der Literatur hierfür auch manchmal den aus der Lerntheorie entnommenen 

Begriff “Lazy Learning”.

Seite 24 

2.1. Das Modellierungsproblem 

stattfinden, beschränken sich zumeist auf den Aufbau einer geeigneten Datenstruktur 

zur Suche nächster Nachbarn (siehe Abschnitt 3.10). 

Das Prinzip der lokalen Modellierung birgt Vor- wie Nachteile. Eine Gegenüberstellung 

des lokalen und globalen Ansatzes in der Modellierung soll in Kapitel 3.11 

gegeben werden. 

2.1.2 Vorhersage von Zeitreihen 

Die lokale Modellbildung kann für jedes Modellierungsproblem angewandt werden. 

Ein wichtiger Spezialfall und Hauptthema dieser Arbeit ist die Vorhersage von 

Zeitreihen nichtlinearer dynamischer Systeme. Gegeben ist hier eine Zeitreihe 

(s 1 , . . . , s n ) mit s i ∈ R und das Modellierungsproblem ist gegeben durch die Berechnung 

eines Schätzers für einen späteren Wert der Zeitreihe s n+l mit l ∈ N. 

Es ist eine inhärente Eigenschaft chaotischer Systeme, dass ihre Dynamik aufgrund 

mindestens eines positiven Lyapunov-Exponenten nur für kurze Zeiträume vorhergesagt 

werden kann. Insbesondere die Vorhersage einer chaotischen Zeitreihe über 

mehrere iterative Schritte stellt ein schwieriges Problem dar, da selbst kleinste Fehler 

zu einem exponentiellen Auseinanderstreben der geschätzten von der “wahren” 

Trajektorie führen. Die Strategie, lokale Modelle für diese Aufgabe zu verwenden, 

wurde erstmals von Farmer und Sidorowich formuliert [11]. 

Wie in Kapitel 1.1.5 besprochen ist es nicht möglich, direkt im Phasenraum die Dynamik 

zu modellieren. Stattdessen muss aus der Zeitreihe zunächst über die Methode 

der Delay-Einbettung der Attraktor des dynamischen Systems rekonstruiert werden. 

Die Vorhersage der Zeitreihe kann dann anhand des rekonstruierten Attraktors erfolgen. 

Bei der Delay-Einbettung einer Zeitreihe bestehend aus n Samples erhält 

man n − τ(d − 1) Delay-Vektoren, wobei τ der Delay und d die Dimension der Einbettung 

ist. Zur Vereinfachung der Notation sei im Folgenden ñ = n − τ(d − 1) und 

˜t = t − τ(d − 1). 

Das Vorgehen für eine Vorhersage über l Zeitschritte ist wie folgt: 

1. Einbettung der Zeitreihe durch Bildung von Delay-Vektoren 

x˜t = (s t , s t−τ , . . . , s t−(d−1)τ ) ∈ R d , i = τ(d − 1) + 1, . . . , n (2.2) 

2. Suche in den Delay-Vektoren x 1 , . . . , xñ−1 nach k nächsten Nachbarn 

x nn(1) , . . . , x nn(k) des letzten Delay-Vektors xñ. Hierbei seien nn(1), . . . , nn(k) 

die Indizes dieser nächsten Nachbarn. Alternativ kann anstelle eines festen 

Wertes k auch die Größe ε einer Umgebung des letzten Delay-Vektors vorgegeben 

werden (range search). Die nächsten Nachbarn sind die Eingabevektoren 

des Modellierungsproblems.


3. Betrachte nun jeweils die letzte (d-te) Komponente der zeitliche Entwicklung 

der nächsten Nachbarn, d.h. x d nn(1)+l , . . . , xd nn(k)+l 

. Diese können als Ausgabe 

des Systems betrachtet werden. 

4. Bilde nun ein Modell anhand der Menge 

Ω = {( x nn(1) , x d nn(1)+l) 

, . . . , 

( 

xnn(k) , x d nn(k)+l 

)} 

(2.3) 

und wende dieses auf den letzten Delay-Vektor xñ an. Die Ausgabe des Modells 

ist ein Schätzer für s n+l . 

Manchmal kann es sinnvoll sein, anstelle der x d nn(i)+l die Differenz xd nn(i)+l − xd nn(i) zu 

verwenden. Gerade bei den sog. lokal konstanten Modellen (siehe Abschnitt 3.1) kann 

dies zur einer besseren Modellierung der Dynamik führen (integrierte Mittelung) [24]. 

Direkte und iterierte Vorhersage 

Der eben vorgestellte Algorithmus ist die sog. direkte Vorhersage über l Zeitschritte, 

d.h. wir erhalten ein Modell 

ŝ n+l = f l (xñ) , (2.4) 

welches die Dynamik des Systems für l Zeitschritte direkt approximiert. Alternativ 

kann auch ein Modell f 1 (xñ) für nur einen Zeitschritt berechnet und dieses mehrfach 

hintereinander angewandt werden. Da die Ausgabe des Modells skalar ist, muss für 

die ersten l − 1 iterierten Vorhersagen jeweils ein neuer Delay-Vektor konstruiert 

werden, in den nach und nach die vorhergesagten Werte einfließen und der somit 

auch mit wachsender Schrittweite immer ungenauer wird. 

Der Vorteil der iterierten Vorhersage ist, dass die Dynamik des Systems für nur 

einen Zeitschritt meist weniger komplex sein wird und somit die Qualität des Modells 

höher ist als für die direkte Vorhersage. Allerdings geht dieser kleinere Fehler 

in die Vorhersage des nächsten Zeitschrittes mit ein, d.h. die Fehler akkumulieren 

im Laufe der iterierten Vorhersage und können letztlich einen größeren Fehler 

produzieren als bei der direkten Vorhersage. Dies ist jedoch bei der Vorhersage chaotischer 

Zeitreihen mit lokalen Modellen üblicherweise nicht der Fall (vgl. [11],[22]). 

Die kleinen Umgebungen des Anfragepunktes reichen zur Modellierung komplexer 

Dynamik über mehrere Zeitschritte im Allgemeinen nicht aus. Die iterierte Vorhersage 

ist nahezu immer genauer, da der Vorteil der einfacheren Dynamik für einen 

Zeitschritt den Nachteil der Fehlerakkumulation überwiegt. Nur wenn die Zeitreihe 

durch Abtastung mit relativ hoher Frequenz gewonnen wurde, kann die direkte 

Vorhersage Vorteile bieten. Allerdings gibt es für die iterierte Vorhersage eine ganz

Seite 26 

2.2. Der Fluch der Dimensionen 

entscheidende Bedingung: die Modellparameter (Anzahl nächster Nachbarn, Metrik, 

etc.) müssen auch tatsächlich für die iterierte Vorhersage über mehrere Zeitschritte 

optimiert werden. Die Modellparameter, die für die Einschritt-Vorhersage optimal 

sind, sind dies meist nicht für die Mehrschritt-Vorhersage, da die Akkumulation des 

Fehlers nicht berücksichtigt wird. Entscheidend für die Optimierung der Parameter 

ist somit eine Fehlergröße, die die Akkumulation des Fehlers berücksichtigt (siehe 

Kapitel 2.4). 

2.2 Der Fluch der Dimensionen 

Der stehende Begriff “Fluch der Dimensionen” (Curse of dimensionality) wurde 

von Bellman [5] geprägt und etwas dramatisch als “(...) Verwünschung, die seit 

Urzeiten auf der Wissenschaft lastet” beschrieben. Die Bezeichnung beschreibt allgemein 

das Problem, hochdimensionale Räume dicht mit Datenpunkten zu füllen. 

Schon einfache Überlegungen verdeutlichen dies: möchte man einen n-dimensionalen 

Raum so mit Datenpunkten füllen, dass diese auf einem Gitter liegen wobei auf jede 

Koordinatenachse zehn Datenpunkte entfallen, so sind hierfür 10 n Datenpunkte 

nötig. Schon für kleine Werte von n wird somit die nötige Anzahl an Datenpunkten 

extrem groß. 

Das eigentliche Problem hochdimensionaler Räume ist jedoch, dass die Oberfläche 

der Punktemenge so groß wird, dass die konvexe Hülle nahezu alle Punkte enthält, 

oder einfacher ausgedrückt: Es gibt so viele unterschiedliche Richtungen, dass fast 

alle Punkte “außen” und kaum Punkte “innen” liegen. Im Falle von gleichverteilten 

Datenpunkten ist beim Einheitswürfel [0, 1] n die Wahrscheinlichkeit p n (ε), mit der 

ein Datenpunkt höchstens um ε vom Rand des Datenraums abweicht gegeben durch 

p n (ε) = 1 − (1 − 2ε) n . (2.5) 

Der Plot dieser Funktion (Abbildung 2.1) zeigt, dass schon für moderate n die 

Funktion sich asymptotisch dem Wert Eins nähert, d.h. es ist sehr unwahrscheinlich, 

Punkte im Innern des Volumens zu finden. Daraus ergibt sich das Problem, dass die 

typischen Entfernungen zu den nächsten Nachbarn eines Datenpunktes nicht mehr 

klein sind im Vergleich zur Kantenlänge des betrachteten Raumes. Dies ist insb. dann 

zu beachten, wenn man nicht eine feste Anzahl nächster Nachbarn sucht, sondern 

in einer festen Umgebung eines Datenpunktes (range search). In hochdimensionalen 

Datenräumen muss diese Umgebung so groß gewählt werden, dass diese i.A. denn 

Rand des Datenraumes überschreitet. 

Nun gelten alle obigen Aussagen für gleichverteilte Datenpunkte; dies ist für Daten, 

die von deterministischen Systemen generiert werden, jedoch nicht unbedingt der 

Fall. Hier liegen die Punkte häufig auf einer niedrigdimensionalen Mannigfaltigkeit


1 

0.8 

p n 

(0.1) 

0.6 

0.4 

0.2 

0 5 10 15 20 25 30 

Dimension n 

Abbildung 2.1: Wahrscheinlichkeit, dass sich Punkt im Abstand 0.1 vom Rand des 

Einheitswürfels [0, 1] n befindet 

des Einbettungsraumes. Als Beispiel wurden Punkte des Lorenz-Systems generiert, 

das durch das Differentialgleichungssystem 

ẋ 1 = σ(x 1 − x 2 ) 

ẋ 1 = rx 1 − x 2 − x 1 x 3 

ẋ 3 = x 1 x 2 − bx 3 

(2.6) 

gegeben ist, wobei σ = −10, b = 8/3 und r = 28 gesetzt wurde. Mit diesen Parametern 

ergibt sich ein chaotischer Attraktor mit Korrelationsdimension 2.055 [37]. 

Die Variable x 1 wurde als Zeitreihe aufgefasst, auf das Intervall [0, 1] normiert und 

schrittweise in Räume immer höherer Dimension eingebettet (von d = 5 bis d = 100, 

Delay τ = 1). Hierbei wurde auch die Länge der Zeitreihe so erhöht, dass immer 

konstant 5000 Delay-Vektoren im Datenraum zur Verfügung standen. Es wurde nun 

für jeden Punkt die 100 nächsten Nachbarn berechnet und die Distanzen als Histogramm 

aufgetragen. 

Wie man an Abbildung 2.2(a) sieht, wird mit wachsender Dimension das Histogramm 

breiter und flacher, das Maximum verschiebt sich aber zu höheren Distanzen. 

Zum Vergleich wurden für verschiedene Dimensionen (von d = 3 bis d = 300) 

zufällig und gleichverteilt wieder 5000 Punkte gewählt, die somit nicht auf einer 

niedrigdimensionalen Untermannigfaltigkeit liegen. Auch hier wurden jeweils die 100 

nächsten Nachbarn berechnet und als Histogramm aufgetragen (Abbildung 2.2(b)). 

Man sieht deutlich, dass das Histogramm ab ca. d = 30 kaum noch abflacht und 

sich auch in der Breite praktisch nicht verändert, sich jedoch sehr stark zu größeren 

Distanzen verschiebt. Dies führt dazu, dass sich die Distanzen relativ gesehen 

annähern: das Verhältnis vom nächsten und dem am weitesten entfernten Nachbar 

geht gegen Eins. Dies führt dazu, dass es zunehmend schwerer wird, mit lokalen 

Umgebungen zu arbeiten, weil es “Lokalität” in dem Sinne nicht mehr gibt [16].

Seite 28 

2.3. Bias, Varianz und Overfitting 

25 

25 

20 

d=10 

20 

d=3 

15 

15 

d=5 

10 

d=30 

10 

d=10 

d=50 

d=100 

d=200 

d=300 

5 

d=50 

5 

d=100 

0 

0 0.5 1 1.5 2 2.5 

Distanz 

(a) Delay-Vektoren von Lorenz-Datensatz 

0 

0 1 2 3 4 5 6 7 8 

Distanz 

(b) Gleichverteilte Punkte 

Abbildung 2.2: Histogramm der mittleren Distanzen der 100 nächsten Nachbarn für 

Lorenz-Daten (a) und gleichverteilte Datenpunkte (b) für unterschiedliche Dimensionen 

d. 

Es ist jedoch im wesentlichen die Dimension der Punktmenge, die entscheidend ist. 

Dies zeigt sich beispielsweise auch bei der Laufzeit effizienter Algorithmen zur Suche 

nach nächsten Nachbarn (siehe Abschnitt 3.10): auch diese hängen wesentlich von 

der Dimension der Punktmenge ab. 

2.3 Bias, Varianz und Overfitting 

Im Abschnitt 2.1 wurde die Betrachtung des Modellierungsproblems als Schätzung 

einer Regression E [y | x] vorgestellt. In diesem Abschnitt soll dies nochmals vertieft 

werden, um prinzipielle Grenzen der Modellierung aufzuzeigen, die sowohl für den 

parametrischen wie den nichtparametrischen Ansatz gelten. 

Im Folgenden wird eine beliebige Funktion f(x) betrachtet, die die Ausgabe y für 

den Eingabevektor x modelliert. Der Erwartungswert des quadratischen Fehlers bei


gegebenem x lässt sich dann schreiben als 

E [ (y − f(x)) 2 | x ] = E [ ((y − E [y | x]) + (E [y | x] − f(x))) 2 |x ] 

= E [ (y − E[y | x]) 2] + (E [y | x] − f(x)) 2 

+ 2E [(y − E [y | x])| x] · (E [y | x] − f(x)) 2 

= E [ (y − E[y | x]) 2] + (E [y | x] − f(x)) 2 

+ 2 (E [y | x] − E [y | x]) · (E [y | x] − f(x)) 2 

= E [ (y − E [y | x]) 2 | x ] + (E [y | x] − f(x)) 2 

≥ E [ (y − E[y | x]) 2 | x ] , 

(2.7) 

d.h. die Regression E [y | x] ist die beste Schätzung des Ausgabewertes y bei gegebenem 

x in dem Sinne, dass sie den mittleren quadratischen Fehler minimiert. 

Ziel der Modellierung muss es also sein, dass die Funktion f(x) möglichst gut die 

Regression approximiert. Doch selbst wenn man erreicht, dass f(x) = E [y | x] ist, 

heißt das nicht, dass jeder Datensatz des Systems perfekt beschrieben werden kann, 

da evtl. stochastische Einflüsse vorliegen, die aufgrund ihrer Unkorelliertheit nicht 

modelliert werden können. 

Um dies zu verdeutlichen, betrachtet man zunächst die Funktion f(x) zur Schätzung 

der Regression an einer konkreten Realisierung Ω = {(x 1 , y 1 ), . . . , (x n , y n )} des Systems; 

dies soll im Folgenden durch die Notation f(x; Ω) dargestellt werden. Es wird 

nun der Erwartungswert des quadratischen Fehlers für diese Realisierung Ω betrachtet. 

Dieser lässt sich wie bei (2.7) in zwei Terme aufspalten: 

E [(y − f(x; Ω)) 2 | x, Ω] = E [(y − E [y | x]) 2 | x, Ω] + (f(x; Ω) − E [y | x]) 2 

} {{ } } {{ } 

Varianz y Modellierungsfehler 

. (2.8) 

Der Term E [(y − E [y | x]) 2 | x, Ω] ist die Varianz von y bei gegebenem x und ist 

unabhängig von der Realisierung Ω und ebenso von der Funktion f(x). Als Beispiel 

denke man sich eine Zeitreihe, die jedoch durch um Null verteiltes weißes Rauschen 

mit Varianz σ 2 gestört wird: 

˜s t = s t + ε t , ε ∼ WN(0, σ 2 ) . (2.9) 

Die Varianz in (2.8) entspricht hierbei genau der Varianz des weißen Rauschens. Sie 

stellt somit eine untere Schranke für den Erwartungswert des quadratischen Fehlers 

dar, auch wenn es natürlich trotzdem möglich ist, bei einem konkreten Datensatz

Seite 30 

2.3. Bias, Varianz und Overfitting 

durch Interpolation der Daten den Fehler auf Null zu bringen. Eine solches Modell 

würde jedoch für andere Datensätze schlechtere Ergebnisse bringen als die Regression 

E [y | x], da hierbei neben den eigentlichen Strukturen auch Rauschen modelliert 

wird. Man bezeichnet dies als ein Overfitting des Modells an den gegebenen Datensatz. 

Dieser Effekt soll nun näher erläutert werden. 

Der Bias/Varianz-Kompromiss 

Da die Varianz aus (2.8) unabhängig von der Funktion f(x) ist, muss für die Optimierung 

eines Modells der zweite Term (f(x; Ω) − E [y | x]) 2 betrachtet werden, 

der den eigentlichen Modellierungsfehler darstellt. Im Idealfall ist dieser Null und 

somit f(x) identisch mit der Regression E [y | x]. Es ist jedoch nicht ausreichend, 

dies für eine konkrete Realisierung Ω zu erreichen, vielmehr muss dies im Mittel 

über alle möglichen Realisierungen erfüllt sein; dies entspricht der Forderung, dass 

das Modell die Fähigkeit zur Generalisierung besitzen muss. Man bildet daher den 

Erwartungswert dieses Terms über alle möglichen Realisierungen und zerlegt diesen 

wie in (2.7). Dann ergibt sich 

E Ω [(f(x; Ω) − E [y | x]) 2 ] 

= E Ω 

[ 

((f(x; Ω) − EΩ [f(x; Ω)]) + (E Ω [f(x; Ω)] − E [y | x])) 2] 

= E Ω 

[ 

(f(x; Ω) − EΩ [f(x; Ω)]) 2] + E Ω 

[ 

(EΩ [f(x; Ω)] − E [y | x]) 2] 

+ 2E Ω [(f(x; Ω) − E Ω [f(x; Ω)]) · (E Ω [f(x; Ω)] − E [y | x])] 

= E Ω 

[ 

(f(x; Ω) − EΩ [f(x; Ω)]) 2] + (E Ω [f(x; Ω)] − E [y | x]) 2 

+ 2E Ω [f(x; Ω) − E Ω [f(x; Ω)]] · (E Ω [f(x; Ω)] − E [y | x]) 

= (E Ω [f(x; Ω)] − E [y | x]) 2 [ 

+ E 

} {{ } Ω (f(x; Ω) − EΩ [f(x; Ω)]) 2] . 

} {{ } 

Bias 2 Varianz f 

(2.10) 

Der Bias beschreibt den Erwartungswert der Abweichung der Funktion f(x) von 

der Regression über alle möglichen Realisierungen. Eine Funktion mit hohem Bias 

liefert somit für jede Realisierung ein ähnliches Ergebnis, das jedoch im Mittel stark 

von der Regression abweicht. Man spricht hierbei von einem Underfitting, da das 

Modell nicht flexibel genug ist. Ein Funktion mit niedrigem Bias hingegen liegt im 

Mittel über alle Realisierungen nahe bei der Regression. Im Extremfall verschwindet 

der Bias, d.h. es gilt E Ω [f(x; Ω)] = E [y | x]. Dies heißt jedoch nicht, dass dann auch 

der Modellierungsfehler besonders klein wird. Dies liegt daran, dass selbst wenn der 

Bias Null ist daraus nicht folgt, dass auch f(x; Ω) für eine gegebene Realisierung ein 

guter Schätzer für die Regression E [y | x] ist. Eine Funktion ohne oder mit niedrigem 

Bias kann für verschiedene Realisierungen ganz unterschiedliche Ausgaben liefern,


was die Varianz vergrößert, die die Streuung der Funktion f(x) in Abhängigkeit 

von den unterschiedlichen Realisierungen beschreibt und additiv in den Modellierungsfehler 

eingeht. Dies entspricht dem oben erwähnten Overfitting, wo spezifische 

Eigenarten eines bestimmten Datensatzes modelliert werden, die jedoch nicht verallgemeinerungsfähig 

sind. Allerdings führt ein niedriger Bias nicht zwangsläufig zu 

einer hohen Varianz; gerade bei hinreichend komplexen Datensätzen sollte auch ein 

entsprechend komplexes Modell eingesetzt werden, da die Verringerung des Bias hier 

den Anstieg der Varianz überwiegt. 

Man beachte den Unterschied zwischen den Varianzen in (2.8) und (2.10): während 

die eine unabhängig von f(x) und Ω ist, ist die andere direkt vom gegebenen Modell 

abhängig und somit kontrollierbar. Die Tatsache, dass i.A. niedriger Bias zu hoher 

Varianz führt und umgekehrt, wird von Geman et al. in [14] als das Bias-Varianz- 

Dilemma bezeichnet, wobei die Bezeichnung “Kompromiss” (trade-off) das Problem 

aber besser erfasst: bei der Berechnung eines Schätzers für die Regression muss ein 

Kompromiss zwischen Bias und Varianz oder etwas freier ausgedrückt: zwischen Robustheit 

und Variabilität gefunden werden. Sowohl Bias als auch Varianz gleichzeitig 

zum Verschwinden zu bringen, ist im Allgemeinen nicht möglich. Ein Beispiel hierfür 

ist die Wahl der Größe der Umgebung bei lokalen Modellen (siehe Abschnitt 3.3.1). 

Vermeidung von Overfitting 

Das Problem des Overfitting entsteht beispielsweise dadurch, dass die Parameter des 

Modells ausschließlich über eine Minimierung des mittleren quadratischen Fehlers 

auf der Trainingsmenge optimiert werden. Ein hinreichend komplexes Modell mit 

niedrigem Bias kann hierbei immer so trainiert werden, dass dieser Fehler nahezu 

verschwindet, hierbei jedoch i.A. die Varianz ansteigt. Um dies zu vermeiden, kann 

an zwei Stellen angesetzt werden: der Komplexität des Modells (die statistische 

Lerntheorie spricht auch von der Kapazität der Lernmaschine) und dem Training des 

Modells. Im Falle von lokalen Modellen wurde bereits in Abschnitt 2.1.1 erwähnt, 

dass die Größe der Umgebung des Anfragepunktes wesentlich die Variabilität des 

Modells steuert, vom Extremfall der Interpolation zum Extremfall eines einfachen 

globalen Modells. Sie ist also der erste Ansatzpunkt zur Steuerung der Komplexität 

des Modells, sowohl zur Vermeidung von Overfitting als auch zur Vermeidung eines 

zu hohen Bias und dem daraus folgenden Underfitting. Andere Möglichkeiten, die vor 

allem eine zu hohe Varianz vermeiden, bestehen in der Regularisierung des Modells 

(Abschnitt 3.4), der Reduzierung des Datensatzes (Abschnitt 3.6) und der Wahl 

alternativer Kostenfunktionen (Kapitel 4). 

Für das Training eines lokalen Modells kann eine “extreme” Form der sog. Cross- 

Validation verwendet werden, die im folgenden Abschnitt erläutert werden soll.

Seite 32 

2.4. Validierung lokaler Modelle 

2.4 Validierung lokaler Modelle 

Wie im vorigen Abschnitt erläutert ist es nicht ratsam, ein Modell ausschließlich 

auf Basis des mittleren quadratischen Fehlers des gegebenen Datensatzes zu optimieren, 

da es hierbei zu einem Overfitting kommen kann. Eine Möglichkeit ist 

natürlich, von dem zu untersuchenden System neue Datensätze zu erstellen und 

das Modell mit diesen neuen Daten zu validieren. Allerdings ist dies häufig nicht 

möglich und zudem könnten diese Daten ebensogut in den bestehenden Datensatz 

integriert werden, um so die Genauigkeit des Modells weiter zu verbessern (gerade 

bei lokalen Modellen ist die Genauigkeit eng mit der Zahl der zur Verfügung stehenden 

Daten verknüpft). Eine naheliegende Alternative ist, Training und Validierung 

an Teilmengen des bestehenden Datensatzes vorzunehmen. Diese Strategie wird als 

Cross-Validation bezeichnet. 

2.4.1 Cross-Validation 

Bei der Cross-Validation (CV) wird der Datensatz in zwei Mengen aufgeteilt: eine 

• Trainingsmenge, anhand derer das Modell berechnet wird und eine 

• Testmenge, die zur Validierung des Modells herangezogen wird. 

Wesentlich für die Cross-Validation ist, dass keinerlei Daten der Testmenge in die 

Bildung des Modells einfließen. Im Falle lokaler Modelle bedeutet dies, dass bei einem 

Anfragepunkt aus der Testmenge nur nächste Nachbarn in der Trainingsmenge 

gesucht werden dürfen. Ein typischer Verlauf einer solchen Cross-Validation ist, dass 

zunächst der Fehler sowohl auf dem Trainings- wie dem Testdatensatz kleiner wird, 

der Testfehler jedoch ansteigt, sobald ein Overfitting des Modells auftritt. Das Minimum 

des Testfehlers entspricht somit dem optimalen Satz der Modellparameter. 

Nachteil der Cross-Validation ist, dass weniger Punkte für das Training des Modells 

zur Verfügung stehen. Es bleibt daher immer die Frage offen, ob ein Training auf dem 

kompletten Datensatz ohne Cross-Validation nicht vielleicht ein besseres Modell liefern 

würde. Die Cross-Validation führt somit letztlich zu einer Erhöhung des Bias des 

Modells, was bei komplexen Daten zu einer schlechteren Modellierung führen kann. 

Es trifft im übrigen auf praktisch alle Verfahren zur Vermeidung von Overfitting 

zu, dass diese zu einer Erhöhung des Bias führen (für eine ausführliche Diskussion 

dieses Themas siehe [33]). Man kann diesen Effekt bei der Cross-Validation aber 

dadurch minimieren, indem man die Testmenge möglichst klein macht. Natürlich 

verliert dadurch die Validierung des Modells an Aussagekraft, jedoch kann dieser 

Vorgang für mehrere Realisierungen von Testmengen durchgeführt werden. Dieses 

Prinzip soll nun näher erläutert werden.


2.4.2 Leave-one-out Cross-Validation 

Bei der Leave-one-out Cross-Validation (LOO-CV) wird das Prinzip der Cross- 

Validation gewissermaßen auf die Spitze getrieben: es wird genau ein Punkt als 

Testmenge verwendet und die N − 1 restlichen Punkte dienen als Trainingsmenge. 

Natürlich hat eine Testmenge bestehend aus einem Punkt keine wirkliche Aussagekraft 

über die Verallgemeinerungsfähigkeit des Modells, daher wird dieser Vorgang 

für viele verschiedene (am besten alle) Punkte des Datensatzes wiederholt und die 

Fehler der Vorhersage gemittelt. 

Die LOO-CV ist ein mächtiges Werkzeug zur Validierung, da das Modell mit Ausnahme 

eines Punktes auf der gesamten Trainingsmenge gebildet wird und somit der 

Bias nahezu konstant bleibt. Sie ist überhaupt nur deshalb möglich, weil das konkrete 

Modell erst bei Kenntnis eines Anfragepunktes berechnet wird; sie ist somit nur mit 

den sog. Lazy Learnern wie lokalen Modellen möglich. Hier zahlt sich die Flexibilität 

dieses Ansatzes aus. Bei globalen Modellen muss das Modell bei jeder neuen Teilung 

des Datensatzes in Test- und Trainingsmenge komplett neu berechnet werden, weshalb 

hier die LOO-CV in der Praxis kaum durchführbar ist. Bei lokalen Modellen 

regelt sich dieses Problem praktisch von selbst, indem man einfach nur ausschließen 

muss, dass bei der Suche nächster Nachbarn der Testpunkt selbst gefunden wird. 

Bei eng abgetasteten kontinuierlichen Systemen ist zusätzlich sinnvoll, das gesamte 

Trajektoriensegment des Anfragepunktes aus der Trainingsmenge zu entfernen (siehe 

den folgenden Abschnitt). Bei der Validierung der Mehrschritt-Vorhersage eines 

Punktes einer Zeitreihe ist dies in jedem Fall nötig. 

2.4.3 Fehlermaße bei Leave-one-out Cross-Validation 

In dieser Arbeit wird als Fehlermaß ausschließlich der mittlere quadratische Fehler 

verwendet, der in der einfachsten Form gegeben ist durch 

MSE 1 = 1 

|T ref | 

∑ 

t∈T ref 

( 

yt − f t (x t ) ) 2 

, (2.11) 

wobei über eine genügend große Zahl an Referenzpunkten T ref gemittelt werden muss 

und f t (x) das Modell bezeichnet, welches unter Auslassen des Punktes x t gebildet 

wurde. 

Bei der Vorhersage von Zeitreihen stellt sich allerdings die Frage, welche Schrittweite 

verwendet werden soll. Mit x t = (s t , s t−1 , . . . s t−(d−1) ) ist die einfachste Wahl 

durch y t = s t+1 gegeben, also die Vorhersage eines Schrittes in die Zukunft 2 . Gerade 

bei eng abgetasteten Zeitreihen hat dieser Einschritt-Vorhersagefehler aber wenig 

2 Der Einfachheit halber wird hier von einem Delay von Eins ausgegangen.

Seite 34 

2.4. Validierung lokaler Modelle 

Aussagekraft; insb. ist der Satz an Parametern, der den Einschritt-Vorhersagefehler 

minimiert in der Regel nicht identisch mit dem Satz, der auch bei mehr als einem 

Vorhersageschritt die besten Ergebnisse liefert. Robuste Ergebnisse erhält man daher 

erst, wenn man die Fehler für mehrere iterierte Vorhersageschritte summiert. 

Dies ergibt den p-Schritt Vorhersagefehler 

MSE p = 1 

p|T ref | 

[ 

∑ (st+1 

− f t (x t ) ) p−1 

∑ 

2 ( 

+ st+i+1 − f t+i (ˆx t+i ) ) ] 

2 

. (2.12) 

t∈T ref i=1 

Hierbei stammt nur der erste Punkt x t aus dem Datensatz, während alle weiteren 

iterierten Vorhersagen auf den geschätzten Punkten ˆx t+i basieren. 

Aufgrund des chaotischen Verhaltens der betrachteten Systeme kann die Anzahl der 

Schritte p nicht beliebig groß gemacht werden. Verlässt man den Vorhersagehorizont 

des Modells, so wird der Vorhersagefehler sehr groß und liefert keine sinnvolle 

Aussage mehr. Die Anzahl der möglichen Vorhersageschritte hängt natürlich vom 

jeweiligen System ab; bei kontinuierlichen Systemen spielt zudem die gewählte Abtastrate 

eine erhebliche Rolle. 

Bei eng abgetasteten Zeitreihen gibt es ein weiteres Problem: nimmt man für die 

LOO-CV einen Testpunkt aus dem Datensatz heraus und sucht in der verbleibenden 

Trainingsmenge dessen nächste Nachbarn, wird man mit hoher Wahrscheinlichkeit 

Punkte direkt vor und direkt hinter dem Testpunkt finden. Dies verfälscht jedoch 

das Ergebnis, da dies bei einem “echten” Anfragepunkt, der nicht einfach aus dem 

Datensatz entnommen wurde, nicht der Fall ist. Es ist daher sinnvoll, eine bestimmte 

Anzahl an Punkten vor und hinter dem Testpunkt von der Suche nächster Nachbarn 

auszuschließen. Zur Wahl dieses zusätzlichen Parameters bietet sich die mittlere 

Wiederkehrzeit des Systems an [25]. Sie wird nach folgendem Algorithmus berechnet: 

• Wähle zufällig einen Punkt x i aus dem Datensatz. 

• Bestimme die Distanz d(x i , x i+p ) mit p = 1, 2, . . . zwischen diesem Punkt und 

den nachfolgenden Punkten. 

• Bestimmte den additiven Index p, ab dem die Distanz erstmals wieder kleiner 

wird. Dieser ist dann gerade die halbe Wiederkehrzeit für den Index i. 

• Wiederhole diese Schritte für genügend Punkte i des Datensatzes und bestimme 

den Mittelwert aller p i . Dieser ist gerade die halbe Wiederkehrzeit des 

Systems. 

Vor der Modellierung wird die mittlere Wiederkehrzeit des Systems berechnet, die 

im Folgenden mit dem Parameter c bezeichnet wird. Der Ausschluss aller Punkte


im Intervall [t − c, t + c] bei Berechnung des Modells soll durch die Notation f t±c (x t ) 

angegeben werden. Um die Güte der Vorhersage für verschiedene Zeitreihen besser 

vergleichen zu können, wird zusätzlich der Fehler durch die mittlere quadratische 

Abweichung der Zeitreihe normiert. Der normierte p-Schritt Vorhersagefehler unter 

Ausschluss dieses Intervalls wird dadurch zu 

N ∑ [ (st+1 

NMSE p = 

p|T ref | ∑ − f t±c (x 

N 

t ) ) 2 

+ 

t=1 (st − ¯s) 2 t∈T ref 

p−1 

∑ ( 

st+i+1 − f (t+i)±c (ˆx t+i ) ) ] 

2 

. 

i=1 

(2.13) 

Nur für NMSE p < 1 kann man von einer erfolgreichen Modellierung sprechen in dem 

Sinne, dass das Modell bessere Vorhersagen liefert als eine einfache Schätzung über 

den Mittelwert der Zeitreihe.

Kapitel 3 

Lokal polynomiale Modellierung 

Gegeben sei ein Datensatz Ω = {(x 1 , y 1 ), . . . , (x n , y n )} bestehend aus den vektoriellen 

Eingabewerten x i und den jeweiligen skalaren Ausgabewerten y i . Gesucht ist nun 

ein Schätzer für die skalare Ausgabe eines Anfragepunktes q, welcher häufig auch 

als Query bezeichnet wird. Gesucht ist somit eine Schätzung f(x) für die Regression 

m(x) = E(Y | X = x). 

Bei der lokal polynomialen Modellierung besteht der Ansatz in einer Taylor-Entwicklung 

in der Umgebung des Punktes q bis zu einem vorgegebenen Grad p 

m(x) ≈ m(q) + m ′ (q)(x − q) + 1 2 m′′ (q)(x − q) 2 + . . . + m(p) (q) 

(x − q) p 

p! 

≡ ν 0 (q) + ν 1 (q) · (x − q) + ν 2 (q) · (x − q) 2 + . . . + ν p (q) · (x − q) p . 

(3.1) 

Die Koeffizienten werden über die übliche Methode der kleinsten Quadrate bestimmt, 

d.h. die Summe der quadratischen Abweichungen zwischen Modell und bekannten 

Datenpunkten 

P (ν) = 

n∑ p∑ 

{y i − ν j (x i − q) j } 2 K h (x i − q) (3.2) 

i=1 j=0 

ist zu minimieren. Die Funktion K h ist eine sog. Kernfunktion, die jeden Punkt 

in Abhängigkeit von seinem Abstand zum Anfragepunkt wichtet und von keinen 

anderen Größen abhängt. Der Parameter h der Kernfunktion wird als Bandbreite 

bezeichnet und legt die Größe der lokalen Nachbarschaft fest. Die Kernfunktion 

macht das Modell somit überhaupt erst lokal und durch den Bandbreite-Parameter 

wird der Grad der Lokalität gesteuert. 

36

Kapitel 3. Lokal polynomiale Modellierung Seite 37 

Für die Berechnung der Koeffizienten ist es sinnvoll, obigen Ausdruck mit Matrizen 

zu schreiben. Es soll gelten 

sowie 

X = 

⎛ 

⎜ 

⎝ 

⎞ 

1 (x 1 − q) . . . (x 1 − q) p 

⎟ 

. . 

. ⎠ (3.3) 

1 (x n − q) . . . (x n − q) p 

y = 

⎛ 

⎜ 

⎝ 

⎞ 

⎛ 

y 1 

ν 

⎟ 

⎜ 

. ⎠ und ν = ⎝ 

0. 

T 

y n 

ν T p 

⎞ 

⎟ 

⎠ . (3.4) 

Weiterhin sei 

{√ } 

W = diag Kh (x i − q) 

= 

⎛ 

⎞ 

w 1 0 · · · 0 

0 w 2 · · · 0 

⎜ 

⎝ . . 

.. 

⎟ . . ⎠ 

0 0 · · · w n 

(3.5) 

(3.6) 

eine n × n-Wichtungsmatrix, auf deren Diagonale die sich aus der Kernfunktion 

ergebenden Gewichte stehen. Dann kann (3.2) geschrieben werden als 

P (ν) = (y − Xν) T W T W(y − Xν) (3.7) 

= y T W T Wy − ν T X T W T Wy − y T W T WXν + ν T X T W T WXν (3.8) 

= y T W y W − ν T X T W y W − y T W X W ν + ν T X T W X W ν , (3.9) 

wobei hier wie im Folgenden die Abkürzungen X W = WX und y W = Wy verwendet 

werden. Der Gradient dieser Funktion ist 

∇ ν P (ν) = −2X T W y W + 2X T W X W ν (3.10) 

und Nullsetzen des Gradienten und Auflösen nach ν ergibt ein eindeutiges Extremum 

der Funktion P (ν) bei

Seite 38 

3.1. Lokal konstantes und lokal lineares Modell 

ν = (X T W X W ) −1 X T W y W 

= (X W ) † y W , (3.11) 

wobei die Pseudoinverse der Matrix X W 

X † W = (XT W X W ) −1 X T W . 

Die Hesse-Matrix ist gegeben durch 

verwendet wurde, die definiert ist durch 

∇ 2 νP (ν) = 2X T W X W . (3.12) 

Sie ist positiv definit für jede Matrix X mit linear unabhängigen Spalten. Daher ist 

P (ν) strikt konvex [27, Theorem 3.3.8] und somit ist (3.11) das globale Minimum 

dieser Funktion [27, Theorem 3.4.3]. 

In obiger Formulierung sind immer noch alle Datenpunkte an der Modellbildung beteiligt, 

auch wenn durch die Kernfunktion nur eine Umgebung des Anfragepunktes 

Auswirkung auf den Koeffizientenvektor ν hat. Dies erleichtert zwar die mathematische 

Behandlung, ist aber in der Praxis wenig sinnvoll; hier wird man überhaupt 

nur eine gewisse Anzahl nächster Nachbarn x nn(1) , . . . , x nn(k) in die Berechnung des 

Modells einbeziehen, die zusätzlich durch die Wichtungsmatrix W je nach Abstand 

zum Anfragepunkt gewichtet werden können. Diese nächsten Nachbarn müssen in 

die Matrix X eingesetzt werden und der Vektor y aus dem vorigen Abschnitt besteht 

dann aus den Ausgaben dieser nächsten Nachbarn, d.h. y = (y nn(1) , . . . , y nn(k) ) T . 

3.1 Lokal konstantes und lokal lineares Modell 

Aus der allgemeinen Formulierung der lokal polynomialen Modellierung lassen sich 

zwei wichtige Spezialfälle ableiten: das lokal konstante (Grad p=0) und das lokal 

lineare Modell (Grad p=1). 

Setzt man p = 0, so wird die Matrix X zu einem Spaltenvektor in dem in jeder Komponente 

die Eins steht. Beschränkt man sich beim Modellieren auf die k nächsten 

Nachbarn wie im vorigen Abschnitt beschrieben, so erhält man 

ν = (1 T kW1 k ) −1 1 T kWy (3.13) 

= 

∑ k 

i=1 w iy nn(i) 

∑ k 

i=1 w i 

(3.14) 

= ŷ ,


d.h. den gewichteten Mittelwert der k nächsten Nachbarn des Anfragepunktes q; 

im Falle W = I wird der ungewichtete Mittelwert der nächsten Nachbarn gebildet. 

Verwendet man als Umgebung nur einen nächsten Nachbarn, so ist die Ausgabe 

des Modells einfach die Ausgabe dieses nächsten Nachbarn. In manchen Fällen liefert 

dieses denkbar einfachste lokale Modell bereits Ergebnisse, die sich mit weitaus 

komplizierteren Methoden messen können. 

Das polynomiale Modell vom Grad p = 0 wird als lokal konstantes Modell bezeichnet; 

in der englischen Literatur findet sich meist der Ausdruck local averaging models. 

Das lokal lineare Modell ergibt sich für p = 1, d.h. es wird eine Ebene an die 

skalaren Ausgabewerte der nächsten Nachbarn des Anfragepunktes gefittet, so wie 

man es von der herkömmlichen linearen Regression kennt, nur dass hier noch die 

Wichtungsmatrix W beteiligt ist. Die Berechnung der Ausgabe des Modells reduziert 

sich auf 

ŷ = [q 1] ν . (3.15) 

Mit Hilfe der Singulärwertzerlegung kann der Koeffizientenvektor berechnet werden 

über 

ν = X † W y W = 

r∑ 

i=1 

1 

σ i 

〈u T i , y W 〉v i , (3.16) 

wobei u i und v i die i-ten Spaltenvektoren der orthogonalen Matrizen U bzw. V aus 

der Singulärwertzerlegung von X W sind (siehe Anhang A). 

Natürlich könnte man jetzt immer weiter Modelle mit wachsendem p betrachten, 

aber es erweist sich, dass das lokal konstante und das lokal lineare Modell bereits 

die wesentlichen Anwendungsgebiete abdecken; auf sie soll daher im nächsten Abschnitt 

vertiefend eingegangen werden. Polynome höheren Grades als Eins haben 

Eigenschaften, die sie zum lokalen Modellieren wenig geeignet machen, insb. in Gebieten 

in denen wenig Datenpunkte zur Modellierung vorhanden sind. Sie neigen 

zum Überschwingen und verlassen sehr schnell den Wertebereich der Datenpunkte. 

Bereits die lokal quadratischen Modelle (p = 2) sind in den meisten Fällen numerisch 

zu instabil und liefern gerade bei der Mehrschrittvorhersage chaotischer Zeitreihen 

schnell gänzlich falsche Ausgaben. 

3.2 Vergleich von lokal konstantem und lokal linearem 

Modell 

Das lokal konstante und das lokal lineare Modell sind die beiden einfachsten lokalen 

polynomialen Modelle, und gerade in ihrer Einfachheit liegt ihre Stärke. Es zeigt

Seite 40 

3.2. Vergleich von lokal konstantem und lokal linearem Modell 

sich in der praktischen Anwendung, dass es nicht unbedingt von Vorteil ist, besonders 

flexible und komplexe Modelle lokal zu verwenden, da diese einerseits zum 

Overfitting neigen und andererseits mit mehr Parametern ausgestattet sind. Werden 

diese Parameter nicht korrekt gewählt (natürlich immer bezogen auf das konkrete 

Modellierungsproblem), so liefern sie in der Regel deutlich schlechtere Ergebnisse 

als einfachere Modelle. Hohe Komplexität ist somit auch immer mit einer höheren 

Wahrscheinlichkeit des Versagens des Modells verbunden. Zudem benötigen komplexe 

Modelle in der Regel viele Datenpunkte, um gute Ergebnisse liefern zu können. 

Im Folgenden sollen die wesentlichen Unterschiede des lokal konstanten und des lokal 

linearen Modells besprochen werden. 

• Robustheit: Hier liegt der größte Vorteil des lokal konstanten Modells. Es 

liefert zwar häufig nicht die genauesten Ergebnisse, jedoch ist es in seinem 

Wertebereich durch die Werte der nächsten Nachbarn beschränkt, d.h. es wird 

niemals gänzlich falsche Ausgaben liefern können. 

• Anzahl der Parameter: Beim lokal konstanten Modell gibt es nur drei Arten 

von Parametern, nämlich Wichtung, Metrik und die Anzahl der nächsten 

Nachbarn. Eine Regularisierung ist aufgrund der Beschränktheit der Ausgabe 

nicht nötig. Beim lokal linearen Modell ist eine Regularisierung insb. bei 

der iterierten Mehrschritt-Vorhersage nötig, da ansonsten die akkumulierenden 

Fehler zu einem Verlassen des Wertebereiches der Zeitreihe führen. Die 

Möglichkeiten zur Regularisierung werden in Abschnitt 3.4 besprochen; sie ist 

mit mindestens einem zusätzlichen Parameter verbunden, der an das Modellierungsproblem 

angepasst werden muss. 

• Genauigkeit: Hier ist das lokal lineare Modell häufig im Vorteil, aber nur 

unter der Voraussetzung, dass die Parameter für das Modell entsprechend optimiert 

worden sind. Verwendet man einen schlecht gewählten Parametersatz, 

wird das lineare Modell meist größere Fehler liefern als das lokal konstante 

Modell. Dies betrifft insb. eine gut gewählte Regularisierung des Modells. Weiterhin 

ist das lokal konstante Modell im Vorteil, wenn nur wenige Datenpunkte 

zur Verfügung stehen, da es bereits mit einem einzigen nächsten Nachbarn arbeiten 

kann. Lokal lineare Modelle benötigen deutlich mehr nächste Nachbarn, 

um gute Ergebnisse liefern zu können. 

• Laufzeit: Die Berechnung des lokal konstanten Modells beschränkt sich auf 

die Berechnung der Summe (3.14). Verglichen mit der Rechenzeit zur Suche 

nächster Nachbarn ist dies vernachlässigbar. Das lokal lineare Modell benötigt 

mehr nächste Nachbarn und zusätzlich ist eine Singulärwertzerlegung nötig, 

die die Laufzeit merklich vergrößert. Die Rechenzeit zur Regularisierung ist 

hingegen vernachlässigbar.


Zusammenfassend kann man also sagen, dass das lokal konstante Modell für praktisch 

alle Anwendungsfälle geeignet ist, besonders wenn es nicht auf sehr hohe Genauigkeit 

ankommt und/oder man nur wenig Datenpunkte zur Verfügung hat. Es 

eignet sich besonders gut, um einen groben Überblick zu erhalten, z.B. über die Dimensionalität 

des Problems, den Rauschanteil und ob sich die Zeitreihe überhaupt 

voraussagen lässt (es könnte ja auch ein rein stochastischer Prozess vorliegen). Hat 

man diese Parameter grob eingestellt, kann im nächsten Schritt ein lokal lineares Modell 

optimiert werden, welches häufig wesentlich genauere Ergebnisse liefern kann. 

3.3 Parameter bei der lokalen Modellbildung 

Im folgenden sollen die Parameter zur lokalen Modellbildung erläutert werden. Hierzu 

gehören die Zahl der nächsten Nachbarn, die Metrik und die Wichtung (die Regularisierung 

wird im nächsten Abschnitt behandelt werden). Diese Parameter sind 

wesentlich für die Wahl der Umgebung des Anfragepunktes, in der das Modell berechnet 

wird. Die korrekte Wahl dieser Parameter ist somit wesentlich für die Güte 

des Modells. 

3.3.1 Zahl nächster Nachbarn 

Der Parameter k zur Anzahl nächster Nachbarn ist, wie bereits mehrfach erwähnt, 

entscheidend für eine erfolgreiche Modellierung. Über ihn lassen sich Bias und Varianz 

des endgültigen Modells steuern, sowie direkt damit verbunden der Grad der 

Nichtlinearität des Modells. Dies soll an einem einfachen eindimensionalen Beispiel 

kurz verdeutlicht werden. 

Als Zeitreihe soll der Wechselkurs zwischen DM und US-Dollar von 1966 bis 2000 

betrachtet werden. Es sei hiermit versprochen, dass dies die einzige Zeitreihe aus der 

Ökonomie sein wird, die in dieser Arbeit Verwendung findet; auch sei vom populistischen 

Versuch einer Vorhersage dieser Zeitreihe abgesehen. Sie soll ausschließlich 

zur Illustration dienen. 

In Abbildung 3.1(a) ist die lokal konstante Modellierung anhand eines nächsten 

Nachbarn gezeigt. Man erhält eine Interpolation der Daten und somit ein Modell 

mit maximaler Varianz und verschwindendem Bias. Die Abbildung 3.1(c) zeigt die 

Modellierung mit der maximal möglichen Zahl nächster Nachbarn; es ergibt sich 

somit ein globales Modell und als Ausgabe der Mittelwert der Zeitreihe. Dazwischen 

liegt das Modell mit fünf nächsten Nachbarn, was ein Kompromiss zwischen Bias 

und Varianz darstellt. Was bei der Modellierung noch störend auffällt ist, dass die 

Modellausgabe unstetig ist. Dieses Problem soll im folgenden Abschnitt behandelt 

werden.

Seite 42 

3.3. Parameter bei der lokalen Modellbildung 

4 

4 

3.5 

3.5 

3 

3 

DM 

2.5 

DM 

2.5 

2 

2 

1.5 

1.5 

1 

1965 1970 1975 1980 1985 1990 1995 2000 

Jahr 

(a) k = 1 

1 

1965 1970 1975 1980 1985 1990 1995 2000 

Jahr 

(b) k = 5 

4 

3.5 

3 

DM 

2.5 

2 

1.5 

1 

1965 1970 1975 1980 1985 1990 1995 2000 

Jahr 

(c) k = 25 

Abbildung 3.1: Modellierung des Wechselkurses DM/US-Dollar mit lokal konstantem 

Modell und unterschiedlicher Zahl nächster Nachbarn.


3.3.2 Wichtung 

Es wurde bereits erwähnt, dass es in der Praxis natürlich keinen Sinn macht, bei 

einem lokalen Modell alle Punkte in Betracht zu ziehen und diese erst durch die 

Kernfunktion K h (x i − q) wieder einzugrenzen. Stattdessen betrachtet man für die 

Modellierung nur eine bestimmte Anzahl k nächster Nachbarn oder eine gewisse 

Umgebung U ε . Dies heißt aber nicht, dass dadurch die Kernfunktion bzw. die Wichtungsmatrix 

W überflüssig wird. 

Setzt man einfach W = I, d.h. wichtet man alle nächsten Nachbarn gleich, so bleibt 

die Modellausgabe in einem gewissen Anfragebereich konstant, nämlich solange die 

nächsten Nachbarn des Anfragepunktes sich nicht ändern. Sobald jedoch dieser Bereich 

verlassen wird, ändert sich wenigstens der letzte nächste Nachbar und das 

Modell liefert einen anderen Wert. Man erhält in einem gewissen Anfragebereich somit 

eine nur stückweise stetige Stufenfunktion als Modellausgabe. Da dies für viele 

Anwendungen ungünstig ist und zudem dies auch die zu approximierende Funktion 

i.A. nicht korrekt modelliert, ist daher eine Wichtung der nächsten Nachbarn in 

Abhängigkeit vom Abstand zum Anfragepunkt nötig: nahe am Anfragepunkt liegende 

Punkte sollen stärker in das Modell einfließen als weiter entfernte. Hierdurch wird 

die Ausgabe des Modells geglättet, da die Modellausgabe nun auch vom Abstand 

der nächsten Nachbarn zum Anfragepunkt abhängt. 

In dieser Arbeit werden Wichtungsfunktionen der Form 

w n (r) = (1 − r n ) n mit r = d i 

d max 

(3.17) 

verwendet, wobei d i = ‖x i − q‖ der Abstand der nächsten Nachbarn zum Anfragepunkt 

und d max = ‖x k − q‖ der Abstand des letzten nächsten Nachbarn ist. 

Je nach Exponent n ergibt sich eine unterschiedliche Form der Wichtung (siehe 

Abbildung 3.2). Je größer der Exponent, desto stärker der Abfall für die letzten 

nächsten Nachbarn. Die Zahl nächster Nachbarn und die Wichtung hängen somit 

direkt miteinander zusammen: eine große Zahl nächster Nachbarn wird durch einen 

großen Exponenten n effektiv verringert. Dennoch besteht die wesentliche Aufgabe 

der Wichtung darin, für eine glatte Ausgabe des Modells zu sorgen. Ihr Einfluss auf 

die Genauigkeit des Modells ist verglichen mit den anderen Parametern eher gering. 

Als Beispiel wurde wieder die Wechselkurs-Zeitreihe aus dem vorigen Abschnitt mit 

k = 5 und zusätzlich einer biquadratischen Wichtung modelliert. Das Ergebnis ist 

in Abbildung 3.3 zu sehen; man erhält nun eine glatte Modellierung der Daten.

Seite 44 


2 

1.5 

1 

0.8 

w 0 

1 

w 1 

0.6 

0.4 

w 2 

0.5 

0 

0 0.2 0.4 0.6 0.8 1 

r 

1 

0.8 

0.6 

0.4 

0.2 

(a) Konstant (n=0) 

0 

0 0.2 0.4 0.6 0.8 1 

r 

(c) Biquadratisch (n=2) 

w 3 

0.2 

0 

0 0.2 0.4 0.6 0.8 1 

r 

1 

0.8 

0.6 

0.4 

0.2 

(b) Linear (n=1) 

0 

0 0.2 0.4 0.6 0.8 1 

r 

(d) Trikubisch (n=3) 

Abbildung 3.2: Wichtungsfunktionen für unterschiedliche Exponenten


4 

3.5 

3 

DM 

2.5 

2 

1.5 

1 

1965 1970 1975 1980 1985 1990 1995 2000 

Jahr 

Abbildung 3.3: Modellierung der DM/US-Dollar Zeitreihe mit k = 5 und biquadratischer 

Wichtung 

3.3.3 Metrik 

Die Metrik ist entscheidend bei der Suche nach nächsten Nachbarn und somit auch 

ein wesentlicher Parameter für die lokale Modellbildung. Zunächst ist natürlich jede 

L p -Metrik 

( d∑ 

) 1/p 

d(x, q) = (x i − q i ) p (3.18) 

i=1 

möglich, mit Abstand am populärsten natürlich die euklidische Metrik mit p = 2. 

Gerade für die Vorhersage von Zeitreihen ist eine Abwandlung dieser Metrik sinnvoll, 

die sog. exponentiell gewichtete euklidische Metrik 

d exp (x, q) = 

( d∑ 

i=1 

λ i−1 (x i − q i ) 2 ) 1/2 

. (3.19) 

Im Falle von Delay-Vektoren x t , q t ergibt sich 

( d∑ 

) 1/2 

d exp (x t , q t ) = λ i−1 (x t−iτ − q t−iτ ) 2 , (3.20) 

i=1

Seite 46 


daher werden durch diese Metrik die Komponenten stärker gewichtet, die zeitlich 

näher am gesuchten Schätzer der zeitlichen Entwicklung von q liegen, während die 

zeitlich weiter entfernten Komponenten an Einfluss verlieren. Diese Metrik kann in 

bestimmten Fällen zu einer Verbesserung der Vorhersage führen. 

Manchmal kann es sinnvoll sein, bestimmten Komponenten mehr Gewicht bei der 

Wahl nächster Nachbarn zu geben als anderen. Gerade bei experimentellen Daten, 

wo z.B. Messwerte verschiedener Sensoren zu einem Messvektor zusammengefasst 

werden, kann es vorkommen, dass bestimmte Komponenten keinen oder negativen 

Einfluss auf die Berechnung des Modells haben, z.B. weil das Signal-Rausch-Verhältnis 

zu niedrig ist. Hier ist es sinnvoll, diese Komponenten weniger stark oder gar 

nicht bei der Suche nach nächsten Nachbarn zu berücksichtigen. Hierfür lässt sich 

die diagonal gewichtete euklidischen Metrik 

d dwe (x, q) 2 = 

d∑ 

λ 2 i (x i − q i ) 2 = (x − q) T Λ 2 (x − q) , Λ = diag(λ), λ ∈ R d (3.21) 

i=1 

verwenden. Noch allgemeiner ist die gewichtete euklidische Metrik, bei der die Wichtungsmatrix 

Λ keine Diagonalmatrix ist. Hier stellt sich allerdings die Frage, nach 

welchen Kriterien die Nicht-Diagonalelemente dieser Matrix gewählt werden sollen. 

Dies ist in der Praxis letztlich nur mit Hilfe eines Optimierungsverfahrens möglich, 

wobei hier d 2 Parameter zu optimieren sind, was in der Regel zu zeitaufwändig ist. 

Natürlich gibt es Modellierungsprobleme, wo gänzlich andere Metriken nötig werden. 

Ein Beispiel ist die Modellierung von DNA Sequenzen, wo bekanntlich nur vier 

verschiedene Zustände (A,T,G,C) möglich sind. Hier können z.B. Hamming-ähnliche 

Metriken verwendet werden (für ein Beispiel siehe [28]). 

Beispiel: Hénon-Abbildung 

Ein Beispiel für den Nutzen alternativer Metriken zeigt sich bei der lokal linearen 

Modellierung von Datensätzen der Hénon-Abbildung 

x n+1 = y n − ax 2 n + 1 

y n+1 = bx n 

(3.22) 

mit den Parameterwerten a = 1, 4 und b = 0, 3, wobei die x-Variable als Zeitreihe 

aufgefasst und zweidimensional eingebettet wurde. Hier kann durch Verwendung 

einer exponentiell gewichteten Metrik (3.19) eine deutliche Verbesserung der Vorhersage 

erzielt werden. Die beste Vorhersage erhält man mit λ = 0, was auf den


ersten Blick verblüffen mag, da dies nichts anderes bedeutet, als dass die nächsten 

Nachbarn nur auf Basis der ersten Komponente gewählt werden. 

Setzt man die zweite Gleichung der Hénon-Abbildung in die erste ein, so erhält man 

x n+1 = bx n−1 −ax 2 n +1. In den Wert x n+1 fließt somit x n quadratisch und x n−1 linear 

ein. Da ein lineares Modell verwendet wird, kann der lineare Anteil ohnehin perfekt 

modelliert werden; somit ist der quadratische Anteil der für die Modellierung wesentliche. 

Dementsprechend werden die nächsten Nachbarn nur anhand dieser Komponente 

ausgewählt. Für andere Modelltypen wie z.B. ein lokal konstantes Modell 

ist diese Metrik völlig ungeeignet; die optimale Metrik hängt somit wesentlich von 

dem verwendeten Modell ab. Auch unter Einfluss von Rauschen ist λ = 0 beim lokal 

linearen Modell nicht mehr die optimale Wahl (siehe auch Abschnitt 5.1.1). 

3.4 Regularisierung polynomialer Modelle 

Zwar hat man mit (3.11) ein mathematisch exaktes Ergebnis für den Koeffizientenvektor 

ν gefunden, jedoch stellt sich bei der praktischen Berechnung das Problem, 

dass die Matrix X häufig schlecht konditioniert ist, d.h. sie ist nahezu singulär. 

Dieses Problem tritt insb. dann auf, wenn nur wenige Punkte zur Berechnung herangezogen 

werden und wenn viele dieser Punkte kolinear sind. Dies ist gerade bei 

lokalen Modellen häufig der Fall, wo wenige nächste Nachbarn zur Berechnung des 

Modells verwendet werden. 

Um auch in diesen Fällen vernünftige Werte für den Koeffizientenvektor ν zu erhalten, 

ist eine Regularisierung der Matrix X notwendig. Hierfür gibt es vor allem 

zwei populäre Methoden: die Ridge Regression (RR) und die Principal Component 

Regression (PCR). 

3.4.1 Principal Component Regression 

Der Einfachheit halber soll zunächst auf die Wichtung verzichtet werden. Der Koeffizientenvektor 

ist somit gegeben durch 

ν = X † y = (X T X) −1 X T y = (VS 2 V T ) −1 X T y , (3.23) 

wobei hier die Singulärwertzerlegung X = USV T verwendet wurde (siehe Anhang 

A). Das Matrixprodukt X T X ist reell und symmetrisch, daher ist VS 2 V T eine Diagonalisierung 

des Matrixproduktes mit den quadrierten reellen, positiven Eigenwerten 

σ i auf der Diagonalen von S 2 . Sortiert man diese der Größe nach, so sind die dazugehörigen 

Eigenvektoren v i die Hauptachsen (Principal Components) der Matrix 

XX T . Statistisch können diese als die Vektoren verstanden werden, die die Summe

Seite 48 

3.4. Regularisierung polynomialer Modelle 

der zweiten Momente des Anfragepunktes q und seiner nächsten Nachbarn maximieren, 

q T X T Xq = 

≈ 

n∑ k∑ 

(q i · x j,i ) 2 + 1 

i=1 

j=1 

n∑ 

k · E [ (q i · x·,i ) 2] + k , (3.24) 

i=1 

wobei E[·] den Erwartungswert beschreibt und x·,i eine Zufallsvariable ist, die den 

i-ten Eingabewert des Modells darstellt. Falls diese Zufallsvariable einen Mittelwert 

von Null hat, so ist dies identisch mit der Maximierung der Varianz der Datenpunkte, 

d.h. der Vektor v 1 ist der Vektor, in dessen Richtung die Punkte maximale Varianz 

besitzen. 

Das Prinzip der Principal Component Regression besteht nun darin, gerade die 

Komponenten wegzulassen, in deren Richtung die Punkte kaum Ausdehnung im 

Phasenraum besitzen, d.h. die Komponenten mit minimaler Varianz. Praktisch erfolgt 

dies dadurch, die Summe in (3.16) nur bis zu einem Index n σ < r laufen zu 

lassen. Im gewichteten Fall ergibt sich dann (vgl. [22]) 

ν = (X W ) † y W = 

∑n σ 

i=1 

1 

σ i 

〈u T i , y W 〉v i . (3.25) 

Dies leuchtet auch ohne Betrachtung der statistischen Interpretation sofort ein: Ist 

die Matrix X schlecht konditioniert, so liegen ein oder mehrere Singulärwerte dicht 

bei Null und die Ausgabe des Modells wird durch die Multiplikation mit 1/σ i besonders 

groß. Da die Singulärwerte der Größe nach sortiert sind liegt es nah, die Summe 

früher abzubrechen. Dies wird auch als Truncated Principal Component Regression 

(TPCR) bezeichnet. 

Bei der bisherigen Betrachtung wurde allerdings nicht beachtet, dass die Datenpunkte 

bei der lokalen Modellbildung i.A. keinen Mittelwert Null besitzen. Daher zeigt 

gerade die erste Hauptachse v 1 meist nicht in die Richtung maximaler Varianz, sondern 

einfach vom Ursprung aus in Richtung des Mittelwerts der Datenpunkte (siehe 

Abbildung 3.4(a)). Es ist daher sinnvoll, von den Datenpunkten den Mittelwert 

¯x abzuziehen; dies wird als Centering bezeichnet. Das Ergebnis ist in Abbildung 

3.4(b) zu sehen: die erste Hauptachse zeigt nun in Richtung der größten Varianz der 

Punktwolke. Die Modellausgabe ist nun gegeben durch 

∑n σ 

( ) 1 

ŷ = ȳ + 〈(q − ¯x) T , v i 〉〈u T i , y〉 . (3.26) 

σ i 

i=1


x 2 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

x 2 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

−0.1 

0 0.2 0.4 0.6 0.8 

−0.1 

0 0.2 0.4 0.6 0.8 

x 1 

x 1 

(a) Ohne Centering 

(b) Mit Centering 

Abbildung 3.4: Beispiel für Principal Components mit (a) und ohne (b) Centering; 

der Schwerpunkt der Punktwolke liegt bei (0.5,0.5). 

Hierbei ist ȳ der Mittelwert der Ausgabewerte der nächsten Nachbarn. 

Eine weitere Verfeinerung der TPCR besteht im sog. Soft-Thresholding. Hierbei wird 

anstelle eines scharfen Abschneidens der Hauptkomponenten eine Wichtungsfunktion 

f(σ) verwendet, sodass sich für die Modellausgabe 

∑n σ 

( ) f(σi ) 

ŷ = ȳ + 〈(q − ¯x) T , v i 〉〈u T i , y〉 (3.27) 

σ i 

i=1 

ergibt. McNames schlägt in [22] eine Modifikation der biquadratische Wichtung 

zur Regularisierung vor, 

⎧ 

⎪⎨ 

f(σ) = 

⎪⎩ 

0 s min > σ , 

( 

1 − 

( 

smax − σ 

s max − s min 

) 2 

) 2 

s min ≤ σ < s max , 

1 s max ≤ σ , 

(3.28) 

wobei die Werte für s min und s max 

über 

s min ≡ s c (1 − s w ) (3.29) 

s max ≡ s c (1 + s w ) (3.30)

Seite 50 

3.4. Regularisierung polynomialer Modelle 

definiert werden. Die Parameter s c und s w geben das Zentrum bzw. die Breite der 

Schwelle an, in der die Singulärwerte gewichtet werden. Oberhalb von s max bleiben 

die Singulärwerte unverändert, unterhalb von s min werden sie auf Null gesetzt. Ein 

Beispiel für die Auswirkung der Wichtungsfunktion ist in Abbildung 3.5(a) gegeben. 

4 

4 

¢¡¤£¦¥§£©¨ 

3.5 

3 

2.5 

2 

1.5 

1 

0.5 

£ ¨ 

3.5 

3 

2.5 

2 

1.5 

1 

0.5 

¢¡¤£¥ §¦©¨§¦ 

 

0 

0 1 2 3 4 

σ 

(a) Truncated Principial Components mit 

Soft-Threshold (s c = 1, s w = 0.5, siehe 

(3.28)) 

0 

0 1 2 3 4 

σ 

(b) Ridge Regression (µ = 0.75) 

Abbildung 3.5: Verlauf der regularisierten Singulärwerte 

3.4.2 Ridge Regression 

Bei der (gewichteten) Ridge Regression wird die Kostenfunktion (3.7) durch einen 

additiven Term ergänzt, der große Werte im Koeffizientenvektor ν “bestraft”. Eine 

allgemeine Form ist 

P (ν) RR = (y − Xν) T W T W(y − Xν) + ν T R T Rν , (3.31) 

wobei über die Diagonalmatrix R ≡ diag(r 1 , . . . , r n ) die Koeffizienten verschieden 

gewichtet werden können. Anstelle von Ridge Regression findet sich auch häufig die 

Bezeichnung Tikhonov-Phillips-Regularisierung. Die Lösung für ν berechnet sich 

analog wie in Anhang A beschrieben und lautet 

ν = (X T W X W + R T R) −1 X T W y W . (3.32) 

Die Berechnung von (3.32) erfolgt in diesem allgemeinen Fall am besten durch eine 

Sequenz von Householder-Transformationen. Eine einfache (und populäre) Wahl für


die Ridge-Matrix ist R = µ 2 I, d.h. alle Koeffizienten werden gleich stark mit dem 

Faktor µ 2 gewichtet. Die Berechnung von (3.32) wird dadurch besonders einfach, da 

man hier einfach die Singulärwertzerlegung X W = USV T einsetzen kann und als 

Lösung 

ν = 

k∑ 

i=1 

σ i 

σ 2 i + µ2 〈uT i , y W 〉v i (3.33) 

erhält. Für σ i ≫ µ ist σ i /(σ 2 i + µ 2 ) ≈ 1/σ i und für σ i → 0 gilt σ i /(σ 2 i + µ 2 ) ≈ 0. Ein 

Beispiel ist in Abbildung 3.5(b) zu sehen. Man erhält somit ein ähnliches Verhalten 

der Regularisierung wie bei der TPCR mit Soft-Thresholding, allerdings werden 

durch den Parameter µ die Kehrwerte der Singulärwerte prinzipiell verkleinert. Es 

existiert somit ein Bias, auch wenn dieser für große Singulärwerte und kleine µ 

vernachlässigbar wird. Ein weiterer Nachteil ist, dass Komponenten mit sehr kleinen 

Singulärwerten nicht wie bei der TPCR konsequent auf Null gesetzt werden. 

3.4.3 Wahl der Regularisierung 

Es stellt sich die Frage, welche Regularisierung verwendet werden sollte. Die Ridge 

Regression hat den Vorteil, dass man gezielt bestimmte Komponenten der Modelleingabe 

wichten kann. Weiß man bereits vor der Modellierung, dass bestimmte Komponenten 

z.B. im wesentlichen Rauschanteile darstellen, so können diese durch passende 

Wahl der Matrix R weniger stark in das Modell einfließen. Diese Möglichkeit 

der direkten Wichtung einzelner Komponenten ist mit der TPCR nicht möglich. 

Die Nachteile der Ridge Regression wurden bereits am Ende des letzten Abschnittes 

erläutert: der Bias wird vergrößert und sehr kleine Singulärwerte größer Null werden 

nicht konsequent auf Null gesetzt. 

Die TPCR ist besonders dann von Vorteil, wenn die zu modellierenden Daten in 

einer Untermannigfaltigkeit des Datenraumes liegen. Dies ist gerade bei der Vorhersage 

von Zeitreihen der Fall, wo man üblicherweise versucht, die Dynamik auf 

einem Attraktor zu modellieren, der wie in Kapitel 1.1.3 beschrieben in eine Untermannigfaltigkeit 

eingebettet ist. Durch das Prinzip, die Komponenten mit kleiner 

Varianz aus der Modellierung herauszunehmen, passt sich das Modell automatisch 

der durch den Attraktor gegebenen Dynamik an. Besonders hervorzuheben ist, dass 

durch Verwendung des Soft-Thresholding auch lokale Variationen der Dynamik auf 

dem Attraktor berücksichtigt werden. So können bestimmte Komponenten an einem 

Ort des Attraktors eine weit wichtigere Rolle spielen als an einem anderen, was sich 

aber in einer entsprechenden Veränderung der Singulärwerte niederschlägt. 

Ein Vergleich von Ridge Regression und TPCR mit Soft-Thresholding bei der Vorhersage 

von Zeitreihen nichtlinearer Systeme findet sich in [22]. Es zeigt sich in der 

Tat, dass die TPCR besser für diesen Anwendungsfall geeignet ist.

Seite 52 

3.5. Lokale Variation von Parametern 

Die Schwierigkeit beider Methoden liegt in der Wahl der Parameter R bzw. s c 

und s w . Bei lokalen Modellen bietet es sich an, diese durch Leave-one-out Cross- 

Validation zu optimieren (siehe Abschnitt 3.8). 

3.5 Lokale Variation von Parametern 

Üblicherweise werden alle bislang besprochenen Parameter global gewählt, d.h. für 

jeden Anfragepunkt wird unabhängig von seiner Position exakt das gleiche Modell 

verwendet. Andererseits kann diese Wahl der Parameter auch immer nur ein Kompromiss 

in Hinsicht auf die lokale Variation des Flusses sein, die gerade bei chaotischen 

Systemen üblicherweise sehr groß ist. Es liegt daher nahe, die Parameter lokal 

zu variieren und dadurch je nach Position des Anfragepunktes ein anderes Modell 

zu verwenden. 

Besonders gut lässt sich die lokale Variation der Modellparameter an einem einfachen 

Beispiel einer Funktionsapproximation illustrieren, dem sog. Ramp-Hill-Datensatz. 

Der Ramp-Hill-Datensatz 

−1 

−0.5 

1 

x 2 

0 

1 

0 

0.5 

0.5 

−1 

−1 

−0.5 

0 

x 1 

0.5 

1 −1 −0.5 

0 

x 2 

1 

−1 −0.5 0 0.5 1 

x 1 

(a) Ramp-Hill-Funktion 

(b) Stützstellen (200 Stück) 

Abbildung 3.6: Ramp-Hill-Funktion und Stützstellen zur Generierung des Ramp- 

Hill-Datensatzes.


d h := 5 2√ 

(x1 + 0.4) 2 + (x 2 + 0.4) 2 

y h := 

{ 2 cos(πdh /2) für d h ≤ 1, 

0 sonst, 

y l := 2x 1 + 2.5x 2 − 0.5 

⎧ 

⎨ y h − 1 für y l < 0, 

y := y b + y l − 1 für 0 ≤ y l ≤ 2, 

⎩ 

y b + 1 sonst. 

(3.34) 

Die Ramp-Hill-Funktion (3.34), die in Abbildung 3.6(a)) gezeigt ist, besteht aus einem 

linearen Anstieg (Ramp) und einer Kosinus-Funktion (Hill), die von konstanten 

Gebieten umgeben sind. Sie stellt besonders für globale Modelle eine Art “worst-case 

Szenario” dar, da die Modellierung der einzelnen Gebiete sich nur schwer in einem 

geschlossenen Ausdruck zusammenfassen lässt. 

Zur Generierung eines Datensatzes werden mit der Ramp-Hill-Funktion gleichverteilt 

200 Datenpunkte als Stützstellen generiert (siehe Abbildung 3.6(b)), anhand 

derer die Funktion zu modellieren ist. Zunächst soll betrachtet werden, wie sich lokal 

konstantes und lokal lineare Modell bei diesem Datensatz verhalten. 

Lokale Variation des Modells 

Betrachtet man bei verschiedenen Punkten im Intervall [−1, 1] 2 , wann ein lokal 

konstantes und wann ein lokal lineares Modell bessere Ergebnisse liefert, ergibt sich 

das Bild in Abbildung 3.7 (zur Verdeutlichung wurden die Rampe und der Hügel 

in weiß skizziert). Hierbei stehen hellgraue und dunkelgraue Punkte für Stellen, wo 

das lokal lineare bzw. das lokal konstante Modell bessere Ergebnisse liefern. Das 

Ergebnis ist nicht überraschend: Bei der Rampe und im näherungsweise linearen 

Anstieg der Kosinus-Funktion liefert das lokal lineare Modell bessere Ergebnisse, 

während in konstanten Gebieten und im nichtlinearen Bereich des Kosinus das lokal 

konstante Modell besser abschneidet. 

Es liegt nahe, das Modell je nach Lage des Anfragepunktes zwischen konstant und 

linear zu variieren. Hierbei wird eine Umgebung des Anfragepunktes betrachtet und 

mit Hilfe der Leave-one-out Cross-Validation berechnet, welches Modell bei den 

Nachbarn die besten Ergebnisse liefert. Für den Anfragepunkt wird dann das Modell 

verwendet, welches bei der Mehrheit der Nachbarn das bessere Ergebnis liefert. 

Im einfachsten Fall betrachtet man nur einen nächsten Nachbarn und übernimmt 

dessen optimales Modell. In der Tat bringt dies beim Ramp-Hill-Datensatz eine Verbesserung 

der Modellierung, allerdings ist dies letztlich ein konstruiertes Beispiel,

Seite 54 

3.5. Lokale Variation von Parametern 

−1 

−0.8 

−0.6 

−0.4 

−0.2 

x 1 

0 

0.2 

0.4 

0.6 

0.8 

1 

−1 −0.5 0 

x 2 

0.5 1 

Abbildung 3.7: Punkte des Ramp-Hill-Datensatzes, an denen lokal lineares (hellgrau) 

und lokal konstantes Modell (dunkelgrau) kleinere Fehler liefern. 

wo die Unterschiede der beiden Modelle besonders deutlich zu Tage treten. Bei chaotischen 

Systemen wie z.B. dem Hénon- oder Lorenz-System (siehe (3.22) und (2.6)) 

bringt diese Technik in der Regel keine deutliche Verbesserung, häufig verschlechtert 

sich das Ergebnis sogar, da für einen nicht zu vernachlässigenden Prozentsatz 

der Punkte gerade das falsche Modell verwendet wird. Diese Beobachtung macht 

man auch bei der lokalen Variation anderer Parameter wie z.B. der Zahl nächster 

Nachbarn. 

Lokale Variation der Zahl nächster Nachbarn 

Ganz ähnlich kann auch der Parameter der Zahl nächster Nachbarn lokal betrachtet 

werden. Zunächst wird mit einer Leave-one-out Cross-Validation die optimale Zahl 

nächster Nachbarn beim Ramp-Hill-Datensatz für verschiedene Punkte auf dem Intervall 

[−1, 1] 2 bestimmt. In der Auftragung ergeben sich die Bilder 3.8(a) für das 

lokal konstante und 3.8(b) für das lokal lineare Modell. Beim lokal konstanten Modell 

ist zu sehen, dass im Bereich der Rampe und des Hügels mehr nächster Nachbarn 

zur Modellierung benötigt werden, während in den konstanten Bereichen bereits 

ein nächster Nachbar ausreicht. Auch lassen sich auf der Rampe und dem Hügel 

zusammenhängende Bereiche mit gleichem Parameter-Wert ausmachen. 

Beim lokal linearen Modell ist die Situation anders: hier lassen sich keine einfachen 

Gesetzmäßigkeiten bei der Verteilung des optimalen Parameters finden. Zudem existieren 

keine zusammenhängenden Bereiche mit gleichem optimalen Parameterwert


wie beim lokal konstanten Modell. Zwar existieren durchaus “hellere” und “dunklere” 

Flächen, diese sind bei näherer Betrachtung aber nicht einheitlich ausgefüllt 

sondern “gemustert”. Es ist daher eher unwahrscheinlich, auf Basis der Betrachtung 

nächster Nachbarn für einen Anfragepunkt den optimalen Parameterwert zu 

erhalten. 

−1 

−1 

20 

−0.5 

15 

−0.5 

15 

x 2 

0 

10 

x 2 

0 

10 

0.5 

5 

0.5 

5 

1 

−1 −0.5 0 0.5 1 

x 1 

1 

−1 −0.5 0 0.5 1 

x 1 

(a) Lokal konstant 

(b) Lokal linear 

Abbildung 3.8: Optimale Zahl nächster Nachbarn bei lokal konstantem und lokal 

linearen Modell 

Diese Vermutung bestätigt sich beim Versuch, mit der gleichen Methode wie im 

vorigen Abschnitt den Parameter der Zahl der nächsten Nachbarn lokal zu variieren. 

Beim Ramp-Hill-Datensatz kann eine Verbesserung der Vorhersage durch lokale 

Variation der Zahl nächster Nachbarn beim lokal konstanten Modell erzielt werden, 

beim lokal linearen Modell versagt diese Technik jedoch. 

Stellt man ähnliche Versuche bei der Modellierung chaotischer Attraktoren an, so 

zeigen sich dort selbst beim lokal konstanten Modell keine zusammenhängenden 

Bereiche mit gleicher optimaler Zahl nächster Nachbarn. Eine lokale Variation dieses 

Parameters bringt daher meist keine Verbesserung der Vorhersage, im Gegenteil: 

häufig bewirkt die lokale Variation eine Verschlechterung des Modells verglichen mit 

einer optimalen globalen Wahl der Parameter. Eine Betrachtung im Detail zeigt, dass 

zwar für viele Punkte gute Parameter gewählt werden, jedoch immer ein nicht zu 

vernachlässigender Prozentsatz existiert, wo die Methode der lokalen Parameterwahl 

versagt und dies letztlich den Fehler nach oben treibt. Auch die lokale Variation des 

Parameters λ der exponentiellen Metrik (3.19) ergibt ein ähnliches Ergebnis: bei 

einigen wenigen Datensätzen ist die Variation erfolgreich, meist aber ergeben sich 

ähnliche oder schlechtere Ergebnisse verglichen mit der optimalen globalen Wahl des 

Parameters. 

Diese Beobachtungen decken sich mit einer Untersuchung in [3], wo herkömmli-

Seite 56 

3.6. Approximation durch Gitterpunkte 

che lokale Modelle mit der sog. “Lazy Learning Toolbox” verglichen werden, die von 

Birattari und Bontempi entwickelt wurde (siehe [7]). Diese Toolbox basiert ebenfalls 

auf einer lokalen Auswahl von Modelltyp und zugehörigen Parametern anhand 

einer LOO-CV der nächsten Nachbarn. Auch hier wurde festgestellt, dass diese Methoden 

der Toolbox herkömmlichen Methoden nicht überlegen sind und häufig auch 

schlechtere Ergebnisse liefern. Eine weitere Methode von Bontempi basiert darauf, 

bekannte dynamische Eigenschaften des Systems auszunutzen. Hierbei wird das lokale 

Modell so gewählt, dass die durch das Modell beschriebene Volumenkontraktion 1 

mit der des Systems im Einklang steht. Aber auch diese Methode versagt bei Teilen 

des Datensatzes und liefert dort deutlich schlechtere Ergebnisse, sodass der gemittelte 

Fehler über den gesamten Datensatz letztlich größer ist als mit herkömmlichen 

Methoden (vgl. [8]). 

Eine erfolgreiche lokale Variation der Zahl nächster Nachbarn bei lokal linearen Modellen 

hat Smith erreicht, indem er diesen Parameter nur in engen Grenzen vom 

globalen optimalen Wert variieren ließ (siehe [34]). Allerdings sind die Verbesserungen 

mit dieser Methode nur geringfügig und es ist von einer deutlich höheren 

Rechenzeit auszugehen. 

Zusammenfassend lässt sich sagen, dass die lokale Variation von Parametern bei 

bestimmten Modellierungsproblemen wie z.B. bei der Approximation von glatten, 

nicht-chaotischen Abbildungen wie der Ramp-Hill-Funktion erfolgreich sein kann. 

Allerdings ist es bislang nicht gelungen, eine die zusätzliche Rechenzeit rechtfertigende 

deutliche Verbesserung der Vorhersage über lokale Variation zu erreichen, 

die auch bei Datensätzen wie chaotischen Zeitreihen zuverlässig funktioniert. Auch 

muss man bedenken, dass unter Einfluss von Rauschen die Parameter weniger stark 

lokal variieren. Selbst eine lokal optimale Wahl der Parameter hätte bei verrauschten 

Datensätzen wenig Auswirkungen auf das Ergebnis. 

3.6 Approximation durch Gitterpunkte 

Zur Vermeidung von Over- und Underfitting ist die korrekte Wahl des Parameters 

der Zahl nächster Nachbarn entscheidend. Im vorigen Abschnitt wurden die Schwierigkeiten 

bei der lokalen Variation dieses Parameters erläutert, und es stellt sich die 

Frage, ob man nicht den umgekehrten Weg gehen kann: im Falle lokaler Modelle, wo 

Datenpunkte und Modell gar nicht mehr zu trennen sind, kann anstelle einer Änderung 

des Modell-Algorithmus auch bei den Datenpunkten selbst angesetzt werden. 

Die Idee besteht darin, den Datensatz durch relativ wenige Punkte eines Gitters 

zu approximieren. Hierzu wird ein Punktegitter generiert welches den Datensatz 

komplett überdeckt und anschließend gezielt bestimmte Punkte dieses Gitters für 

die Approximation ausgewählt. Diese so entstehende gleichmäßigere Verteilung der 

1 Wobei hier vorausgesetzt wird, dass ein dissipatives Systems modelliert wird.


Punkte sollte einer globalen Wahl der Parameter besser entgegenkommen; eine lokale 

Variation wird somit schlicht überflüssig. 

Ein Nebeneffekt dieses Ansatzes ist die Reduzierung der Komplexität des Modells. 

Wie in Abschnitt 3.3.1 bereits besprochen, führt das lokal konstante Modell im Extremfall 

mit einem nächsten Nachbarn und ohne Wichtung zu einer Interpolation der 

Daten. Man erhält in diesem Fall somit ein Modell mit verschwindendem Bias und 

hoher Varianz. Die Approximation der Datenpunkte durch die Gitterpunkte führt 

zu einer Erhöhung des Bias des Modells, eine Interpolation des Datensatzes ist auch 

mit einem nächsten Nachbarn und lokal konstantem Modell nicht mehr möglich. Der 

Bias wird hierbei um so größer, je gröber das Gitter ist und je weniger Gitterpunkte 

verwendet werden. Das Ziel besteht somit darin, dass Gitter nur soweit aufzubauen 

bis es zu einem Overfitting kommt. Dieses Vorgehen kann mit der Termselektion 

bei einem globalen Modell verglichen werden: hier werden Basisfunktionen solange 

in das Modell eingefügt, bis der Testfehler bei der Cross-Validation wieder ansteigt 

(was Overfitting anzeigt). Natürlich kann auch der umgekehrte Weg gegangen werden: 

es wird mit einem dichten Gitter gestartet und nach und nach Punkte dieses 

Gitters herausgenommen (und analog existiert dieses umgekehrte Verfahren auch 

bei der Termselektion). 

3.6.1 Beispiel Hénon-Abbildung 

Mit der Hénon-Abbildung (3.22) wurden 500 Punkte an Trainingsdaten und 1000 

Punkte an Testdaten für eine Cross-Validation generiert 2 . Der erste Schritt besteht 

darin, den Attraktor durch Punkte auf einem Gitter zu approximieren (diese werden 

im Folgenden einfach “Gitterpunkte” genannt). Der Algorithmus hierzu lautet 

folgendermaßen: 

1. Bestimme zweidimensionales quadratisches Intervall I, in dem alle Trainingspunkte 

x i des Attraktors liegen. Lege eine ganzzahlige Konstante m > 0 fest, 

die die Zahl nächster Nachbarn bestimmt, die in der Umgebung eines Gitterpunktes 

mindestens liegen müssen. 

2. Generiere in diesem Intervall ein Punktegitter G mit einer frei wählbaren 

Gitterkonstanten g. 

3. Bestimme bei jedem Gitterpunkt in einem Kreis mit Radius g die Anzahl 

nächster Nachbarn k von Punkten x i des Hénon-Systems. 

4. Falls k ≤ m, lösche den Punkt aus G. 

2 Ob man direkt die Punkte aus (3.22) verwendet oder ob man eine der beiden Koordinaten 

zweidimensional einbettet liefert beim Hénon-System bis auf eine Spiegelung an der Winkelhalbierenden 

den gleichen Attraktor.

Seite 58 


Die Menge G der sich ergebenden Gitterpunkte wird durch die Parameter g und 

m gesteuert. Hierbei steuert g nur die Feinheit des Gitters, während m bestimmt, 

welche Punkte tatsächlich verwendet werden; im Folgenden wurde m = 1 verwendet. 

Um möglichst viel Information von den Trainingspunkten in die Gitterpunkte zu 

übertragen, wurde folgender Ansatz gewählt: Zunächst wird mit einer LOO-CV der 

globale optimale Wert für die Zahl nächster Nachbarn beim lokal linearen Modell 

bestimmt. Anschließend wird mit diesem Modell ein Schätzer für die Gitterpunkte 

berechnet, aber anstelle des skalaren Schätzers wird der gesamte Koeffizientenvektor 

ν aus (3.15) gespeichert, d.h. bei dem hier betrachteten zweidimensionalen System 

ist mit jedem Gitterpunkt ein 3-dimensionaler Vektor assoziiert. 

Um später mit den Gitterpunkten die Modellausgabe für einen Anfragepunkt zu 

berechnen, werden die Koeffizientenvektoren von den drei 3 nächstliegenden Gitterpunkten 

gemittelt und mit diesem der Schätzer berechnet. Ein Nebeneffekt dieser 

Form von Modellierung ist, dass keine Singulärwertzerlegung mehr nötig ist und 

somit die Rechenzeit verkürzt wird. 

Aus der nun gegebenen Menge G von Gitterpunkten sollen jetzt die maßgeblichen 

für die Modellierung ermittelt werden: 

1. Entnehme zunächst drei zufällige Gitterpunkte aus G, die möglichst maximale 

Distanz zueinander besitzen. Diese bilden die ersten drei Punkte der Menge 

der endgültigen Gitterpunkte K, die später als Datensatz für die Modellierung 

dient. 

2. Nimm einen weiteren Punkt aus G testweise in K hinzu und berechne den 

Fehler bei der Vorhersage der Trainingspunkte anhand dieser Punkte. Führe 

dies für alle weiteren Gitterpunkte aus G durch. 

3. Wähle aus G den Punkt, der den kleinsten Trainingsfehler ergibt und füge 

diesen endgültig der Menge der Gitterpunkte K hinzu. 

4. Bestimme den Fehler bei der Vorhersage der Testmenge anhand der Gitterpunkte 

K. 

5. Falls noch weitere Punkte in G existieren, starte wieder bei 2. 

Betrachtet wird zunächst eine eingebettete Zeitreihe eines Hénon-Systems, welche 

relativ stark mit weißem Rauschen überlagert ist (Signal-Rausch-Abstand beträgt 

20dB). In Abbildung 3.9(a) sind als Beispiel die ersten 30 Gitterpunkte gezeigt. 

3 Es werden gerade drei Gitterpunkte genommen, weil der Einbettungsraum in diesem Fall 

zweidimensional ist; im allgemeinen Fall würde man k = d + 1, also Dimension plus Eins wählen.


1 

0.5 

0 

−0.5 

−1 

−1.5 

MSE 

0.22 

0.2 

0.18 

0.16 

0.14 

0.12 

0.1 

−1.5 −1 −0.5 0 0.5 1 1.5 

(a) Trainingsmenge mit den ersten 30 Gitterpunkten. 

50 100 150 

Zahl der Gitterpunkte 

(b) Trainingsfehler (durchgezogene Linie), 

Testfehler (gestrichelte Linie) und Fehler der 

LOO-CV (gepunktete Linie). 

Abbildung 3.9: Approximation des verrauschten Hénon-Attraktors (SNR=20dB) 

durch ein Gitter (a) mit Trainings- und Testfehler (b). 

In Abbildung 3.9(b) ist Trainingsfehler (durchgezogene Kurve) und Testfehler (gestrichelte 

Kurve) gezeigt. Als Vergleich dient der Fehler der Leave-one-out Cross- 

Validation der Trainingsmenge (gepunktete Linie). Test- und Trainingsfehler sind in 

Abhängigkeit von der Anzahl der Gitterpunkte aufgetragen. 

Wie man sieht, reichen bereits die 30 gezeigten Gitterpunkte, um den verrauschten 

Hénon-Attraktor gut zu modellieren. Dass der Trainingsfehler immer deutlich unter 

dem Testfehler bleibt rührt daher, dass in den Gitterpunkten durch die gespeicherten 

Koeffizientenvektoren Informationen aus den Trainingspunkten vorhanden sind. 

Deshalb ist für die Bewertung der Vorhersagequalität des Gitters zwingend eine 

unabhängige Testmenge nötig, die nicht für die Berechnung der Gitterwerte verwendet 

wurde. Ein Overfitting ist allerdings kaum zu beobachten, im Gegenteil: auch 

der Trainingsfehler steigt zum Ende hin, da hier Gitterpunkte eingebunden werden, 

die sich aus den Trainingsdaten nur schlecht vorhersagen ließen und die sich daher 

negativ auf die Modellierung auswirken. 

Zumindest im verrauschten Fall liefert die Approximation durch das Gitter somit 

gute Ergebnisse. Allerdings muss gesagt werden, dass die Berechnung des Gitteraufbaus 

recht langwierig ist und eine Leave-one-out Cross-Validation nicht durchgeführt 

werden kann, d.h. in der Praxis eine Teilung des vorhandenen Datensatzes notwendig 

ist. Zudem liefert die Gitterapproximation im unverrauschten Fall schlechte Ergebnisse. 

In Abbildung 3.10(a) ist ein Gitter mit 70 Punkten über einem unverrauschten 

Hénon-Attraktor zu sehen, in Abbildung 3.10(b) ist wieder Test- und Trainingsfeh-

Seite 60 


1 

0.5 

0 

−0.5 

−1 

MSE 

6 x 10−3 

5 

4 

3 

2 

1 

Zahl der Gitterpunkte 

−1.5 

−1.5 −1 −0.5 0 0.5 1 

(a) Trainingsmenge mit den ersten 70 Gitterpunkten. 

0 

50 100 150 

(b) Trainingsfehler (durchgezogene Linie), 

Testfehler (gestrichelte Linie) und Fehler der 

LOO-CV (gepunktete Linie). 

Abbildung 3.10: Approximation des unverrauschten Hénon-Attraktors durch ein Gitter 

(a) mit Trainings- und Testfehler (b). 

ler aufgetragen, sowie als Vergleich das Ergebnis der Leave-one-out Cross-Validation 

über dem Trainingsdatensatz. Erneut geht der Trainingsfehler unter den Wert der 

LOO-CV, da in den Gitterpunkten Informationen der Trainingsmenge enthalten 

sind. Der Testfehler bleibt allerdings recht groß. Zudem zeigt der plötzliche Abfall 

bei ca. 50 Gitterpunkten, wie lokale Minima den Aufbau des Gitters erschweren, die 

durch die “Greedy-Strategie” verursacht werden, die ausschließlich danach trachtet, 

den Fehler für den nächsten Gitterpunkt zu minimieren. 

Auch wenn das Problem lokaler Minima durch bessere Auswahl-Strategien gelöst 

werden kann und für verrauschte Daten sich gute Ergebnisse zeigen, bleibt dennoch 

das Ergebnis, dass im Falle von Daten mit wenig oder keinem Rauschen die Approximation 

durch ein Gitter eine schlechtere Modellierung ergibt. Die Vermeidung von 

Overfitting kann bereits durch den herkömmlichen Ansatz über die LOO-CV geschehen; 

die Approximation durch Gitterpunkte bietet hier keine wesentlichen Vorteile. 

Auch der Gewinn an Rechenzeit durch weniger Datenpunkte und weniger nächsten 

Nachbarn verschwindet, wenn man die Zeit zur Optimierung des Gitters hinzuzieht.


3.7 Lokale radiale Basisfunktionen 

Das in Abschnitt 2.1.1 vorgestellt Prinzip der lokalen Modellbildung stellt frei, welche 

Form von Modell in der Umgebung des Anfragepunktes verwendet wird. Prinzipiell 

kann jede Form von Modell gewählt werden, wobei sich jedoch aufgrund der 

niedrigen Zahl der Datenpunkte nur wenige wirklich eignen. Als Alternative zu polynomialen 

Modellen sollen daher noch lokale Modelle mit radialen Basisfunktionen 

(RBF) vorgestellt werden. 

Hierbei werden an vorgegebenen Stützstellen c i , i = 1, . . . , k, rotationssymmetrische 

Funktionen g i (‖x−c i ‖) aufgespannt und additiv überlagert. Als Stützstellen bei der 

lokalen Modellierung dienen die nächsten Nachbarn des Anfragepunktes [29]. 

Die beiden populärsten RBF sind die Gauß-Funktion 

g i (x) = exp 

(− ‖x − c ) 

i‖ 2 

σ 2 

(3.35) 

und die multiquadratische Funktion 

g i (x) = √ r 2 + ‖x − c i ‖ 2 , (3.36) 

wobei σ ∈ R bzw. r ∈ R frei wählbare Parameter sind. Das Modell ergibt sich durch 

Linearkombination dieser Basisfunktionen, d.h. 

f(x) = 

k∑ 

ν i g i (x) . (3.37) 

i=1 

Der Parameter σ ist die Halbwertsbreite der Gauß-Kurve und definiert somit den 

Grad der Lokalität der Basisfunktion. Im Falle der multiquadratischen Basisfunktion, 

die im Gegensatz zur Gauß-Funktion nicht beschränkt ist, kann durch den 

Parameter r die Glattheit der resultierenden Überlagerung gesteuert werden. Für 

r = 0 ergibt sich die Betragsfunktion g i (x) = ‖x − c i ‖, die an der Stützstelle x = c i 

nicht mehr differenzierbar ist. 

Die Berechnung einer Approximation durch Überlagerung von radialen Basisfunktionen 

erfolgt durch Minimierung einer Kostenfunktion 

P (ν) = ‖y − Aν‖ 2 + ‖Rν‖ 2 

= (y − Aν) T (y − Aν) + ν T R T Rν . 

(3.38)

Seite 62 

3.8. Optimierung der Modellparameter 

Der zweite Term der Kostenfunktion ist die Ridge Regression aus Abschnitt 3.4.2 

zur Regularisierung des Modells. Die Komponenten der Vektoren y und ν sind 

wie bei der polynomialen Regression gegeben durch die Ausgabewerte der nächsten 

Nachbarn und den Koeffizienten aus (3.37) 

y = 

⎛ 

⎜ 

⎝ 

⎞ 

⎛ ⎞ 

y nn(1) 

ν 0 

⎟ 

⎜ ⎟ 

. ⎠ und ν = ⎝ . ⎠ . (3.39) 

y nn(k) ν k 

In der Matrix A stehen die Werte der radialen Basisfunktionen, ausgewertet an den 

nächsten Nachbarn x nn(1) , . . . , x nn(k) , d.h. 

⎛ 

⎞ 

g 1 (x nn(1) ) . . . g k (x nn(1) ) 

⎜ 

A = ⎝ 

. 

. .. 

⎟ . ⎠ . (3.40) 

g 1 (x nn(k) ) . . . g k (x nn(k) ) 

Die Diagonalelemente von A sind somit alle gleich dem Parameter r. Die Normalengleichung 

ist gegeben durch (3.32), nur dass hier keine Wichtungsmatrix vorhanden 

ist, d.h. 

ν = (A T A + R T R) −1 A T y . (3.41) 

Im folgenden wird die Regularisierungsmatrix R = µ 2 I gesetzt und man erhält durch 

Einsetzen der Singulärwertzerlegung die Lösung (3.33), nur dass y = y W eingesetzt 

werden muss. 

3.8 Optimierung der Modellparameter 

Es ist eine wesentliche Eigenschaft nichtparametrischer Regression, dass “Modell” 

und “Daten” keine trennbaren Begriffe sind. Dies zeigt sich auch bei den Parametern 

der lokalen Modellierung: bis auf die Parameter zur Regularisierung dienen 

sie zur Auswahl der Umgebung, in der die eigentliche Berechnung der Regression 

stattfindet. 

Im Fall des lokal konstanten Modells gibt es keine Form der Regularisierung und es 

verbleiben vier Arten von Parametern zur Wahl der Umgebung: die Zahl nächster 

Nachbarn, die Form der Wichtung, die Metrik zur Suche nach nächsten Nachbarn 

sowie die Form der Einbettung. Erschwert wird die korrekte Wahl der Parameter 

dadurch, dass sie sehr stark voneinander abhängen. Die Zahl der nächsten Nachbarn 

kann durch entsprechende Wahl der Wichtung effektiv verringert werden. Die Form 

der Umgebung wiederum wird wesentlich durch die Metrik beeinflusst, was wiederum 

direkte Auswirkung auf die nötige Zahl der nächsten Nachbarn hat.


Wahl der Einbettung 

Im Falle der Modellierung von Zeitreihen steht an erster Stelle die Einbettung 

mit den Parametern d (Einbettungsdimension) und τ (Delay). Über die optimale 

Wahl dieser Parameter sind zahlreiche Untersuchungen durchgeführt worden; für 

eine Übersicht verschiedener Methoden zur Ermittlung der optimalen Einbettungsparameter 

sei auf [10] verwiesen. Diese Methoden zielen meist darauf, eine Rekonstruktion 

des Attraktors mit einer minimalen Einbettungsdimension zu erreichen; 

dies muss allerdings nicht die optimale Wahl für das Problem der Modellierung sein. 

Die Problematik der korrekten Wahl der Einbettungsparameter kann aber insofern 

vereinfacht werden, als dass es für die Modellierung wesentlich ist, das Produkt der 

beiden Parameter 

ω = d · τ (3.42) 

korrekt zu wählen. Insofern ω groß genug und d nicht zu klein gewählt wird, können 

durchaus verschiedene Kombinationen von (d, τ) ähnlich gute Ergebnisse bei der 

Modellierung liefern (siehe [20],[22]). McNames empfiehlt, die Delay-Zeit möglichst 

klein zu wählen, da kleinere Delay-Zeiten eine bessere Abschätzung des integrierten 

quadratischen Fehlers erlauben [24]. Dies führt zwar zu entsprechend großen Einbettungsdimensionen, 

aber es zeigt sich, dass sich trotz des “Fluch der Dimensionen” 

hierdurch die besten Ergebnisse erzielen lassen 4 . Letztlich sollte die Qualität der Vorhersage 

über die Wahl der Einbettung entscheiden, weshalb die beiden Parameter 

(d, τ) anhand des Vorhersagefehlers optimiert werden. 

Zyklische Optimierung 

Es stellt sich die Frage, wie die Parameter der lokalen Modellierung geeignet optimiert 

werden können. Als Kriterium für die Güte eines Modells bietet sich der normierte 

Mehrschritt-Vorhersagefehler (2.13) an (NMSE), der in Abschnitt 2.4 vorgestellt 

wurde. Ein Problem hierbei ist, dass die Berechnung dieser Fehlergröße gerade 

bei größeren Datensätzen und aufwändigeren Modellen (lokal linear, lokale RBF) sowie 

vielen iterativen Schritten zeitaufwändig ist. Langsam konvergierende genetische 

Algorithmen oder das Simulated Annealing kommen daher nicht in Frage, obwohl sie 

sich für dieses Problem anbieten würden, da häufig lokale Minima auftreten. Auch 

Gradienten-basierte Verfahren können höchstens für die Optimierung der Metrik und 

der Regularisierung verwendet werden; alle anderen Größen sind ganzzahlig und lassen 

keine Berechnung eines Gradienten zu. Aber auch Optimierungsverfahren ohne 

4 McNames empfiehlt ebenso, bei grob abgetasteten Zeitreihen ein Upsampling durch Interpolation 

der Daten durchzuführen. Ob dies i.A. tatsächlich die Genauigkeit der Vorhersage erhöht 

erscheint allerdings fraglich, da hierdurch die nächsten Nachbarn extrem dicht beieinander liegen.

Seite 64 

3.8. Optimierung der Modellparameter 

Gradienten wie z.B. die Methode nach Powell [30] konvergieren in den meisten 

Fällen zu langsam und lassen sich nur bei relativ kleinen Datensätzen verwenden. 

Eine einfache Möglichkeit ist die zyklische Optimierung, bei der einfach alle Parameter 

nacheinander optimiert werden [22]. Für jeden Parameter wird ein gewisses 

Intervall vorgegeben, aus dem in linear oder logarithmisch skalierten Abständen verschiedene 

Werte des Parameters gewählt werden. Nach jedem Durchlauf wird dieses 

Intervall verkleinert. Natürlich hat dieses Verfahren durchaus gravierende Nachteile: 

es ist anfällig für lokale Minima und es berücksichtigt nicht die Abhängigkeit der 

Parameter untereinander. Aus Gründen der Laufzeit ist es aber mit dem Stand heutiger 

Rechner das einzig praktikable. In einigen Jahren dürfte es aber kein Problem 

sein, auch komplexere Algorithmen wie z.B. das oben erwähnte Simulated Annealing 

für dieses Problem zu verwenden. 

Um die Rechenzeit weiter zu verkürzen, wird der NMSE nicht über alle Punkte des 

Datensatzes berechnet, sondern eine zufällige Teilmenge gewählt. Sie darf natürlich 

nicht zu klein gewählt werden, ansonsten ist das Ergebnis nicht mehr repräsentativ 

für den gesamten Datensatz. Die Teilmenge wird für jeden zu optimierenden Parameter 

neu gewählt, um ein Overfitting auf eine Untermenge des Datensatzes zu 

vermeiden. 

Algorithmus 

Das Vorgehen der Optimierung ist wie folgt: 

1. Zunächst ist bis auf Einbettungsdimension und Delay ein Startwert für jeden 

Parameter festzulegen, der möglichst konservativ gewählt werden sollte, damit 

das Modell nicht gänzlich versagt. Weiterhin ist eine Schrittweite p für den 

NMSE vorzugeben. 

2. Für jeden Parameter P ist ein Startintervall [P min , P max ] anzugeben, in dem 

der Parameter variiert wird. Weiterhin muss festgelegt werden, wie fein die 

Unterteilung dieses Intervalls sein soll und ob sie linear oder logarithmisch 

erfolgt. Zusätzlich muss angegeben werden, ob der Parameter ganzzahlig sein 

muss oder nicht. 

3. Die Parameter werden nun nacheinander innerhalb der vorgegeben Intervalle 

optimiert. Im Falle von Zeitreihen steht an erster Stelle die Einbettung. Hierzu 

werden Kombinationen von Delay und Dimension aus den vorgegebenen Intervallen 

verwendet und der NMSE berechnet. Meist reicht es, den Delay auf 

kleine Werte zu beschränken. 

4. Nun erfolgt die Optimierung der anderen Parameter, wobei folgende Reihenfolge 

verwendet wurde: Zahl nächster Nachbarn, Regularisierung, evtl. Parameter


r oder σ für radiale Basisfunktionen, Wichtung, Metrik. Vor jedem neuen Parameter 

wird eine neue zufällige Teilmenge der Daten gebildet. 

5. Nach dem kompletten Durchlauf aller Parameter werden die Intervalle exponentiell 

oder linear verkleinert. Nach dem ersten Durchlauf sollte dies allerdings 

unterlassen werden, um evtl. schlecht gewählte Startwerte zu korrigieren. 

6. Falls seit dem letzten Durchlauf keine nennenswerte Verbesserung der Vorhersage 

erzielt werden konnte ist die Optimierung abzubrechen. Ansonsten gehe 

zu Punkt 3. 

Dieser einfache Algorithmus liefert zwar meist nicht optimale, aber zumindest gute 

Ergebnisse für die Modellierung. Auch mit lokalen Modellen gänzlich unerfahrene 

Benutzer können mit Hilfe dieser Optimierung gute Modelle erhalten. Zwar müssen 

vor Beginn der Optimierung gewisse Startwerte vorgegeben werden, dies stellt allerdings 

in den meisten Fällen kein Problem dar, da sich für jeden Modelltyp allgemeine 

“konservative” Parameterwerte finden lassen, die als Startpunkt zur Optimierung 

dienen können. Problematisch wird es bei Datensätzen mit sehr wenig Datenpunkten, 

da hier zahlreiche lokale Minima auftreten, die letztlich zu wenig geeigneten 

Parameterkonfigurationen führen können. In solchen Fällen ist eine manuelle Wahl 

der Parameter vorzuziehen. 

3.9 Zeitliche Variation der Parameter 

Es wurde bereits erwähnt, dass es bei der iterativen Mehrschritt-Vorhersage von 

Zeitreihen wichtig ist, dass die Parameter des Modells auch auf die Mehrschritt- 

Vorhersage hin optimiert werden. Ein Modell, dessen Parameter für die Ein-Schritt- 

Vorhersage optimiert ist, wird bei iterativer Anwendung ein schlechteres Ergebnis 

zeigen, da es die akkumulierenden Fehler nicht berücksichtigt. 

Aber warum soll man für jeden einzelnen Schritt der Mehrschritt-Vorhersage dasselbe 

Modell verwenden, obwohl doch der Fehler der Anfragepunkte für die ersten 

Schritte gering ist und erst später anwächst Es ist daher sinnvoll, für die ersten 

paar Zeitschritte ein Modell zu nehmen, dass noch mehr “Vertrauen” in die Güte 

der Anfragepunkte hat, während darauf folgende Modelle etwas “kritischer” sein 

sollten. Der wesentliche Parameter ist hierbei die Regularisierung; im Falle der hier 

verwendeten TPCR mit Soft-Threshold ist vor allem der Parameter s c aus (3.29) 

und (3.30) wesentlich. Der Parameter sollte für die ersten Zeitschritte eher klein 

gewählt werden und mit der Zeit anwachsen. 

Um diesen Vorgang zu automatisieren lässt sich wieder der zyklische Optimierungsalgorithmus 

aus Abschnitt 3.8 verwenden. Der Algorithmus für einen Datensatz der 

Länge N lautet wie folgt:

Seite 66 

3.9. Zeitliche Variation der Parameter 

1. Wähle ein Intervall ∆p, in das die gewünschte Vorhersagedauer p unterteilt 

werden soll (im Folgenden wird davon ausgegangen, dass p/∆p ganzzahlig ist). 

Setze die Zählvariable j = 0. 

2. Optimiere die Parameter des lokalen Modells für die Vorhersage von T a = 0 bis 

T e = ∆p und speichere die erhaltenen Parameter P 0 ab. Für jeden einzelnen 

Punkt x i des Datensatzes speichere die vom optimalen Modell vorhergesagten 

Werte in einem Vektor v i . 

3. Setze T a = T a + ∆p, T e = T e + ∆p und j = j + 1. Falls T a > p ist der 

Algorithmus abzubrechen. 

4. Optimiere die Parameter des lokalen Modells für die Vorhersage von T a bis T e , 

allerdings auch unter Verwendung der bereits von den vorherigen Modellen 

vorhergesagten Werte v i , i = 1, . . . , N. Speichere die so erhaltenen optimalen 

Parameter in P j . Für jeden Punkt x i , i = 1, . . . , N des Datensatzes berechne 

anhand des optimalen Modells die Vorhersagen von T a bis T e und hänge diese 

jeweils an den Vektor v i an. 

5. Springe zu 3. 

Das endgültige Modell setzt sich somit aus p/∆p einzelnen Modellen zusammen mit 

den Parameterwerten P i und i = 1, . . . , p/∆p. 

Als Beispiel wurde das System von Baier und Sahle verwendet, welches eine Verallgemeinerung 

des Rössler-Systems darstellt [4]. Es ist gegeben durch das Differentialgleichungssystem 

ẋ 1 = −x 2 + ax 1 

ẋ i = x i−1 − x i+1 mit i = 2, . . . , M − 1 

ẋ M = ε + bx M · (x M−1 − d) , 

(3.43) 

wobei als Parameter a = 0.28, b = 4, d = 2, ε = 0.1 gewählt wurden. Der Parameter 

M steuert die Dimensionalität des Systems und muss ungeradzahlig gewählt werden; 

mit M ≥ 5 ergibt sich ein hyperchaotisches System. 

In diesem Beispiel wurde M = 5 gewählt und zunächst mit dem vorgestellten Optimierungsalgorithmus 

die Vorhersage für p = 40 Zeitschritte optimiert. Als Unterteilung 

wurde ∆p = 10 gewählt. Hier wurde nun ausschließlich der Parameter s c 

optimiert, während alle andere Parameter konstant gehalten wurden. Dieser variierte 

von s c = 7, 5 · 10 −5 für die Zeitschritte von 0 bis 10 zu s c = 0.05 für die Zeitschritte 

von 30 bis 40. Das so erhaltene Modell, dass sich aus den vier unterschiedlichen 

Einzelmodellen zusammensetzt, brachte um 8% bessere Ergebnisse.


3.10 Suche nach nächsten Nachbarn 

Ein großer Vorteil lokaler Modelle ist ihre Effizienz. Sie rührt natürlich daher, dass 

das eigentliche Modell nur anhand sehr weniger Trainingspunkte, eben den nächsten 

Nachbarn, berechnet werden muss. Aber bei dieser Argumentation lässt man den 

eigentlich wichtigsten Punkt in Bezug auf die Laufzeitbetrachtung unter den Tisch 

fallen: wie findet man möglichst schnell die nächsten Nachbarn eines Punktes 

Das Problem ist folgendermaßen definiert: Gegeben sei eine Menge von Punkten 

M = {x 1 , . . . , x n } mit x i ∈ R d , ∀i, eine Metrik ‖ · ‖ sowie ein Anfragepunkt q ∈ R d . 

Gesucht sind die k Punkte aus M, die bezüglich der gegebenen Metrik die geringste 

Distanz zum Anfragepunkt q haben. 

Die Suche nach nächsten Nachbarn ist mittlerweile Kern zahlreicher Algorithmen, 

insb. in Gebieten wie Data Mining, Mustererkennung, Klassifikation, Machine Learning, 

Datenkompression und Statistik [21]. Es ist ein sehr komplexes Problem und 

es gibt nicht den besten Algorithmus zur Suche nach nächsten Nachbarn; vielmehr 

hängt es vom Anwendungsfall ab, welcher Algorithmus am schnellsten arbeitet. Hierbei 

sind mehrere Parameter entscheidend, insb. die Dimension d des Raumes, die 

Anzahl n der Punkte und ihre Verteilung im Raum, sowie die verwendete Metrik 

und die Verteilung der Anfragepunkte q i . 

Jeder Algorithmus zur Suche nach nächsten Nachbarn muss sich zunächst mit dem 

sog. Brute-Force Ansatz messen. Hierbei werden einfach alle Distanzen zwischen 

Anfragepunkt und den restlichen Punkten des Datensatzes berechnet und die k 

Punkte mit den geringsten Distanzen zurückgegeben. Dieses Verfahren benötigt keinerlei 

Präprozessing und bis auf die Punkte selbst keinen zusätzlichen Speicherplatz, 

hat jedoch eine Laufzeit von O(nd) für alle L p -Distanzen. Bei Verwendung solcher 

L p -Distanzen ist bei höherdimensionalen Problemen eine Beschleunigung durch Verwendung 

des sog. Partial Distance Search (PDS) möglich, wo die Berechnung der 

Distanz abgebrochen wird, sobald diese größer wird als die des bislang gefundenen 

letzten nächsten Nachbarn. Durch PDS kann natürlich jeder Algorithmus zur Suche 

nächster Nachbarn beschleunigt werden, der L p -Distanzen verwendet. 

Die meisten effizienten Algorithmen zur Suche nach nächsten Nachbarn basieren auf 

einer hierarchischen Zerlegung der Punktmenge, die meist in einem Suchbaum als 

Datenstruktur gespeichert wird. Diese Zerlegung wird in einem Präprozessing durchgeführt; 

die Suche selbst findet dann auf diesem Suchbaum statt. Es gibt zahlreiche 

Methoden zur Zerlegung der Punktmenge und zur Bildung einer geeignete Datenstruktur. 

Im folgenden sollen zunächst Algorithmen auf Basis von k-d-Bäumen vorgestellt 

werden, da sie zu den ältesten und populärsten Methoden gehören und viele 

andere Algorithmen zur Suche nächster Nachbarn diesen im Prinzip ähneln. Daran 

anschließend wird der ATRIA-Algorithmus vorgestellt, der in dem Programmpaket 

TSTOOL [15] integriert ist und der auch für diese Arbeit verwendet wurde.

Seite 68 

3.10. Suche nach nächsten Nachbarn 

k-d-Bäume 

Der k-d-Baum ist eine Datenstruktur, die als Verallgemeinerung des binären Suchbaums 

1975 von Bentley eingeführt wurde (siehe [6]); die Abkürzung “k-d” ist 

hierbei als “k-dimensional” zu verstehen 5 . 

Ein k-d-Baum ist zunächst einmal ein binärer Suchbaum: zu jedem Knoten P existieren 

maximal zwei Söhne; diese sind als Pointer LS(P ) und RS(P ) im Knoten 

von P gespeichert. Hierbei sind diese Pointer so zu verstehen, dass sie den gesamten 

Teilbaum links bzw. rechts des Knotens P repräsentieren. Im Gegensatz zum 

normalen binären Suchbaum, wo jeder Knoten genau einen Schlüssel trägt, trägt 

beim k-d-Baum jeder Knoten k verschiedene Schlüssel K 0 (P ), . . . , K k−1 (P ). Weiterhin 

trägt jeder Knoten eine ganzzahlige Dimensionsangabe D(P ) zwischen 0 und 

k − 1, den sog. Diskriminator. Die Anordnung der Knoten erfüllt nun folgende Regel: 

Sei j = D(P ) der Diskriminator eines Knotens P im k-d-Baum, dann gilt für 

alle Knoten U im Teilbaum LS(P ), dass K j (U) < K j (P ) und für alle Knoten V im 

Teilbaum RS(P ) gilt K j (V ) > K j (P ). Sollten zwei Schlüssel gleich sein, werden die 

restlichen Schlüssel als Vergleichsobjekte herangezogen (für Details siehe [6]). 

Für die Anwendung der Suche nach nächsten Nachbarn sind die Schlüssel eines 

Knotens K 0 (P ), . . . , K k−1 (P ) Komponenten eines k-dimensionalen Vektors; jeder 

Knoten im k-d-Baum trägt somit einen Punkt x ∈ R k . Alle Punkte aus Knoten U 

im Teilbaum LS(P ) sind somit bezüglich der Komponente j = D(P ) kleiner als P . 

In Abbildung 3.11 ist dies für den Fall des 2-d-Baumes gezeigt, einmal in räumlicherund 

einmal in Graph-Darstellung. Der Knoten A ist die Wurzel des Baumes, für seine 

Söhne gelte die x-Komponenten als Vergleichskriterium: Alle Knoten im linken 

Teilbaum von A (also B,D,E und G) liegen links von A, die anderen rechts. Ausgehend 

von den Söhnen von A, nämlich B und C, gilt nun die y-Komponente als 

Vergleichskriterium: alle Knoten im linken Teilbaum von B liegen unterhalb, der 

Knoten E im rechten Teilbaum oberhalb. Analog verhält es sich beim Knoten C, 

wo der Knoten F im rechten Teilbaum liegt und somit oberhalb von C. 

Der eigentliche Trick liegt somit darin, dass mit jedem Knoten nicht nur ein Punkt, 

sondern auch gleichzeitig ein k-dimensionaler Quader des Raumes verknüpft ist, 

dessen Kanten durch die Vorgängerknoten bestimmt wird. Jeder nicht-terminale 

Knoten eines k-d-Baumes ist somit Wurzel eines Teilbaumes, der alle Punkte eines 

bestimmten Quaders enthält; die Wurzel des Baumes umfasst als einziger Knoten 

den gesamten Raum. Der k-d-Baum liefert somit eine hierarchische räumliche Aufteilung 

der Punkte. In der Praxis ist es aus Gründen der Laufzeit sinnvoll, eine 

minimale Anzahl L an Punkten vorzugeben, ab der keine Aufteilung mehr vorgenommen 

werden soll. Diese Punktmengen mit einer Punktzahl kleiner als L laden 

in den terminalen Knoten des Baumes; sie werden meist als Buckets bezeichnet. 

5 Um dem Begriff “k-d-Baum” Genüge zu tun, wird in diesem Abschnitt die bisherige Notation 

fallengelassen, die mit d die Dimension und mit k die Zahl nächster Nachbarn bezeichnet.

£¢ £ 

¢ 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


(0,100) (100,100) 

E(40,85) 

¨ 

©¨ 

© 

 

 

 

F(70,85) 

G(10,60) 

¤ 

¥¤ 

¥ 

A 

¡ 

¡ 

A(50,50) 

B 

C 

¦ 

§¦ 

§ 

D(25,20) 

D E F 

y 

C(80,15) 

(0,0) 

x 

 

(a) 

 

 

 

G 

(100,0) 

(b) 

B(10,70) 

 

Abbildung 3.11: Beispiel für k-d-Baum in räumlicher Darstellung (a) und als binärer 

Baum (b). 

Ist eine Punktmenge erstmal in solch einer Datenstruktur gespeichert, gestaltet sich 

die Suche nach m nächsten Nachbarn zum Anfragepunkt q recht einfach. Man verwendet 

zusätzlich zum k-d-Baum eine Liste D, die die bislang gefundenen m nächsten 

Punkte verwaltet, wobei diese nach den Distanzen d 1 , . . . , d m = d max sortiert 

ist. Beginnend mit der Wurzel wird rekursiv eine Funktion aufgerufen, die folgendes 

ausführt: 

• Falls ein terminaler Knoten (Bucket) angetroffen wird, werden alle Distanzen 

zwischen q und den dort vorhandenen Punkten berechnet und die Liste D 

entsprechend aktualisiert. Dies entspricht dem oben erwähnten Brute-Force 

Ansatz. 

• Immer wenn man einen Knoten antrifft dessen Punkt näher an q liegt als d max , 

wird dieser in die Liste eingefügt. Die Funktion wird dann rekursiv für den 

Sohn aufgerufen, in dessen Teilbaum der Anfragepunkt q liegt. 

• Falls nach Rückkehr aus dieser Funktion die Kugel mit Radius d max um den 

Anfragepunkt q mit dem Bereich des anderen Sohnes überlappt, muss auch 

dieser rekursiv aufgerufen werden. 

• Die Rekursion endet, falls diese Kugel komplett innerhalb der Grenzen des 

Knotens liegt. 

Die Effizienz des k-d-Baumes hängt von verschiedenen Parametern ab. Zunächst ist 

die Frage, wie man jeweils einen Punkt und den Diskriminator wählen soll, anhand

Seite 70 

3.10. Suche nach nächsten Nachbarn 

derer die Aufteilung des Raumes geschieht. Als natürlichen k-d-Baum bezeichnet 

man, wenn die Punkte zufällig und für den Diskriminator eine Modulo-Funktion 

verwendet wird, d.h. D(P ) = i mod k, wobei i die Ebene des Baumes ist, in der 

sich der Knoten P befindet. Der Diskriminator wird somit in aufsteigender Reihenfolge 

vergeben, beginnend mit 0 bei der Wurzel bis zur Ebene k, bei der dann 

der Zyklus erneut mit 0 beginnt. Um einen sog. optimalen k-d-Baum aufzubauen, 

wird der Punkt im Knoten P und der Diskriminator D(P ) so gewählt, dass in den 

sich ergebenden Teilmengen etwa gleich viele Punkte liegen [12]. Es gibt noch weitere 

Verfeinerungen zur Wahl des Punktes und Diskriminators eines k-d-Baumes, 

die insb. sehr ungleich verteilte Punktmengen berücksichtigen (z.B. das sog. Sliding 

Midpoint Verfahren; eine Übersicht findet sich in [21]). 

Unter gewissen Voraussetzungen (für Details siehe [12]) ist die Laufzeit zum Aufbau 

des k-d-Baumes (Präprozessing) O(k·n log n) und es wird O(n) zusätzlicher Speicher 

benötigt. Für die Suche nach m nächsten Nachbarn gilt O(log n), also unabhängig 

von k. Diese letzte Aussage ist aber mit Vorsicht zu genießen, insb. für normalund 

gleichverteilte Punkte steigt die Zeit zur Suche nächster Nachbarn deutlich mit 

wachsender Dimension, im hochdimensionalen Fall sogar exponentiell (vgl. [23]). Der 

Grund hierfür liegt im “Fluch der Dimensionen” (siehe Abschnitt 2.2). Die Größen 

der Abstände der nächsten Nachbarn nähern sich immer weiter an, weshalb bei 

der Suche nächster Nachbarn im k-d-Baum immer mehr Knoten aufgesucht werden 

müssen. Für hohe Dimensionen ist daher ein Brute-Force Ansatz bei gleich- oder 

normalverteilten Punkten häufig schneller, da hier die Zeit für das Präprozessing 

entfällt. 

Glücklicherweise hat man es aber gerade bei der Zeitreihenanalyse häufig mit Daten 

zu tun, die auf einer Untermannigfaltigkeit des Raumes liegen, deren Dimension 

meist deutlich geringer als die des Einbettungsraumes ist. Es zeigt sich, dass die 

meisten Algorithmen zur Suche nächster Nachbarn weitaus stärker von der Dimension 

dieser Mannigfaltigkeit abhängt als von der Dimension des Einbettungsraumes. 

Besonders gut skaliert hierbei der sog. ATRIA, der von Merkwirth in [25] vorgestellt 

wird und der auch für diese Arbeit verwendet wurde. 

ATRIA 

Der ATRIA (Advanced Triangle Inequality (Based) Algorithm) erstellt ebenfalls 

einen binären Suchbaum in einem Präprozessing, der dann später für die Suche 

nächster Nachbarn verwendet wird. Der Vorteil des ATRIA gegenüber dem k-d- 

Baum ist, dass er bei der Bildung des Suchbaumes direkt eine Aufteilung der Datenpunkte 

in sog. Cluster vornimmt, während sich dies beim k-d-Baum mehr als 

eine indirekte Folge aus der Aufteilung des Datenraumes in Quader ergab. Der 

ATRIA passt sich so automatisch der gegebenen Verteilung der Datenpunkte an. 

Jeder Knoten des Suchbaumes repräsentiert einen Cluster, wobei dieser charakte-


risiert ist durch einen zentralen Punkt c und dem minimalen Radius R, der nötig 

ist, um alle Punkte des Clusters zu überdecken. Beim Übergang von einer Ebene 

des Suchbaumes zur nächsten wird jeder Cluster in zwei Subcluster geteilt, die die 

Söhne der jeweiligen Knoten bilden. 

Die Teilung eines Clusters erfolgt hierbei nach folgenden Schema: Suche zunächst 

den Punkt c r mit maximalem Abstand zum zentralen Punkt c (ist der aktuelle 

Knoten die Wurzel, so wähle einen zufälligen Punkt als zentralen Punkt). Anschließend 

suche den Punkt c l mit maximalem Abstand zu c r . Diese Punkte c l und c r 

bilden die zentralen Punkte des linken bzw. rechten Sohnes. Alle weiteren Punkte 

des momentanen Clusters werden nun dem linken oder rechten Sohn zugesprochen, 

je nachdem ob sie näher an c l oder näher an c r liegen. Für die beiden Subcluster 

muss anschließend der minimale Radius R berechnet werden. Die Aufteilung der 

Knoten wird fortgesetzt, bis die Anzahl der Punkte in einem Cluster eine minimale 

Punktzahl L unterschreitet. Diese Cluster sind dann die terminalen Knoten des 

Suchbaums. Für diese terminalen Knoten werden alle Distanzen der Punkten zum 

zentralen Punkt berechnet und gespeichert. 

Für die Suche nach nächsten Nachbarn wird wieder eine nach den Distanzen sortierte 

Liste D = (d 1 , . . . , d m = d max ) eingeführt, die die Distanzen der bislang besten m 

nächsten Nachbarn speichert. Es wird nun wie beim vorherigen Algorithmus der 

Suchbaum rekursiv durchlaufen. Ein Cluster i wird ausgeschlossen, falls gilt 

d max < ˆd min (i) , (3.44) 

wobei ˆd min eine untere Schranke für die Distanz vom Anfragepunkt zu einem beliebigen 

Punkt des Clusters ist. Dieser Wert kann nicht exakt berechnet werden, aber 

es ist möglich, zumindest drei verschiedene untere Schranken für ˆd min zu erhalten, 

wobei der Cluster-Radius R, der Abstand zwischen Cluster i und seinem Bruderknoten, 

sowie die Tatsache ausgenutzt wird, dass ˆd min nicht kleiner sein kann als der 

Wert des Vaterknotens (für Details siehe [26]). Das Maximum dieser drei Werte wird 

in (3.44) eingesetzt. Trifft man auf einen terminalen Knoten, so werden alle Punkte 

x ausgeschlossen für die gilt 

d max < ‖d(c i , q) − d(c i , x)‖ . (3.45) 

Die hierfür nötigen Distanzen d(c i , x) wurden bereits während des Präprozessings 

berechnet. Der ATRIA kann ebenfalls durch Verwendung des Partial Distance Search 

beschleunigt werden. Die Laufzeit hängt wesentlich von der Dimension der Punktmenge 

ab und ist meist niedriger als bei Algorithmen auf Basis von k-d-Bäumen 

[26]. Zudem hat der ATRIA den Vorteil, mit beliebigen Metriken arbeiten zu 

können. So können durch Verwendung von sog. Kernfunktionen, die in Abschnitt 

4.1.2 noch näher besprochen werden, auch nächste Nachbarn in hochdimensionalen

Seite 72 

3.11. Vergleich lokaler Modelle mit globalen Modellen 

Merkmalsräumen berechnet werden, ohne dass hierzu die Punkte explizit in diese 

abgebildet werden müssen. 

3.11 Vergleich lokaler Modelle mit globalen Modellen 

In diesem Abschnitt sollen lokale und globale Modelle gegenübergestellt und ihre 

Vor- und Nachteile näher betrachtet werden. 

Rechenaufwand 

Bei globalen Modellen sind die eigentliche Bildung des Modells und die Berechnung 

einer Modellausgabe für einen Anfragepunkt zwei voneinander getrennte Vorgänge. 

Für die Bildung ist ein zeitaufwändiges Präprozessing in Form eines Trainings auf 

den gegebenen Datensatz nötig, wo eine Termauswahl durchgeführt und die zugehörigen 

Parameter geschätzt werden. Ist ein globales Modell erst einmal für einen 

konkreten Datensatz gebildet worden, ist die Berechnung der Modellausgaben extrem 

schnell, da das Modell in einer kompakten geschlossenen Form vorliegt. 

Lokale Modelle hingegen haben als Präprozessing zunächst nur den Aufbau der 

Datenstruktur zur Nachbarsuche, ansonsten ist im Prinzip keinerlei Vorarbeit für 

die Bildung des Modells notwendig. Berechnung der Modellausgabe und Bildung 

des Modells sind hier nicht trennbar. Lokale Modelle benötigen den überwiegenden 

Teil der Rechenzeit für die Suche nach nächsten Nachbarn. Die hierfür verwendete 

ATRIA-Algorithmus skaliert im wesentlichen mit der Dimension der Datenpunkte 

(siehe Abschnitt 3.10). 

Es wird aber gerne vernachlässigt, dass auch lokale Modelle Parameter besitzen, die 

korrekt gewählt werden müssen. Sind bereits Merkmale des Datensatzes bekannt wie 

Dimension und Signal-Rausch-Abstand, kann ein mit lokalen Modellen erfahrener 

Benutzer häufig wenigstens akzeptable Parameter schätzen. Ist jedoch nichts über 

den Datensatz bekannt oder eine möglichst genaue Vorhersage nötig, so müssen die 

Parameter optimiert werden wie in Abschnitt 3.8 beschrieben. Dieses Verfahren ist 

ähnlich zeitaufwändig wie eine Termauswahl bei globalen Modellen, allerdings stark 

abhängig von der Größe des Datensatzes und dem verwendeten Modell. 

Validierung 

Für die Vermeidung von Overfitting muss bei globalen Modellen die Cross-Validation 

eingesetzt werden, die jedoch zu einer Erhöhung des Bias des Modells führt. Lokale 

Modelle können diesen Bias durch Verwendung der LOO-CV minimieren. Die


Durchführung der LOO-CV an sich ist mit keinem zusätzlichen Aufwand für das 

Modell verbunden, da einfach nur die zu modellierenden Datenpunkte aus dem Datensatz 

entfernt werden müssen. Bei der Validierung ist somit das lokale Modell 

gegenüber dem globalen im Vorteil. 

Flexibilität 

Bei lokalen Modellen ist der Prozess der Modellierung nie abgeschlossen, da erst 

konkrete Anfragepunkte zur Berechnung des Modells führen. Dieses Prinzip ist einerseits 

unflexibel, weil es nicht möglich ist, das Modell in geschlossener Form niederzuschreiben 

oder weiterzugeben, da der Datensatz untrennbarer Teil des Modells 

ist. Andererseits hat dies wie bereits erwähnt den Vorteil, dass kein Training des 

Modells nötig ist und mit etwas Erfahrung zumindest die Vorhersagbarkeit eines 

gegebenen Datensatzes auch ohne Optimierung der Parameter schnell abgeschätzt 

werden kann. Globale Modelle hingegen müssen in jedem Fall zunächst trainiert 

werden. 

Ein großer Vorteil des lokalen Modells ist die Art der Parameter, über die sich 

direkt wesentliche Eigenschaften des Modells einstellen lassen (z.B. die Zahl nächster 

Nachbarn zur Steuerung von Bias und Varianz, Wichtung steuert Glätte, Metrik 

die Form der Umgebung). Somit lassen sich wesentliche Elemente der Modellierung 

praktisch in Echtzeit während der Modellierung ändern. Die Parameter globaler 

Modelle haben meist keine solch anschaulichen Bedeutungen und die Änderungen 

an diesen Parametern haben weit weniger berechenbare Folgen. 

Genauigkeit 

Ob ein globales oder lokales Modell bessere Ergebnisse liefert hängt i.A. von zwei 

wesentlichen Faktoren ab: vom gegebenen Datensatz und von der Erfahrung des Benutzers 

mit dem Modell. Dieser letzte Punkt, auch als Expert Bias bezeichnet [22], 

wird beim Vergleich verschiedener Modelltypen gerne übersehen, was dazu führt, 

dass sich meist das Modell als “überlegen” herausstellt, mit dem der Benutzer die 

meisten Erfahrungen sammeln konnte. Ein Ausweg bieten Wettbewerbe zur Vorhersage 

von Zeitreihen, wie sie 1991 vom Sante Fe Institut und 1998 von der K.U. Leuven 

veranstaltet wurden (siehe [44] bzw. [39]). Beim Santa-Fe-Wettbewerb wurden 

mehrere Zeitreihen zur Verfügung gestellt, wobei aber die eines Lasers die meiste Beachtung 

fand. Hier gewann ein globaler Ansatz (Neuronales Netz), aber dicht gefolgt 

von einem lokal linearen Modell. Im zweiten Fall war nur eine künstlich generierte 

unverrauschte Zeitreihe eines chaotischen Systems gegeben; hier gewann McNames 

mit einem lokal konstanten Modell [24]. 

Aber auch die Ergebnisse der Wettbewerbe sollten nicht überbewertet werden, da 

hier ausschließlich die Vorhersage der Zeitreihe bewertet wird, d.h. die Modellie-

Seite 74 

3.11. Vergleich lokaler Modelle mit globalen Modellen 

rung ausgehend von einem einzigen Punkt. Besser wäre ein Fehlermaß, welches die 

Vorhersagequalität über den gesamten Datensatz bewertet, wie z.B. der mittlere 

Vorhersagehorizont oder der in dieser Arbeit verwendet NMSE. Letzterer basiert 

aber auf der LOO-CV und kann mit globalen Modellen praktisch nicht berechnet 

werden. Zudem müsste bei beiden Fehlermaßen der Wettbewerb “unter Aufsicht” 

stattfinden, da die zu modellierenden Punkte innerhalb des Datensatzes natürlich 

bekannt sind. 

Vorsichtig formuliert kann man aber sagen, dass in der Regel lokale Modelle wenigstens 

ebenso gute Ergebnisse erzielen können wie globale Modelle. 

Geschlossenheit und physikalische Interpretation 

Gerade Physiker stehen lokalen Modellen häufig skeptisch gegenüber, weil diese kein 

geschlossenes Modell für den gesamten Datensatz geben können und somit anhand 

des Modells auch keine Rückschlüsse auf den zugrunde liegenden physikalischen 

Prozess liefern können. Allerdings muss bezweifelt werden, inwieweit die kompakten 

und geschlossenen globalen Modelle tatsächlich “physikalische Realität” wiedergeben. 

Zwar kann z.B. mit einem einfachen globalen polynomialen Modell die 

Hénon-Abbildung anhand einer (unverrauschten) Zeitreihe exakt rekonstruiert werden, 

allerdings ist dies ein konstruiertes Beispiel. Selbst wenn man in der Lage wäre, 

mit einer Messung eine ideale unverrauschte Zeitreihen zu erhalten, hat man es üblicherweise 

mit Systemen zu tun, die mit Polynomen oder radialen Basisfunktionen 

immer nur approximiert, aber nicht exakt beschrieben werden können. Hier liefert 

ein geschlossenes globales Modell somit ebensowenig physikalisch verwertbare Informationen 

wie ein lokales Modell, auch wenn die geschlossene Darstellung dies 

suggerieren mag. 

Mit der physikalischen Interpretation verknüpft ist die Frage nach der Verallgemeinerungsfähigkeit 

des Modells: Inwieweit können Aussagen über Anfragepunkte 

gestellt werden, die von den Trainingspunkten weit entfernt liegen 

Beim lokalen Ansatz gilt: “Wo keine Datenpunkte, da auch kein gültiges Modell”. 

Das Verhalten lokaler Modelle weit außerhalb von Trainingspunkten hängt vom verwendeten 

Modelltyp ab: Während lokal konstante Modelle immer durch den Wertebereich 

der nächsten Nachbarn beschränkt sind und daher außerhalb von Trainingspunkten 

konstante Werte im Intervall der Ausgabe der nächsten Nachbarn liefern, 

neigen Modelle höheren Grades dazu, sehr schnell zu divergieren, falls diese nicht 

passend regularisiert werden. Daher ist in Bereichen außerhalb von Trainingspunkten 

prinzipiell das lokal konstante Modell vorzuziehen, allerdings liefert bei guter 

Regularisierung auch das lokal lineare Modell ähnliche Werte. Beide Modelle liefern 

jedoch keine gültigen Aussagen mehr, da bei den Anfragepunkten schlicht keine 

Informationen zur Modellierung vorliegen.


Nun ist es nicht so, dass globale Modelle dieses Problem nicht haben: auch hier 

ist die Aussagekraft des Modells in Bereichen wo keine Trainingspunkte vorliegen 

fragwürdig. Auch neigen gerade polynomiale Modelle dazu, sehr schnell extrem große 

oder kleine Werte zu liefern, sobald man den Bereich der Trainingspunkte verlässt. 

Nur wenn das globale Modell tatsächlich den zugrunde liegenden Prozess erfasst, ist 

das Modell auch wirklich verallgemeinerungsfähig.

Kapitel 4 

Support-Vektor-Regression 

Methoden auf der Basis von Support Vektoren, in der englischen Literatur unter dem 

Begriff der Support Vector Machines (SVM) zusammengefasst, haben in den letzten 

Jahren eine Renaissance erfahren. Entwickelt wurden die SVM ursprünglich als eine 

nichtlineare Verallgemeinerung des sog. Generalized Portrait Algorithmus, der zur 

Klassifikation mit trennenden Hyperebenen dient und bereits in den 60er Jahren von 

Vapnik, Lerner und Chervonenkis entwickelt wurde. Das eigentliche Potential 

dieser Methoden blieb aber vorerst unerkannt, nicht zuletzt aufgrund mangelnder 

Kapazität damaliger Rechner. 

Ursprünglich für das Problem der Klassifikation und Mustererkennung entworfen, 

wurden in den 90er Jahren Support-Vektor-Methoden auch auf das Problem der 

parametrischen Regression ausgeweitet [41] und haben sich dort insb. bei hochdimensionalen 

Problemen bewährt [42]. Support-Vektor-Methoden sind gerade auch 

deshalb interessant, weil sie die Sichtweise der statistischen Lerntheorie auf das Problem 

der Regression übertragen: Man betrachtet die Schätzung einer Regression als 

Lernprozess über den gegebenen Ein- und Ausgangsdaten. Um hierbei ein Overfitting 

zu vermeiden, werden die zur Modellierung verwendeten Methoden hinsichtlich 

ihrer Komplexität ausgewählt, und zwar so, dass diese gerade ausreichend für die 

Beschreibung des gegebenen Problems ist. Dies wird als strukturelle Risikominimierung 

bezeichnet. Ein Maß für die Komplexität einer solchen “Lernmaschine” ist 

durch die sog. VC-Dimension gegeben, die jedoch für das Regressionsproblem nicht 

die Bedeutung hat wie für die Klassifikation (für eine Begründung siehe [36]). Sie 

soll daher in dieser Arbeit nicht näher erläutert werden. Interessierte seien auf [41], 

[16] sowie [9] verwiesen. 

Da sich die SVR bei globalen Problemen als vielversprechend erwiesen hat, liegt es 

nahe, diese Methoden auch lokal anzuwenden. Die hierzu nötige Theorie soll nun 

erläutert werden. 

76

Kapitel 4. Support-Vektor-Regression Seite 77 

4.1 Lineare Support-Vektor-Regression 

Erneut wird vom grundlegenden Regressions-Problem wie in Kapitel 2.1 ausgegangen: 

es existiert ein Satz von Eingabevektoren x i ∈ R n und skalaren Ausgangsgrößen 

y i ∈ R 

Ω = {(x 1 , y 1 ), (x 2 , y 2 ), . . . , (x N , y N )} , (4.1) 

die eine Realisierung von zwei Zufallsvariablen darstellt, wobei die y i durch eine 

unbekannte Wahrscheinlichkeitsverteilung P (x, y) von den x i abhängen. Gesucht ist 

nach einer Funktion f(x), die das sog. Risiko-Funktional 

∫ 

R(f) = 

L(y − f(x), x) dP (x, y) (4.2) 

minimiert. Üblicherweise ist f hierbei eine Linearkombination 

f(x) = 

n∑ 

α j φ j (x) (4.3) 

j=1 

von einer Menge von Basisfunktionen (z.B. Monome, radiale Basisfunktionen, etc.), 

sodass sich das Problem auf das Auffinden des Parametervektors α = (α j ) verlagert, 

der R(f) = R(α) minimiert. Die Funktion L ist eine Kostenfunktion (Loss function), 

die Abweichungen des Modells vom tatsächlichen Wert “bestraft”. 

Da die Wahrscheinlichkeitsverteilung P (x, y) unbekannt ist, bleibt (4.2) eine theoretische 

Größe, die in der Praxis nicht berechnet werden kann. Man kann jedoch das 

empirische Risiko 

R emp = 1 N 

N∑ 

L(y i − f(x i ), x i ) . (4.4) 

i=1 

berechnen, was bislang als Kostenfunktion bezeichnet wurde. Die Modellbildung ausschließlich 

auf die Minimierung dieser Größe auszurichten führt zu einem niedrigen 

Bias und hoher Varianz. Der Schwerpunkt bei Support-Vektor-Methoden liegt auf 

dem Begriff des “Risikos”, womit auch gerade das Risiko dieses Overfittings gemeint 

ist. Während bislang diesem Risiko bei der Modellberechnung mit Regularisierung 

und beim Training durch Cross-Validation begegnet wurde, wird nun zusätzlich ein 

anderer Ansatz gewählt, der sich in der Wahl der Kostenfunktion L(η) niederschlägt.

Seite 78 

4.1. Lineare Support-Vektor-Regression 

Um den Support-Vektor-Ansatz vom Problem der Klassifikation auf das Problem der 

Regression zu übetragen, verwendet Vapnik in [41] die ε-insensitive Kostenfunktion, 

{ 0 falls |η| ≤ ε 

|η| ε ≡ 

|η| − ε sonst. 

(4.5) 

Ihre Wirkung ist, dass nur die Punkte, die einen Abstand größer als ε von der Regressionsfunktion 

haben, in die Kosten einfließen (siehe Abbildung 4.1). Alle anderen 

Punkte in diesem “ε-Schlauch” sind für die Bildung des Modells praktisch ohne 

Bedeutung. Das Modell wird dadurch robuster gegenüber dem Einfluss von Rauschen 

und das Risiko des Overfitting ist verringert. Die Punkte, die außerhalb der 

ε-Schranke liegen, sind die Support-Vektoren. Neben (4.5) gibt es andere mögliche 

Kostenfunktionen. Dies sind einerseits Variationen der ε-insensitiven Funktion, aber 

auch stetig differenzierbare Funktionen, die zu herkömmlichen Regressionsverfahren 

ohne Support-Vektoren führen (z.B. entspricht L(η) = η 2 dem mittleren quadratischen 

Fehler, der bislang als Fehlergröße verwendet wurde). Beispiele finden sich 

z.B. in [35]. 

y 

ξ 

ε 

ξ∗ 

|η| ε 

ξ ∗ 

x 

ε 

ε 

η 

Abbildung 4.1: Wirkung der ε-insensitiven Kostenfunktion 

Die Schwierigkeit liegt in der richtigen Wahl des Parameters ε. Er sollte am Signal- 

Rausch-Verhältnis ausgerichtet werden, was aber in der Praxis meist nicht bekannt 

ist. Somit ist eine Optimierung des Parameters nötig, wobei sich bei lokalen Modellen 

wieder die Leave-one-out Cross-Validation als Fehlergröße anbietet. 

Die ε-insensitive Kostenfunktion ersetzt allerdings nicht die Regularisierung des Modells. 

Der Einfachheit halber soll zunächst von einem linearen Modell 

f(x) = 〈w, x〉 + b , x, w ∈ R d , b ∈ R (4.6)


ausgegangen werden. Für die Regularisierung wird auf eine einfache Form der Ridge 

Regression zurückgegriffen, wobei man einen additiven Regularisierungsterm der 

Form ‖w‖ 2 /2 einfügt und das empirische Risiko mit einem konstanten Faktor C 

wichtet, 

R = CR emp + 1 2 ‖w‖2 . (4.7) 

Der Parameter C gibt somit an, ob die die Flachheit des Modells oder die Minimierung 

der Abweichungen größer als ε im Vordergrund steht. Man stößt hier wieder 

auf den Bias-Varianz-Kompromiss: Für C → ∞ erhält man ein komplexes Modell 

mit maximalem Bias und minimaler Varianz, umgekehrt für C → 0 ein konstantes 

Modell mit minimalem Bias und maximaler Varianz. 

Nun ist die Kostenfunktion (4.5) an den Stellen ±ε nicht differenzierbar, weshalb 

Gradienten-basierte Optimierungsverfahren nicht verwendet werden können. Daher 

werden die Schlupf-Variablen ξ i , ξi 

∗ eingeführt, die die Abweichung oberhalb bzw. 

unterhalb zur ε-Umgebung der Regressionsfunktion angeben (siehe Abbildung 4.1) 

und ohne Verwendung der ε-insensitiven Kostenfunktion in (4.7) eingesetzt. Um das 

insensitive Verhalten gegenüber ε zu wahren, sind zusätzlich vier Nebenbedingungen 

nötig, sodass man als neues Minimierungsproblem 

N∑ 

minimiere C (ξ i + ξi ∗ ) + 1 2 |w|2 

i=1 

⎧ 

⎨ y i − 〈w, x i 〉 − b ≤ ε + ξ i 

unter 〈w, x i 〉 + b − y i ≤ ε + ξi 

∗ ⎩ 

−ξ i , −ξi ∗ ≤ 0 

(4.8) 

erhält. Diese Formulierung ist äquivalent zur Minimierung von (4.7). Zur Lösung 

wird der Lagrange-Formalismus verwendet, d.h. zunächst wird die Lagrange-Funktion 

L = 1 N∑ 

N∑ 

2 ‖w‖2 + C (ξ i + ξi ∗ ) − α i (ε + ξ i − y i + 〈w, x i 〉 + b) 

− 

i=1 

i=1 

N∑ 

αi ∗ (ε + ξi ∗ + y i − 〈w, x i 〉 − b) − 

i=1 

i=1 

N∑ 

(η i ξ i + ηi ∗ ξi ∗ ) 

(4.9) 

konstruiert. Da die Kostenfunktion und die Nebenbedingungen konvex sind, liefern 

die Karush-Kuhn-Tucker (KKT) Bedingungen (siehe Anhang B.1) die globale 

Lösung des Minimierungsproblems. Mit der KKT-Bedingung (B.6) folgt, dass

Seite 80 


die Ableitungen der Lagrange-Funktion nach den primalen Variablen verschwinden 

müssen, d.h. es gilt 

∂ b L = 

∂ w L = w − 

∂ ξ 

(∗) 

i 

N∑ 

(αi ∗ − α i ) = 0 (4.10) 

i=1 

N∑ 

(α i − αi ∗ )x i = 0 (4.11) 

i=1 

= C − α (∗) 

i 

− η (∗) 

i = 0 . (4.12) 

Aus (4.11) folgt sofort 

w = 

N∑ 

(α i − αi ∗ )x i (4.13) 

i=1 

und somit 

f(q) = 

N∑ 

(α i − αi ∗ )〈x i , q〉 + b . (4.14) 

i=1 

Der Koeffizientenvektor w lässt sich somit eindeutig durch eine Linearkombination 

der Trainingsvektoren x i beschreiben. Wie man an 4.14 abliest, muss er aber gar 

nicht explizit berechnet werden: die Regressionsfunktion f lässt sich komplett durch 

Skalarprodukte der Trainingspunkte x i mit dem Anfragepunkt q berechnen. Diese 

Eigenschaft ist wichtig für die Erweiterung zur nichtlinearen SV-Regression über 

Kern-Funktionen (siehe Abschnitt 4.1.2). Nun sind für jeden Trainingspunkt zwei 

duale Variablen α i und α ∗ i zu berechnen, die Zahl der Parameter scheint sich somit 

verdoppelt zu haben. Hierzu muss man aber bedenken, dass Abweichungen größer 

ε oberhalb und unterhalb der Regressionsfunktion bestraft werden (siehe Abbildung 

4.1), diese aber bei einem Punkt natürlich nie gleichzeitig auftreten können 1 ; alleine 

hierdurch wird die Zahl der Parameter bereits halbiert. Auch sind Abweichungen 

kleiner als ε für die Berechnung der Regressionsfunktion ohne Belang, was zu einer 

weiteren Reduzierung der Parameter führt. Dieser Effekt wird im nächsten Abschnitt 

deutlich werden. 

1 Zwar machen die Begriffe “oberhalb” und “unterhalb” natürlich nur in zwei Dimensionen Sinn, 

das mit diesen Begriffen und der zugehörigen Abbildung anschaulich dargestellte Prinzip gilt aber 

auch in höherdimensionalen Räumen.


Duale Formulierung 

Das Minimierungsproblem (4.8) ist einfacher in seiner sog. dualen Formulierung zu 

lösen. Hierbei wird das Minimierungsproblem in ein äquivalentes Maximierungsproblem 

umgeformt. Hierzu wird die Dualfunktion nach Wolfe verwendet, die über 

die KKT-Bedingung (B.6) die primalen Variablen aus der Lagrange-Funktion eliminiert 

(siehe Anhang B.2). Es ergibt sich so ein Maximierungsproblem der Lagrange- 

Funktion in den dualen Variablen. 

Einsetzen der Gleichungen (4.10)-(4.12) in (4.9) liefert das duale Optimierungsproblem 

Maximiere 

unter 

⎧ 

− ⎪⎨ 

1 N∑ 

(α i − αi ∗ )(α j − α 

2 

j)〈x ∗ i , x j 〉 

i,j=1 

(4.15) 

N∑ 

N∑ 

⎪⎩ − ε (α i + αi ∗ ) + y i (α i − αi ∗ ) 

i=1 

i=1 

{ ∑ N 

i=1 (α i − αi ∗ ) = 0 

α i , αi ∗ . (4.16) 

∈ [0, C] 

Die Regularisierung des Modells verlagert sich in der dualen Formulierung somit von 

der Kostenfunktion in die letzten beiden Nebenbedingungen. Die Konstante C, die 

zwischen Regularisierung und Minimierung des Trainingsfehlers wichtet, wird hier 

zur oberen Schranke für die dualen Variablen α (∗) 

i . Die dualen Variablen η (∗) 

i wurden 

durch Bedingung (4.12) eliminiert. 

4.1.1 Berechnung von b 

Zur Berechnung von b werden die KKT-Bedingungen (B.7) verwendet, die besagen, 

dass das Produkt aus Lagrange-Multiplikator und Nebenbedingung verschwinden 

muss. Ist der Lagrange-Multiplikator gleich Null, so ist die zugehörige Nebenbedingung 

nicht bindend (inaktiv), es handelt sich somit um ein inneres Extremum 

bezüglich der Nebenbedingung. Ist der Lagrange-Multiplikator ungleich Null, so handelt 

es sich um ein Extremum, was auf dem Rand der durch die Nebenbedingung 

eingeschränkten Menge der gültigen Punkte liegt. Man erhält aus der primalen Formulierung 

(4.8) 

α i (ε + ξ i − y i + 〈w, x i 〉 + b) = 0 

α ∗ i (ε + ξ ∗ i + y i − 〈w, x i 〉 − b) = 0 

(4.17)

Seite 82 


und 

ξ i (C − α i ) = 0 

ξ ∗ i (C − α ∗ i ) = 0 . 

(4.18) 

Anhand dieser Bedingungen lassen sich die wesentlichen Eigenschaften der Support- 

Vektor-Regression zusammenfassen. Liegt ein Punkt in der ε-Umgebung der Regressionsfunktion, 

so ist die Klammer in (4.17) ungleich Null, woraus folgt dass 

α i = αi 

∗ = 0. Diese Punkte sind somit für die Berechnung der Regressionsfunktion 

unerheblich und könnten sogar komplett aus dem Datensatz herausgenommen 

werden, könnte man sie vor der Berechnung bereits bestimmen. 

Liegt ein Punkt oberhalb der ε-Umgebung der Regressionsfunktion, so ist ξ i > 0 

und aus (4.18) folgt α i = C. Liegt ein Punkt genau um ε oberhalb der Regressionsfunktion, 

so ist ξ i = 0 und α i ∈ (0, C). Die Variablen ξi ∗ und αi ∗ sind in beiden 

Fällen gleich Null. Für Punkte unterhalb der Regressionsfunktion gilt dies analog, 

nur dass in obigen Beziehungen ξ i ↔ ξi 

∗ und α i ↔ αi ∗ ausgetauscht werden müssen. 

Diese Punkte sind die Support-Vektoren und maßgeblich für die Berechnung der 

Regressionsfunktion. Man sieht somit, dass mit genügend großem ε die Zahl der 

Parameter deutlich verringert werden kann. 

Die Berechnung von b erfolgt somit je nachdem ob α i ≠ 0 oder α ∗ i ≠ 0 über 

b = y i − 〈w, x i 〉 − ε für α i ∈ (0, C) , 

b = y i − 〈w, x i 〉 + ε für α ∗ i ∈ (0, C) . 

(4.19) 

4.1.2 Nichtlineare Support-Vektor-Regression 

Ziel ist es, die bislang betrachtete lineare Support-Vektor-Regression auf nichtlineare 

Probleme zu erweitern. Eine Möglichkeit besteht darin, von jedem Punkt x i des 

Datensatzes sog. Merkmale (Features) zu bilden und diese zur Modellbildung zu 

verwenden. Damit ist gemeint, dass die Punkte über eine nichtlineare Abbildung 

φ : 

R n → R N 

x ↦→ φ(x) = (φ 1 (x), . . . , φ N (x)) 

(4.20) 

in einen Merkmalsraum (Feature Space) abgebildet werden, wobei dieser üblicherweise 

mehr Dimensionen besitzt als der Raum der der Eingabepunkte. Der “Trick” 

dieses in Hinblick auf den “Fluch der Dimensionen” (siehe Kapitel 2.2) zunächst


widersinnig erscheinenden Verfahrens besteht darin, dass bei geeigneter Wahl von 

φ sich die Merkmale durch einen linearen Zusammenhang beschreiben lassen. Das 

oben beschriebene Verfahren der linearen SVR kann dann unverändert im Merkmalsraum 

ausgeführt werden und die berechnete Regression durch Anwendung der 

inversen Abbildung φ −1 wieder in den Eingaberaum rücktransformiert werden. 

Ein populäres Beispiel für solch eine Transformation ist 

φ : R 2 → R 3 

( 

(x 1 , x 2 ) ↦→ x 2 1, √ ) 

2 x 1 x 2 , x 2 2 . 

(4.21) 

Ein linearer Zusammenhang der Merkmale ist somit gegeben durch 〈w, φ(x)〉 + b 

oder ausführlicher 

w 1 x 2 1 + w 2 x 1 x 2 + w 3 x 2 2 = 0 , (4.22) 

es ergibt sich somit eine Linearkombination aller möglichen Monome eine Polynoms 

vom Grad 2. Die Geradengleichung im Merkmalsraum beschreibt daher ein homogenes 

Polynom zweiten Grades im zweidimensionalen Eingaberaum; jedes Merkmal 

entspricht hierbei einem möglichen Monom. Allgemein ist die Zahl der möglichen 

Monome jedoch gegeben durch ( ) 

n+p−1 

p , wobei p der Grad des Polynoms und n die 

Dimension des Eingaberaumes ist. Man benötigt somit Merkmalsräume mit enorm 

hoher Dimension sobald n und/oder p größer werden. Aus Gründen der Laufzeit ist 

dieses Verfahren dann praktisch nicht mehr durchführbar. Betrachtet man aber im 

gegebenen Beispiel einmal das Skalarprodukt im Merkmalsraum, so ergibt sich 

φ(x) · φ(y) = (x 1 y 1 + x 2 y 2 ) 2 = 〈x, y〉 2 

≡ K(x, y) , 

(4.23) 

d.h. man kann das Skalarprodukt im Merkmalsraum über eine Funktion der Punkte 

im Eingebraum beschreiben. Man bezeichnet eine solche Funktion als Kern- 

Funktion. Dieses Ergebnis gilt sogar allgemein für homogene Polynome mit beliebigem 

Grad p, d.h. die Kern-Funktion 

K p (x, y) = 〈x, y〉 p , (4.24) 

ist Skalarprodukt in einem Merkmalsraum, in dem homogene Polynome vom Grad 

p linear beschrieben werden können. Da die SVR sich ausschließlich über Skalarprodukte 

berechnet lässt, kann mit Hilfe dieser Kern-Funktionen die Regression im

Seite 84 


Merkmalsraum berechnet werden, ohne dass die Transformation φ hierfür überhaupt 

bekannt sein muss. 

Ersetzt man somit die Skalarprodukte bei der Berechnung der SVR durch eine Kern- 

Funktion mit der Eigenschaft 

K(x 1 , x 2 ) = 〈φ(x 1 ), φ(x 2 )〉 , (4.25) 

so arbeitet der Algorithmus im Merkmalsraum, der je nach verwendeter Kern- 

Funktion auch von sehr hoher Dimension oder auch unendlich-dimensional sein 

kann. Die Laufzeit des Algorithmus erhöht sich hierbei nur um die Berechnung der 

Kern-Funktionen. Der Algorithmus bleibt hierzu im Prinzip unverändert; es muss 

lediglich in (4.15) das herkömmliche Skalarprodukt 〈x i , x j 〉 durch eine geeignete 

Kern-Funktion K(x i , x j ) ersetzt werden. Das Problem bleibt dabei konvex, da die 

Kern-Funktion positiv definit ist [35]. Nach Lösen des Maximierungsproblems ergibt 

sich anschließend b durch 

b = y i − 

b = y i − 

N∑ 

(α j − αj)K(x ∗ j , x i ) − ε für α i ∈ (0, C) 

j=1 

N∑ 

(α j − αj)K(x ∗ j , x i ) + ε für αi ∗ ∈ (0, C) 

j=1 

(4.26) 

und die Regressionsfunktion kann mit 

f(q) = 

N∑ 

(α i − αi ∗ )K(x i , q) + b (4.27) 

i=1 

berechnet werden. 

Bedingung von Mercer 

Wie findet man aber zu einer gegebenen Abbildung φ und Merkmalsraum die passende 

Kern-Funktion Leider lässt sich dies nur für einige wenige Fälle explizit 

berechnen, zumal nicht für jede Kombination von Abbildung und Merkmalsraum 

überhaupt eine solche Kern-Funktion existieren muss. Allerdings kann man für eine 

gegebene Kern-Funktion eine Aussage darüber machen, ob diese ein Skalarprodukt


im Merkmalsraum einer (unbekannten) Abbildung φ darstellt. Die Bedingung von 

Mercer besagt in vereinfachter Form, dass falls für alle h ∈ L 2 (R d ) gilt 

∫ ∫ 

K(x, x ′ )h(x)h(x ′ ) dx dx ′ ≥ 0 (4.28) 

dann ist K(x, x ′ ) ein Skalarprodukt in einem Merkmalsraum, d.h. es gilt (4.25). Allerdings 

kann aus dieser Bedingung weder die passende Abbildung φ noch der Merkmalsraum 

rekonstruiert werden. Weiterhin ist die Bedingung (4.28) nicht leicht zu 

überprüfen, da diese für alle quadratintegrablen Funktionen h gelten muss. Es lassen 

sich aber zumindest einige einfache notwendige (wenn auch nicht hinreichende) 

Bedingungen ableiten; für Details sei auf [36] verwiesen. 

Beispiele für Kern-Funktionen 

Es wurde bereits die Kern-Funktion (4.24) vorgestellt, die homogene Polynome beschreibt. 

Für inhomogene Polynome kann die Kern-Funktion 

K p (x, y) = (x · y + 1) p (4.29) 

verwendet werden, die sich aus der Kern-Funktion für homogene Polynome ableiten 

lässt (vgl. [36]). 

Eine andere Kern-Funktion ist der Gauß-Kern 

( ) 

‖x − y‖ 

K σ (x, y) = exp − , (4.30) 

2σ 2 

mit σ als frei wählbarem Parameter. Diese Kern-Funktion definiert einen unendlichdimensionalen 

Merkmalsraum und ist somit ein Beispiel, wo die eigentliche Abbildung 

φ prinzipiell nicht explizit angegeben werden kann, obwohl sich das Skalarprodukt 

im Merkmalsraum einfach berechnen lässt. Anhand der Form der Kern- 

Funktion im Vergleich zu (3.35) lässt sich aber bereits vermuten, dass die Verwendung 

dieses Kerns einer Linearkombination von radialen Basisfunktionen im 

Eingaberaum entspricht. Die Support-Vektoren sind hierbei die Zentren der Gauß- 

Funktionen. 

Zum Schluss sei noch der sigmoide Kern 

K(x, y) = tanh(κ〈x, y〉 + θ) (4.31)

Seite 86 


erwähnt. Der Parameter κ wird als gain und θ als threshold bezeichnet, wobei diese 

Begriffe aus der Theorie der neuronalen Netze stammen, wo ebenfalls dieser Funktionstyp 

verwendet wird. Die resultierende Regression im Merkmalsraum entspricht 

einem speziellen Typ eines sigmoiden neuronalen Netzes mit zwei Schichten.

Kapitel 5 

Anwendungen der Modelle 

In diesem Kapitel sollen die vorgestellten Methoden an unterschiedlichen Datensätzen 

angewendet werden, um so ihre Unterschiede sowie Stärken und Schwächen auszumachen. 

Anschließend soll untersucht werden, wie gut man mit Hilfe eines optimierten 

lokal linearen Modells Lyapunov-Exponenten von gegebenen Systemen bestimmen 

kann. 

5.1 Modellierung künstlich generierter Systeme 

Von der Hénon-Abbildung (3.22) mit a = 1, 4 und b = 0, 3 wurden 2200 Punkte generiert 

und die ersten 200 Punkte verworfen. Die erste Variable x wurde als Zeitreihe 

aufgefasst. 

Vom Baier-Sahle-System (3.43) wurde jeweils ein Datensatz mit M = 5 und M = 11 

erstellt. Die Systeme wurden von T = 0 bis T = 4000 integriert und alle ∆T = 0, 2 

abgetastet, sodass sich insgesamt 20000 Samples ergaben. Die erste Variable x 1 

wurde als Zeitreihe aufgefasst und von dieser die ersten 10000 Samples als transient 

verworfen. 

Das Lorenz-System (2.6) mit Parametern σ = −10, b = 8/3 und r = 28 wurde 

von T = 0 bis T = 600 integriert und eine Abtastrate von ∆T = 0, 03 verwendet, 

wodurch sich 20000 Samples ergaben. Die erste Variable x 1 wurde als Zeitreihe 

aufgefasst und die ersten 10000 Samples verworfen. 

5.1.1 Ergebnisse der Modellierung 

Es wurden folgende Modelle untersucht: lokal linear, lokal lineare SVR, lokale SVR 

mit Gauß-Kern (siehe (4.30)) und lokale radiale Basisfunktionen. Die lokal konstanten 

Modelle liefern bei den hier betrachteten Datensätzen deutlich schlechtere 

Ergebnisse und wurden daher nicht berücksichtigt. 

87

Seite 88 

5.1. Modellierung künstlich generierter Systeme 

Zusätzlich wurden die Zeitreihen teilweise noch mit weißem Rauschen überlagert 

und der Signal-Rausch-Abstand (SNR) bestimmt. Die Parameter der Modelle wurden 

mit der in Abschnitt (3.8) vorgestellten zyklischen Optimierung ermittelt. Als 

Fehlermaß wurde der NMSE p aus (2.13) verwendet. Als Delay ergab sich immer 

τ = 1 und ist deshalb nicht extra angegeben. Zur kürzeren Schreibweise wird die 

Notation c e k = c · 10 k verwendet. 

Ergebnisse lokal lineares Modell 

Datensatz p SNR [dB] NMSE D k λ n s c s w 

BaierSahle, M=5 40 ∞ 0,0072 22 95 1 1 0,03 1 

BaierSahle, M=11 20 ∞ 0,0081 60 100 1 0 0,001 1 

BaierSahle, M=11 10 20 0,1311 80 131 1 1 0,23 0,6 

Lorenz 50 ∞ 0,0017 29 11 0,89 1 0,0026 0,28 

Lorenz 30 30 0,025 79 24 0,85 1 0,12 0,46 

Lorenz 10 10 0,187 67 36 0,98 2 0,51 0,7 

Hénon 5 ∞ 6,6e-8 2 11 0 3 0 0 

Hénon 3 20 0,076 4 81 1 3 0,49 0,9 

Der sehr stark verrauschte Lorenz-Datensatz ist auch für 10 Schritte nur schwer 

zu modellieren. Auch beim etwas weniger verrauschten Baier-Sahle-Datensatz mit 

M = 11 stößt das Modell an seine Grenzen, was auch der hohen Dimension des Systems 

(ca. 10-dimensional) geschuldet ist. Für das unverrauschte System erhält man 

aber weit bessere Werte, woraus sich zeigt, dass lokale Modelle trotz des “Fluches 

der Dimensionen” durchaus auch höherdimensionale Systeme modellieren können. 

Weiterhin ist auch deutlich der Einfluss des Rauschens zu beobachten: sowohl der 

Regularisierungsparameter s c als auch die Zahl nächster Nachbarn wird deutlich 

größer gewählt als bei den unverrauschten Systemen. 

Im Folgenden sollen nun lokale Modelle mit Support-Vektor-Regression und lokalen 

radialen Basisfunktionen betrachtet werden. Von den obigen Beispielen wurden 

hierfür einmal die stark verrauschten Datensätze verwendet, da hier das lokal lineare 

Modell die größten Schwierigkeiten hat. Weiterhin wurden von Hénon, Lorenz 

und Baier-Sahle mit M = 5 die unverrauschten Datensätze untersucht. Es werden 

zunächst die einzelnen Ergebnisse vorgestellt und danach besprochen.

Kapitel 5. Anwendungen der Modelle Seite 89 

Ergebnisse lokal lineare SVR 

Datensatz p SNR NMSE D k λ ε C 

BaierSahle, M=5 40 ∞ 0,015 37 22 1 0,001 4 

BaierSahle, M=11 10 20 0,155 74 52 1 0,1 0,1 

Lorenz 50 ∞ 0,0325 31 13 0,83 0,01 ∞ 

Lorenz 10 10 0,156 47 39 0,95 4 3,5 

Hénon 5 ∞ 2,3e-7 2 7 0 1e-9 ∞ 

Hénon 3 20 0,081 4 25 1 0,04 ∞ 

Ergebnisse lokal radiale Basisfunktionen 

Datensatz p SNR NMSE D k λ µ r 

BaierSahle, M=5 40 ∞ 0,0082 33 42 1 0,001 3,1 

BaierSahle, M=11 10 20 0,099 87 147 1 0,01 17 

Lorenz 50 ∞ 0,0023 29 87 1 1e-4 16,4 

Lorenz 10 10 0,181 74 18 0,99 1 1,6 

Hénon 5 ∞ 1,38e-7 3 52 1 1e-6 1,2 

Hénon 3 20 0,075 5 89 1 0,28 0,1 

Ergebnisse lokale SVR mit Gauß-Kern 

Datensatz p SNR NMSE D k λ ε σ C 

BaierSahle, M=5 40 ∞ 0,0069 37 24 1 1e-5 14,8 10 

BaierSahle, M=11 10 20 0,16 86 45 1 0,006 32,1 320 

Lorenz 50 ∞ 0,0021 25 20 1 1e-5 10 14 

Lorenz 10 10 0,170 75 18 1 1,3 28,8 2 

Hénon 5 ∞ 4,2e-9 3 23 0,44 1e-7 1 1e5 

Hénon 3 20 0,077 4 25 0,93 0,004 14.1 200 

Resümee 

Im wesentlichen liegen alle Modelle in ähnlichen Größenordnungen. Nur die lokale 

SVR mit Gauß-Kern liefert beim unverrauschten Hénon weit bessere Ergebnisse als 

die anderen Modelle. Die lokal lineare SVR liefert bis auf den stark verrauschten Lorenz 

schlechtere Ergebnisse als das einfache lokal lineare Modell. Dies liegt einerseits 

wohl an dem besseren Regularisierungs-Mechanismus über das Soft-Thresholding, 

andererseits scheint die lineare SVR in den kleinen Umgebungen der lokalen Modelle

Seite 90 

5.1. Modellierung künstlich generierter Systeme 

ihre Stärken kaum ausspielen zu können. Durch die Parameteroptimierung über die 

LOO-CV wird bereits die Komplexität des Modells wesentlich vorgegeben, weshalb 

das Konzept der ε-insensitiven Kostenfunktion hier nicht so greift wie bei globalen 

Modell-Ansätzen. 

Sehr gute Ergebnisse liefern das Modell mit lokal radialen Basisfunktionen und die 

nichtlineare SVR mit Gauß-Kern. Allerdings sind hier die Parameter r bzw. σ zusätzlich 

zu optimieren, die sehr kritisch für die Genauigkeit des Modells sind und die bei 

falscher Wahl zu einem völligen Versagen des Modells führen. Hinzu kommt, dass 

gerade das nichtlineare SVR-Modell weitaus höhere Rechenzeiten hat als das normale 

lokal lineare Modell, weshalb gerade hier die Optimierung der Parameter sehr 

langwierig ist. Die lokal linearen Modelle haben somit den Vorteil, deutlich robuster 

und zudem schneller zu sein. 

5.1.2 Hindmarsh-Rose-System 

Das Modell von Hindmarsh und Rose (HR-Modell) ist ein Versuch zur Beschreibung 

von Aktionspotentialen, die nach Depolarisation von Zellen im Hirn einer 

Schnecke beobachtet wurden [17]. Diese zeigen eine Anordnung sog. Bursts, die von 

längeren Aussetzern unterbrochen werden. 

Das Differentialgleichungssystem lautet 

ẋ = y − x 3 + 3x 2 − z , 

ẏ = 1 − 5x 2 − y , 

ż = ε [x − (z − z 0 )/4] . 

(5.1) 

Der Parameter ε ist sehr klein zu wählen, d.h. die z-Variable ändert sich nur sehr 

langsam; im Folgenden wurde ε = 0, 004 gesetzt. Je nach Wahl von z 0 ergeben sich 

unterschiedliche Dynamiken des System, darunter auch Chaos in einem schmalen 

Fenster zwischen z 0 ≈ 3, 159 und z 0 ≈ 3, 2, wobei in diesem auch periodische Fenster 

existieren [43]. 

Im Folgenden wurde z 0 = 3, 19 gewählt. Das System wurde von T = 0 bis T = 

6000 integriert und alle ∆T = 0, 2 abgetastet. Die Variable x wurde als Zeitreihe 

aufgefasst und die ersten 15000 Samples als transient verworfen. Die verbleibenden 

15000 Samples sind in Abbildung 5.1 zu sehen. Man sieht das periodische Auftreten 

von Bursts, die aus zahlreichen einzelnen Spikes bestehen. Die Zahl der Spikes und 

auch die Abstände variieren hierbei chaotisch. Unterbrochen werden die Bursts von 

längeren Aussetzern. Die Modellierung dieses Systems ist recht schwierig, da die 

Dynamik hier auf zwei unterschiedlichen Zeitskalen abläuft: die Aussetzer zwischen 

den Bursts haben ca. die 10fache Länge der einzelnen Spikes. Dennoch kommen 

lokale Modelle erstaunlich gut mit dieser Problematik zurecht.


2 

1.5 

1 

0.5 

x 

0 

−0.5 

−1 

−1.5 

−2 

0 5000 10000 15000 

Abbildung 5.1: Datensatz Hindmarsh-Rose-Modell, z 0 = 3.19 

t 

Ergebnisse: Modellierung Hindmarsh-Rose-System 

Der Datensatz wurde mit den obigen Modellen auf Basis der 100-Schritt-Vorhersage 

optimiert. 

Modell NMSE D k n λ s c s w µ r/σ ε C 

Linear 0.0019 30 37 2 0.65 0.001 1 - - - - 

SVR (linear) 0.021 46 22 - 0.67 - - - - 1e-5 21.38 

RBF 0.0029 27 26 - 1 - - 1e-6 9.23 - - 

SVR (RBF) 0.002 35 24 - 0.8 - - - 1 1e-6 1e4 

Es mag zunächst verblüffen, dass die Einbettungsdimension bei allen Modellen eher 

klein gewählt wird (der Delay ist auch hier τ = 1). Aufgrund der unterschiedlichen 

Zeitskalen würde man eigentlich eine sehr hohe Einbettungsdimension oder einen 

größeren Delay vermuten. Allerdings muss man hierbei bedenken, dass die Basis für 

die Optimierung ausschließlich der Mehrschritt-Vorhersagefehler ist. Entscheidend 

für diesen ist die korrekte Modellierung der Spikes: wird ein Spike fehlerhaft modelliert, 

so steigt der Fehler aufgrund der Höhe der Spikes sehr stark an. Verglichen 

damit ist eine fehlerhafte Modellierung der Aussetzer zwischen den Bursts weniger 

kritisch. Die Breite eines Spikes beträgt ca. 30 Samples, was in etwa der Einbettungsdimension 

der Modelle entspricht. Ist man daher z.B. an einer Vorhersage der 

Aussetzer und weniger an einer Vorhersage der Spikes interessiert, so müssen die 

Aussetzer im Fehlermaß stärker berücksichtigt werden.

Seite 92 

5.2. Modellierung experimenteller Daten 

5.2 Modellierung experimenteller Daten 

5.2.1 Experimentelle Neuron-Daten 

Es wurde eine 10000 Punkte umfassende experimentell gemessene Zeitreihe eines 

Neurons verwendet, die in Abbildung 5.2(a) zu sehen ist. Es handelt sich hierbei 

um die Messung an einem isolierten sog. LP-Neuron des Hummers. In Abbildung 

5.2(b) ist ein vergrößerter Ausschnitt zu sehen. Für die Modellierung treten hier im 

Vergleich zum HR-Modell mehrere zusätzliche Schwierigkeiten auf. Zunächst ist die 

Zeitreihe recht stark verrauscht, und wie man bei Vergleich mit Abbildung 5.1 sofort 

sieht ist auch die Dynamik dieses Systems deutlich komplizierter. Insbesondere liegen 

die Bursts und die Aussetzer nicht mehr auf gleichen Niveaus, sondern variieren recht 

stark in Höhe und Ausdehnung. 

−0.64 

−0.66 

−0.68 

−0.7 

−0.72 

−0.74 

−0.76 

−0.64 

−0.66 

−0.68 

−0.7 

−0.72 

−0.74 

−0.76 

−0.78 

0 2000 4000 6000 8000 10000 

(a) 

−0.78 

2000 2500 3000 3500 

(b) 

Abbildung 5.2: Datensatz des gemessenen Neurons 

Ergebnisse 

Es wurde wieder mit der 100-Schritt-Vorhersage optimiert. Es ergaben sich folgende 

Werte: 

Modell NMSE D k n λ s c s w µ r/σ ε C 

Linear 0,149 63 41 0 0,6 0,018 0,65 - - - - 

SVR (lin) 0,126 80 25 - 0,9 - - - - 4,6e-5 2 

RBF 0,119 64 58 - 1 - - 7,77e-5 11,9 - - 

SVR (rbf) 0,12 59 53 - 1 - - - 8,79 4,7e-5 100


Als Ergebnis erhält man, dass alle Modelle hier klar an ihre Grenzen stoßen. Die 

Dimension wird nun deutlich größer gewählt als beim HR-Modell, was angesichts 

der breiteren Spikes auch nicht verwundert. Als Beispiel sind zwei typische Langzeit- 

Vorhersagen des lokal linearen Modells gezeigt. Es versagt komplett, wenn der Anfragepunkt 

in einem der großen Aussetzer liegt (Abbildung 5.3(a)), kann aber zumindest 

den Verlauf eines Spikes annähernd modellieren (Abbildung 5.3(b)). Da in 

dieser Zeitreihe jedoch weit mehr Aussetzer zu finden sind als beim HR-Modell, ist 

der Fehler insgesamt sehr groß. 

−0.64 

−0.66 

−0.68 

−0.7 

−0.64 

−0.66 

−0.68 

−0.72 

−0.74 

−0.76 

−0.7 

−0.72 

−0.78 

0 100 200 300 400 500 

(a) 

−0.74 

0 100 200 300 400 500 

Abbildung 5.3: Zwei Beispiele für Vorhersagen des gemessenen Neuron-Datensatzes 

(durchgezogene Linie = Original, gestrichelte Linie = Modell) 

(b) 

5.3 Lyapunov-Exponenten 

Berechnet man ein lokal lineares Modell an einem bestimmten Punkt x 0 , so kann 

mit dem Koeffizientenvektor ν aus (3.15) direkt die Jacobi-Matrix an diesem Punkt 

bestimmt werden. Man erhält somit die Lyapunov-Exponenten, indem man für eine 

genügend lange Trajektorie des Datensatzes für jeden Punkt ein lokal lineares Modell 

berechnet und die Jacobi-Matrix bestimmt. Über die Iterationsvorschrift (1.21) und 

die Formel (1.23) lassen sich dann die Lyapunov-Exponenten berechnen. 

5.3.1 Ergebnisse für Lyapunov-Exponenten 

Zunächst sollen mit den in Abschnitt 5.1.1 erhaltenen Modellen die Lyapunov- 

Exponenten von Hénon-Abbildung, Lorenz- und Baier-Sahle-System bestimmt werden. 

Für die Literaturwerte wurde für das Hénon-System auf [31] zurückgegriffen,

Seite 94 

5.3. Lyapunov-Exponenten 

für das Lorenz-System auf [37]. Für das Baier-Sahle-System wurde auf eine Methode 

zurückgegriffen, die die Exponenten aus den linearisierten Differentialgleichungen 

bestimmt und damit sehr gute Ergebnisse erzielen kann. Die Exponenten wurden bei 

der Hénon-Abbildung und dem Lorenz-System mit dem Logarithmus zur natürlichen 

Basis e berechnet, beim Baier-Sahle-System wurde die Basis 2 verwendet. 

System Lyapunov Exponenten Lyapunov Exponenten 

(Literatur) (über lok. lineares Modell) 

Hénon-Abbildung 0.417 ± 0.006 0.413 

(a=1.4,b=0.3) −1.58 ± 0.006 -1.551 

Lorenz-System 0.906 0.89 

(σ = −10, b = 8/3 0.00 -0.06 

r = 28) -14.572 - 

Baier-Sahle-System 0.116 0.089 

(M = 5, a = 28, b = 4, 0.087 0.065 

d = 2, ε = 0.1) 0.023 0.027 

0.00 -0.027 

-10.548 - 

Bis auf das Hénon-System konnten mit der beschriebenen Methode keine guten 

Werte für die negativen Exponenten bestimmt werden, weshalb sie hier erst gar 

nicht angegeben wurden. Für die Hénon-Abbildung und das Lorenz-System ergibt 

sich eine gute Übereinstimmung, nur die Exponenten für das Baier-Sahle-System 

sind mit einer Ausnahme deutlich zu klein. Es soll daher noch einmal im Detail 

betrachtet werden. 

Baier-Sahle-System 

Mit der zyklischen Optimierung aus Abschnitt 3.8 erhält man einen Satz an Parametern, 

der eine gute Vorhersage über p Schritte erlaubt. Dem Parameter p wurde 

bislang wenig Aufmerksamkeit geschenkt, da er vom Benutzer je nach Wunsch 

gewählt werden kann, je nachdem ob man mehr an kurzfristigen oder längerfristigen 

Vorhersagen interessiert ist. Wie soll p jedoch für die Berechnung von Lyapunov- 

Exponenten gewählt werden Könnte man z.B. beim Baier-Sahle-System durch eine 

andere Wahl von p bessere Werte erhalten 

Für das Baier-Sahle-System wurden sechs lokal lineare Modelle mit Schrittweiten 

p = 5, 10, 20, 30, 40 ermittelt. Mit jedem dieser Modelle wurden die vier größten 

Lyapunov-Exponenten berechnet. Das Ergebnis ist in Abbildung 5.4 zu sehen. Die 

gepunkteten Linien geben die genauen Werte an, wobei drei positive und der Null- 

Exponent existieren. Als Trend lässt sich mit Ausnahme des dritten Exponenten 

erkennen, dass die Exponenten mit wachsender Schrittweite abnehmen. Die Exponenten 

bei p = 5 liegen insgesamt am dichtesten an den exakten Werten.


λ 1 

0.1 

λ 2 

0.05 

λ 3 

0 

λ 4 

−0.05 

5 10 15 20 25 30 35 40 

Schrittweite für Optimierung 

Abbildung 5.4: Die vier größten Lyapunov-Exponenten des Baier-Sahle-Systems 

(M = 5) in Abhängigkeit von der Schrittweite der Optimierung (gepunktete Linien 

geben exakte Werte an). 

Betrachtet man die sich ergebenden Parameterwerte für die Modelle der unterschiedlichen 

Schrittweiten, so stellt man fest, dass der Parameter s c , der maßgeblich die 

Regularisierung des Modells beeinflusst, sich um zwei Größenordnungen von ca. 10 −5 

bei der 5-Schritt-Vorhersage auf ca. 10 −3 bei der 40-Schritt-Vorhersage verringert. 

Die anderen Parameterwerte der Modelle unterscheiden sich kaum. Die stärkere 

Regularisierung führt dazu, dass die Lyapunov-Exponenten systematisch zu klein 

geschätzt werden. 

Das die Exponenten auch bei der 5-Schritt-Vorhersage zu klein geschätzt werden liegt 

daran, dass die Zeitreihe mit 10000 Punkten einfach zu kurz ist. Ein Test mit einer 

Zeitreihe von 100000 Punkten und einem darauf trainierten lokal linearen Modell 

(10-Schritt Vorhersage) ergab die Exponenten 0.1156; 0.0851; 0.0438; −0.0110. Hier 

stimmen zumindest die ersten beiden Exponenten sehr genau überein, nur der dritte 

Exponent wurde zu groß bestimmt. 

Um den Einfluss von Rauschen zu untersuchen, wird vom Baier-Sahle-System eine 

Zeitreihe mit M = 5 und einem Signal-Rausch-Verhältnis von SNR=25dB untersucht. 

Die Zeitreihe umfasst wie eben 10000 Punkte. 

Das Ergebnis ist in Abbildung 5.5 zu sehen. Die Exponenten sind nun alle deutlich zu 

klein, aber steigen mit wachsender Schrittweite an. Die Mehrschritt-Vorhersage liefert 

somit bei verrauschten Zeitreihen bessere Ergebnisse für die Lyapunov-Exponenten.

Seite 96 


λ 1 

0.1 

λ 2 

0.05 

λ 3 

0 

λ 4 

−0.05 

5 10 15 20 25 30 


Abbildung 5.5: Die vier größten Lyapunov-Exponenten des verrauschten Baier- 

Sahle-Systems (M = 5, SNR=25dB) in Abhängigkeit von der Schrittweite der Optimierung 

(gepunktete Linien geben exakte Werte an).


Lorenz-System 

Die Abbildung 5.6 zeigt die zwei größten Lyapunov-Exponenten des Lorenz-Systems 

in Abhängigkeit von der Schrittweite, die bei der Optimierung verwendet wurde. 

Man sieht hier deutlich, dass die 10-Schritt-Vorhersage zu große Werte liefert; insb. 

der Null-Exponent ist viel zu groß, sodass es so aussieht als hätte das Lorenz-System 

zwei positive Lyapunov-Exponenten. Im Gegensatz zum Baier-Sahle-System ist hier 

eine kleine Wahl der Schrittweite somit nicht angebracht. 

1 

0.8 

0.6 

0.4 

0.2 

0 

10 20 30 40 50 


Abbildung 5.6: Die zwei größten Lyapunov-Exponenten des Lorenz-Systems in 

Abhängigkeit von der Schrittweite der Optimierung (gepunktete Linien geben exakte 

Werte an). 

Colpitts-Oszillator 

Der Colpitts-Oszillator ist ein elektrischer Schwingkreis dessen Dynamik bei Vernachlässigung 

der internen Dynamik des verwendeten Transistors durch ein System 

von drei Differentialgleichungen beschrieben werden kann (siehe [39, Kapitel 

8.2]). Gerrit Langer hat freundlicherweise Daten eines solchen Colpitts-Oszillator zur 

Verfügung gestellt, die mit einer Sampling-Frequenz von 48kHz und 16Bit-Auflösung 

aufgezeichnet wurden. Die Zeitreihe besteht aus 6000 Punkten. Um die Lyapunov- 

Exponenten zu berechnen ist ein lokal lineares Modell für verschiedene Schrittweiten 

zwischen 5 und 40 optimiert worden. Die Ergebnisse sind in Abbildung 5.7 zu sehen.

Seite 98 


0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

−0.1 

5 10 15 20 25 30 35 40 


Abbildung 5.7: Die zwei größten Lyapunov-Exponenten des Colpitts-Oszillatros in 

Abhängigkeit von der Schrittweite der Optimierung. 

Da der Colpitts-Oszillator nur einen positiven und einen Null-Exponenten aufweisen 

sollte, können die Werte bis zur 30-Schritt-Vorhersage verworfen werden. Die 40- 

Schritt-Vorhersage liefert hingegen annähernd einen Null-Exponenten.

Kapitel 6 

Zusammenfassung und Ausblick 

In dieser Arbeit wurden lokale Modelle vorgestellt und ihre Möglichkeiten in Hinblick 

auf die Modellierung nichtlinearer Zeitreihen dargelegt. Ein wesentlicher Punkt war 

hierbei die korrekte Wahl der Parameter wie die Art des Modells, die Zahl nächster 

Nachbarn, Metrik, Regularisierung und Wichtung. Es wurde gezeigt, dass die 

lokale Variation von Parametern in Einzelfällen eine Verbesserung der Modellierung 

bewirken kann, im allgemeinen Fall jedoch wenig ratsam ist. Weiterhin wurde ein 

Verfahren vorgestellt, welches durch Approximation des gegebenen Datensatzes mit 

wenigen Punkten eine Reduzierung der Komplexität des Modells erreichen kann. Bei 

relativ stark verrauschten Daten kann dies zu einer Verbesserung der Modellierung 

führen, versagt allerdings bei wenig- oder unverrauschten Datensätzen. 

Zur korrekten Wahl der Parameter wurde ein zyklischer Optimierungsalgorithmus 

vorgestellt, der es erlaubt, praktisch ohne jegliches Vorwissen über den Datensatz 

einen guten Satz an Parametern zu erhalten. Durch die Optimierung können lokale 

Modelle als “Black-Box” Algorithmen verwendet werden, wo der Benutzer bis 

auf grobe Voreinstellungen der Parameterbereiche keinerlei manuelle Einstellungen 

tätigen muss. Weiterhin wurde ein Verfahren vorgestellt, welches durch zeitliche Variation 

der Parameter eine Verbesserung der Mehrschritt-Vorhersage bewirkt, indem 

die Parameter des Modells für aufeinanderfolgende Zeitabschnitte getrennt optimiert 

werden. 

Es wurden neben den lokal polynomialen Modellen auch lokale Modelle unter Verwendung 

radialer Basisfunktionen sowie linearer und nichtlinearer Support-Vektor- 

Regression vorgestellt. An verschiedenen künstlich generierten aber auch gemessenen 

Datensätzen wurde gezeigt, dass diese lokalen Modelle unter Verwendung der 

automatischen Parameter-Optimierung gute Ergebnisse liefern und erst bei hochdimensionalen 

und stark verrauschten Daten an ihre Grenzen stoßen. Hierbei zeigten 

sich zwar gewisse Unterschiede in der Genauigkeit der einzelnen Modelle, aber kein 

Modell kann als prinzipiell überlegen bezeichnet werden. 

Weiterhin wurde gezeigt, dass sich die lokal linearen Modelle mit optimierten Para- 

99

Seite 100 

meterwerten zur Berechnung von positiven Lyapunov-Exponenten eignen. Man hat 

somit durch die automatische Optimierung der Parameterwerte gleichzeitig eine Methode 

zur automatischen Bestimmung der positiven Lyapunov-Exponenten erhalten. 

Zudem erhält man durch die Optimierung in Hinblick auf die Mehrschritt-Vorhersage 

robuste Modelle, die selbst mit verrauschten Zeitreihen noch gute Ergebnisse erzielen 

können. 

Ein Problem bei der zyklischen Optimierung der Parameterwerte ist das Auftreten 

lokaler Minima. Hier könnte durch Verwendung von genetischen Algorithmen oder 

Simulated Annealing eine Verbesserung erreicht werden; in bestimmten Bereich wie 

z.B. der Optimierung der Einbettung konnten mit diesen Algorithmen schon gute 

Ergebnisse erzielt werden [3]. Eine derartige Optimierung aller Parameter ist 

allerdings bei größeren Datensätze aufgrund der zeitaufwändigen Berechnung des 

Mehrschritt-Vorhersagefehlers mit den üblich vorhandenen Rechnern nicht praktikabel. 

Es ist aber nur eine Frage der Zeit, wann die hierfür nötige Rechenleistung 

allgemein zur Verfügung steht. 

In Bezug auf die weitere Verbesserung lokaler Modelle muss man sich vor Augen 

halten, dass ihre Stärke gerade in dem einfachen und flexiblen Aufbau liegt. Im 

Rahmen dieser Arbeit wurden verschiedene Ansätze zur weiteren Verbesserung untersucht, 

die sich jedoch teilweise wie z.B. die lokale Variation der Parameter als 

untauglich erwiesen, weil sie die Komplexität der Modelle erhöhten oder weil sie 

wie bei der Gitterapproximation ihrer Flexibilität beraubt wurden. Eine Alternative 

wäre, die lokale Modellierung in ihrem Kern so zu belassen wie sie ist und sich 

mehr dem Training des Modells zuzuwenden. Ein interessanter neuer Ansatz aus 

der statistischen Lerntheorie ist das von Schapire eingeführte Boosting (siehe [16, 

Kapitel 10]). Eigentlich für das Problem der Klassifikation entworfen besteht das 

Prinzip darin, endlich viele verschiedene Klassifizierer auf unterschiedlichen Verteilungen 

der Daten zu trainieren und die einzelnen Ausgaben zu kombinieren. Die 

Klassifizierer werden hierbei meist sehr einfach gehalten und sind für sich alleine auf 

dem Datensatz kaum besser als eine einfache Zufalls-Schätzung. Jedem Paar (x i , y i ) 

des Datensatzes wird ein Gewicht w i zugewiesen, welches zu Beginn für alle Punkte 

gleich ist (d.h. w i = 1/N mit N als Länge des Datensatzes). Der erste Klassifizierer 

wird auf dem Original-Datensatz trainiert und anschließend werden die Gewichte 

der Punkte erhöht, die fehlerhaft klassifiziert wurden. Mit diesen modifizierten Gewichten 

wird dann der nächste Klassifizierer trainiert und so fort. Die verschieden 

trainierten Klassifizierer bilden am Ende ein Ensemble, welches deutlich bessere Ergebnisse 

liefert als die einzelnen Klassifizierer alleine. Boosting-Algorithmen sind 

auch bereits mit Erfolg auf Regressionsprobleme übertragen worden [2], allerdings 

noch nicht mit lokaler Modellierung.

Anhang A 

Berechnung der Modellkoeffizienten 

In diesem Anhang soll kurz auf die praktische Berechnung von (3.11) eingegangen 

werden, da die numerische Stabilität, die erst durch ein Regularisierung des Modells 

gewährleistet werden kann (siehe Abschnitt 3.4), eine entscheidende Rolle bei der 

Genauigkeit des Modells spielt. Hierbei spielt die die Singulärwertzerlegung (SVD) 

der Matrix X W eine entscheidende Rolle. 

Allgemein ist für eine Matrix A ∈ R m×n die Singulärwertzerlegung gegeben durch 

A = U S V T , 

(A.1) 

wobei U ∈ R m×m und V ∈ R n×n orthogonal und S ∈ R m×n eine Diagonalmatrix ist. 

Auf der Diagonalen von S stehen die Singulärwerte σ i , wobei mit r = Rang(A) gilt 

σ 1 ≥ . . . ≥ σ r ≥ σ r+1 = . . . = σ min(m,n) = 0 . 

(A.2) 

Die Singulärwerte sind durch die Matrix A eindeutig bestimmt, nicht jedoch die 

orthogonalen Matrizen U und V. Definiert man nun die Matrix S † durch 

⎛ 

S † := 

⎜ 

⎝ 

⎞ 

1/σ 1 0 · · · 0 

... 

. . 

1/σ r 0 · · · 0 

0 · · · 0 0 · · · 0 

⎟ 

. . . . ⎠ 

0 · · · 0 0 · · · 0 

(A.3) 

so kann man zeigen [45, Satz 6.5], dass für m ≥ n und Rang(A) = n die Pseudoinverse 

von A gegeben ist durch 

A † = V S † U T 

(A.4) 

101

Seite 102 

und es ergibt sich 

A † y = 

r∑ 

i=1 

1 

σ i 

〈u T i , y〉v i , 

(A.5) 

wobei u i und v i die i-te Spaltenvektoren der Matrizen U bzw. V sind. Ganz allgemein 

gilt, wie auch durch Vergleich mit Kapitel 3 klar wird, dass x = A † y den 

Ausdruck ‖Ax − y‖ 2 minimiert.

Anhang B 

Nichtlineare Optimierung 

Für die Lösung des Support-Vektor-Problems mit ε-insensitiver Kostenfunktion sind 

die Bedingungen von Karuhn, Kush und Tucker (KKT) sowie die sog. duale 

Formulierung des Minimierungsproblems notwendig. Die hierfür notwendige Mathematik 

soll in diesem Anhang kurz zusammengefasst werden, wobei auf Beweise 

verzichtet wird. Diese finden sich in praktisch jedem Lehrbuch zur Optimierung und 

nichtlinearen Programmierung wie z.B. [27]. 

B.1 Die Karush-Kuhn-Tucker-Bedingungen 

Die KKT-Bedingungen stellen eine Verallgemeinerung der klassischen Theorie zur 

Bestimmung der bedingten Extrema von Lagrange dar. Sie wurden erstmals 1939 

von Karush formuliert und 1951 von Kuhn und Tucker verallgemeinert. In älteren 

Lehrbüchern werden sie meist nur als Kuhn-Tucker-Bedingungen bezeichnet. 

Gegeben sei das Problem 

Minimiere f(x) , x ∈ R d (B.1) 

unter den Nebenbedingungen c i (x) ≤ 0 , i = 1, . . . , m 

sowie die Menge M = {x|x ∈ R d , c i (x) ≤ 0} der zulässigen Punkte, die die Nebenbedingungen 

erfüllen. Unter gewissen Regularitätsvoraussetzungen, auf die hier 

nicht näher eingegangen werden soll und die im Falle des Support-Vektor-Problems 

erfüllt sind, kann der bekannte Formalismus der Lagrange-Multiplikatoren auf das 

Problem angewandt werden. Hierbei wird ausgenutzt, dass jede Ungleichung durch 

Einführung einer zusätzlichen Schlupf-Variable in eine Gleichung umgewandelt werden 

kann. Falls nun f(x) und die Nebenbedingungen c i (x) partiell differenzierbar 

103

Seite 104 

B.1. Die Karush-Kuhn-Tucker-Bedingungen 

sind und der Punkt q ∈ M das Minimierungsproblem lokal löst, dann existieren 

Skalare λ i sodass die KKT-Bedingungen 

∇f(x 0 ) + 

m∑ 

λ i ∇c i (x 0 ) = 0 (B.2) 

i=1 

λ i c i (x 0 ) = 0, i = 1, . . . , m (B.3) 

λ i ≥ 0, i = 1, . . . , m (B.4) 

gelten. Unter Verwendung der Lagrange-Funktion 

lauten die KKT-Bedingungen 

L(x, λ) = f(x) + 

m∑ 

λ i c i (x) 

i=1 

(B.5) 

∂L(x 0 , λ) 

∂x i 

= 0, i = 1, . . . , d (B.6) 

λ i · ∂L(x 0, λ) 

∂λ i 

= 0, i = 1, . . . , m (B.7) 

λ i ≥ 0, i = 1, . . . , m (B.8) 

Die Nebenbedingungen können zudem durch die Bedingungen 

∂L(x 0 , λ) 

∂λ i 

≤ 0 , i = 1, . . . , m (B.9) 

an die Lagrange-Funktion ausgedrückt werden. Die λ i werden als Lagrange-Multiplikatoren 

oder auch als duale Variablen bezeichnet; die Komponenten von x sind die primalen 

Variablen. Die KKT-Bedingungen sind notwendige Bedingungen für die Existenz 

eines lokalen Extremums bei x 0 . Falls aber f(x) und die Menge M (und somit die 

Nebenbedingungen c i ) konvex sind, so existiert ein eindeutiges globales Minimum 

und die KKT-Bedingungen sind hinreichend; dieser Fall ist beim SV-Problem gegeben. 

Die KKT-Bedingungen lassen sich zumindest für einfache Minimierungsprobleme 

anschaulich darstellen. Im Falle einer Funktion f(x, y) und zwei Nebenbedingungen 

c 1,2 (x, y) besagt (B.2), dass der negative Gradient −∇f durch eine Linearkombination 

der Gradienten der Nebenbedingungen mit positiven Koeffizienten dargestellt 

werden kann. Somit liegt der Vektor −∇f zwischen den beiden Vektoren ∇c 1,2 . Die

Anhang B. Nichtlineare Optimierung Seite 105 

zweite Bedingung (B.3) (komplementärer Schlupf) besagt, dass entweder λ i oder 

c i (x 0 ) oder beide Null sein müssen. Falls λ i = 0, ist die Nebenbedingung c i bei x 0 

nicht bindend (inaktiv), d.h. das Minimum von f(x) liegt im Inneren und nicht auf 

dem Rand der durch die Nebenbedingung c i definierten Menge. 

Bei vielen Optimierungsproblemen bestehen Nebenbedingungen darin, primale Variablen 

auf positive Werte zu beschränken 1 (Nichtnegativitätsbedingungen). Zur Vereinfachung 

der Notation gelte dies gerade für die ersten k ≤ d primalen Variablen. 

Die Lagrange-Funktion lautet dann 

˜L(x, λ, η) = f(x) + 

m∑ 

k∑ 

λ i c i (x) + η j (−x j ) 

i=1 

j=1 

(B.10) 

und die KKT-Bedingungen (B.2)-(B.4) liefern bei konvexen Problemen das globale 

Minimum. Die zu den Nichtnegativitätsbedingungen gehörenden Lagrange- 

Multiplikatoren η j können aber auch gleich Null gesetzt werden (d.h. man verwendet 

(B.5) als Lagrange-Funktion) und durch die zusätzlichen Bedingungen 

∂L(x 0 , λ 0 ) 

∂x i 

≥ 0 , i = 1, . . . , k (B.11) 

x i · ∂L(x 0, λ 0 ) 

∂x i 

= 0 , i = 1, . . . , k . (B.12) 

an die primalen Variablen x 1 , . . . , x k ersetzt werden. Falls in (B.12) gerade x i = 0 

gilt, handelt es sich hier um ein Randminimum, für x i > 0 um ein inneres Minimum 

bezüglich der i-ten Koordinate. 

B.2 Duale Formulierung 

Unter einer Dualfunktion versteht man eine Funktion F (x) die eine Schranke für 

die zu optimierende Primalfunktion f(x) darstellt. Ist wie in diesem Fall die Primalfunktion 

zu minimieren, so ist die Dualfunktion eine untere Schranke für die 

Primalfunktion. Eine Möglichkeit zur Formulierung einer Dualfunktion bietet die 

Lagrange-Funktion, indem die Minimierung von f(x) in den primalen Variablen 

(B.1) auf eine Maximierungsproblem in den dualen Variablen λ i transformiert wird. 

Um dies zu zeigen, werden zunächst die notwendigen Bedingungen für ein Minimum 

der Lagrange-Funktion (B.5) bezüglich der primalen Variablen x i betrachtet. Bei 

ξ (∗) 

i 

1 Solche Bedingungen existieren auch beim SV-Problem in der Form, dass die Schlupfvariablen 

positiv sein müssen.

Seite 106 

B.2. Duale Formulierung 

den freien primalen Variablen x k+1 , . . . , x d ist dies durch die Bedingung (B.6) gegeben, 

während für die den Nichtnegativitätsbedingungen unterworfenen Variablen 

x 1 , . . . , x k die Bedingungen (B.11) gelten müssen. Für ein Maximum der Lagrange- 

Funktion bezüglich der dualen Variablen λ i ist (B.9) eine notwendige Bedingung. 

Daraus folgt, dass die KKT-Bedingungen gerade notwendig für die Existenz eines 

Sattelpunktes der Lagrangefunktion sind. Ein Sattelpunkt ist charakterisiert durch 

L(x, λ 0 ) ≥ L(x 0 , λ 0 ) ≥ L(x 0 , λ) , 

(B.13) 

wobei x 0 und λ 0 gerade die primalen und dualen Variablen sind, die die KKT- 

Bedingungen erfüllen. Man kann nun das duale Problem formulieren, indem man 

sich dem Sattelpunkt der Lagrange-Funktion nicht über die primalen sondern über 

die dualen Variablen nähert: Man ersetzt das Optimierungsproblem (4.8) durch das 

Auffinden des Sattelpunktes der Lagrange-Funktion in Abhängigkeit von λ. Man 

erhält damit das Maximierungsproblem 

Maximiere g(λ) ≡ inf L(x, λ) 

x∈R d 

unter λ i ≥ 0 . (B.14) 

Für konvexe Optimierungsprobleme können die primalen Variablen durch KKT- 

Bedingungen (B.6) eliminiert werden. Daraus ergibt sich die duale Formulierung 

nach Wolfe 

Maximiere g(λ) ≡ L(x(λ), λ) 

unter λ i ≥ 0 (B.15) 

oder, um den Zusammenhang mit dem primalen Problem deutlich zu machen: 

f(x) = g(λ) (B.16) 

x ∈ M , λ i ≥ 0 , i = 1, . . . , m . 

Die Differenz f(x) − g(λ), die als Dualitätslücke bezeichnet wird, ist nützlich um 

z.B. die Konvergenzgeschwindigkeit eines Algorithmus zu bestimmen.

Literaturverzeichnis 

[1] J. Argyris, G. Faust und M. Haase: Die Erforschung des Chaos. Vieweg-Verlag, 

Braunschweig, Wiesbaden, 1995. 

[2] R. Avnimelech und N. Intrator: Boosting regression estimators. Neural Computation 

11, 499–520, 1999. 

[3] V. Babovic und D. R. Fuhrman: Data assimilation and error prediction using 

local models. D2K Technical Report 0401-2 , 2001. 

[4] G. Baier und S. Sahle: Design of hyperchaotic flows. Phys. Rev. E51(4), R2712– 

R2714, 1995. 

[5] R. Bellman: Dynamische Programmierung und selbstanpassende Regelprozesse. 

R.Oldenbourg Verlag, München, 1967. 

[6] J. L. Bentley: Multidimensional binary search trees used for associative searching. 

Communications of the ACM 18(9), 509–517, 1975. 

[7] M. Birattari und G. Bontempi: The lazy learning toolbox, for use with MAT- 

LAB. Technical Report TR/IRIDIA/99-7 , 1999. 

[8] G. Bontempi und M. Birattari: A multi-step-ahead prediction method based 

on local dynamic properties. In: Proceedings of ESANN 2000, S. 311–316, European 

Symposium on Artificial Neural Networks, 2000. 

[9] C. J. C. Burges: A tutorial on support vector machines for pattern recognition. 

Data Mining and Knowledge Discovery 2, 121–167, 1998. 

[10] T. Buzug: Analyse chaotischer Systeme. BI Wissenschaftsverlag, Mannheim, 

1994. 

[11] J. D. Farmer und J. J. Sidorowich: Predicting chaotic time series. Physical 

Review Letters 59(8), 845–848, 1987. 

[12] J. H. Friedman, J. L. Bentley und R. A. Finkel: An algorithm for finding best 

matches in logarithmic expected time. ACM Transactions on Mathematical 

Software 3(3), 209–226, 1977. 

107

Seite 108 


[13] K. Geist, U. Parlitz und W. Lauterborn: Comparison of different methods for 

computing Lyapunov exponents. Progress in Theoretical Physics 83(5), 875– 

893, 1990. 

[14] S. Geman, E. Bienenstock und R. Doursat: Neural networks and the bias/variance 

dilemma. Neural Computation 4, 1–58, 1992. 

[15] Drittes Physikalisches Institut Göttingen: TSTool. URL: http://www.dpi. 

physik.uni-goettingen.de/tstool, 2000. 

[16] T. Hastie, R. Tibshirani und J. Friedmann: The Elements of Statistical Learning. 

Springer-Verlag, New York, 2001. 

[17] J. L. Hindmarsh und R. M. Rose: A model of neuronal bursting using three 

coupled first order differential equations. Proc. Royal Society London B(221), 

87–102, 1985. 

[18] W. Härdle, H. Lütkepohl und R. Chen: A review of nonparametric time series 

analysis. International Statistical Review 65, 49–72, 1996. 

[19] K. Jänich: Analysis für Physiker und Ingenieure. Springer, Berlin, 1995. 

[20] D. Kugiumtzis: State space reconstruction parameters in the analysis of chaotic 

time series - the role of the time window length. Physica D 95, 13–28, 1996. 

[21] S. Maneewongvatana und D.M. Mount: An empirical study of a new approach 

to nearest neighbor searching. In: 3rd International Workshop on Algorithm 

Engineering and Experiments (ALENEX 2001), S. 172–187, Springer Lecture 

Notes LNCS 2153, 2001. 

[22] J. McNames: Innovations in Local Modeling for Time Series Prediction. Ph.d. 

thesis, Stanford University, 1999. 

[23] J. McNames: A fast nearest neighbor algorithm based on a principal axes tree. 

IEEE Transactions on Pattern Analysis and Machine Intelligence 23(9), 964– 

976, 2001. 

[24] J. McNames, J. A. K. Suykens und J. Vandewalle: Winning entry of the K. U. 

Leuven time series prediction competition. International Journal of Bifurcation 

and Chaos 9(8), 1485–1500, 1999. 

[25] C. Merkwirth: Nächste-Nachbar basierte Methoden in der nichtlinearen Zeitreihenanalyse. 

Dissertation, Universität Göttingen, 2000. 

[26] C. Merkwirth, U. Parlitz und W. Lauterborn: Fast nearest-neighbor searching 

for nonlinear signal processing. Physical Review E 62(2), 2089–2097, 2000.

Literaturverzeichnis Seite 109 

[27] M.S.Bazaraa, H.D.Sherali und C.M.Shetty: Nonlinear Programming. John Wiley 

& Sons, Inc., New York, zweite Aufl., 1993. 

[28] J. Barral P., A. Hasmy, J. Jiménez und A. Marcano: Nonlinear modeling technique 

for the analysis of DNA chains. Physical Review E 61(2), 1812–1815, 

2000. 

[29] U. Parlitz: Identification of true and spurious lyapunov exponents from time 

series. International Journal of Bifurcation and Chaos 2, 155–165, 1992. 

[30] W. H. Press, B. P. Flannery, S. A. Teukolsky und W. T. Vetterling: Numerical 

Recipes in C: The art of scientific computing. Cambridge University Press, 

Cambridge, 1992. 

[31] M. Sano und Y. Sawada: Measurement of the Lyapunov spectrum from a chaotic 

time series. Physical Review Letters 55(10), 1082–1085, 1985. 

[32] T. Sauer, J. A. Yorke und M. Casdagli: Embedology. Journal of Statistical 

Physics 65(4), 579–616, 1991. 

[33] C. Schaffer: Overfitting avoidance as bias. Machine Learning 10, 153–178, 1993. 

[34] L. A. Smith: Local optimal prediction: exploiting strangeness and the variation 

of sensitivity to initial condition. Philosophical Transactions of the Royal 

Society A(348), 371–381, 1994. 

[35] A. Smola: Regression estimation with support vector learning machines. Diplom, 

Technische Universität München, 1996. 

[36] A. J. Smola und B. Schölkopf: A tutorial on support vector regression. Neuro- 

COLT2 Technical Report Series NC2-TR-1998-030 , 1998. 

[37] J. C. Sprott: Lyapunov exponent and dimension of the lorenz attractor. URL: 

http://sprott.physics.wisc.edu/chaos/lorenzle.htm, 1997. 

[38] W.-H. Steeb: Chaos und Quantenchaos in dynamischen Systemen. BI Wissenschaftsverlag, 

Zürich, 1994. 

[39] J. A. K. Suykens und J. Vandewalle: Nonlinear Modeling - Advanced Black-Box 

Techniques. Kluwer Academic Publishers, Boston, 1998. 

[40] F. Takens: Detecting strange attractors in turbulence. In: Dynamical Systems 

and Turbulence, Springer Verlag, Berlin, 1981. 

[41] V. Vapnik: The Nature of Statistical Learning Theory. Springer Verlag, New 

York, 1995.

Seite 110 


[42] V.Vapnik, S.Golowich und A.Smola: Support vector method for function approximation, 

regression estimation, and signal processing. In: Advances in Neural 

Information Processing Systems 9, herausgegeben von M. Mozer, M. Jordan 

und T. Petsche, S. 281–287, MIT Press, 1997. 

[43] X.-J. Wang: Genesis of bursting oscillations in the Hindmarsh-Rose model and 

homoclinicity to a chaotic saddle. Physica D(62), 263–274, 1996. 

[44] A. S. Weigend und N. A. Gershenfeld: Time Series Prediction - Forecasting the 

future and understanding the past. Addison-Wesley Publishing Company, 1994. 

[45] J. Werner: Numerische Mathematik 1. Vieweg Studium, Wiesbaden, 1992.

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?