Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Weitere Magazine

Empfehlungen

Info

Seite 78 4.1. Lineare Support-Vektor-Regression Um den Support-Vektor-Ansatz vom Problem der Klassifikation auf das Problem der Regression zu übetragen, verwendet Vapnik in [41] die ε-insensitive Kostenfunktion, { 0 falls |η| ≤ ε |η| ε ≡ |η| − ε sonst. (4.5) Ihre Wirkung ist, dass nur die Punkte, die einen Abstand größer als ε von der Regressionsfunktion haben, in die Kosten einfließen (siehe Abbildung 4.1). Alle anderen Punkte in diesem “ε-Schlauch” sind für die Bildung des Modells praktisch ohne Bedeutung. Das Modell wird dadurch robuster gegenüber dem Einfluss von Rauschen und das Risiko des Overfitting ist verringert. Die Punkte, die außerhalb der ε-Schranke liegen, sind die Support-Vektoren. Neben (4.5) gibt es andere mögliche Kostenfunktionen. Dies sind einerseits Variationen der ε-insensitiven Funktion, aber auch stetig differenzierbare Funktionen, die zu herkömmlichen Regressionsverfahren ohne Support-Vektoren führen (z.B. entspricht L(η) = η 2 dem mittleren quadratischen Fehler, der bislang als Fehlergröße verwendet wurde). Beispiele finden sich z.B. in [35]. y ξ ε ξ∗ |η| ε ξ ∗ x ε ε η Abbildung 4.1: Wirkung der ε-insensitiven Kostenfunktion Die Schwierigkeit liegt in der richtigen Wahl des Parameters ε. Er sollte am Signal- Rausch-Verhältnis ausgerichtet werden, was aber in der Praxis meist nicht bekannt ist. Somit ist eine Optimierung des Parameters nötig, wobei sich bei lokalen Modellen wieder die Leave-one-out Cross-Validation als Fehlergröße anbietet. Die ε-insensitive Kostenfunktion ersetzt allerdings nicht die Regularisierung des Modells. Der Einfachheit halber soll zunächst von einem linearen Modell f(x) = 〈w, x〉 + b , x, w ∈ R d , b ∈ R (4.6)
Kapitel 4. Support-Vektor-Regression Seite 79 ausgegangen werden. Für die Regularisierung wird auf eine einfache Form der Ridge Regression zurückgegriffen, wobei man einen additiven Regularisierungsterm der Form ‖w‖ 2 /2 einfügt und das empirische Risiko mit einem konstanten Faktor C wichtet, R = CR emp + 1 2 ‖w‖2 . (4.7) Der Parameter C gibt somit an, ob die die Flachheit des Modells oder die Minimierung der Abweichungen größer als ε im Vordergrund steht. Man stößt hier wieder auf den Bias-Varianz-Kompromiss: Für C → ∞ erhält man ein komplexes Modell mit maximalem Bias und minimaler Varianz, umgekehrt für C → 0 ein konstantes Modell mit minimalem Bias und maximaler Varianz. Nun ist die Kostenfunktion (4.5) an den Stellen ±ε nicht differenzierbar, weshalb Gradienten-basierte Optimierungsverfahren nicht verwendet werden können. Daher werden die Schlupf-Variablen ξ i , ξi ∗ eingeführt, die die Abweichung oberhalb bzw. unterhalb zur ε-Umgebung der Regressionsfunktion angeben (siehe Abbildung 4.1) und ohne Verwendung der ε-insensitiven Kostenfunktion in (4.7) eingesetzt. Um das insensitive Verhalten gegenüber ε zu wahren, sind zusätzlich vier Nebenbedingungen nötig, sodass man als neues Minimierungsproblem N∑ minimiere C (ξ i + ξi ∗ ) + 1 2 |w|2 i=1 ⎧ ⎨ y i − 〈w, x i 〉 − b ≤ ε + ξ i unter 〈w, x i 〉 + b − y i ≤ ε + ξi ∗ ⎩ −ξ i , −ξi ∗ ≤ 0 (4.8) erhält. Diese Formulierung ist äquivalent zur Minimierung von (4.7). Zur Lösung wird der Lagrange-Formalismus verwendet, d.h. zunächst wird die Lagrange-Funktion L = 1 N∑ N∑ 2 ‖w‖2 + C (ξ i + ξi ∗ ) − α i (ε + ξ i − y i + 〈w, x i 〉 + b) − i=1 i=1 N∑ αi ∗ (ε + ξi ∗ + y i − 〈w, x i 〉 − b) − i=1 i=1 N∑ (η i ξ i + ηi ∗ ξi ∗ ) (4.9) konstruiert. Da die Kostenfunktion und die Nebenbedingungen konvex sind, liefern die Karush-Kuhn-Tucker (KKT) Bedingungen (siehe Anhang B.1) die globale Lösung des Minimierungsproblems. Mit der KKT-Bedingung (B.6) folgt, dass
Seite 1 und 2:
Optimierte lokale Modelle in der ni
Seite 3 und 4:
Inhaltsverzeichnis Seite 3 3 Lokal
Seite 5 und 6:
Einleitung In der Physik hat man me
Seite 7 und 8:
Inhaltsverzeichnis Seite 7 worfen.
Seite 9 und 10:
Kapitel 1. Grundlagen Seite 9 1.1 D
Seite 11 und 12:
Kapitel 1. Grundlagen Seite 11 Das
Seite 13 und 14:
Kapitel 1. Grundlagen Seite 13 k Ly
Seite 15 und 16:
Kapitel 1. Grundlagen Seite 15 Im F
Seite 17 und 18:
Kapitel 1. Grundlagen Seite 17 mit
Seite 19 und 20:
Kapitel 1. Grundlagen Seite 19 werd
Seite 21 und 22:
Kapitel 2 Lokale Modelle 2.1 Das Mo
Seite 23 und 24:
Kapitel 2. Lokale Modelle Seite 23
Seite 25 und 26:
Kapitel 2. Lokale Modelle Seite 25
Seite 27 und 28: Kapitel 2. Lokale Modelle Seite 27
Seite 37 und 38: Kapitel 3. Lokal polynomiale Modell
Seite 69 und 70: £¢ £ ¢
Seite 77: Kapitel 4. Support-Vektor-Regressio
Seite 81 und 82: Kapitel 4. Support-Vektor-Regressio
Seite 87 und 88: Kapitel 5 Anwendungen der Modelle I
Seite 89 und 90: Kapitel 5. Anwendungen der Modelle
Seite 99 und 100: Kapitel 6 Zusammenfassung und Ausbl
Seite 101 und 102: Anhang A Berechnung der Modellkoeff
Seite 103 und 104: Anhang B Nichtlineare Optimierung F
Seite 105 und 106: Anhang B. Nichtlineare Optimierung
Seite 107 und 108: Literaturverzeichnis [1] J. Argyris
Seite 109 und 110: Literaturverzeichnis Seite 109 [27]
Alle anzeigen

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?