Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Weitere Magazine

Empfehlungen

Info

Seite 30 2.3. Bias, Varianz und Overfitting durch Interpolation der Daten den Fehler auf Null zu bringen. Eine solches Modell würde jedoch für andere Datensätze schlechtere Ergebnisse bringen als die Regression E [y | x], da hierbei neben den eigentlichen Strukturen auch Rauschen modelliert wird. Man bezeichnet dies als ein Overfitting des Modells an den gegebenen Datensatz. Dieser Effekt soll nun näher erläutert werden. Der Bias/Varianz-Kompromiss Da die Varianz aus (2.8) unabhängig von der Funktion f(x) ist, muss für die Optimierung eines Modells der zweite Term (f(x; Ω) − E [y | x]) 2 betrachtet werden, der den eigentlichen Modellierungsfehler darstellt. Im Idealfall ist dieser Null und somit f(x) identisch mit der Regression E [y | x]. Es ist jedoch nicht ausreichend, dies für eine konkrete Realisierung Ω zu erreichen, vielmehr muss dies im Mittel über alle möglichen Realisierungen erfüllt sein; dies entspricht der Forderung, dass das Modell die Fähigkeit zur Generalisierung besitzen muss. Man bildet daher den Erwartungswert dieses Terms über alle möglichen Realisierungen und zerlegt diesen wie in (2.7). Dann ergibt sich E Ω [(f(x; Ω) − E [y | x]) 2 ] = E Ω [ ((f(x; Ω) − EΩ [f(x; Ω)]) + (E Ω [f(x; Ω)] − E [y | x])) 2] = E Ω [ (f(x; Ω) − EΩ [f(x; Ω)]) 2] + E Ω [ (EΩ [f(x; Ω)] − E [y | x]) 2] + 2E Ω [(f(x; Ω) − E Ω [f(x; Ω)]) · (E Ω [f(x; Ω)] − E [y | x])] = E Ω [ (f(x; Ω) − EΩ [f(x; Ω)]) 2] + (E Ω [f(x; Ω)] − E [y | x]) 2 + 2E Ω [f(x; Ω) − E Ω [f(x; Ω)]] · (E Ω [f(x; Ω)] − E [y | x]) = (E Ω [f(x; Ω)] − E [y | x]) 2 [ + E } {{ } Ω (f(x; Ω) − EΩ [f(x; Ω)]) 2] . } {{ } Bias 2 Varianz f (2.10) Der Bias beschreibt den Erwartungswert der Abweichung der Funktion f(x) von der Regression über alle möglichen Realisierungen. Eine Funktion mit hohem Bias liefert somit für jede Realisierung ein ähnliches Ergebnis, das jedoch im Mittel stark von der Regression abweicht. Man spricht hierbei von einem Underfitting, da das Modell nicht flexibel genug ist. Ein Funktion mit niedrigem Bias hingegen liegt im Mittel über alle Realisierungen nahe bei der Regression. Im Extremfall verschwindet der Bias, d.h. es gilt E Ω [f(x; Ω)] = E [y | x]. Dies heißt jedoch nicht, dass dann auch der Modellierungsfehler besonders klein wird. Dies liegt daran, dass selbst wenn der Bias Null ist daraus nicht folgt, dass auch f(x; Ω) für eine gegebene Realisierung ein guter Schätzer für die Regression E [y | x] ist. Eine Funktion ohne oder mit niedrigem Bias kann für verschiedene Realisierungen ganz unterschiedliche Ausgaben liefern,
Kapitel 2. Lokale Modelle Seite 31 was die Varianz vergrößert, die die Streuung der Funktion f(x) in Abhängigkeit von den unterschiedlichen Realisierungen beschreibt und additiv in den Modellierungsfehler eingeht. Dies entspricht dem oben erwähnten Overfitting, wo spezifische Eigenarten eines bestimmten Datensatzes modelliert werden, die jedoch nicht verallgemeinerungsfähig sind. Allerdings führt ein niedriger Bias nicht zwangsläufig zu einer hohen Varianz; gerade bei hinreichend komplexen Datensätzen sollte auch ein entsprechend komplexes Modell eingesetzt werden, da die Verringerung des Bias hier den Anstieg der Varianz überwiegt. Man beachte den Unterschied zwischen den Varianzen in (2.8) und (2.10): während die eine unabhängig von f(x) und Ω ist, ist die andere direkt vom gegebenen Modell abhängig und somit kontrollierbar. Die Tatsache, dass i.A. niedriger Bias zu hoher Varianz führt und umgekehrt, wird von Geman et al. in [14] als das Bias-Varianz- Dilemma bezeichnet, wobei die Bezeichnung “Kompromiss” (trade-off) das Problem aber besser erfasst: bei der Berechnung eines Schätzers für die Regression muss ein Kompromiss zwischen Bias und Varianz oder etwas freier ausgedrückt: zwischen Robustheit und Variabilität gefunden werden. Sowohl Bias als auch Varianz gleichzeitig zum Verschwinden zu bringen, ist im Allgemeinen nicht möglich. Ein Beispiel hierfür ist die Wahl der Größe der Umgebung bei lokalen Modellen (siehe Abschnitt 3.3.1). Vermeidung von Overfitting Das Problem des Overfitting entsteht beispielsweise dadurch, dass die Parameter des Modells ausschließlich über eine Minimierung des mittleren quadratischen Fehlers auf der Trainingsmenge optimiert werden. Ein hinreichend komplexes Modell mit niedrigem Bias kann hierbei immer so trainiert werden, dass dieser Fehler nahezu verschwindet, hierbei jedoch i.A. die Varianz ansteigt. Um dies zu vermeiden, kann an zwei Stellen angesetzt werden: der Komplexität des Modells (die statistische Lerntheorie spricht auch von der Kapazität der Lernmaschine) und dem Training des Modells. Im Falle von lokalen Modellen wurde bereits in Abschnitt 2.1.1 erwähnt, dass die Größe der Umgebung des Anfragepunktes wesentlich die Variabilität des Modells steuert, vom Extremfall der Interpolation zum Extremfall eines einfachen globalen Modells. Sie ist also der erste Ansatzpunkt zur Steuerung der Komplexität des Modells, sowohl zur Vermeidung von Overfitting als auch zur Vermeidung eines zu hohen Bias und dem daraus folgenden Underfitting. Andere Möglichkeiten, die vor allem eine zu hohe Varianz vermeiden, bestehen in der Regularisierung des Modells (Abschnitt 3.4), der Reduzierung des Datensatzes (Abschnitt 3.6) und der Wahl alternativer Kostenfunktionen (Kapitel 4). Für das Training eines lokalen Modells kann eine “extreme” Form der sog. Cross- Validation verwendet werden, die im folgenden Abschnitt erläutert werden soll.
Seite 1 und 2: Optimierte lokale Modelle in der ni
Seite 3 und 4: Inhaltsverzeichnis Seite 3 3 Lokal
Seite 5 und 6: Einleitung In der Physik hat man me
Seite 7 und 8: Inhaltsverzeichnis Seite 7 worfen.
Seite 9 und 10: Kapitel 1. Grundlagen Seite 9 1.1 D
Seite 11 und 12: Kapitel 1. Grundlagen Seite 11 Das
Seite 13 und 14: Kapitel 1. Grundlagen Seite 13 k Ly
Seite 15 und 16: Kapitel 1. Grundlagen Seite 15 Im F
Seite 17 und 18: Kapitel 1. Grundlagen Seite 17 mit
Seite 19 und 20: Kapitel 1. Grundlagen Seite 19 werd
Seite 21 und 22: Kapitel 2 Lokale Modelle 2.1 Das Mo
Seite 23 und 24: Kapitel 2. Lokale Modelle Seite 23
Seite 29: Kapitel 2. Lokale Modelle Seite 29
Seite 37 und 38: Kapitel 3. Lokal polynomiale Modell
Seite 69 und 70: £¢ £ ¢
Seite 77 und 78: Kapitel 4. Support-Vektor-Regressio
Seite 79 und 80: Kapitel 4. Support-Vektor-Regressio
Seite 81 und 82:
Kapitel 4. Support-Vektor-Regressio
Seite 83 und 84:
Seite 85 und 86:
Seite 87 und 88:
Kapitel 5 Anwendungen der Modelle I
Seite 89 und 90:
Kapitel 5. Anwendungen der Modelle
Seite 91 und 92:
Seite 93 und 94:
Seite 95 und 96:
Seite 97 und 98:
Seite 99 und 100:
Kapitel 6 Zusammenfassung und Ausbl
Seite 101 und 102:
Anhang A Berechnung der Modellkoeff
Seite 103 und 104:
Anhang B Nichtlineare Optimierung F
Seite 105 und 106:
Anhang B. Nichtlineare Optimierung
Seite 107 und 108:
Literaturverzeichnis [1] J. Argyris
Seite 109 und 110:
Literaturverzeichnis Seite 109 [27]
Alle anzeigen

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?