20.01.2015 Aufrufe

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

Optimierte lokale Modelle in der nichtlinearen Zeitreihenanalyse

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Seite 32<br />

2.4. Validierung <strong>lokale</strong>r <strong>Modelle</strong><br />

2.4 Validierung <strong>lokale</strong>r <strong>Modelle</strong><br />

Wie im vorigen Abschnitt erläutert ist es nicht ratsam, e<strong>in</strong> Modell ausschließlich<br />

auf Basis des mittleren quadratischen Fehlers des gegebenen Datensatzes zu optimieren,<br />

da es hierbei zu e<strong>in</strong>em Overfitt<strong>in</strong>g kommen kann. E<strong>in</strong>e Möglichkeit ist<br />

natürlich, von dem zu untersuchenden System neue Datensätze zu erstellen und<br />

das Modell mit diesen neuen Daten zu validieren. Allerd<strong>in</strong>gs ist dies häufig nicht<br />

möglich und zudem könnten diese Daten ebensogut <strong>in</strong> den bestehenden Datensatz<br />

<strong>in</strong>tegriert werden, um so die Genauigkeit des Modells weiter zu verbessern (gerade<br />

bei <strong>lokale</strong>n <strong>Modelle</strong>n ist die Genauigkeit eng mit <strong>der</strong> Zahl <strong>der</strong> zur Verfügung stehenden<br />

Daten verknüpft). E<strong>in</strong>e naheliegende Alternative ist, Tra<strong>in</strong><strong>in</strong>g und Validierung<br />

an Teilmengen des bestehenden Datensatzes vorzunehmen. Diese Strategie wird als<br />

Cross-Validation bezeichnet.<br />

2.4.1 Cross-Validation<br />

Bei <strong>der</strong> Cross-Validation (CV) wird <strong>der</strong> Datensatz <strong>in</strong> zwei Mengen aufgeteilt: e<strong>in</strong>e<br />

• Tra<strong>in</strong><strong>in</strong>gsmenge, anhand <strong>der</strong>er das Modell berechnet wird und e<strong>in</strong>e<br />

• Testmenge, die zur Validierung des Modells herangezogen wird.<br />

Wesentlich für die Cross-Validation ist, dass ke<strong>in</strong>erlei Daten <strong>der</strong> Testmenge <strong>in</strong> die<br />

Bildung des Modells e<strong>in</strong>fließen. Im Falle <strong>lokale</strong>r <strong>Modelle</strong> bedeutet dies, dass bei e<strong>in</strong>em<br />

Anfragepunkt aus <strong>der</strong> Testmenge nur nächste Nachbarn <strong>in</strong> <strong>der</strong> Tra<strong>in</strong><strong>in</strong>gsmenge<br />

gesucht werden dürfen. E<strong>in</strong> typischer Verlauf e<strong>in</strong>er solchen Cross-Validation ist, dass<br />

zunächst <strong>der</strong> Fehler sowohl auf dem Tra<strong>in</strong><strong>in</strong>gs- wie dem Testdatensatz kle<strong>in</strong>er wird,<br />

<strong>der</strong> Testfehler jedoch ansteigt, sobald e<strong>in</strong> Overfitt<strong>in</strong>g des Modells auftritt. Das M<strong>in</strong>imum<br />

des Testfehlers entspricht somit dem optimalen Satz <strong>der</strong> Modellparameter.<br />

Nachteil <strong>der</strong> Cross-Validation ist, dass weniger Punkte für das Tra<strong>in</strong><strong>in</strong>g des Modells<br />

zur Verfügung stehen. Es bleibt daher immer die Frage offen, ob e<strong>in</strong> Tra<strong>in</strong><strong>in</strong>g auf dem<br />

kompletten Datensatz ohne Cross-Validation nicht vielleicht e<strong>in</strong> besseres Modell liefern<br />

würde. Die Cross-Validation führt somit letztlich zu e<strong>in</strong>er Erhöhung des Bias des<br />

Modells, was bei komplexen Daten zu e<strong>in</strong>er schlechteren Modellierung führen kann.<br />

Es trifft im übrigen auf praktisch alle Verfahren zur Vermeidung von Overfitt<strong>in</strong>g<br />

zu, dass diese zu e<strong>in</strong>er Erhöhung des Bias führen (für e<strong>in</strong>e ausführliche Diskussion<br />

dieses Themas siehe [33]). Man kann diesen Effekt bei <strong>der</strong> Cross-Validation aber<br />

dadurch m<strong>in</strong>imieren, <strong>in</strong>dem man die Testmenge möglichst kle<strong>in</strong> macht. Natürlich<br />

verliert dadurch die Validierung des Modells an Aussagekraft, jedoch kann dieser<br />

Vorgang für mehrere Realisierungen von Testmengen durchgeführt werden. Dieses<br />

Pr<strong>in</strong>zip soll nun näher erläutert werden.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!