28.09.2013 Aufrufe

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

Neuronale Netze - D. Kriesel

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

das Verständnis für beide Regeln noch etwas zu schärfen. Wir haben gesehen, dass<br />

Backpropagation durch<br />

∆wk,h = ηokδh <br />

mit<br />

f<br />

δh =<br />

′ act(neth) · (th − yh) (h außen)<br />

f ′ act(neth) · <br />

l∈L (δlwh,l) (h innen)<br />

(5.41)<br />

definiert ist. Da wir sie nur für einstufige Perceptrons verwenden, fällt der zweite Teil<br />

von Backpropagation (heller dargestellt) ersatzlos weg, wir erhalten also:<br />

∆wk,h = ηokδh mit<br />

δh = f ′ act(neth) · (th − oh)<br />

(5.42)<br />

Weiterhin wollen wir nur lineare Aktivierungsfunktionen verwenden, so dass f ′ act (heller<br />

dargestellt) konstant ist. Konstanten lassen sich bekanntlich zusammenfassen, wir<br />

fassen also die konstante Ableitung f ′ act und die (mindestens pro Lernzyklus konstante)<br />

Lernrate η (auch heller dargestellt) direkt in η zusammen. Es ergibt sich also:<br />

Dies entspricht genau der Definition der Delta-Regel.<br />

∆wk,h = ηokδh = ηok · (th − oh) (5.43)<br />

5.4.3 Die Wahl der Lernrate hat enormen Einfluss auf den Lernprozeß<br />

Wie mittlerweile vielfach gesehen, ist die Gewichtsänderung in jedem Fall proportional<br />

zur Lernrate η. Die Wahl von η ist also sehr entscheidend für das Verhalten von<br />

Backpropagation und allgemein für Lernverfahren.<br />

Definition 5.9 (Lernrate). Die Geschwindigkeit und Genauigkeit eines Lernverfahrens<br />

ist immer steuerbar von und proportional zu einer Lernrate, welche als η geschrieben<br />

wird.<br />

Wird η zu groß gewählt, so sind die Sprünge auf der Fehlerfläche zu groß und es könnten<br />

z.B. enge Täler, also gute Werte, einfach übersprungen werden, zudem bewegt man sich<br />

sehr unkontrolliert über die Fehleroberfläche. Das Wunschmittel ist also ein kleines η,<br />

was aber einen riesigen, oft inakzeptablen Zeitaufwand mit sich bringen kann. Die<br />

Erfahrung zeigt, dass gute Werte für die Lernrate im Bereich<br />

0.01 ≤ η ≤ 0.9<br />

liegen. Die Wahl von η hängt maßgeblich von Problem, Netz und Trainingsdaten ab,<br />

so dass man kaum praktische Wahlhilfen geben kann. Beliebt ist jedoch, mit einem<br />

relativ großen η, z.B. 0.9, den Anfang des Lernens zu machen und η dann langsam<br />

bis auf z.B. 0.1 zu verringern, während für einfachere Probleme η oft einfach konstant<br />

gehalten werden kann.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!