Neuronale Netze - D. Kriesel
Neuronale Netze - D. Kriesel
Neuronale Netze - D. Kriesel
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
das Verständnis für beide Regeln noch etwas zu schärfen. Wir haben gesehen, dass<br />
Backpropagation durch<br />
∆wk,h = ηokδh <br />
mit<br />
f<br />
δh =<br />
′ act(neth) · (th − yh) (h außen)<br />
f ′ act(neth) · <br />
l∈L (δlwh,l) (h innen)<br />
(5.41)<br />
definiert ist. Da wir sie nur für einstufige Perceptrons verwenden, fällt der zweite Teil<br />
von Backpropagation (heller dargestellt) ersatzlos weg, wir erhalten also:<br />
∆wk,h = ηokδh mit<br />
δh = f ′ act(neth) · (th − oh)<br />
(5.42)<br />
Weiterhin wollen wir nur lineare Aktivierungsfunktionen verwenden, so dass f ′ act (heller<br />
dargestellt) konstant ist. Konstanten lassen sich bekanntlich zusammenfassen, wir<br />
fassen also die konstante Ableitung f ′ act und die (mindestens pro Lernzyklus konstante)<br />
Lernrate η (auch heller dargestellt) direkt in η zusammen. Es ergibt sich also:<br />
Dies entspricht genau der Definition der Delta-Regel.<br />
∆wk,h = ηokδh = ηok · (th − oh) (5.43)<br />
5.4.3 Die Wahl der Lernrate hat enormen Einfluss auf den Lernprozeß<br />
Wie mittlerweile vielfach gesehen, ist die Gewichtsänderung in jedem Fall proportional<br />
zur Lernrate η. Die Wahl von η ist also sehr entscheidend für das Verhalten von<br />
Backpropagation und allgemein für Lernverfahren.<br />
Definition 5.9 (Lernrate). Die Geschwindigkeit und Genauigkeit eines Lernverfahrens<br />
ist immer steuerbar von und proportional zu einer Lernrate, welche als η geschrieben<br />
wird.<br />
Wird η zu groß gewählt, so sind die Sprünge auf der Fehlerfläche zu groß und es könnten<br />
z.B. enge Täler, also gute Werte, einfach übersprungen werden, zudem bewegt man sich<br />
sehr unkontrolliert über die Fehleroberfläche. Das Wunschmittel ist also ein kleines η,<br />
was aber einen riesigen, oft inakzeptablen Zeitaufwand mit sich bringen kann. Die<br />
Erfahrung zeigt, dass gute Werte für die Lernrate im Bereich<br />
0.01 ≤ η ≤ 0.9<br />
liegen. Die Wahl von η hängt maßgeblich von Problem, Netz und Trainingsdaten ab,<br />
so dass man kaum praktische Wahlhilfen geben kann. Beliebt ist jedoch, mit einem<br />
relativ großen η, z.B. 0.9, den Anfang des Lernens zu machen und η dann langsam<br />
bis auf z.B. 0.1 zu verringern, während für einfachere Probleme η oft einfach konstant<br />
gehalten werden kann.