Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
(a) E<br />
E(w, x)<br />
(b) ∇wE(w, x)<br />
0<br />
x ∈ X<br />
x ∈ X<br />
E.2 Lernende Neuronale Netze 5<br />
Abbildung 3: Ein Fehlerfunktional E<br />
und Fehlerwerte für sequentiell präsentierte<br />
Reize x. In (a) sind die verschiedenen<br />
nacheinander auftretenden Punkte<br />
(x, E(w, x)) mit einer grauen Linie verbunden.<br />
In (b) sieht man den Satz der<br />
dazugehörenden Gradienten ∇wE(w, x).<br />
Die Gradienten sind <strong>von</strong> Null verschieden,<br />
haben im gegebenen Beispiel aber<br />
etwa den Mittelwert Null.<br />
alle Gradienten gleichzeitig verschwinden, in der Regel nicht gibt. Es kann aber ein<br />
W ∗ geben, für das der Mittelwert der Gradienten verschwindet,<br />
0 = 〈∇wrE(W ∗ ,x)〉 X ∀r. (10)<br />
Man sieht also, dass als Lernziel des Perzeptrons nur eine statistische Größe in Frage<br />
kommt. Statt E(W,x) aus Gleichung (7) muss nun der Mittelwert <strong>von</strong> E(W,x) auf<br />
dem Datensatz X ={x1, . . .,xT } minimiert werden,<br />
E(W) := 1<br />
2T<br />
T�<br />
t=1<br />
M� �<br />
yr − w T r x(t)� 2<br />
. (11)<br />
r=1<br />
Daraus ergibt sich sofort die gemittelte Lernregel<br />
wr(t+1) = wr(t) + ε �� yr − w T r x� x �<br />
deren stationärer Zustand durch (10) gegeben ist.<br />
X<br />
, (12)<br />
Es bieten sich nun zwei Möglichkeiten für die Formulierung des Perzeptron-Algorithmus<br />
und seiner Lernregel an. Beide sind in Abbildung 4 veranschaulicht.<br />
Die erste Variante wurde schon in Gleichung (6) eingeführt. Jeder Punkt x wird<br />
einzeln verarbeitet, es wird eine kleine Änderung der Parameter gemacht, und zwar<br />
als sequentieller stochastischer Gradientenabstieg auf der Fehlerfunktion E(W)<br />
aus (11),<br />
wr(t+1) = wr(t) + ε<br />
T ∇wrE(W(t),x(t+1)). (13)<br />
Diese Version heißt sequentiell, da sie die Reize x nacheinander verarbeitet. Sie heißt<br />
stochastisch, da die Punkte x zufällig aus dem Datensatz X gezogen werden. Daher<br />
besteht die Bewegung der Parameter wr aus vielen kleinen Schritten, die eine mehr<br />
oder minder zufällige Richtung haben, und deren Weite durch den Lernparameter<br />
ε/T bestimmt ist. Die mittlere Richtung der Parameterbewegung ist aber parallel<br />
zum Gradienten <strong>von</strong> E(W).