21.12.2012 Aufrufe

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

(a) E<br />

E(w, x)<br />

(b) ∇wE(w, x)<br />

0<br />

x ∈ X<br />

x ∈ X<br />

E.2 Lernende Neuronale Netze 5<br />

Abbildung 3: Ein Fehlerfunktional E<br />

und Fehlerwerte für sequentiell präsentierte<br />

Reize x. In (a) sind die verschiedenen<br />

nacheinander auftretenden Punkte<br />

(x, E(w, x)) mit einer grauen Linie verbunden.<br />

In (b) sieht man den Satz der<br />

dazugehörenden Gradienten ∇wE(w, x).<br />

Die Gradienten sind <strong>von</strong> Null verschieden,<br />

haben im gegebenen Beispiel aber<br />

etwa den Mittelwert Null.<br />

alle Gradienten gleichzeitig verschwinden, in der Regel nicht gibt. Es kann aber ein<br />

W ∗ geben, für das der Mittelwert der Gradienten verschwindet,<br />

0 = 〈∇wrE(W ∗ ,x)〉 X ∀r. (10)<br />

Man sieht also, dass als Lernziel des Perzeptrons nur eine statistische Größe in Frage<br />

kommt. Statt E(W,x) aus Gleichung (7) muss nun der Mittelwert <strong>von</strong> E(W,x) auf<br />

dem Datensatz X ={x1, . . .,xT } minimiert werden,<br />

E(W) := 1<br />

2T<br />

T�<br />

t=1<br />

M� �<br />

yr − w T r x(t)� 2<br />

. (11)<br />

r=1<br />

Daraus ergibt sich sofort die gemittelte Lernregel<br />

wr(t+1) = wr(t) + ε �� yr − w T r x� x �<br />

deren stationärer Zustand durch (10) gegeben ist.<br />

X<br />

, (12)<br />

Es bieten sich nun zwei Möglichkeiten für die Formulierung des Perzeptron-Algorithmus<br />

und seiner Lernregel an. Beide sind in Abbildung 4 veranschaulicht.<br />

Die erste Variante wurde schon in Gleichung (6) eingeführt. Jeder Punkt x wird<br />

einzeln verarbeitet, es wird eine kleine Änderung der Parameter gemacht, und zwar<br />

als sequentieller stochastischer Gradientenabstieg auf der Fehlerfunktion E(W)<br />

aus (11),<br />

wr(t+1) = wr(t) + ε<br />

T ∇wrE(W(t),x(t+1)). (13)<br />

Diese Version heißt sequentiell, da sie die Reize x nacheinander verarbeitet. Sie heißt<br />

stochastisch, da die Punkte x zufällig aus dem Datensatz X gezogen werden. Daher<br />

besteht die Bewegung der Parameter wr aus vielen kleinen Schritten, die eine mehr<br />

oder minder zufällige Richtung haben, und deren Weite durch den Lernparameter<br />

ε/T bestimmt ist. Die mittlere Richtung der Parameterbewegung ist aber parallel<br />

zum Gradienten <strong>von</strong> E(W).

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!