Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Diplomarbeit von Michael Schindler
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
E.3 Wie lernen Neuronale Netze in veränderlichen Umwelten? 7<br />
E.3 Wie lernen Neuronale Netze in veränderlichen<br />
Umwelten?<br />
Einige der oben genannten Algorithmen gibt es sowohl in batch- als auch in sequentieller<br />
Formulierung. Es stellt sich nun die Frage, ob beide Lernszenarien die gleichen<br />
Konvergenzeigenschaften haben, und wenn ja, unter welchen Bedingungen. Die meisten<br />
Algorithmen werden in ihrer batch-Version untersucht, da sich dann ihr Konvergenzverhalten<br />
wesentlich leichter formulieren und beweisen lässt (siehe z.B. Benveniste et al.<br />
1990; Ritter et al. 1992 und Heskes et al. 1993). Die so gefundenen Aussagen lassen<br />
sich nur dann auf sequentielles Lernen übertragen, wenn die Trajektorie des stochastischen<br />
Gradientenabstiegs eine leicht verrauschte Version der glatten Kurve ist. Für die<br />
beiden Trajektorien in Abb. 4 würde das bedeuten, dass sich die sequentielle immer<br />
in einer Umgebung der deterministischen Abstiegskurve befinden müsste. Dies kann<br />
jedoch nicht immer garantiert werden. Ein prototypisches Beispiel, bei dem es nicht<br />
der Fall ist, findet sich schon beim allereinfachsten ANN, das nun zur Erläuterung der<br />
auftretenden Probleme diskutiert werden soll und das in Abbildung 5 skizziert ist.<br />
x w a<br />
Abbildung 5: Das einfachste zwei-Schichten-ANN. Der Eingabeknoten hat die<br />
Aktivität x, der Ausgabeknoten a. Das Signal wird mit der Stärke w propagiert.<br />
Das einfachste adaptive Neuronale Netzwerk<br />
Das ANN aus Abb. 5 hat nur einen Eingabeknoten, eine Kante und einen Ausgabeknoten.<br />
Es folge der Lernregel<br />
Px : w(t+1) = w(t) + ε(xt − w(t)). (15)<br />
Die Form der Verarbeitungsabbildung Aw ist an dieser Stelle unwichtig, da sie in die angenommene<br />
Lernregel nicht eingeht. Man sieht sofort, dass der stochastisch stationäre<br />
Zustand w ∗ der Lernregel (15) bei<br />
〈x − w ∗ 〉 X = 0, oder w ∗ = 〈x〉 X (16)<br />
erreicht ist. Der optimale Wert <strong>von</strong> w ist demnach der globale Mittelwert des Datensatzes<br />
X. Dieses adaptive Neuronale Netz führt also eine Mittelwertsbildung durch.<br />
Wie verhält sich die batch-Version des Algorithmus? Für sie gilt der Mittelwert <strong>von</strong> (15),<br />
was sich zusammen mit (16) zu der Lernregel<br />
Px : w(t+1) = w(t) + ε(w ∗ − w(t)) (17)<br />
reduziert. Man erkennt sofort die exponentielle Konvergenz auf der Zeitskala 1/ε,<br />
w(t) − w ∗ = � w(0) − w ∗� (1 − ε) t , und für kleine ε<br />
≈ � w(0) − w ∗� exp(−εt).<br />
(18)