21.12.2012 Aufrufe

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

Diplomarbeit von Michael Schindler

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

E.3 Wie lernen Neuronale Netze in veränderlichen Umwelten? 7<br />

E.3 Wie lernen Neuronale Netze in veränderlichen<br />

Umwelten?<br />

Einige der oben genannten Algorithmen gibt es sowohl in batch- als auch in sequentieller<br />

Formulierung. Es stellt sich nun die Frage, ob beide Lernszenarien die gleichen<br />

Konvergenzeigenschaften haben, und wenn ja, unter welchen Bedingungen. Die meisten<br />

Algorithmen werden in ihrer batch-Version untersucht, da sich dann ihr Konvergenzverhalten<br />

wesentlich leichter formulieren und beweisen lässt (siehe z.B. Benveniste et al.<br />

1990; Ritter et al. 1992 und Heskes et al. 1993). Die so gefundenen Aussagen lassen<br />

sich nur dann auf sequentielles Lernen übertragen, wenn die Trajektorie des stochastischen<br />

Gradientenabstiegs eine leicht verrauschte Version der glatten Kurve ist. Für die<br />

beiden Trajektorien in Abb. 4 würde das bedeuten, dass sich die sequentielle immer<br />

in einer Umgebung der deterministischen Abstiegskurve befinden müsste. Dies kann<br />

jedoch nicht immer garantiert werden. Ein prototypisches Beispiel, bei dem es nicht<br />

der Fall ist, findet sich schon beim allereinfachsten ANN, das nun zur Erläuterung der<br />

auftretenden Probleme diskutiert werden soll und das in Abbildung 5 skizziert ist.<br />

x w a<br />

Abbildung 5: Das einfachste zwei-Schichten-ANN. Der Eingabeknoten hat die<br />

Aktivität x, der Ausgabeknoten a. Das Signal wird mit der Stärke w propagiert.<br />

Das einfachste adaptive Neuronale Netzwerk<br />

Das ANN aus Abb. 5 hat nur einen Eingabeknoten, eine Kante und einen Ausgabeknoten.<br />

Es folge der Lernregel<br />

Px : w(t+1) = w(t) + ε(xt − w(t)). (15)<br />

Die Form der Verarbeitungsabbildung Aw ist an dieser Stelle unwichtig, da sie in die angenommene<br />

Lernregel nicht eingeht. Man sieht sofort, dass der stochastisch stationäre<br />

Zustand w ∗ der Lernregel (15) bei<br />

〈x − w ∗ 〉 X = 0, oder w ∗ = 〈x〉 X (16)<br />

erreicht ist. Der optimale Wert <strong>von</strong> w ist demnach der globale Mittelwert des Datensatzes<br />

X. Dieses adaptive Neuronale Netz führt also eine Mittelwertsbildung durch.<br />

Wie verhält sich die batch-Version des Algorithmus? Für sie gilt der Mittelwert <strong>von</strong> (15),<br />

was sich zusammen mit (16) zu der Lernregel<br />

Px : w(t+1) = w(t) + ε(w ∗ − w(t)) (17)<br />

reduziert. Man erkennt sofort die exponentielle Konvergenz auf der Zeitskala 1/ε,<br />

w(t) − w ∗ = � w(0) − w ∗� (1 − ε) t , und für kleine ε<br />

≈ � w(0) − w ∗� exp(−εt).<br />

(18)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!