Diplomarbeit von Michael Schindler

Weitere Magazine

Empfehlungen

Info

6 Einleitung In der folgenden Gleichung (14) wird nicht nach jedem x angepasst, sondern es werden zunächst alle zum Datensatz gehörenden Gradienten bei festem Parametersatz gemittelt, wr(t+1) = wr(t) + ε 〈∇wrE(W(t),x)〉 X . (14) Die T kleinen Schritte aus (13) werden hier also zu einem großen Schritt zusammengefasst. Diese Version heißt batch-Algorithmus. Sie führt zu glatteren Gradientenabstiegskurven auf E (vgl. Abb. 4), die dadurch aber auch leichter in lokalen Extrema von E steckenbleiben. In beiden Algorithmen wird eine Mittelung der Gradienten ∇wE durchgeführt. In der batch-Version explizit, in der sequentiell-stochastischen Version durch die um 1/T verkleinerte Schrittweite. wrq Abbildung 4: Gewöhnlicher und stochastischer Gradientenabstieg. Beide Trajektorien konvergieren in das Minimum des Fehlerfunktionals E, die eine glatt, die andere bekommt nicht nur die Schankungen der Eingabereize x mit, sondern sieht deswegen auch Gradienten ∇wE(W,x) in der Umgebung der glatten Trajektorie. Mittelung bei adaptiven Neuronalen Netzwerken Die Eigenschaft, dass die gesehenen Reize, also die Aktivitäten auf der Eingabeschicht, nur als Mittelwerte in die Adaptation der Lernparameter eingehen, ist wesentlich für das zuverlässige Konvergieren des Lernalgorithmus. Sie ist nicht nur beim vorgestellten Perzeptron zu finden, sondern bei allen bekannten Lernregeln für Neuronale Netze. An (13) und (14) wird deutlich, dass sich die Argumentation leicht auf alle Lernregeln erweitern lässt, die einen Gradientenabstieg durchführen. Sie gilt ebenfalls für diverse Formen des Hebb’schen Lernens, das im Rest der Arbeit ausschließlich verwendet wird. Die Mittelungseigenschaft findet sich somit insbesondere beim Hopfield-Modell (Hopkins, 1982), dem Backpropagation-Algorithmus (Rumelhart et al. 1986), dem Kohonen-Netz (Kohonen, 1982), diversen Assoziativspeichern (siehe Ritter et al. 1992, auch für kurze Beschreibungen der anderen Verfahren) und verwandten Algorithmen. wrp
E.3 Wie lernen Neuronale Netze in veränderlichen Umwelten? 7 E.3 Wie lernen Neuronale Netze in veränderlichen Umwelten? Einige der oben genannten Algorithmen gibt es sowohl in batch- als auch in sequentieller Formulierung. Es stellt sich nun die Frage, ob beide Lernszenarien die gleichen Konvergenzeigenschaften haben, und wenn ja, unter welchen Bedingungen. Die meisten Algorithmen werden in ihrer batch-Version untersucht, da sich dann ihr Konvergenzverhalten wesentlich leichter formulieren und beweisen lässt (siehe z.B. Benveniste et al. 1990; Ritter et al. 1992 und Heskes et al. 1993). Die so gefundenen Aussagen lassen sich nur dann auf sequentielles Lernen übertragen, wenn die Trajektorie des stochastischen Gradientenabstiegs eine leicht verrauschte Version der glatten Kurve ist. Für die beiden Trajektorien in Abb. 4 würde das bedeuten, dass sich die sequentielle immer in einer Umgebung der deterministischen Abstiegskurve befinden müsste. Dies kann jedoch nicht immer garantiert werden. Ein prototypisches Beispiel, bei dem es nicht der Fall ist, findet sich schon beim allereinfachsten ANN, das nun zur Erläuterung der auftretenden Probleme diskutiert werden soll und das in Abbildung 5 skizziert ist. x w a Abbildung 5: Das einfachste zwei-Schichten-ANN. Der Eingabeknoten hat die Aktivität x, der Ausgabeknoten a. Das Signal wird mit der Stärke w propagiert. Das einfachste adaptive Neuronale Netzwerk Das ANN aus Abb. 5 hat nur einen Eingabeknoten, eine Kante und einen Ausgabeknoten. Es folge der Lernregel Px : w(t+1) = w(t) + ε(xt − w(t)). (15) Die Form der Verarbeitungsabbildung Aw ist an dieser Stelle unwichtig, da sie in die angenommene Lernregel nicht eingeht. Man sieht sofort, dass der stochastisch stationäre Zustand w ∗ der Lernregel (15) bei 〈x − w ∗ 〉 X = 0, oder w ∗ = 〈x〉 X (16) erreicht ist. Der optimale Wert von w ist demnach der globale Mittelwert des Datensatzes X. Dieses adaptive Neuronale Netz führt also eine Mittelwertsbildung durch. Wie verhält sich die batch-Version des Algorithmus? Für sie gilt der Mittelwert von (15), was sich zusammen mit (16) zu der Lernregel Px : w(t+1) = w(t) + ε(w ∗ − w(t)) (17) reduziert. Man erkennt sofort die exponentielle Konvergenz auf der Zeitskala 1/ε, w(t) − w ∗ = � w(0) − w ∗� (1 − ε) t , und für kleine ε ≈ � w(0) − w ∗� exp(−εt). (18)
Seite 1: Modelle zur Entkopplung von Lern- u
Seite 4 und 5: iv Inhaltsverzeichnis 3 Neuronale G
Seite 6 und 7: 2 Einleitung a3 a4 a1 a2 Abbildung
Seite 8 und 9: 4 Einleitung Das Auffinden der pass
Seite 12 und 13: 8 Einleitung Gleitende Mittelung vo
Seite 14 und 15: 10 Einleitung Dauer. Die akustische
Seite 16 und 17: 12 Einleitung kann, insbesondere, w
Seite 18 und 19: 14 1. Grundlagen schen Methoden zu
Seite 20 und 21: 16 1. Grundlagen lichkeitsdichte je
Seite 22 und 23: 18 1. Grundlagen Glockenkurve zuord
Seite 24 und 25: 20 1. Grundlagen folgt. Dies ist di
Seite 26 und 27: 22 1. Grundlagen Mit den Eigenwertg
Seite 28 und 29: 24 1. Grundlagen verteilungen, was
Seite 30 und 31: 26 1. Grundlagen kann diese Analogi
Seite 32 und 33: 28 1. Grundlagen Kapitel 2 gewidmet
Seite 34 und 35: 30 1. Grundlagen Eingabeschicht ⏐
Seite 36 und 37: 32 1. Grundlagen h r Sr T −→ x
Seite 38 und 39: 34 1. Grundlagen Die Verarbeitungsa
Seite 40 und 41: 36 1. Grundlagen 1.2.4 Hebb’sches
Seite 42 und 43: 38 1. Grundlagen (a) (b) kleiner Fi
Seite 44 und 45: 40 1. Grundlagen 1.2.6 Dimensionsre
Seite 46 und 47: 42 2. On-line Lernen mit univar Nac
Seite 48 und 49: 44 2. On-line Lernen mit univar 0 t
Seite 50 und 51: 46 2. On-line Lernen mit univar Au
Seite 52 und 53: 48 2. On-line Lernen mit univar x/
Seite 54 und 55: 50 2. On-line Lernen mit univar der
Seite 56 und 57: 52 2. On-line Lernen mit univar vie
Seite 58 und 59: 54 2. On-line Lernen mit univar (a1
Seite 60 und 61:
56 2. On-line Lernen mit univar 2.1
Seite 62 und 63:
58 2. On-line Lernen mit univar (c)
Seite 64 und 65:
60 2. On-line Lernen mit univar Die
Seite 66 und 67:
62 2. On-line Lernen mit univar log
Seite 68 und 69:
64 2. On-line Lernen mit univar imm
Seite 70 und 71:
66 2. On-line Lernen mit univar in
Seite 72 und 73:
68 2. On-line Lernen mit univar und
Seite 74 und 75:
70 2. On-line Lernen mit univar
Seite 76 und 77:
72 3. Neuronale Gewöhnung in Aplys
Seite 78 und 79:
Seite 80 und 81:
Seite 82 und 83:
78 4. Neuigkeitsorientiertes Lernen
Seite 84 und 85:
Seite 86 und 87:
Seite 88 und 89:
Seite 90 und 91:
Seite 92 und 93:
Seite 94 und 95:
Seite 96 und 97:
Seite 98 und 99:
Seite 100 und 101:
96 5. Zusammenfassung und Ergebniss
Seite 102 und 103:
98 A. Gedächtniskerne Man sieht, d
Seite 104 und 105:
Appendix B Einige einfache Modelle
Seite 106 und 107:
102 B. Einige einfache Modelle Nun
Seite 108 und 109:
104 B. Einige einfache Modelle bere
Seite 110 und 111:
Appendix C Ergebnisse der Variation
Seite 112 und 113:
108 C. Ergebnisse der Variationsrec
Seite 114 und 115:
Seite 116 und 117:
Seite 118 und 119:
Literatur Abramowitz, M. & Stegun,
Seite 120 und 121:
116 Literatur Rieke, F., Warland, D
Seite 122 und 123:
118 Notation cr Zentren der Gaußfu
Seite 124 und 125:
120
Alle anzeigen

Diplomarbeit von Michael Schindler

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?