Neuronale Netze

Weitere Magazine

Empfehlungen

Info

$Simulation and Statistical Exploration of Data \(Let's Make a Deal ...$

Anhang C Exkurs: Reinforcement Learningdkriesel.comVV ∗ΠΠ ∗Abbildung C.4: Der Kreislauf desReinforcement-Learnings, welcher idealerweisezu optimalem Π ∗ bzw. V ∗ führt.über das System, aus der wir wieder unserePolicy verbessern. Diese beiden Werteziehen sich nun gegenseitig hoch, wassich auch mathematisch beweisen lässt –so dass man zum Schluß eine optimalePolicy Π ∗ und eine optimale State-Value-Funktion V ∗ erhält (Abb. C.4). DieserKreislauf hört sich einfach an, ist aber sehrlangwierig.Betrachten wir nun zuerst eine einfache,zufällige Policy, wie unser Roboter seineState-Value-Funktion ohne Vorwissenlangsam ausfüllen und verbessern könnte.C.2.3 Montecarlo-MethodikDie einfachste Taktik, eine State-Value-Funktion aufzukumulieren, ist das reineAusprobieren. Wir wählen also eine sichrein zufällig verhaltende Policy, welche dieaufkumulierte State-Value-Funktion für ihreZufallsentscheidungen nicht berücksichtigt.Es lässt sich beweisen, dass wir in unsererGridworld irgendwann einmal durchZufall den Ausgang finden werden.Angelehnt an die auf Zufall basierendenGlücksspiele nennen wir diese VorgehensweiseMontecarlo-Methodik.Gehen wir weiterhin von einem Pure NegativeReward aus, so ist klar, dass wir für unserStartfeld in der State-Value-Funktioneinen Bestwert von −6 erhalten können.Je nachdem, welchen zufälligen Weg diezufällige Policy aber einschlägt, können andere(kleinere) Werte als −6 für das Startfeldauftreten. Intuitiv möchten wir unsfür einen Zustand (also ein Feld) jeweilsnur den besseren Wert merken. Hier ist jedochVorsicht geboten: So würde das Lernverfahrennur bei deterministischen Systemenfunktionieren. Unsere Tür, die proDurchlauf entweder offen oder geschlossensein kann, würde Oszillationen bei allenFeldern hervorrufen, deren kürzester Wegzum Ziel durch sie beeinflusst wird.Wir verwenden bei der Montecarlo-Methodik also lieber die Lernregel 1V (s t ) neu = V (s t ) alt + α(R t − V (s t ) alt ),in der offensichtlich sowohl der alte Zustandswertals auch der erhaltene ReturnEinfluss auf die Aktualisierung der State-Value-Funktion haben (α ist die Lernrate).Der Agent erhält also eine Art Erinnerungsvermögen,neue Erkenntnisse ändernimmer nur ein wenig am Situationswert.Ein beispielhafter Lernschritt findet sichin Abb. C.5 auf der rechten Seite.In dem Beispielbild wurde nur die Zustandswertberechnungfür einen einzigen1 Sie wird u.a. unter Verwendung der Bellman-Gleichung hergeleitet, die Herleitung ist aber nichtBestandteil des Kapitels.◭α206 D. Kriesel – Ein kleiner Überblick über Neuronale Netze (EPSILON-DE)
dkriesel.comC.2 LernvorgangZustand (unseren Startzustand) aufgetragen.Dass es möglich ist und auch oft gemachtwird, die Werte für die zwischendurchbesuchten Zustände (im Fall derGridworld unsere Wege zum Ziel) gleichmit zu trainieren, sollte offensichtlich sein.Das Ergebnis einer solchen Rechnung inBezug auf unser Beispiel findet sich inAbb. C.6 auf der folgenden Seite.Die Montecarlo-Methodik mag suboptimalerscheinen und ist auch im Regelfallwesentlich langsamer als die nachfolgendvorgestellten Methoden des ReinforcementLearnings - allerdings ist sie die einzige,bei der man mathematisch beweisen kann,dass sie funktioniert und eignet sich dahersehr für theoretische Betrachtungen.Definition C.10 (Montecarlo-Lernen): Eswerden zufällig Aktionen ohne Rücksichtauf die State-Value-Funktion ausgeführtund langfristig eine aussagekräftige State-Value-Funktion mit untenstehender Lernregelaufkumuliert.-1-6 -5 -4 -3 -2-1-14 -13 -12 -2-11 -3-10 -4-9 -5-8 -7 -6-10V (s t ) neu = V (s t ) alt + α(R t − V (s t ) alt ),C.2.4 Temporal Difference LearningWir lernen im täglichen Leben weitestgehenddurch Erfahrung und Ausprobieren.Das Allermeiste, was wir lernen, geschiehtdurch Erfahrung; blessurenfrei (oder ebenauch nicht) gehen und Fahrrad fahren,auch geistige Fertigkeiten wie mathematischesProblemlösen profitieren sehr von Erfahrungund schlichtem Ausprobieren (Trialand Error). Wir initialisieren also unserePolicy mit irgendwelchen Werten - pro-Abbildung C.5: Anwendung der Montecarlo-Lernregel mit einer Lernrate von α = 0.5. Obensind beispielhaft zwei Wege aufgetragen, die derAgent durch Zufall wählt (einer mit offener, einermit geschlossener Tür). Unten das Ergebnisder Lernregel für den Wert des Startzustandsunter Berücksichtigung beider Wege. Dadurch,dass unter zufälliger Policy mit der Zeit sehr vieleverschiedene Wege gegangen werden, erhält maneine sehr aussagekräftige State-Value-Funktion.D. Kriesel – Ein kleiner Überblick über Neuronale Netze (EPSILON-DE) 207
Seite 1:
Ein kleiner Überblick überNeurona
Seite 5 und 6:
VorwörtchenDiese Arbeit ist urspr
Seite 7 und 8:
dkriesel.comStils sind, bin ich (zu
Seite 9 und 10:
dkriesel.comKapitelübergreifende m
Seite 11 und 12:
InhaltsverzeichnisVorwörtchenvIVon
Seite 13 und 14:
dkriesel.comInhaltsverzeichnis4.6 B
Seite 15 und 16:
dkriesel.comInhaltsverzeichnis10.2
Seite 17:
Teil IVon der Biologie zur Formalis
Seite 20 und 21:
Kapitel 1 Einleitung, Motivation un
Seite 22 und 23:
Seite 24 und 25:
Seite 26 und 27:
Seite 28 und 29:
Seite 31 und 32:
Kapitel 2Biologische Neuronale Netz
Seite 33 und 34:
dkriesel.com2.1 Das Nervensystem vo
Seite 35 und 36:
dkriesel.com2.2 Das Neuron2.2 Neuro
Seite 37 und 38:
dkriesel.com2.2 Das Neuronge von De
Seite 39 und 40:
dkriesel.com2.2 Das NeuronZellinner
Seite 41 und 42:
dkriesel.com2.2 Das Neuronerreicht
Seite 43 und 44:
dkriesel.com2.3 RezeptorzellenSchal
Seite 45 und 46:
dkriesel.com2.3 Rezeptorzellen2.3.3
Seite 47 und 48:
dkriesel.com2.4 Neuronenmengen in L
Seite 49 und 50:
dkriesel.com2.5 Technische Neuronen
Seite 51 und 52:
Kapitel 3Bausteine künstlicher Neu
Seite 53 und 54:
dkriesel.com3.2 Bestandteile Neuron
Seite 55 und 56:
dkriesel.com3.2 Bestandteile Neuron
Seite 57 und 58:
dkriesel.com3.3 Verschiedene Netzto
Seite 59 und 60:
dkriesel.com3.3 Verschiedene Netzto
Seite 61 und 62:
dkriesel.com3.4 Das Biasneuron3.3.3
Seite 63 und 64:
dkriesel.com3.6 Aktivierungsreihenf
Seite 65 und 66:
dkriesel.com3.7 Ein- und Ausgabe vo
Seite 67 und 68:
Kapitel 4Gedanken zum Training Neur
Seite 69 und 70:
dkriesel.com4.1 Paradigmen des Lern
Seite 71 und 72:
dkriesel.com4.2 Trainingsmuster und
Seite 73 und 74:
dkriesel.com4.3 Umgang mit Training
Seite 75 und 76:
dkriesel.com4.4 Lernkurve und Fehle
Seite 77 und 78:
dkriesel.com4.5 Gradientenbasierte
Seite 79 und 80:
dkriesel.com4.6 Beispielproblemstel
Seite 81 und 82:
dkriesel.com4.6 Beispielproblemstel
Seite 83 und 84:
dkriesel.com4.7 Hebbsche LernregelG
Seite 85:
Teil IIÜberwacht lernendeNetzparad
Seite 88 und 89:
Kapitel 5 Das Perceptrondkriesel.co
Seite 90 und 91:
Seite 92 und 93:
Seite 94 und 95:
Kapitel 5 Das Perceptron543210dkrie
Seite 96 und 97:
Seite 98 und 99:
Seite 100 und 101:
Seite 102 und 103:
Seite 104 und 105:
Seite 106 und 107:
Seite 108 und 109:
Seite 110 und 111:
Seite 112 und 113:
Seite 114 und 115:
Seite 116 und 117:
Seite 119 und 120:
Kapitel 6Radiale BasisfunktionenRBF
Seite 121 und 122:
dkriesel.com6.1 Bestandteile und Au
Seite 123 und 124:
dkriesel.com6.2 Informationsverarbe
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
dkriesel.com6.3 Training von RBF-Ne
Seite 131 und 132:
dkriesel.com6.3 Training von RBF-Ne
Seite 133 und 134:
dkriesel.com6.4 Wachsende RBF-Netze
Seite 135:
dkriesel.com6.5 Gegenüberstellung
Seite 138 und 139:
Kapitel 7 Rückgekoppelte Netze (ba
Seite 140 und 141:
Seite 142 und 143:
Seite 144 und 145:
Seite 146 und 147:
Kapitel 8 Hopfieldnetzedkriesel.com
Seite 148 und 149:
Seite 150 und 151:
Seite 152 und 153:
Seite 154 und 155:
Seite 156 und 157:
Kapitel 9 Learning Vector Quantizat
Seite 158 und 159:
Kapitel 9 Learning Vector Quantizat
Seite 161:
Teil IIIUnüberwacht lernendeNetzpa
Seite 164 und 165:
Kapitel 10 Self Organizing Feature
Seite 166 und 167:
Seite 168 und 169:
Seite 170 und 171:
Seite 172 und 173: Kapitel 10 Self Organizing Feature
Seite 184 und 185: Kapitel 11 Adaptive Resonance Theor
Seite 186 und 187: Kapitel Kapitel 11 11 Adaptive Reso
Seite 189 und 190: Anhang AExkurs: Clusteranalyse und
Seite 191 und 192: dkriesel.comA.3 ε-Nearest Neighbou
Seite 193 und 194: dkriesel.comA.4 Der Silhouettenkoef
Seite 195 und 196: dkriesel.comA.5 Regional and Online
Seite 197 und 198: dkriesel.comA.5 Regional and Online
Seite 199: dkriesel.comA.5 Regional and Online
Seite 202 und 203: Anhang B Exkurs: Neuronale Netze zu
Seite 212 und 213: Anhang C Exkurs: Reinforcement Lear
Seite 231 und 232: Literaturverzeichnis[And72]James A.
Seite 233 und 234: dkriesel.comLiteraturverzeichnis[Ko
Seite 235: dkriesel.comLiteraturverzeichnis[WG
Seite 238 und 239: Abbildungsverzeichnisdkriesel.com5.
Seite 241: Tabellenverzeichnis1.1 Vergleich Ge
Seite 244 und 245: Indexdkriesel.comBestärkendes Lern
Seite 246 und 247: Indexdkriesel.comLearning Vector Qu
Seite 248 und 249: Indexdkriesel.comPeriode . . . . .
Seite 250: Indexdkriesel.comThalamus . . . . .
Alle anzeigen

Neuronale Netze

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?