Neuronale Netze

Weitere Magazine

Empfehlungen

Info

$Simulation and Statistical Exploration of Data \(Let's Make a Deal ...$

Anhang C Exkurs: Reinforcement Learningdkriesel.comForschungoderSicherheit?dargestellt. Die Closed Loop Policy ist gewissermaßenein reaktiver Plan, der aktuelleSituationen auf auszuführende Aktionenabbildet.Bei der Wahl der auszuführenden Aktionenkönnen wieder zwei grundsätzlicheStrategien betrachtet werden.In der Gridworld: Eine Closed Loop Policywürde auf die Aktuelle Position eingehenund Richtungen nach der Aktionauswählen. Insbesondere wenn dynamischein Hindernis erscheint, ist eine solche Policydie bessere Wahl.C.1.5.1 Exploitation vs. ExplorationWie im wirklichen Leben stellt sichwährend des Reinforcement Learnings oftdie Frage, ob vorhandenes Wissen stur ausgenutzt,oder aber auch neue Wege ausprobiertwerden. Wir wollen zunächst die zweiExtrema betrachten:Eine Greedy Policy wählt immer denWeg des höchsten Rewards, den wir im vorausbestimmen können, also des höchstenbekannten Rewards. Diese Policy repräsentiertden Exploitation-Ansatz und ist erfolgversprechend,wenn man das behandelteSystem bereits kennt.Im Gegensatz zum Exploitation-Ansatzsteht der Exploration-Ansatz, der zumZiel hat, ein System möglichst umfassendzu erforschen, so dass auch Wege zum Zielgefunden werden können, welche auf denersten Blick vielleicht nicht erfolgversprechendaussehen, es aber dennoch sind.Angenommen, wir suchen einen Weg zumRestaurant, so wäre eine auf Nummer sichergehende Policy, von überall den Wegzu nehmen, den wir kennen, so unoptimalund lang er auch sein mag, und nicht zuversuchen, bessere Wege zu erforschen. Einanderer Ansatz wäre, auch hin und wiedernach kürzeren Wegen zu forschen, selbstauf die Gefahr hin, dass die Forschunglange dauert, nichts bringt und wir daherzum Schluß doch den ursprünglichen Wegnehmen und zu spät ins Restaurant kommen.In der Realität wird oft eine Kombinationbeider Verfahren angewandt: Zum Anfangeines Lernvorgangs wird mit höhererWahrscheinlichkeit geforscht, währendzum Ende mehr vorhandenes Wissen ausgenutztwird. Auch eine statische Wahrscheinlichkeitsverteilungist hier möglichund wird oft angewandt.In der Gridworld: Für die Wegsuche inder Gridworld gilt das Restaurantbeispielnatürlich analog.C.2 LernvorgangBetrachten wir wieder das tägliche Leben.Von einer Situation können wir durch Aktionenin verschiedene Untersituationengeraten, von jeder Untersituation wiederin Unteruntersituationen. Gewissermaßenerhalten wir einen Situationsbaum, wobeiman Verknüpfungen unter den Knotenberücksichtigen muss (oft gibt es mehrereWege, wie man zu einer Situation gelangenkann – der Baum könnte also tref-202 D. Kriesel – Ein kleiner Überblick über Neuronale Netze (EPSILON-DE)
dkriesel.comC.2 Lernvorgangfender als Situationsgraph bezeichnet werden).Blätter des Baums sind Endsituationendes Systems. Der Exploration-Ansatzwürde den Baum möglichst genau durchsuchenund alle Blätter kennenlernen, derExploitation-Ansatz zielsicher zum bestenbekannten Blatt gehen.Analog zum Situationsbaum können wiruns auch einen Aktionsbaum aufbauen –hier stehen dann in den Knoten die Rewardsfür die Aktionen. Wir müssen nunvom täglichen Leben adaptieren, wie genauwir lernen.C.2.1 Strategien zur RewardvergabeInteressant und von großer Wichtigkeit istdie Frage, wofür man einen Reward vergibtund was für einen Reward man vergibt,da das Design des Rewards das Systemverhaltenmaßgeblich steuert. Wie wiroben gesehen haben, gibt es (wieder analogzum täglichen Leben) in der Regelzu jeder Situation verschiedene Aktionen,welche man ausführen kann. Es existierenverschiedene Strategien, um die ausgewähltenSituationen zu bewerten und sodie zum Ziel führende Aktionsfolge zu lernen.Diese sollen im Folgenden erst einmalgrundsätzlich erläutert werden.Wir wollen nun einige Extremfälle als Designbeispielezum Reward anbringen:Als Pure Delayed Reward bezeichnenwir eine Rewardvergabe ähnlich wie beimSchachspiel: Wir erhalten unsere Belohnungzum Schluss, und während des Spielskeine. Diese Methode ist immer dannvon Vorteil, wenn man am Ende genausagen kann, ob man Erfolg gehabt hat,aber in den Zwischenschritten nicht genaueinschätzen kann, wie gut die eigene Situationist. Es giltr t = 0 ∀t < τ(C.10)sowie r τ = 1 bei Gewinn und r τ = −1bei Verlust. Bei dieser Rewardstrategie gebennur die Blätter des Situationsbaumeseinen Reward zurück.Pure Negative Reward: Hier giltr t = −1 ∀t < τ.(C.11)Dieses System findet den schnellsten Wegzum Ziel, weil dieser automatisch auch dergünstigste in Bezug auf den Reward ist.Man wird bestraft für alles, was man tut –selbst wenn man nichts tut, wird man bestraft.Diese Strategie hat zur Folge, dasses die preiswerteste Methode für den Agentenist, schnell fertig zu werden.Als weitere Strategie betrachten wir dieAvoidance Strategy: Schädlichen Situationenwird aus dem Weg gegangen. Esgiltr t ∈ {0, −1},(C.12)Fast alle Situationen erhalten hier gar keinenReward, nur einige wenige erhalteneinen negativen. Diese negativen Situationenwird der Agent weiträumig umgehen.Achtung: Rewardstrategien können leichtunerwartete Folgen haben. Ein Roboter,dem man sagt ”mach was du willst, aberwenn du ein Hindernis berührst, kriegst duD. Kriesel – Ein kleiner Überblick über Neuronale Netze (EPSILON-DE) 203
Seite 1:
Ein kleiner Überblick überNeurona
Seite 5 und 6:
VorwörtchenDiese Arbeit ist urspr
Seite 7 und 8:
dkriesel.comStils sind, bin ich (zu
Seite 9 und 10:
dkriesel.comKapitelübergreifende m
Seite 11 und 12:
InhaltsverzeichnisVorwörtchenvIVon
Seite 13 und 14:
dkriesel.comInhaltsverzeichnis4.6 B
Seite 15 und 16:
dkriesel.comInhaltsverzeichnis10.2
Seite 17:
Teil IVon der Biologie zur Formalis
Seite 20 und 21:
Kapitel 1 Einleitung, Motivation un
Seite 22 und 23:
Seite 24 und 25:
Seite 26 und 27:
Seite 28 und 29:
Seite 31 und 32:
Kapitel 2Biologische Neuronale Netz
Seite 33 und 34:
dkriesel.com2.1 Das Nervensystem vo
Seite 35 und 36:
dkriesel.com2.2 Das Neuron2.2 Neuro
Seite 37 und 38:
dkriesel.com2.2 Das Neuronge von De
Seite 39 und 40:
dkriesel.com2.2 Das NeuronZellinner
Seite 41 und 42:
dkriesel.com2.2 Das Neuronerreicht
Seite 43 und 44:
dkriesel.com2.3 RezeptorzellenSchal
Seite 45 und 46:
dkriesel.com2.3 Rezeptorzellen2.3.3
Seite 47 und 48:
dkriesel.com2.4 Neuronenmengen in L
Seite 49 und 50:
dkriesel.com2.5 Technische Neuronen
Seite 51 und 52:
Kapitel 3Bausteine künstlicher Neu
Seite 53 und 54:
dkriesel.com3.2 Bestandteile Neuron
Seite 55 und 56:
dkriesel.com3.2 Bestandteile Neuron
Seite 57 und 58:
dkriesel.com3.3 Verschiedene Netzto
Seite 59 und 60:
dkriesel.com3.3 Verschiedene Netzto
Seite 61 und 62:
dkriesel.com3.4 Das Biasneuron3.3.3
Seite 63 und 64:
dkriesel.com3.6 Aktivierungsreihenf
Seite 65 und 66:
dkriesel.com3.7 Ein- und Ausgabe vo
Seite 67 und 68:
Kapitel 4Gedanken zum Training Neur
Seite 69 und 70:
dkriesel.com4.1 Paradigmen des Lern
Seite 71 und 72:
dkriesel.com4.2 Trainingsmuster und
Seite 73 und 74:
dkriesel.com4.3 Umgang mit Training
Seite 75 und 76:
dkriesel.com4.4 Lernkurve und Fehle
Seite 77 und 78:
dkriesel.com4.5 Gradientenbasierte
Seite 79 und 80:
dkriesel.com4.6 Beispielproblemstel
Seite 81 und 82:
dkriesel.com4.6 Beispielproblemstel
Seite 83 und 84:
dkriesel.com4.7 Hebbsche LernregelG
Seite 85:
Teil IIÜberwacht lernendeNetzparad
Seite 88 und 89:
Kapitel 5 Das Perceptrondkriesel.co
Seite 90 und 91:
Seite 92 und 93:
Seite 94 und 95:
Kapitel 5 Das Perceptron543210dkrie
Seite 96 und 97:
Seite 98 und 99:
Seite 100 und 101:
Seite 102 und 103:
Seite 104 und 105:
Seite 106 und 107:
Seite 108 und 109:
Seite 110 und 111:
Seite 112 und 113:
Seite 114 und 115:
Seite 116 und 117:
Seite 119 und 120:
Kapitel 6Radiale BasisfunktionenRBF
Seite 121 und 122:
dkriesel.com6.1 Bestandteile und Au
Seite 123 und 124:
dkriesel.com6.2 Informationsverarbe
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
dkriesel.com6.3 Training von RBF-Ne
Seite 131 und 132:
dkriesel.com6.3 Training von RBF-Ne
Seite 133 und 134:
dkriesel.com6.4 Wachsende RBF-Netze
Seite 135:
dkriesel.com6.5 Gegenüberstellung
Seite 138 und 139:
Kapitel 7 Rückgekoppelte Netze (ba
Seite 140 und 141:
Seite 142 und 143:
Seite 144 und 145:
Seite 146 und 147:
Kapitel 8 Hopfieldnetzedkriesel.com
Seite 148 und 149:
Seite 150 und 151:
Seite 152 und 153:
Seite 154 und 155:
Seite 156 und 157:
Kapitel 9 Learning Vector Quantizat
Seite 158 und 159:
Kapitel 9 Learning Vector Quantizat
Seite 161:
Teil IIIUnüberwacht lernendeNetzpa
Seite 164 und 165:
Kapitel 10 Self Organizing Feature
Seite 166 und 167:
Kapitel 10 Self Organizing Feature
Seite 168 und 169: Kapitel 10 Self Organizing Feature
Seite 184 und 185: Kapitel 11 Adaptive Resonance Theor
Seite 186 und 187: Kapitel Kapitel 11 11 Adaptive Reso
Seite 189 und 190: Anhang AExkurs: Clusteranalyse und
Seite 191 und 192: dkriesel.comA.3 ε-Nearest Neighbou
Seite 193 und 194: dkriesel.comA.4 Der Silhouettenkoef
Seite 195 und 196: dkriesel.comA.5 Regional and Online
Seite 197 und 198: dkriesel.comA.5 Regional and Online
Seite 199: dkriesel.comA.5 Regional and Online
Seite 202 und 203: Anhang B Exkurs: Neuronale Netze zu
Seite 212 und 213: Anhang C Exkurs: Reinforcement Lear
Seite 231 und 232: Literaturverzeichnis[And72]James A.
Seite 233 und 234: dkriesel.comLiteraturverzeichnis[Ko
Seite 235: dkriesel.comLiteraturverzeichnis[WG
Seite 238 und 239: Abbildungsverzeichnisdkriesel.com5.
Seite 241: Tabellenverzeichnis1.1 Vergleich Ge
Seite 244 und 245: Indexdkriesel.comBestärkendes Lern
Seite 246 und 247: Indexdkriesel.comLearning Vector Qu
Seite 248 und 249: Indexdkriesel.comPeriode . . . . .
Seite 250: Indexdkriesel.comThalamus . . . . .
Alle anzeigen

Neuronale Netze

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?